このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230529となっている論文です。

PDF登録状況(公開日: 20230529)

TitleAuthorsAbstract論文公表日・翻訳日
# 割り込み駆動組込みソフトウェアにおける競合条件の自動検出、検証、修復

Automatic Detection, Validation and Repair of Race Conditions in Interrupt-Driven Embedded Software ( http://arxiv.org/abs/2305.17869v1 )

ライセンス: Link先を確認
Yu Wang, Fengjuan Gao, Linzhang Wang, Tingting Yu, Ke Wang, Jianhua Zhao, Xuandong Li(参考訳) 割り込み駆動プログラムは、ハードウェアとリソースに依存したデータ操作タスクを実行するために、安全クリティカルな組み込みシステムに広くデプロイされる。 これらのシステムで頻繁に割り込みを使用すると、アプリケーションタスクと割り込みハンドラ(または2つの割り込みハンドラ)の相互作用によって競合状態が発生する可能性がある。 マルチスレッドプログラムの競合を検出するために、多くのプログラム解析とテスト技術が提案されている。 しかし、ハードウェアの割り込みに関する競合状態の問題に対処する作業はほとんどない。 本稿では,割り込み駆動組込みソフトウェアにおける競合条件の検出,検証,修復を行う自動フレームワークであるSDRacerを提案する。 静的解析とシンボリック実行を組み合わせて、潜在的なレースを実行するための入力データを生成する。 次に仮想プラットフォームを使用して、潜在的なレースポイントで割り込みを強制することで、これらのレースを動的に検証する。 最後に、検出されたレースを排除するための修理候補を提供する。 C言語で書かれた9つの実世界の組み込みプログラム上でSDRacerを評価する。 その結果,SDRacerはレース条件を正確に検出し,正常に修正できることがわかった。

Interrupt-driven programs are widely deployed in safety-critical embedded systems to perform hardware and resource dependent data operation tasks. The frequent use of interrupts in these systems can cause race conditions to occur due to interactions between application tasks and interrupt handlers (or two interrupt handlers). Numerous program analysis and testing techniques have been proposed to detect races in multithreaded programs. Little work, however, has addressed race condition problems related to hardware interrupts. In this paper, we present SDRacer, an automated framework that can detect, validate and repair race conditions in interrupt-driven embedded software. It uses a combination of static analysis and symbolic execution to generate input data for exercising the potential races. It then employs virtual platforms to dynamically validate these races by forcing the interrupts to occur at the potential racing points. Finally, it provides repair candidates to eliminate the detected races. We evaluate SDRacer on nine real-world embedded programs written in C language. The results show that SDRacer can precisely detect and successfully fix race conditions.
翻訳日:2023-10-24 05:17:49 公開日:2023-05-29
# 個々のバグレポートに対するバグ割り当てアプローチを推奨する - 実証的研究

Recommending Bug Assignment Approaches for Individual Bug Reports: An Empirical Investigation ( http://arxiv.org/abs/2305.18650v1 )

ライセンス: Link先を確認
Yang Song, Oscar Chaparro(参考訳) バグレポートに対処できる潜在的な開発者を自動的に推薦する複数のアプローチが提案されている。 これらのアプローチは、一般的にどんなソフトウェアプロジェクトにもたらすバグレポートでも機能するように設計されている。 しかし、これらのアプローチはプロジェクトのすべてのレポートに対して等しく機能しないかもしれないと推測する。 2つのオープンソースシステムから2,249件のバグレポートに適用した3つのバグ割り当てアプローチを用いて,この予想を検証する実験を行った。 予想を検証する実証的な証拠を見つけ、バグレポートごとに最適なアプローチを識別し、適用することで、より正確な開発者レコメンデーションを得るというアイデアを探求しました。 機械学習を用いて,この概念の実現可能性を評価するための追加研究を行った。 このアプローチの精度改善の限界は広いが、可能な限りの改善を達成するには程遠いものであり、ベースラインアプローチと相容れない。 これらの結果の潜在的な理由と,提案手法が開発者が実際に実行するバグ割り当てプロセスに関する重要な情報を捉えていないのではないか,という推測について論じる。 その結果、開発者がバグレポートをどのように割り当てるか理解し、自動バグレポートの割り当てを改善するための将来の研究が保証される。

Multiple approaches have been proposed to automatically recommend potential developers who can address bug reports. These approaches are typically designed to work for any bug report submitted to any software project. However, we conjecture that these approaches may not work equally well for all the reports in a project. We conducted an empirical study to validate this conjecture, using three bug assignment approaches applied on 2,249 bug reports from two open source systems. We found empirical evidence that validates our conjecture, which led us to explore the idea of identifying and applying the best-performing approach for each bug report to obtain more accurate developer recommendations. We conducted an additional study to assess the feasibility of this idea using machine learning. While we found a wide margin of accuracy improvement for this approach, it is far from achieving the maximum possible improvement and performs comparably to baseline approaches. We discuss potential reasons for these results and conjecture that the assignment approaches may not capture important information about the bug assignment process that developers perform in practice. The results warrant future research in understanding how developers assign bug reports and improving automated bug report assignment
翻訳日:2023-10-24 05:04:47 公開日:2023-05-29
# 自動車用クルーズコントローラの乾燥性要求のためのテストケース生成:産業シミュレータを用いた経験

Test Case Generation for Drivability Requirements of an Automotive Cruise Controller: An Experience with an Industrial Simulator ( http://arxiv.org/abs/2305.18608v1 )

ライセンス: Link先を確認
Federico Formica, Nicholas Petrunti, Lucas Bruck, Vera Pantelic, Mark Lawford, Claudio Menghi(参考訳) 自動車ソフトウェア開発では、機能要件とドレーバビリティ要件の両方の違反を検出するために、システムをテストする必要がある。 機能要件は、自動車ソフトウェアの機能を定義する。 ドレイバビリティ要件(driability requirements)とは、車両との相互作用に対するドライバーの認識のことであり、典型的には、与えられたしきい値内でドライバーが知覚する加速度とジャークを制限する必要がある。 機能要件は研究文献によって広く検討されているが、ドリバビリティ要件はそれほど注目されていない。 本稿では,自動検索ベースソフトウェアテスト(SBST)フレームワークを用いて,機能的および乾燥性要件に対するフェールリベレーティングテストケースを作成した経験について述べる。 自動車分野で広く使われている産業用仮想モデリングおよびシミュレーション環境であるvi-carrealtime simulatorについて報告する。 我々は,シムリンクのクルーズコントロールシステムを,21種類のモデルを生産し,反復的に4輪車用に設計した。 我々は、モデルの各バージョンでSBSTフレームワークを使用して、要求違反を明らかにした障害発見テストケースを検索した。 結果から,SBSTフレームワークが66.7%のモデルバージョンに対して,平均245.9回,3.8回,フェールリベリングテストケースの特定に成功した。 得られた教訓を提示し,結果の汎用性を反映し,結果が実践状況をどのように改善するかを議論する。

Automotive software development requires engineers to test their systems to detect violations of both functional and drivability requirements. Functional requirements define the functionality of the automotive software. Drivability requirements refer to the driver's perception of the interactions with the vehicle; for example, they typically require limiting the acceleration and jerk perceived by the driver within given thresholds. While functional requirements are extensively considered by the research literature, drivability requirements garner less attention. This industrial paper describes our experience assessing the usefulness of an automated search-based software testing (SBST) framework in generating failure-revealing test cases for functional and drivability requirements. Our experience concerns the VI-CarRealTime simulator, an industrial virtual modeling and simulation environment widely used in the automotive domain. We designed a Cruise Control system in Simulink for a four-wheel vehicle, in an iterative fashion, by producing 21 model versions. We used the SBST framework for each version of the model to search for failure-revealing test cases revealing requirement violations. Our results show that the SBST framework successfully identified a failure-revealing test case for 66.7% of our model versions, requiring, on average, 245.9s and 3.8 iterations. We present lessons learned, reflect on the generality of our results, and discuss how our results improve the state of practice.
翻訳日:2023-10-24 05:04:27 公開日:2023-05-29
# プルベース開発における静的ボットの有用性の理解:20大オープンソースプロジェクトの実証的研究

Understanding the Helpfulness of Stale Bot for Pull-based Development: An Empirical Study of 20 Large Open-Source Projects ( http://arxiv.org/abs/2305.18150v1 )

ライセンス: Link先を確認
SayedHassan Khatoonabadi, Diego Elias Costa, Suhaib Mujahid, Emad Shihab(参考訳) 進捗や解決されていないプルリクエスト(PR)がPRのリストを混乱させ、メンテナが未解決のPRの管理と優先順位付けを困難にする。 このようなアクティブでないPRを自動的に追跡、追跡、クローズするために、StalebotはGitHubによって導入された。 採用が増えているにもかかわらず、Staleボットの使用が不活性PRの問題を軽減するか、さらに悪化させるかについての議論が続いている。 Staleボットがプルベースの開発ワークフローでプロジェクトに役立つかどうかをより深く理解するために、20の大規模で人気のあるオープンソースプロジェクトに関する実証的研究を行った。 stale botは未解決のprのバックログに対処するのに役立つことが分かっています。 さらに、stale botはprレビュープロセスの効率を向上させるのに役立ち、プロジェクトはマージして解決したprをレビューし、採用後により早く閉じたprをレビューした。 しかし、Staleボットは、プロジェクトが採用後にアクティブなコントリビュータの数が大幅に減少したため、コントリビュータに悪影響を及ぼす可能性がある。 したがって、アクティブでないPRを扱うためのStaleボットのみに依存すると、コミュニティのエンゲージメントが低下し、コントリビュータが放棄される可能性が増大する可能性がある。

Pull Requests (PRs) that are neither progressed nor resolved clutter the list of PRs, making it difficult for the maintainers to manage and prioritize unresolved PRs. To automatically track, follow up, and close such inactive PRs, Stale bot was introduced by GitHub. Despite its increasing adoption, there are ongoing debates on whether using Stale bot alleviates or exacerbates the problem of inactive PRs. To better understand if and how Stale bot helps projects in their pull-based development workflow, we perform an empirical study of 20 large and popular open-source projects. We find that Stale bot can help deal with a backlog of unresolved PRs as the projects closed more PRs within the first few months of adoption. Moreover, Stale bot can help improve the efficiency of the PR review process as the projects reviewed PRs that ended up merged and resolved PRs that ended up closed faster after the adoption. However, Stale bot can also negatively affect the contributors as the projects experienced a considerable decrease in their number of active contributors after the adoption. Therefore, relying solely on Stale bot to deal with inactive PRs may lead to decreased community engagement and an increased probability of contributor abandonment.
翻訳日:2023-10-24 05:04:04 公開日:2023-05-29
# Assess and Summarize: 大規模言語モデルによる障害理解の改善

Assess and Summarize: Improve Outage Understanding with Large Language Models ( http://arxiv.org/abs/2305.18084v1 )

ライセンス: Link先を確認
Pengxiang Jin, Shenglin Zhang, Minghua Ma, Haozhe Li, Yu Kang, Liqun Li, Yudong Liu, Bo Qiao, Chaoyun Zhang, Pu Zhao, Shilin He, Federica Sarro, Yingnong Dang, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) 近年、クラウドシステムは、柔軟性とスケーラビリティのために、ますます人気が高まっている。 クラウド上でホストされるクラウドコンピューティングアプリケーションとサービスがクラウドの停止によって影響を受ける度に、ユーザは応答時間の遅さや接続の問題、あるいはサービス全体の破壊を経験できるため、ビジネス上の大きな影響をもたらす。 障害は通常、繰り返し発生するイベント/ソース原因で構成されており、障害のコンテキストを理解することは、障害を緩和し解決するための重要な第一歩である。 現在の実践では、深いドメイン知識を持つオンコールエンジニアは、障害が発生した時に手動で評価し、まとめなければなりません。 本稿では,Microsoftのクラウド障害に対するオンコールエンジニアの対処方法に関する大規模な実証的研究を行い,その上で,エンジニアを支援する新しいアプローチ(Oasisと呼ばれる)を実証的に提示する。 Oasisは自動的に障害の影響範囲を評価でき、人間の読みやすい要約を生成することができる。 具体的には、oasisは複数のテクニックで関連するインシデントを集約することで、最初に障害の影響範囲を評価します。 そして、GPT-3.xのような微調整された大きな言語モデルを活用することで、人間の読みやすい要約を生成する。 oasisのインパクトアセスメントコンポーネントは、3年以上前にmicrosoftで導入され、現在広く採用されており、最近、ダウンサマリーコンポーネントが導入されており、この記事では、18の現実世界のクラウドシステムについて行った経験的評価と、ダウンオーナによるヒューマンベースの評価の結果について述べる。 その結果、Oasisは機能停止を効果的かつ効率的に要約でき、Microsoftは最初のプロトタイプをデプロイし、現在いくつかのインシデントチームによって実験的に採用されている。

Cloud systems have become increasingly popular in recent years due to their flexibility and scalability. Each time cloud computing applications and services hosted on the cloud are affected by a cloud outage, users can experience slow response times, connection issues or total service disruption, resulting in a significant negative business impact. Outages are usually comprised of several concurring events/source causes, and therefore understanding the context of outages is a very challenging yet crucial first step toward mitigating and resolving outages. In current practice, on-call engineers with in-depth domain knowledge, have to manually assess and summarize outages when they happen, which is time-consuming and labor-intensive. In this paper, we first present a large-scale empirical study investigating the way on-call engineers currently deal with cloud outages at Microsoft, and then present and empirically validate a novel approach (dubbed Oasis) to help the engineers in this task. Oasis is able to automatically assess the impact scope of outages as well as to produce human-readable summarization. Specifically, Oasis first assesses the impact scope of an outage by aggregating relevant incidents via multiple techniques. Then, it generates a human-readable summary by leveraging fine-tuned large language models like GPT-3.x. The impact assessment component of Oasis was introduced in Microsoft over three years ago, and it is now widely adopted, while the outage summarization component has been recently introduced, and in this article we present the results of an empirical evaluation we carried out on 18 real-world cloud systems as well as a human-based evaluation with outage owners. The results show that Oasis can effectively and efficiently summarize outages, and lead Microsoft to deploy its first prototype which is currently under experimental adoption by some of the incident teams.
翻訳日:2023-10-24 05:03:41 公開日:2023-05-29
# BIMロギングの強化によるBIMオーサリングプロセス再現性の向上

Improving BIM Authoring Process Reproducibility with Enhanced BIM Logging ( http://arxiv.org/abs/2305.18032v1 )

ライセンス: Link先を確認
Suhyung Jang and Ghang Lee(参考訳) 本稿では,BIMオーサリング過程を正確に表現するために,ビルディング要素の形状と属性をキャプチャする拡張ビルディング情報モデリング(BIM)ロガーを提案する。 著者らは、ビルディング要素と関連する属性を定義するのに必要な情報の分析に基づいて、revit c# apiを使用してログおよび再生アルゴリズムを開発した。 拡張されたbimログはル・コルビュジエが設計したヴィラ・サヴォエのケーススタディによって評価され、その結果、bimのオーサリングプロセスを相当レベルの再現性に正確に表現できることが示されている。 この研究は、BIMオーサリングプロセスのキャプチャと再生のためのツールを提供する。 今後の研究は、ロギングと再生のアルゴリズムの精度の向上と、拡張されたBIMログを使用してBIMオーサリングプロセスを自動化するためのさらなる応用を模索することに集中することができる。

This paper presents an enhanced building information modeling (BIM) logger that captures building element geometry and attributes to accurately represent the BIM authoring process. The authors developed the logger and reproducing algorithm using the Revit C# API based on the analysis of information required to define building elements and associated attributes. The enhanced BIM log was evaluated through a case study of Villa Savoye designed by Le Corbusier, and the results show that it can accurately represent the BIM authoring process to a substantial level of reproducibility. The study provides a tool for capturing and reproducing the BIM authoring process. Future research can focus on improving the accuracy of the logging and reproducing algorithm and exploring further applications to automate the BIM authoring process using enhanced BIM logs.
翻訳日:2023-10-24 05:03:12 公開日:2023-05-29
# FORFIS:教育・研究のための森林火災防火シミュレーションツール

FORFIS: A forest fire firefighting simulation tool for education and research ( http://arxiv.org/abs/2305.17967v1 )

ライセンス: Link先を確認
Marvin Bredlau, Alexander Weber, Alexander Knoll(参考訳) 我々はPythonで実装されたFordFISという森林火災消火シミュレーションツールを提案する。 他の既存のソフトウェアとは違って、ユーザフレンドリなソフトウェアインターフェースと、修正が容易なソフトウェアエンジンに注力しています。 私たちのツールはGNU GPLv3ライセンスで公開されており、GUIと出力機能が追加されています。 使用済みのワイルドファイアモデルは、セルオートマトンによる2つの変種(長方形と六角形のワイルドファイア領域の細胞分解)の確立されたアプローチに基づいている。 モデルは風を考慮に入れます。 また,本ツールでは,消火員にカスタマイズした消火戦略を組み込むことができる。

We present a forest fire firefighting simulation tool named FORFIS that is implemented in Python. Unlike other existing software, we focus on a user-friendly software interface with an easy-to-modify software engine. Our tool is published under GNU GPLv3 license and comes with a GUI as well as additional output functionality. The used wildfire model is based on the well-established approach by cellular automata in two variants - a rectangular and a hexagonal cell decomposition of the wildfire area. The model takes wind into account. In addition, our tool allows the user to easily include a customized firefighting strategy for the firefighting agents.
翻訳日:2023-10-24 05:02:57 公開日:2023-05-29
# ソフトウェアパッケージエコシステムデータのマイニングの約束と義務

Promises and Perils of Mining Software Package Ecosystem Data ( http://arxiv.org/abs/2306.10021v1 )

ライセンス: Link先を確認
Raula Gaikovina Kula, Katsuro Inoue, and Christoph Treude(参考訳) サードパーティパッケージの使用はますます人気を集めており、依存関係間の迷路を伴う大規模なソフトウェアパッケージエコシステムの出現につながっている。 パッケージエコシステムのインフラストラクチャとダイナミクスを理解することで、コードの再利用性の向上、自動更新、脆弱性回避のためのアプローチが生まれ、いくつかの例を挙げることができます。 しかし、これらのエコシステムの現実は、ソフトウエアエンジニアリング研究者にも、次のような課題をもたらしている。 これらのパッケージエコシステムの境界は何でしょう? 宣言されているが使われていない依存関係をどうやって一貫して検出するのか? パッケージエコシステム内の開発者をどうやって一貫して識別するのか? ひとつのコンポーネントを分析する上で,どの程度のエコシステムを理解する必要があるのでしょう? 私たちのアプローチは、さまざまなプログラミング言語やパッケージエコシステムにまたがって、どの程度うまく行きますか? 本章では,ソフトウェア工学研究者が利用可能なソフトウェアパッケージエコシステムに関連する豊富なデータマイニングの約束と周辺を概説する。

The use of third-party packages is becoming increasingly popular and has led to the emergence of large software package ecosystems with a maze of inter-dependencies. Since the reliance on these ecosystems enables developers to reduce development effort and increase productivity, it has attracted the interest of researchers: understanding the infrastructure and dynamics of package ecosystems has given rise to approaches for better code reuse, automated updates, and the avoidance of vulnerabilities, to name a few examples. But the reality of these ecosystems also poses challenges to software engineering researchers, such as: How do we obtain the complete network of dependencies along with the corresponding versioning information? What are the boundaries of these package ecosystems? How do we consistently detect dependencies that are declared but not used? How do we consistently identify developers within a package ecosystem? How much of the ecosystem do we need to understand to analyse a single component? How well do our approaches generalise across different programming languages and package ecosystems? In this chapter, we review promises and perils of mining the rich data related to software package ecosystems available to software engineering researchers.
翻訳日:2023-10-23 19:25:33 公開日:2023-05-29
# 消滅フレームワークの説明

Disappearing frameworks explained ( http://arxiv.org/abs/2309.03201v1 )

ライセンス: Link先を確認
Juho Veps\"al\"ainen(参考訳) Webは、その膨大なユーザーベースのおかげで、世界でもっとも顕著なアプリケーションプラットフォームである。 90年代にサイトプラットフォームとして始まり、インタラクティブなWebアプリケーションが現実になるにつれて、アプリケーションへと変化していった。 いわゆるシングルページアプリケーション(SPA)は、Webアプリケーション開発における現在の主流の方法であるが、欠点がある。 SPAは優れた開発者エクスペリエンスを提供するが、基礎となる技術的前提のため、ユーザにはコストがかかる。 消滅するフレームワークはこれらの仮定に疑問を呈し、新たなスタートを提供する。 この短い本の目的は、消滅するフレームワークを素早く紹介し、Webアプリケーション開発の領域における新しいトピックとしての意味を示すことである。

The web is the most prominent application platform globally, thanks to its vast user base. It started as a site platform in the 90s and morphed into an application one over time as interactive web applications became a reality. So-called single-page applications (SPAs) represent the current mainstream way of developing web applications but they come with their drawbacks. Although SPAs provide good developer experience, there is a cost for the users due to the underlying technical assumptions. Disappearing frameworks question these assumptions and provide a fresh start. The purpose of this short book is to give a quick introduction to disappearing frameworks and show their meaning as an emerging topic within the space of web application development.
翻訳日:2023-10-23 08:54:36 公開日:2023-05-29
# 数発回転不変空中画像セマンティクスセグメンテーション

Few-Shot Rotation-Invariant Aerial Image Semantic Segmentation ( http://arxiv.org/abs/2306.11734v1 )

ライセンス: Link先を確認
Qinglong Cao, Yuntian Chen, Chao Ma and Xiaokang Yang(参考訳) 短いショットの空中画像セグメンテーションは、限定的なアノテートサポートを備えたクエリ空画像中のオブジェクトを正確に解析する難しいタスクである。 異なるオブジェクト指向を考慮しない従来のマッチング手法は、異なる向きを持つ同一カテゴリーのオブジェクトを活性化できない。 さらに,従来のアルゴリズムでは,ローストローテーションされたセマンティックオブジェクトの誤認識を招きかねない。 これらの課題に対応して,筆者らは,新しい小ショット回転不変空中意味セグメンテーションネットワーク (frinet) を提案する。 FRINetは、各クエリ機能を回転順に、向きを変えながらカテゴリ一貫性のあるサポート情報と一致させる。 異なる方向からのセグメンテーション予測は同じラベルで管理され、バックボーンはセグメンテーション性能を高めるためにベースカテゴリで事前訓練される。 実験により,FRINetは数発の空中セマンティックセグメンテーションベンチマークにおいて最先端の性能を達成できた。

Few-shot aerial image segmentation is a challenging task that involves precisely parsing objects in query aerial images with limited annotated support. Conventional matching methods without consideration of varying object orientations can fail to activate same-category objects with different orientations. Moreover, conventional algorithms can lead to false recognition of lower-scored rotated semantic objects. In response to these challenges, the authors propose a novel few-shot rotation-invariant aerial semantic segmentation network (FRINet). FRINet matches each query feature rotation-adaptively with orientation-varying yet category-consistent support information. The segmentation predictions from different orientations are supervised by the same label, and the backbones are pre-trained in the base category to boost segmentation performance. Experimental results demonstrate that FRINet achieves state-of-the-art performance in few-shot aerial semantic segmentation benchmark.
翻訳日:2023-07-02 13:53:53 公開日:2023-05-29
# チャットボットがサイバーセキュリティ空間でチャットGPTに:進化、脆弱性、攻撃、挑戦、そして今後の勧告

Chatbots to ChatGPT in a Cybersecurity Space: Evolution, Vulnerabilities, Attacks, Challenges, and Future Recommendations ( http://arxiv.org/abs/2306.09255v1 )

ライセンス: Link先を確認
Attia Qammar, Hongmei Wang, Jianguo Ding, Abdenacer Naouri, Mahmoud Daneshmand, Huansheng Ning(参考訳) チャットボットはルールベースから人工知能技術に移行し、医学、ショッピング、カスタマーサービス、食品配達、教育、研究で注目を集めた。 OpenAIはインターネット上でChatGPTのブリザードを開発し、5日以内に100万人を突破した。 しかし、人気が高まり、チャットボットはサイバーセキュリティの脅威と脆弱性を経験した。 本稿では,チャットボットに対して発生した文献,報告,説明的インシデント攻撃について論じる。 ELIZA(早期自然言語処理コンピュータプログラム)からGPT-4までのチャットボットのタイムラインを探索し、ChatGPTの動作メカニズムを提供する。 その後、チャットボットのサイバーセキュリティ攻撃と脆弱性を調査した。 さらに,ChatGPT,特にマルウェアコードの作成,フィッシングメール,検出不能なゼロデイ攻撃,マクロとOLBINの生成について検討した。 さらに、特にChatGPTのリスクと脆弱性を考慮すると、サイバー犯罪者によるサイバー攻撃と脆弱性の履歴について論じる。 これらの脅威と脆弱性に対処するには、有害な結果を減らすための具体的な戦略と対策が必要である。 そのため、課題に取り組むための今後の方向性が提示された。

Chatbots shifted from rule-based to artificial intelligence techniques and gained traction in medicine, shopping, customer services, food delivery, education, and research. OpenAI developed ChatGPT blizzard on the Internet as it crossed one million users within five days of its launch. However, with the enhanced popularity, chatbots experienced cybersecurity threats and vulnerabilities. This paper discussed the relevant literature, reports, and explanatory incident attacks generated against chatbots. Our initial point is to explore the timeline of chatbots from ELIZA (an early natural language processing computer program) to GPT-4 and provide the working mechanism of ChatGPT. Subsequently, we explored the cybersecurity attacks and vulnerabilities in chatbots. Besides, we investigated the ChatGPT, specifically in the context of creating the malware code, phishing emails, undetectable zero-day attacks, and generation of macros and LOLBINs. Furthermore, the history of cyberattacks and vulnerabilities exploited by cybercriminals are discussed, particularly considering the risk and vulnerabilities in ChatGPT. Addressing these threats and vulnerabilities requires specific strategies and measures to reduce the harmful consequences. Therefore, the future directions to address the challenges were presented.
翻訳日:2023-06-18 12:11:58 公開日:2023-05-29
# ProcessGPT: 生成人工知能によるビジネスプロセス管理の変革

ProcessGPT: Transforming Business Process Management with Generative Artificial Intelligence ( http://arxiv.org/abs/2306.01771v1 )

ライセンス: Link先を確認
Amin Beheshti, Jian Yang, Quan Z. Sheng, Boualem Benatallah, Fabio Casati, Schahram Dustdar, Hamid Reza Motahari Nezhad, Xuyun Zhang, Shan Xue(参考訳) Generative Pre-trained Transformer (GPT)は、自然言語処理(NLP)を通じて人間のようなテキストを生成することができる最先端の機械学習モデルである。 GPTは大量のテキストデータに基づいてトレーニングされ、深層学習技術を使ってデータ内のパターンや関係を学習し、一貫性のあるコンテキストに適したテキストを生成する。 本稿では、GPT技術を用いて、必要な時に新しいプロセスモデルを生成することを提案する。 我々は、データ中心および知識集約プロセスにおける意思決定を強化する新しい技術として、ProcessGPTを導入する。 processgptは、ビジネスプロセスデータの大規模なデータセット上に生成前訓練されたトランスフォーマーモデルをトレーニングすることによって設計することができる。 このモデルは、特定のプロセスドメインに基づいて微調整され、プロセスフローを生成し、コンテキストとユーザ入力に基づいて決定を行うように訓練される。 このモデルは、NLPおよび機械学習技術と統合して、プロセス改善のための洞察とレコメンデーションを提供することができる。 さらに、モデルは反復的なタスクを自動化し、知識労働者が分析結果の伝達、証拠の支援、意思決定を可能にしながら、プロセスの効率を向上させることができる。 ProcessGPTはプロセス拡張、自動化、改善のための強力なツールを提供することで、ビジネスプロセス管理(BPM)に革命をもたらすことができます。 最後に、大規模銀行組織におけるデータエコシステムプロセスの維持において、ProcessGPTがデータエンジニアを増強するための強力なツールであることを示す。 我々のシナリオは、データ中心および知識集約プロセスの自動化を通じて、効率を改善し、コストを削減し、ビジネスオペレーションの品質を高めるためのこのアプローチの可能性を強調します。 これらの結果は、プロセスワークフローを改善したい組織にとって、ProcessGPTが変革的技術であることを示す。

Generative Pre-trained Transformer (GPT) is a state-of-the-art machine learning model capable of generating human-like text through natural language processing (NLP). GPT is trained on massive amounts of text data and uses deep learning techniques to learn patterns and relationships within the data, enabling it to generate coherent and contextually appropriate text. This position paper proposes using GPT technology to generate new process models when/if needed. We introduce ProcessGPT as a new technology that has the potential to enhance decision-making in data-centric and knowledge-intensive processes. ProcessGPT can be designed by training a generative pre-trained transformer model on a large dataset of business process data. This model can then be fine-tuned on specific process domains and trained to generate process flows and make decisions based on context and user input. The model can be integrated with NLP and machine learning techniques to provide insights and recommendations for process improvement. Furthermore, the model can automate repetitive tasks and improve process efficiency while enabling knowledge workers to communicate analysis findings, supporting evidence, and make decisions. ProcessGPT can revolutionize business process management (BPM) by offering a powerful tool for process augmentation, automation and improvement. Finally, we demonstrate how ProcessGPT can be a powerful tool for augmenting data engineers in maintaining data ecosystem processes within large bank organizations. Our scenario highlights the potential of this approach to improve efficiency, reduce costs, and enhance the quality of business operations through the automation of data-centric and knowledge-intensive processes. These results underscore the promise of ProcessGPT as a transformative technology for organizations looking to improve their process workflows.
翻訳日:2023-06-11 13:59:07 公開日:2023-05-29
# 3次元乱流の生成拡散

Generative Diffusion for 3D Turbulent Flows ( http://arxiv.org/abs/2306.01776v1 )

ライセンス: Link先を確認
Marten Lienen, Jan Hansen-Palmus, David L\"udke, Stephan G\"unnemann(参考訳) 乱流はカオス的で予測が難しいことがよく知られているが、その動力学は2次元と3次元で異なる。 2次元乱流は大きなコヒーレント構造を形成する傾向があるが、3次元の渦はより小さなスケールにカスケードする。 このカスケードは多くの高速で小さな構造を生成し、予測不能を増幅し、回帰ベースのメソッドが実現不可能になる。 任意の3次元幾何学における強制乱流の第一生成モデルを提案し,生成する速度-渦分布のワッサースタイン距離に基づく乱流のサンプル品質測定法を提案する。 いくつかの実験で, 生成拡散モデルが乱流の予測不能を回避し, 幾何学的情報のみに基づいて高品質なサンプルを生成することを示した。 さらに,本モデルが産業用数値計算器に打ち勝つことで,スクラッチから乱流場を桁違いに生成できることを実証した。

Turbulent flows are well known to be chaotic and hard to predict; however, their dynamics differ between two and three dimensions. While 2D turbulence tends to form large, coherent structures, in three dimensions vortices cascade to smaller and smaller scales. This cascade creates many fast-changing, small-scale structures and amplifies the unpredictability, making regression-based methods infeasible. We propose the first generative model for forced turbulence in arbitrary 3D geometries and introduce a sample quality metric for turbulent flows based on the Wasserstein distance of the generated velocity-vorticity distribution. In several experiments, we show that our generative diffusion model circumvents the unpredictability of turbulent flows and produces high-quality samples based solely on geometric information. Furthermore, we demonstrate that our model beats an industrial-grade numerical solver in the time to generate a turbulent flow field from scratch by an order of magnitude.
翻訳日:2023-06-11 13:45:52 公開日:2023-05-29
# 信頼に値する(er)自律システム開発のための再中心的勧告

RE-centric Recommendations for the Development of Trustworthy(er) Autonomous Systems ( http://arxiv.org/abs/2306.01774v1 )

ライセンス: Link先を確認
Krishna Ronanki, Beatriz Cabrero-Daniel, Jennifer Horkoff, Christian Berger(参考訳) EU AI Act(AIA)ガイドラインを遵守し、AIシステムの開発と実装は、間もなくEU内で必須となる。 しかし、実践者はAIシステム開発中に倫理を運用するための実行可能な指示を欠いている。 異なる倫理ガイドラインに関する文献レビューで、対処された原則とそれらを記述するのに使われる用語の不一致が明らかになった。 さらに、AI開発プロセスの信頼性を早期から向上するために特定される要件エンジニアリング(RE)は、倫理的で信頼できるAIの開発を支援する多くのフレームワークで欠落していることが観察された。 この不一致と具体的な開発プラクティスの欠如が相まって、信頼できるai開発が難しくなる。 この懸念に対処するため、我々は主要な倫理的AIガイドラインにおいて使用される用語の比較表と倫理的AI原則のカバレッジを定式化した。 次に、信頼性の高いAIシステムの開発において、効果的なREを行うための倫理的AI開発フレームワークの適用性を検討した。 倫理的AIフレームワークについて議論する文献の3次レビューとメタ分析は、信頼できるAIを開発する際の限界を明らかにした。 本研究は,信頼性の高いAIの開発において,このような制約に対処するための勧告を提案する。

Complying with the EU AI Act (AIA) guidelines while developing and implementing AI systems will soon be mandatory within the EU. However, practitioners lack actionable instructions to operationalise ethics during AI systems development. A literature review of different ethical guidelines revealed inconsistencies in the principles addressed and the terminology used to describe them. Furthermore, requirements engineering (RE), which is identified to foster trustworthiness in the AI development process from the early stages was observed to be absent in a lot of frameworks that support the development of ethical and trustworthy AI. This incongruous phrasing combined with a lack of concrete development practices makes trustworthy AI development harder. To address this concern, we formulated a comparison table for the terminology used and the coverage of the ethical AI principles in major ethical AI guidelines. We then examined the applicability of ethical AI development frameworks for performing effective RE during the development of trustworthy AI systems. A tertiary review and meta-analysis of literature discussing ethical AI frameworks revealed their limitations when developing trustworthy AI. Based on our findings, we propose recommendations to address such limitations during the development of trustworthy AI.
翻訳日:2023-06-11 13:45:36 公開日:2023-05-29
# 輝かしいけど空いている? 大規模言語モデルの時代における意味的資本

Voluminous yet Vacuous? Semantic Capital in an Age of Large Language Models ( http://arxiv.org/abs/2306.01773v1 )

ライセンス: Link先を確認
Luca Nannini(参考訳) 大きな言語モデル(LLM)は、自然言語処理の領域において変換力として出現し、人間のようなテキストを生成する力を持つ。 しかし、コンテンツ作成の可能性にもかかわらず、デジタルエコシステムにおける集合的知識であるセマンティックキャピタル(sc)を損なうリスクを負い、多様な社会的認識論的課題を提起する。 本稿では,これらのモデルの進化,能力,限界について考察し,それらがもたらす倫理的懸念を強調した。 まず、LSMの影響の追跡と制御という課題にもかかわらず、これらのAI技術とのインタラクションと、それらに対する大衆の認識を形成する物語を再考する必要があると認識されている。 この目標を達成する前に、ai駆動のインフォスフィアの潜在的なデオントロジー的転換点に直面することが不可欠であると主張する。 これはAIの倫理的規範や規則に固執するだけでなく、LSMが我々の集団SCにもたらす可能性のある社会的疫学リスクのスペクトルを理解する必要がある。 第2に、ルチアーノ・フロリジのSCリスク分類に基づいて、これらはLLMの機能と制約にマッピングされる。 この観点から、私たちは、人間とAIの協調的な環境を育みながら、SCを置き換えるのではなく、人間の知性を高めることを目指しています。

Large Language Models (LLMs) have emerged as transformative forces in the realm of natural language processing, wielding the power to generate human-like text. However, despite their potential for content creation, they carry the risk of eroding our Semantic Capital (SC) - the collective knowledge within our digital ecosystem - thereby posing diverse social epistemic challenges. This paper explores the evolution, capabilities, and limitations of these models, while highlighting ethical concerns they raise. The study contribution is two-fold: first, it is acknowledged that, withstanding the challenges of tracking and controlling LLM impacts, it is necessary to reconsider our interaction with these AI technologies and the narratives that form public perception of them. It is argued that before achieving this goal, it is essential to confront a potential deontological tipping point in an increasing AI-driven infosphere. This goes beyond just adhering to AI ethical norms or regulations and requires understanding the spectrum of social epistemic risks LLMs might bring to our collective SC. Secondly, building on Luciano Floridi's taxonomy for SC risks, those are mapped within the functionality and constraints of LLMs. By this outlook, we aim to protect and enrich our SC while fostering a collaborative environment between humans and AI that augments human intelligence rather than replacing it.
翻訳日:2023-06-11 13:45:20 公開日:2023-05-29
# 拡張現実システムと3Dデジタル双生児を用いた低資源アフリカにおける健康と幸福の再構築

Re-imagining health and well-being in low resource African settings using an augmented AI system and a 3D digital twin ( http://arxiv.org/abs/2306.01772v1 )

ライセンス: Link先を確認
Deshendran Moodley and Christopher Seebregts(参考訳) 本稿では、低資源アフリカ諸国における人工知能(AI)とデジタル双生児の健康と幸福のための最近の発展の可能性と意義について論じる。 AIシステムの観点から、AIシステムとデジタルツインの出現するトレンドをレビューし、AIシステムが3Dデジタルツインと組み合わせてどのように機能するかを説明するために、初期のAIシステムアーキテクチャを提案する。 aiシステムとデジタル双生児にとって重要な研究課題として,科学的知識の発見,継続的学習,実践的相互運用,対話的説明と意思決定に注目した。

In this paper, we discuss and explore the potential and relevance of recent developments in artificial intelligence (AI) and digital twins for health and well-being in low-resource African countries. Using an AI systems perspective, we review emerging trends in AI systems and digital twins and propose an initial augmented AI system architecture to illustrate how an AI system can work in conjunction with a 3D digital twin. We highlight scientific knowledge discovery, continual learning, pragmatic interoperability, and interactive explanation and decision-making as important research challenges for AI systems and digital twins.
翻訳日:2023-06-11 13:44:56 公開日:2023-05-29
# 文脈依存型テキスト-SQL構文解析における合成一般化の探索

Exploring the Compositional Generalization in Context Dependent Text-to-SQL Parsing ( http://arxiv.org/abs/2306.04480v1 )

ライセンス: Link先を確認
Aiwei Liu, Wei Liu, Xuming Hu, Shuang Li, Fukun Ma, Yawen Yang, Lijie Wen(参考訳) コンテキスト依存のText-to-SQLタスクでは、生成されたSQLステートメントは、各インタラクションからのユーザ入力の発話に基づいて反復的に洗練される。 各インタラクションから入力されたテキストは、以前のSQLステートメントのコンポーネント修正と見なすことができ、変更パターンとしてさらに抽出することができる。 これらの変更パターンは他のsqlステートメントとも組み合わせることができるので、モデルはこれらの新しい組み合わせに対する合成の一般化を持つはずである。 この研究は、コンテキスト依存のText-to-SQLシナリオにおける合成一般化の最初の調査である。 関連する研究を容易にするために,修正パターンと既存のSQLステートメントを再結合することにより, \textsc{CoSQL-CG} と \textsc{SParC-CG} という2つの挑戦的なベンチマークを構築した。 以下の実験は、現在のすべてのモデルが提案されたベンチマークで苦労していることを示している。 さらに,従来のSQL文と入力発話との整合性が向上すると,モデルの構成一般化能力が向上することが判明した。 これらの観察に基づいて,テキストからsqlへの合成一般化を改善するために, \texttt{p-align} という手法を提案する。 さらに,本手法の有効性を検証した。 ソースコードとデータは利用可能である。

In the context-dependent Text-to-SQL task, the generated SQL statements are refined iteratively based on the user input utterance from each interaction. The input text from each interaction can be viewed as component modifications to the previous SQL statements, which could be further extracted as the modification patterns. Since these modification patterns could also be combined with other SQL statements, the models are supposed to have the compositional generalization to these novel combinations. This work is the first exploration of compositional generalization in context-dependent Text-to-SQL scenarios. To facilitate related studies, we constructed two challenging benchmarks named \textsc{CoSQL-CG} and \textsc{SParC-CG} by recombining the modification patterns and existing SQL statements. The following experiments show that all current models struggle on our proposed benchmarks. Furthermore, we found that better aligning the previous SQL statements with the input utterance could give models better compositional generalization ability. Based on these observations, we propose a method named \texttt{p-align} to improve the compositional generalization of Text-to-SQL models. Further experiments validate the effectiveness of our method. Source code and data are available.
翻訳日:2023-06-11 13:25:24 公開日:2023-05-29
# ポルトガル語の法的意味論的類似性のためのデータセット:弱い監督と注釈プロセスアプローチの比較

Datasets for Portuguese Legal Semantic Textual Similarity: Comparing weak supervision and an annotation process approaches ( http://arxiv.org/abs/2306.00007v1 )

ライセンス: Link先を確認
Daniel da Silva Junior, Paulo Roberto dos S. Corval, Aline Paes and Daniel de Oliveira(参考訳) ブラジル司法府は大きな作業量を抱えており、長い時間をかけて法的手続きを終えている。 ブラジル司法評議会は、文書とプロセスのデジタル化のための正式なガイダンス469/2022を決議し、法分野における日々の業務、特に法手続きのルーチンで得られた大量の文書において、自動的な技術を使うことの可能性を開放した。 特に人工知能(ai)技術は、テキストデータから有用な情報を処理し抽出することを可能にし、プロセスを高速化する可能性がある。 しかし、いくつかのAI技術で必要とされる法的領域からのデータセットは、専門家のラベルを必要とするため、入手が困難である。 この課題に対処するため、本論文では、法領域からの4つのデータセット、2つは文書とメタデータで、ラベル付きだがラベル付きで、もう1つはテキストの意味的類似性タスクでの使用を目的としたヒューリスティックでラベル付けされている。 また、提案したヒューリスティックラベルプロセスの有効性を評価するため、ドメインエキスパートアノテーションから生成された小さな真実データセットを提示する。 基礎的真理ラベルの分析は、ドメインの専門家にとってもドメインテキストのセマンティック分析が困難であることを強調している。 また,基礎的真理とヒューリスティックなラベルの比較により,ヒューリスティックなラベルが有用であることを示す。

The Brazilian judiciary has a large workload, resulting in a long time to finish legal proceedings. Brazilian National Council of Justice has established in Resolution 469/2022 formal guidance for document and process digitalization opening up the possibility of using automatic techniques to help with everyday tasks in the legal field, particularly in a large number of texts yielded on the routine of law procedures. Notably, Artificial Intelligence (AI) techniques allow for processing and extracting useful information from textual data, potentially speeding up the process. However, datasets from the legal domain required by several AI techniques are scarce and difficult to obtain as they need labels from experts. To address this challenge, this article contributes with four datasets from the legal domain, two with documents and metadata but unlabeled, and another two labeled with a heuristic aiming at its use in textual semantic similarity tasks. Also, to evaluate the effectiveness of the proposed heuristic label process, this article presents a small ground truth dataset generated from domain expert annotations. The analysis of ground truth labels highlights that semantic analysis of domain text can be challenging even for domain experts. Also, the comparison between ground truth and heuristic labels shows that heuristic labels are useful.
翻訳日:2023-06-02 20:59:10 公開日:2023-05-29
# Trncated Affinity Maximization: グラフ異常検出のための一級ホモフィリモデリング

Truncated Affinity Maximization: One-class Homophily Modeling for Graph Anomaly Detection ( http://arxiv.org/abs/2306.00006v1 )

ライセンス: Link先を確認
Qiao Hezhe and Pang Guansong(参考訳) 実世界のグラフ異常検出(GAD)データセットで経験的に見られる1つの一般的な特性は、通常のノードは互いに強い接続/親和性を持つ傾向にあり、一方異常ノードのホモフィリは通常のノードよりも著しく弱い。 しかし、この異常識別特性は、データ再構成のような従来の異常検出目的を用いて構築される既存のGAD法では無視される。 本研究では,GAD の非教師付き異常評価尺度 (ローカルノード親和性) を導入し,ノード属性/表現の類似性として定義される親和性を用いて,隣接ノードの関連性が低いノードにより大きな異常スコアを割り当てる。 さらに, 隣接ノードの局所親和性を最大化することにより, 異常測度に適したノード表現を学習するTruncated Affinity Maximization (TAM)を提案する。 元のグラフ構造に最適化することは、非ホモフィリーエッジ(つまり正常ノードと異常ノードを接続するエッジ)によってバイアスされる。 したがって、tamはこのバイアスを緩和するために非ホモフィリーエッジを反復的に削除する切断グラフに最適化される。 学習された表現は、正常なノードに対して異常なノードよりもはるかに強い局所親和性をもたらす。 6つの実世界のGADデータセットに対する大規模な実験結果によると、TAMは7つの競合モデルを大幅に上回り、AUROC/AUPRCの10%以上を達成している。 私たちのコードはhttps: //github.com/mala-lab/TAM-master/で利用可能になります。

One prevalent property we find empirically in real-world graph anomaly detection (GAD) datasets is a one-class homophily, i.e., normal nodes tend to have strong connection/affinity with each other, while the homophily in abnormal nodes is significantly weaker than normal nodes. However, this anomaly-discriminative property is ignored by existing GAD methods that are typically built using a conventional anomaly detection objective, such as data reconstruction. In this work, we explore this property to introduce a novel unsupervised anomaly scoring measure for GAD -- local node affinity -- that assigns a larger anomaly score to nodes that are less affiliated with their neighbors, with the affinity defined as similarity on node attributes/representations. We further propose Truncated Affinity Maximization (TAM) that learns tailored node representations for our anomaly measure by maximizing the local affinity of nodes to their neighbors. Optimizing on the original graph structure can be biased by non-homophily edges (i.e., edges connecting normal and abnormal nodes). Thus, TAM is instead optimized on truncated graphs where non-homophily edges are removed iteratively to mitigate this bias. The learned representations result in significantly stronger local affinity for normal nodes than abnormal nodes. Extensive empirical results on six real-world GAD datasets show that TAM substantially outperforms seven competing models, achieving over 10% increase in AUROC/AUPRC compared to the best contenders on challenging datasets. Our code will be made available at https: //github.com/mala-lab/TAM-master/.
翻訳日:2023-06-02 20:58:44 公開日:2023-05-29
# 高次元データのクラスタアセスメントのための自己監督的アプローチ

A Self-Supervised Approach for Cluster Assessment of High-Dimensional Data ( http://arxiv.org/abs/2306.00011v1 )

ライセンス: Link先を確認
Alokendu Mazumder, Pagadala Krishna Murthy, Punit Rathore(参考訳) クラスタの数とデータセットの基盤となるクラスタ構造を見積もることが重要なタスクです。 現実世界のデータはしばしばラベルがなく、複雑で、高次元であり、従来のクラスタリングアルゴリズムではうまく機能しない。 近年、「傾向の視覚的評価」(vat)と呼ばれる行列再順序付けに基づくアルゴリズムとその変種は、様々な領域の研究者を惹きつけ、データに存在するクラスター数と固有のクラスター構造を推定している。 しかし、これらのアルゴリズムは、データポイント間の近さと遠さの概念に大きく依存するため、次元性の呪いによって高次元データに適用されると失敗する。 本稿では,複雑な画像データセットにおけるクラスタ構造評価のためのディープラーニングフレームワークを提案する。 まず,自己教師付きディープニューラルネットワークを用いて,複雑なデータに対する代表的埋め込みを生成し,その低次元埋め込みをvat/ivatアルゴリズムに与えてクラスタ構造の推定を行う。 このプロセスでは、クラスタ数(すなわちk)に事前の知識を使用しないことを保証しました。 本研究の結果は,4つの実生活画像データセットにおいて,クラスタリング精度と正規化相互情報(NMI)の観点から,最先端のVAT/iVATアルゴリズムよりも優れた性能を示した。

Estimating the number of clusters and underlying cluster structure in a dataset is a crucial task. Real-world data are often unlabeled, complex and high-dimensional, which makes it difficult for traditional clustering algorithms to perform well. In recent years, a matrix reordering based algorithm, called "visual assessment of tendency" (VAT), and its variants have attracted many researchers from various domains to estimate the number of clusters and inherent cluster structure present in the data. However, these algorithms fail when applied to high-dimensional data due to the curse of dimensionality, as they rely heavily on the notions of closeness and farness between data points. To address this issue, we propose a deep-learning based framework for cluster structure assessment in complex, image datasets. First, our framework generates representative embeddings for complex data using a self-supervised deep neural network, and then, these low-dimensional embeddings are fed to VAT/iVAT algorithms to estimate the underlying cluster structure. In this process, we ensured not to use any prior knowledge for the number of clusters (i.e k). We present our results on four real-life image datasets, and our findings indicate that our framework outperforms state-of-the-art VAT/iVAT algorithms in terms of clustering accuracy and normalized mutual information (NMI).
翻訳日:2023-06-02 20:46:00 公開日:2023-05-29
# Simplicial Map Neural Networkにおける説明可能性

Explainability in Simplicial Map Neural Networks ( http://arxiv.org/abs/2306.00010v1 )

ライセンス: Link先を確認
Eduardo Paluzo-Hidalgo, Miguel A. Guti\'errez-Naranjo, Rocio Gonzalez-Diaz(参考訳) 単純写像ニューラルネットワーク(simplicial map neural networks, smnns)は、普遍近似能力や適切な条件下での逆例に対するロバスト性といった興味深い性質を持つトポロジーベースのニューラルネットワークである。 しかし、SMNNは高い次元で応用できるいくつかのボトルネックを提示する。 まず、SMNNのトレーニングプロセスは定義されていない。 第二に、SMNNは入力データセットを囲む凸ポリトープを構築する必要がある。 本稿では,与えられたデータセットのサポートサブセットに基づくsmnnトレーニング手順と,凸多面体構築の代替として超球への射影に基づく方法を提案する。 また,本論文では,SMNNの説明可能性についても初めて紹介する。

Simplicial map neural networks (SMNNs) are topology-based neural networks with interesting properties such as universal approximation capability and robustness to adversarial examples under appropriate conditions. However, SMNNs present some bottlenecks for their possible application in high dimensions. First, no SMNN training process has been defined so far. Second, SMNNs require the construction of a convex polytope surrounding the input dataset. In this paper, we propose a SMNN training procedure based on a support subset of the given dataset and a method based on projection to a hypersphere as a replacement for the convex polytope construction. In addition, the explainability capacity of SMNNs is also introduced for the first time in this paper.
翻訳日:2023-06-02 20:45:35 公開日:2023-05-29
# グラフ探索問題:wechatフィードレコメンデーションにおける個人レベルおよびシステムレベルの多様性の改善

Graph Exploration Matters: Improving both individual-level and system-level diversity in WeChat Feed Recommender ( http://arxiv.org/abs/2306.00009v1 )

ライセンス: Link先を確認
Shuai Yang, Lixin Zhang, Feng Xia, Leyu Lin(参考訳) 実際の産業レコメンデーションシステムには、候補生成(検索)、ランク付け、再ランク付けの3つの段階がある。 個人レベルの多様性とシステムレベルの多様性はどちらも産業レコメンデーターシステムにとって重要である。 前者は個々のユーザエクスペリエンスに重点を置いており、後者はユーザ間の差異に重点を置いている。 グラフベースの検索戦略は、必然的にヘビーユーザーと人気アイテムによってハイジャックされ、ユーザの候補の収束とシステムレベルの多様性の欠如に繋がる。 一方、再ランキングフェーズでは、個人レベルの多様性を高めるために決定的ポイントプロセス(dpp)が展開される。 dppはアイテムの意味情報に大きく依存しており、クリックベイトや不正確な属性に苦しむ。 さらに、ほとんどの研究は2つのレベルの多様性にのみ焦点を合わせ、実際のレコメンデーションシステムにおける異なるステージ間の相互影響を無視している。 個人レベルの多様性とシステムレベルの多様性は統合的な問題と見なされるべきであり、webスケールのレコメンデーションに効率的でデプロイ可能なソリューションを提供する。 一般に,ユーザに対して露出した項目の隠れた類似性を弱め,その結果,より多くのグラフ探索を行い,システムレベルの多様性を向上させることを提案する。 さらに,コンテンツフィードの推薦において,ユーザの多様性に対する妥当性が時間とともに変化していくことを論じる。 そこで,探索グラフを用いて,ユーザの多様性に対するリアルタイムパーソナライズ傾向を捉えることを提案する。 WeChat AppのTop Storiesで、数億人のユーザが使用するシステムの実装とデプロイを行っています。 オフラインシミュレーションとオンラインa/bテストは、このソリューションがユーザのエンゲージメントとシステム収益の両方を効果的に改善できることを示しています。

There are roughly three stages in real industrial recommendation systems, candidates generation (retrieval), ranking and reranking. Individual-level diversity and system-level diversity are both important for industrial recommender systems. The former focus on each single user's experience, while the latter focus on the difference among users. Graph-based retrieval strategies are inevitably hijacked by heavy users and popular items, leading to the convergence of candidates for users and the lack of system-level diversity. Meanwhile, in the reranking phase, Determinantal Point Process (DPP) is deployed to increase individual-level diverisity. Heavily relying on the semantic information of items, DPP suffers from clickbait and inaccurate attributes. Besides, most studies only focus on one of the two levels of diversity, and ignore the mutual influence among different stages in real recommender systems. We argue that individual-level diversity and system-level diversity should be viewed as an integrated problem, and we provide an efficient and deployable solution for web-scale recommenders. Generally, we propose to employ the retrieval graph information in diversity-based reranking, by which to weaken the hidden similarity of items exposed to users, and consequently gain more graph explorations to improve the system-level diveristy. Besides, we argue that users' propensity for diversity changes over time in content feed recommendation. Therefore, with the explored graph, we also propose to capture the user's real-time personalized propensity to the diversity. We implement and deploy the combined system in WeChat App's Top Stories used by hundreds of millions of users. Offline simulations and online A/B tests show our solution can effectively improve both user engagement and system revenue.
翻訳日:2023-06-02 20:45:26 公開日:2023-05-29
# brainformers: シンプルさと効率性

Brainformers: Trading Simplicity for Efficiency ( http://arxiv.org/abs/2306.00008v1 )

ライセンス: Link先を確認
Yanqi Zhou, Nan Du, Yanping Huang, Daiyi Peng, Chang Lan, Da Huang, Siamak Shakeri, David So, Andrew Dai, Yifeng Lu, Zhifeng Chen, Quoc Le, Claire Cui, James Laundon, Jeff Dean(参考訳) トランスフォーマーは、自然言語処理とコンピュータビジョンにおける最近の成功の中心である。 トランスフォーマーは、ディープネットワークを構築するために、フィードフォワードとセルフアテンションの層を交互に切り替える、ほとんど均一なバックボーンを持つ。 ここでは、この設計選択を調査し、異なる層プリミティブの置換を持つより複雑なブロックがより効率的であることを示す。 この知見を用いて,フィードフォワード層,高密度フィードフォワード層,アテンション層,各種層正規化およびアクティベーション関数などの多様な層からなる複雑なブロック,Brainformerを開発した。 brainformerは、品質と効率の両面で、最先端の高密度でスパースなトランスフォーマーを一貫して上回っている。 トークンあたり80億のアクティベートパラメータを持つBrainformerモデルは、GLaMと比べ、2倍のトレーニング収束と5倍のステップタイムを示す。 下流タスク評価では、Brainformerは、GLaMと同様の数のアクティベートパラメータを持つよりも、微調整で、3%高いSuperGLUEスコアを示す。 最後に、Brainformerは、スナップショット評価においてトークン毎の同様の計算でNASで導出されたプライマー密度モデルよりも大幅に優れている。

Transformers are central to recent successes in natural language processing and computer vision. Transformers have a mostly uniform backbone where layers alternate between feed-forward and self-attention in order to build a deep network. Here we investigate this design choice and find that more complex blocks that have different permutations of layer primitives can be more efficient. Using this insight, we develop a complex block, named Brainformer, that consists of a diverse sets of layers such as sparsely gated feed-forward layers, dense feed-forward layers, attention layers, and various forms of layer normalization and activation functions. Brainformer consistently outperforms the state-of-the-art dense and sparse Transformers, in terms of both quality and efficiency. A Brainformer model with 8 billion activated parameters per token demonstrates 2x faster training convergence and 5x faster step time compared to its GLaM counterpart. In downstream task evaluation, Brainformer also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM with a similar number of activated parameters. Finally, Brainformer largely outperforms a Primer dense model derived with NAS with similar computation per token on fewshot evaluations.
翻訳日:2023-06-02 20:44:58 公開日:2023-05-29
# DeepMAD:Deep Convolutional Neural Networkのための数学的アーキテクチャ設計

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network ( http://arxiv.org/abs/2303.02165v3 )

ライセンス: Link先を確認
Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang(参考訳) ビジョントランスフォーマー(vit)の急速な進歩は、様々なビジョンタスクにおける最先端のパフォーマンスをリフレッシュし、従来のcnnベースのモデルを過大評価した。 これは、CNNの世界における最近の衝撃的な研究の発火であり、純粋なCNNモデルは、注意深く調整されたときにViTモデルと同じくらい優れたパフォーマンスを達成できることを示している。 このような高性能cnnモデルの設計を奨励する一方で、ネットワーク設計の非自明な事前知識を必要とする。 この目的のために、Deep CNN(DeepMAD)のための数学的アーキテクチャ設計(Mathematical Architecture Design for Deep CNN)と呼ばれる新しいフレームワークを提案する。 deepmadでは、cnnネットワークは、その構造パラメータによって表現性と有効性を解析的に定式化できる情報処理システムとしてモデル化される。 次に、これらの構造パラメータを最適化するために制約付き数理計画法(mp)問題を提案する。 MP問題は、メモリフットプリントが小さいCPU上の既製のMPソルバで簡単に解決できる。 さらにDeepMADは純粋に数学的フレームワークであり、ネットワーク設計時にGPUやトレーニングデータを必要としない。 DeepMADの優位性は、複数の大規模コンピュータビジョンベンチマークデータセットで検証されている。 ImageNet-1kでは、従来の畳み込み層のみを使用して、DeepMADは、TinyレベルのConvNeXtやSwinよりも0.7%、トップ1の精度が1.5%高い。

The rapid advances in Vision Transformer (ViT) refresh the state-of-the-art performances in various vision tasks, overshadowing the conventional CNN-based models. This ignites a few recent striking-back research in the CNN world showing that pure CNN models can achieve as good performance as ViT models when carefully tuned. While encouraging, designing such high-performance CNN models is challenging, requiring non-trivial prior knowledge of network design. To this end, a novel framework termed Mathematical Architecture Design for Deep CNN (DeepMAD) is proposed to design high-performance CNN models in a principled way. In DeepMAD, a CNN network is modeled as an information processing system whose expressiveness and effectiveness can be analytically formulated by their structural parameters. Then a constrained mathematical programming (MP) problem is proposed to optimize these structural parameters. The MP problem can be easily solved by off-the-shelf MP solvers on CPUs with a small memory footprint. In addition, DeepMAD is a pure mathematical framework: no GPU or training data is required during network design. The superiority of DeepMAD is validated on multiple large-scale computer vision benchmark datasets. Notably on ImageNet-1k, only using conventional convolutional layers, DeepMAD achieves 0.7% and 1.5% higher top-1 accuracy than ConvNeXt and Swin on Tiny level, and 0.8% and 0.9% higher on Small level.
翻訳日:2023-06-02 03:01:28 公開日:2023-05-29
# 深層強化学習を用いた周縁制御--均質流量最適化へのモデルフリーアプローチ

Perimeter Control Using Deep Reinforcement Learning: A Model-free Approach towards Homogeneous Flow Rate Optimization ( http://arxiv.org/abs/2305.19291v1 )

ライセンス: Link先を確認
Xiaocan Li, Ray Coden Mercurius, Ayal Taitler, Xiaoyu Wang, Mohammad Noaeen, Scott Sanner, and Baher Abdulhai(参考訳) 周辺制御は、交通密度が臨界値以下であることを保証するため、地域間の移動フローを制御することにより、保護領域内の交通効率を高く維持する。 既存のアプローチは、ネットワーク伝送モデル(NTM)とマクロ基礎図(MFD)に依存するかによって、モデルベースまたはモデルフリーに分類することができる。 モデルベースのアプローチは、よりデータ効率が高く、パフォーマンスを保証するが、本質的にバイアスや不正確性をモデル化する傾向がある。 例えば、NTMは多数の保護された領域で不正確になることが多く、MFDは既存のモデルベースの作品では捉えられない散乱やヒステリシスを示すことがある。 さらに、微視的シミュレーションにおいて均質な流量最適化のために強化学習を用いた研究は行われておらず、空間特性、車両レベル情報、計測実現(しばしばマクロシミュレーションで見過ごされる)が考慮されている。 モデルベースアプローチとマクロシミュレーションの問題を回避すべく,顕微鏡レベルの周囲で均質に流量を最適化するモデルフリー深層強化学習手法を提案する。 その結果,NTMやMFDの知識のないモデルフリー強化学習手法は,モデルベースアプローチの性能と競合し,拡張性や拡張性を示した。

Perimeter control maintains high traffic efficiency within protected regions by controlling transfer flows among regions to ensure that their traffic densities are below critical values. Existing approaches can be categorized as either model-based or model-free, depending on whether they rely on network transmission models (NTMs) and macroscopic fundamental diagrams (MFDs). Although model-based approaches are more data efficient and have performance guarantees, they are inherently prone to model bias and inaccuracy. For example, NTMs often become imprecise for a large number of protected regions, and MFDs can exhibit scatter and hysteresis that are not captured in existing model-based works. Moreover, no existing studies have employed reinforcement learning for homogeneous flow rate optimization in microscopic simulation, where spatial characteristics, vehicle-level information, and metering realizations -- often overlooked in macroscopic simulations -- are taken into account. To circumvent issues of model-based approaches and macroscopic simulation, we propose a model-free deep reinforcement learning approach that optimizes the flow rate homogeneously at the perimeter at the microscopic level. Results demonstrate that our model-free reinforcement learning approach without any knowledge of NTMs or MFDs can compete and match the performance of a model-based approach, and exhibits enhanced generalizability and scalability.
翻訳日:2023-06-01 20:25:09 公開日:2023-05-29
# global layers: 非iidテーブル型フェデレーション学習

Global Layers: Non-IID Tabular Federated Learning ( http://arxiv.org/abs/2305.19290v1 )

ライセンス: Link先を確認
Yazan Obeidi(参考訳) クライアント間のデータの均一性は、特に表データの場合、フェデレートラーニング(FL)において重要な課題である。 この研究はGlobal Layers (GL) を提示する。Global Layers (GL) は、結合分布$P(X,Y)$シフトと混合入出力空間$X \times Y$の存在下で堅牢な新しい部分モデルパーソナライズ手法である。 私たちの知る限りでは、GLはクライアント排他的な機能とクラスの両方をサポートする最初の方法です。 既存の実世界データセットから自然に分離した表式flのベンチマーク実験を2つ紹介する。 i) UCIカバータイプは、4つのクライアントに分割され、 二 顧客として、UCI心疾患、SAHeart、UCI心不全。 フル参加者設定でのこれらの実験の実証結果は、GLがフェデレート平均化(FedAvg)やローカルのみのトレーニングよりも優れた結果が得られることを示している。

Data heterogeneity between clients remains a key challenge in Federated Learning (FL), particularly in the case of tabular data. This work presents Global Layers (GL), a novel partial model personalization method robust in the presence of joint distribution $P(X,Y)$ shift and mixed input/output spaces $X \times Y$ across clients. To the best of our knowledge, GL is the first method capable of supporting both client-exclusive features and classes. We introduce two new benchmark experiments for tabular FL naturally partitioned from existing real world datasets: i) UCI Covertype split into 4 clients by "wilderness area" feature, and ii) UCI Heart Disease, SAHeart, UCI Heart Failure, each as clients. Empirical results in these experiments in the full-participant setting show that GL achieves better outcomes than Federated Averaging (FedAvg) and local-only training, with some clients even performing better than their centralized baseline.
翻訳日:2023-06-01 20:24:44 公開日:2023-05-29
# qudit量子力学のフレーム表現

Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v1 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) 本稿では,ワイル関数とウィグナー関数の一般バージョンを導くアルゴリズムを提案する。 これは正則な基底ではなく、特定のタイトなフレームを使うことに基づいている。 量子力学では、ブロッホ球面を位相空間として使う位相空間の定式化、ファインマンとウーターが独立に提案した {0, 1} x {0, 1} x {0, 1, 3} x {0, 1, 2, 3} を用いた定式化、レオンハルトが提案した {0, 1, 2, 3} x {0, 1, 2, 3} を用いた定式化が存在する。 このアルゴリズムを説明するために, 量子ビットの位相空間として {0, 1, 2} x {0, 1, 2} を用いる定式化を明示的に提示する。

We present an algorithm leading to some general versions of the Weyl and Wigner function. It is based on the use of certain tight frames instead of orthonormal bases. In the case of qubit quantum mechanics, there exist (among others) a phase space formulation using the Bloch sphere as a phase space, the formulation using {0, 1} x {0, 1} proposed independently by Feynman and Wootters, and the formulation using {0, 1, 2, 3} x {0, 1, 2, 3} proposed by Leonhardt. In order to illustrate our algorithm, we present explicitly a formulation using {0, 1, 2} x {0, 1, 2} as a phase space of qubit.
翻訳日:2023-06-01 20:24:24 公開日:2023-05-29
# ダブルスケール理論

Double-scale theory ( http://arxiv.org/abs/2305.19286v1 )

ライセンス: Link先を確認
Michel Gondran and Alexandre Gondran(参考訳) 我々は、ド・ブロイ=ボーム理論(dBB)に基づく二重スケール理論と呼ばれる新しい量子力学の解釈を提案する。 任意の量子系に対して、実験室の基準フレーム(外部波動関数と内部波動関数)に2つの波動関数が同時に存在することに基づいている。 外波関数は、量子系の質量の中心を操縦する場に対応する。 外波は時間とともに空間に広がります。 数学的には、シュル=オディンガー方程式は、プランク定数がゼロに傾き、ニュートン軌道がdbb軌道の近似であるときにハミルトン・ヤコビ統計方程式に収束する。 内部波動関数は、粒子が拡張されたEdwin Schr\"odingerによって提案された解釈に対応する。 その後、内部波は空間に閉じ込められている。 h -> 0 のとき、それはディラック分布に収束する。 さらに,N個の内部波動関数の積として内部波動関数の3次元構成空間を書き換えることのできる非定常解が存在することを示す。

We present a new interpretation of quantum mechanics, called the double-scale theory, which expends on the de Broglie-Bohm (dBB) theory. It is based, for any quantum system, on the simultaneous existence of two wave functions in the laboratory reference frame : an external wavefunction and an internal one. The external wave function corresponds to a field that pilots the center-of-mass of the quantum system. The external wave spreads out in space over time. Mathematically, the Schr\"odinger equation converges to the Hamilton-Jacobi statistical equations when the Planck constant tends towards zero and the Newton trajectories are therefore approximations of the dBB trajectories. The internal wave function corresponds to the interpretation proposed by Edwin Schr\"odinger for whom the particle is extended. Then, the internal wave remains confined in space. Its converges, when h -> 0, to a Dirac distribution. Furthermore, we show that non-stationary solutions can exist such that the 3N-dimensional configuration space of the internal wave function can be rewritten as the product of N individual 3-dimensional internal wave functions.
翻訳日:2023-06-01 20:24:06 公開日:2023-05-29
# マヨラナ粒子の量子ブラキストロン

Quantum Brachistochrone for the Majorana Particle ( http://arxiv.org/abs/2305.19285v1 )

ライセンス: Link先を確認
P. G. Morrison(参考訳) 本稿では,時間最適量子制御理論の新たな結果,特にマヨラナフェルミオンを含む相対論的粒子への応用について述べる。 本稿では,実験結果に関する現状と,時間最適制御とユニタリ変換の方法論の簡潔な概要について概観する。 この手法はマヨラナ粒子に適用され、4次元保存則の導出に用いられる。 次に、これらの系における時間変換の性質といくつかの単純な散乱問題について論じる。

This paper covers some new results from the theory of time optimal quantum control, with particular application to relativistic particles including Majorana fermions. We give a brief review of the state of affairs regarding experimental results, and a concise overview of the methodology of time optimal control and unitary transformation. This technique is then applied to the Majorana particle and used to derive four dimensional conservation laws. We then discuss the nature of time transformation in these systems and some simple scattering problems.
翻訳日:2023-06-01 20:23:46 公開日:2023-05-29
# 線を用いた点集合の近接近傍サンプリング

Nearest Neighbor Sampling of Point Sets using Rays ( http://arxiv.org/abs/1911.10737v4 )

ライセンス: Link先を確認
Liangchen Liu, Louis Ly, Colin Macdonald, and Yen-Hsi Richard Tsai(参考訳) ユークリッド空間に埋め込まれた点集合やその他の幾何学的対象の分布のサンプリング・圧縮・解析のための新しい枠組みを提案する。 我々のアプローチは、レイセンススケッチと呼ばれるテンソルを構築することを含んでおり、これは光線に沿った点の基底幾何学から最も近い隣人を捉えている。 我々はRaySenseのスケッチで実行できる様々な操作を探索し、様々な特性と潜在的な応用をもたらす。 データセットに関する統計的情報は、線集合とは独立してスケッチから抽出することができる。 点集合上の直線積分はスケッチを用いて効率的に計算できる。 また,提案手法の実用シナリオへの適用例をいくつか紹介する。

We propose a new framework for the sampling, compression, and analysis of distributions of point sets and other geometric objects embedded in Euclidean spaces. Our approach involves the construction of a tensor called the RaySense sketch, which captures the nearest neighbors from the underlying geometry of points along a set of rays. We explore various operations that can be performed on the RaySense sketch, leading to different properties and potential applications. Statistical information about the data set can be extracted from the sketch, independent of the ray set. Line integrals on point sets can be efficiently computed using the sketch. We also present several examples illustrating applications of the proposed strategy in practical scenarios.
翻訳日:2023-06-01 03:43:22 公開日:2023-05-29
# ソーシャルメディアにおけるインスピレーションコンテンツの検出

Detecting Inspiring Content on Social Media ( http://arxiv.org/abs/2109.02734v2 )

ライセンス: Link先を確認
Oana Ignat, Y-Lan Boureau, Jane A. Yu, Alon Halevy(参考訳) インスピレーションは、新しい可能性を見るために人を動かし、自身の可能性を認識する方法を変えます。 吸気は心理学にはほとんど関心がなく、NLPコミュニティではこれまで研究されていない。 私たちの知る限りでは、この研究は機械学習の手法でインスピレーションを研究する最初の方法です。 ソーシャルメディアデータからインスパイアされたコンテンツを自動的に検出することを目指している。 この目的のために、ソーシャルメディアの投稿を分析して、投稿にインスピレーションを与えるものや、どんな話題がインスピレーションを与えているかをティーズする。 Redditの公開投稿から収集された5800件のインスピレーションと5800件のインスピレーションを受けていない英語の公開投稿のデータセットを公開し、言語ヒューリスティックスを使用して、どのソーシャルメディアの英語投稿がインスピレーションを受けているかを自動的に検出します。

Inspiration moves a person to see new possibilities and transforms the way they perceive their own potential. Inspiration has received little attention in psychology, and has not been researched before in the NLP community. To the best of our knowledge, this work is the first to study inspiration through machine learning methods. We aim to automatically detect inspiring content from social media data. To this end, we analyze social media posts to tease out what makes a post inspiring and what topics are inspiring. We release a dataset of 5,800 inspiring and 5,800 non-inspiring English-language public post unique ids collected from a dump of Reddit public posts made available by a third party and use linguistic heuristics to automatically detect which social media English-language posts are inspiring.
翻訳日:2023-06-01 03:25:15 公開日:2023-05-29
# 磁場下における双曲バンド理論の代数

Algebra of Hyperbolic Band Theory under Magnetic Field ( http://arxiv.org/abs/2107.10586v3 )

ライセンス: Link先を確認
Kazuki Ikeda, Yoshiyuki Matsuki, Shoto Aoki(参考訳) 双曲バンド理論に関連した代数を初めて磁場下で探究する。 我々は、高次種数リーマン曲面に付随する磁気フクシアン群を定義する。 双曲ブロッホ状態の磁気境界条件を設定することにより、双曲磁性ブロッホ状態を構築し、それらのエネルギースペクトルを調べる。 このような磁気ブロッホ状態と自己同型形式の間の接続を与える。 我々の理論は、ユークリッド格子/空間上で定義されるバンド理論に付随する従来の代数の一般拡張であり、一般双曲格子/リーマン曲面上のバンド理論の一般拡張である。

We explore algebras associated with the hyperbolic band theory under a magnetic field for the first time. We define the magnetic Fuchsian group associated with a higher genus Riemann surface. By imposing the magnetic boundary conditions for the hyperbolic Bloch states, we construct the hyperbolic magnetic Bloch states and investigate their energy spectrum. We give a connection between such magnetic Bloch states and automorphic forms. Our theory is a general extension of the conventional algebra associated with the band theory defined on a Euclidean lattice/space into that of the band theory on a general hyperbolic lattice/Riemann surface.
翻訳日:2023-06-01 03:25:00 公開日:2023-05-29
# 信頼されたサーバを持たないプライベートフェデレーション学習:凸損失の最適アルゴリズム

Private Federated Learning Without a Trusted Server: Optimal Algorithms for Convex Losses ( http://arxiv.org/abs/2106.09779v7 )

ライセンス: Link先を確認
Andrew Lowy and Meisam Razaviyayn(参考訳) 本稿では、サーバや他のサイロを信頼していない人々からのデータを用いて、フェデレーション学習(FL)、特にクロスサイロFLについて研究する。 この設定では、各サイロ(例えば病院)は、異なる人々(例えば患者)のデータを持ち、サーバまたは他のサイロが敵の盗聴者として機能しても、各人のデータ(例えば医療記録)のプライバシーを維持する必要がある。 この要件は、レコード/イテムレベルの差分プライバシー(DP)を満たすためにサイロ i の通信を必要とする、ISRL-DP(Inter-Silo Record-Level Differential Privacy)の研究を動機付けている。 ISRL-DPは、サイロ i(例えば、病院 i)内の各人物(例えば、患者)のデータが漏洩しないことを保証する。 ISRL-DPは、よく研究されているプライバシー概念とは異なる。 中央およびユーザレベルのDPは、人々がサーバ/他のサイロを信頼していると仮定します。 スペクトルの反対側では、ローカルDPは、人々が誰も信用していないと仮定する(独自のサイロでさえ)。 ISRL-DPは、中央のDPとローカルのDPの間に位置するので、サーバや他のサイロではなく、人々が自分のサイロを信頼するという現実的な仮定(クロスサイロFL)が成り立つ。 本研究では、ISRL-DP FL 上の(対数まで)上と下の境界に凸/強凸損失関数と等質な(等質な)サイロデータを与える。 注目すべきは、ISRL-DPアルゴリズムにより、任意の不均一なサイロデータ分布で同様の境界がスムーズな損失に到達できることである。 また, ISRL-DPフェデレーションによる経験的リスク最小化のために, 上および下限を厳密に設定し, アクセラレーションを用いて, 最先端技術よりも少ない通信ラウンドで最適なバウンドを実現する。 最後に、サイロメッセージを匿名化するセキュアな「シャッフル」により、より実用的な信頼前提の下で、我々のアルゴリズムは最適な中央DPレートを得る。 数値実験により,アルゴリズムの分類と回帰タスクにおいて,プライバシの正確性が良好なトレードオフを示す。

This paper studies federated learning (FL)--especially cross-silo FL--with data from people who do not trust the server or other silos. In this setting, each silo (e.g. hospital) has data from different people (e.g. patients) and must maintain the privacy of each person's data (e.g. medical record), even if the server or other silos act as adversarial eavesdroppers. This requirement motivates the study of Inter-Silo Record-Level Differential Privacy (ISRL-DP), which requires silo i's communications to satisfy record/item-level differential privacy (DP). ISRL-DP ensures that the data of each person (e.g. patient) in silo i (e.g. hospital i) cannot be leaked. ISRL-DP is different from well-studied privacy notions. Central and user-level DP assume that people trust the server/other silos. On the other end of the spectrum, local DP assumes that people do not trust anyone at all (even their own silo). Sitting between central and local DP, ISRL-DP makes the realistic assumption (in cross-silo FL) that people trust their own silo, but not the server or other silos. In this work, we provide tight (up to logarithms) upper and lower bounds for ISRL-DP FL with convex/strongly convex loss functions and homogeneous (i.i.d.) silo data. Remarkably, we show that similar bounds are attainable for smooth losses with arbitrary heterogeneous silo data distributions, via an accelerated ISRL-DP algorithm. We also provide tight upper and lower bounds for ISRL-DP federated empirical risk minimization, and use acceleration to attain the optimal bounds in fewer rounds of communication than the state-of-the-art. Finally, with a secure "shuffler" to anonymize silo messages (but without a trusted server), our algorithm attains the optimal central DP rates under more practical trust assumptions. Numerical experiments show favorable privacy-accuracy tradeoffs for our algorithm in classification and regression tasks.
翻訳日:2023-06-01 03:24:12 公開日:2023-05-29
# Patcher: 精密な医用画像分割のためのエキスパートの混在したパッチ変換器

Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation ( http://arxiv.org/abs/2206.01741v2 )

ライセンス: Link先を確認
Yanglan Ou, Ye Yuan, Xiaolei Huang, Stephen T.C. Wong, John Volpi, James Z. Wang, Kelvin Wong(参考訳) 本稿では,医療画像分割のための新しいエンコーダ・デコーダビジョントランスフォーマアーキテクチャであるpatcherを提案する。 通常のVision Transformersとは異なり、Pacherブロックを使用して画像を大きなパッチに分割し、それぞれを小さなパッチに分割する。 トランスフォーマーは、大きなパッチ内の小さなパッチに適用され、各ピクセルの受信フィールドが制限される。 故意にパッチを重複させてパッチ内通信を強化する。 エンコーダはPacherブロックのカスケードを使用し、受信フィールドを増やしてローカルからグローバルレベルまで特徴を抽出する。 この設計により、cnnで一般的な粗い特徴抽出とトランスフォーマの優れた空間関係モデリングの両方の恩恵を受けることができる。 また、エンコーダから特徴マップを専門家として扱い、各ピクセルのラベルを予測するための適切な専門家機能を選択する新しいmixed-of-experts(moe)ベースのデコーダを提案する。 MoEを使用することで、エキスパート機能のより優れた特殊化が可能になり、推論中にそれら間の干渉を減らすことができる。 パッチャーは脳卒中病変のセグメンテーションやポリープのセグメンテーションにおいて、最先端のトランスフォーマーやCNNベースのアプローチよりも優れていた。 今後の研究を促進するために、Code for Patcherが出版されている。

We present a new encoder-decoder Vision Transformer architecture, Patcher, for medical image segmentation. Unlike standard Vision Transformers, it employs Patcher blocks that segment an image into large patches, each of which is further divided into small patches. Transformers are applied to the small patches within a large patch, which constrains the receptive field of each pixel. We intentionally make the large patches overlap to enhance intra-patch communication. The encoder employs a cascade of Patcher blocks with increasing receptive fields to extract features from local to global levels. This design allows Patcher to benefit from both the coarse-to-fine feature extraction common in CNNs and the superior spatial relationship modeling of Transformers. We also propose a new mixture-of-experts (MoE) based decoder, which treats the feature maps from the encoder as experts and selects a suitable set of expert features to predict the label for each pixel. The use of MoE enables better specializations of the expert features and reduces interference between them during inference. Extensive experiments demonstrate that Patcher outperforms state-of-the-art Transformer- and CNN-based approaches significantly on stroke lesion segmentation and polyp segmentation. Code for Patcher is released with publication to facilitate future research.
翻訳日:2023-06-01 03:06:46 公開日:2023-05-29
# 熱帯雨林における画像セグメンテーションのための深層学習アーキテクチャを用いた地すべり検出:新しい枠組み

Relict landslide detection using Deep-Learning architectures for image segmentation in rainforest areas: A new framework ( http://arxiv.org/abs/2208.02693v2 )

ライセンス: Link先を確認
Guilherme P.B. Garcia and Carlos H. Grohmann and Lucas P. Soares and Mateus Espadoto(参考訳) 地すべりは破壊的かつ繰り返し発生する自然災害であり、生活や財産のリスクを表わしている。 地すべりに関する知識は、そのメカニズムを理解し、在庫地図を更新し、リスク評価を改善するために不可欠である。 しかし、熱帯地域では熱帯雨林の植生に覆われた地すべり地図が複雑である。 新しいCNNフレームワークは,k平均クラスタリングアルゴリズムによって生成されたデータセットを使用し,事前学習ステップを有する,地すべりの半自動検出のために提案されている。 プレトレーニングで計算された重量は、CNNトレーニングプロセスの微調整に使用される。 CBERS-04A WPM画像を用いて,提案手法と標準フレームワークの比較を行った。 セマンティックセグメンテーション用の3つのCNN(Unet、FPN、Linknet)と2つの拡張データセットが使用される。 合計42種類のCNNがテストされている。 精度とリコールの値は、テストされた組み合わせと非常によく似ていた。 リコールは各組み合わせで75%以上であったが、精度は20%以下であった。 偽陽性 (FP) はこれらの低精度値の原因となった。 提案手法の予測はより正確で, より正確な地すべり検出が可能であった。 本研究は, 雨林に覆われた地域において, 植生のスペクトル応答とGleichenella spによる森林伐採地との類似性に関連して, 地すべりの検出に限界があることを実証した。 羽根は地すべりの傷の指標として一般的に用いられる。

Landslides are destructive and recurrent natural disasters on steep slopes and represent a risk to lives and properties. Knowledge of relict landslides location is vital to understand their mechanisms, update inventory maps and improve risk assessment. However, relict landslide mapping is complex in tropical regions covered with rainforest vegetation. A new CNN framework is proposed for semi-automatic detection of relict landslides, which uses a dataset generated by a k-means clustering algorithm and has a pre-training step. The weights computed in the pre-training are used to fine-tune the CNN training process. A comparison between the proposed and the standard framework is performed using CBERS-04A WPM images. Three CNNs for semantic segmentation are used (Unet, FPN, Linknet) with two augmented datasets. A total of 42 combinations of CNNs are tested. Values of precision and recall were very similar between the combinations tested. Recall was higher than 75% for every combination, but precision values were usually smaller than 20%. False positives (FP) samples were addressed as the cause for these low precision values. Predictions of the proposed framework were more accurate and correctly detected more landslides. This work demonstrates that there are limitations for detecting relict landslides in areas covered with rainforest, mainly related to similarities between the spectral response of pastures and deforested areas with Gleichenella sp. ferns, commonly used as an indicator of landslide scars.
翻訳日:2023-06-01 02:58:51 公開日:2023-05-29
# 公平がプライバシーを満たす: 半プライベートな機密属性による公正な分類

When Fairness Meets Privacy: Fair Classification with Semi-Private Sensitive Attributes ( http://arxiv.org/abs/2207.08336v2 )

ライセンス: Link先を確認
Canyu Chen, Yueqing Liang, Xiongxiao Xu, Shangyu Xie, Ashish Kundu, Ali Payani, Yuan Hong, Kai Shu(参考訳) 機械学習モデルは、多くの分野で有望なパフォーマンスを示している。 しかし、特定の人口集団に偏りがあるという懸念は、高い評価のアプリケーションでの採用を妨げる。 したがって、機械学習モデルの公平性を保証することが不可欠である。 これまでの取り組みのほとんどは、バイアスを軽減するために機密属性に直接アクセスする必要がある。 それでも、データ収集プロセスにおけるユーザのプライバシに関する懸念を考慮して、大規模なユーザの機密属性を取得することは不可能であることが多い。 ローカルディファレンシャルプライバシ(LDP)のようなプライバシメカニズムは、法的コンプライアンスと人々のプライバシに対する認識の高まりにより、データ収集段階で機密情報に広く適用されている。 したがって、重要な問題は、プライバシーの下で公正な予測をする方法である。 半私的環境での公平な分類の新規かつ実践的な問題について検討し, 感度特性の大部分がプライベートであり, ごく少量のクリーンなものしか利用できない。 そこで,本稿では,半プライベート環境下で公正な予測を実現するための新しいフレームワークfairspを提案する。 まず、FairSPは、ノイズ保護された機密属性を、限られたクリーンな機密属性を利用して修正することを学ぶ。 そして、補正されたデータとクリーンなデータを、デバイアスと予測のために逆さまにモデル化する。 理論解析により,提案モデルが半私的条件下での軽微な仮定の下での公平性を保証することを示す。 実世界のデータセットに関する広範囲な実験結果は,プライバシの下で公正な予測を行い,高い精度を維持するための手法の有効性を実証する。

Machine learning models have demonstrated promising performance in many areas. However, the concerns that they can be biased against specific demographic groups hinder their adoption in high-stake applications. Thus, it is essential to ensure fairness in machine learning models. Most previous efforts require direct access to sensitive attributes for mitigating bias. Nonetheless, it is often infeasible to obtain large-scale users' sensitive attributes considering users' concerns about privacy in the data collection process. Privacy mechanisms such as local differential privacy (LDP) are widely enforced on sensitive information in the data collection stage due to legal compliance and people's increasing awareness of privacy. Therefore, a critical problem is how to make fair predictions under privacy. We study a novel and practical problem of fair classification in a semi-private setting, where most of the sensitive attributes are private and only a small amount of clean ones are available. To this end, we propose a novel framework FairSP that can achieve Fair prediction under the Semi-Private setting. First, FairSP learns to correct the noise-protected sensitive attributes by exploiting the limited clean sensitive attributes. Then, it jointly models the corrected and clean data in an adversarial way for debiasing and prediction. Theoretical analysis shows that the proposed model can ensure fairness under mild assumptions in the semi-private setting. Extensive experimental results on real-world datasets demonstrate the effectiveness of our method for making fair predictions under privacy and maintaining high accuracy.
翻訳日:2023-06-01 02:57:12 公開日:2023-05-29
# 可視化:異常な振る舞いを検出するための透明性手法

Auditing Visualizations: Transparency Methods Struggle to Detect Anomalous Behavior ( http://arxiv.org/abs/2206.13498v2 )

ライセンス: Link先を確認
Jean-Stanislas Denain, Jacob Steinhardt(参考訳) モデルビジュアライゼーションは、出力だけで見逃す可能性のある情報を提供する。 しかし、モデルの視覚化はモデルの振る舞いを反映していると確信できるだろうか? 例えば、植えられたバックドアや過正規化などの異常な行動を診断できるだろうか? 可視化手法を評価するために,異常に訓練されたモデルと正規モデルに対して異なる可視化を割り当てるかどうかを検証した。 既存の手法は極めて異常な振る舞いを持つモデルを検出することができるが、より微妙な異常を特定するのに苦労している。 さらに、スプリアスキューを含む画像など、異常な振る舞いを引き起こす入力を認識するのに失敗することが多い。 これらの結果は、一般的なモデル視覚化の盲点と限界を明らかにしている。 可視化のための新しい評価フレームワークを導入することで、将来的により信頼性の高いモデル透過性手法を開発する方法が整ったのです。

Model visualizations provide information that outputs alone might miss. But can we trust that model visualizations reflect model behavior? For instance, can they diagnose abnormal behavior such as planted backdoors or overregularization? To evaluate visualization methods, we test whether they assign different visualizations to anomalously trained models and normal models. We find that while existing methods can detect models with starkly anomalous behavior, they struggle to identify more subtle anomalies. Moreover, they often fail to recognize the inputs that induce anomalous behavior, e.g. images containing a spurious cue. These results reveal blind spots and limitations of some popular model visualizations. By introducing a novel evaluation framework for visualizations, our work paves the way for developing more reliable model transparency methods in the future.
翻訳日:2023-06-01 02:56:33 公開日:2023-05-29
# 帯域制限関数の一般化におけるNN上のGNNの優位性

Superiority of GNN over NN in generalizing bandlimited functions ( http://arxiv.org/abs/2206.05904v6 )

ライセンス: Link先を確認
A. Martina Neuman, Rongrong Wang and Yuying Xie(参考訳) グラフ情報の統合機能を備えたグラフニューラルネットワーク(GNN)は,データ解析に広く利用されている。 しかし、GNNの表現力はグラフレベルのタスクにのみ研究されているが、ノード分類のようなノードレベルのタスクでは研究されていない。 本稿では, 関数補間問題である, 上記の分類課題に対するgnnの表現力について検討する。 具体的には、GNNが帯域制限関数を$\mathbb{R}^d$で補間するのに必要な重みと層の数を求める。 以上の結果から,GNNアーキテクチャを用いた帯域制限関数の重み付けは,完全連結ニューラルネットワーク(NN)を用いた一般的な帯域制限関数よりもはるかに少ないことが分かる。特に,$O((\log \epsilon^{-1})^{d})$重み付けは,$O((\log \epsilon^{-1})^{d})$サンプルから$\epsilon$-approximateへ,$\mathbb{R}^d$で離散化された帯域制限信号を生成する。 この結果は、gnn構造と古典的なサンプリング定理との関係を描き、我々の研究がこの方向への最初の試みとなるようにすることで得られる。

Graph Neural Network (GNN) with its ability to integrate graph information has been widely used for data analyses. However, the expressive power of GNN has only been studied for graph-level tasks but not for node-level tasks, such as node classification, where one tries to interpolate missing nodal labels from the observed ones. In this paper, we study the expressive power of GNN for the said classification task, which is in essence a function interpolation problem. Explicitly, we derive the number of weights and layers needed for a GNN to interpolate a band-limited function in $\mathbb{R}^d$. Our result shows that, the number of weights needed to $\epsilon$-approximate a bandlimited function using the GNN architecture is much fewer than the best known one using a fully connected neural network (NN) - in particular, one only needs $O((\log \epsilon^{-1})^{d})$ weights using a GNN trained by $O((\log \epsilon^{-1})^{d})$ samples to $\epsilon$-approximate a discretized bandlimited signal in $\mathbb{R}^d$. The result is obtained by drawing a connection between the GNN structure and the classical sampling theorems, making our work the first attempt in this direction.
翻訳日:2023-06-01 02:56:22 公開日:2023-05-29
# pd-morl:選好駆動多目的強化学習アルゴリズム

PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning Algorithm ( http://arxiv.org/abs/2208.07914v3 )

ライセンス: Link先を確認
Toygun Basaklar, Suat Gumussoy, Umit Y. Ogras(参考訳) 多目的強化学習(MORL)アプローチは、優先ベクトルで重み付けされた結合目的関数を最大化することにより、複数の競合する目的を持つ現実世界の多くの問題に対処する。 これらのアプローチは、トレーニング中に指定された選好ベクトルに対応するカスタマイズされたポリシーを見つける。 しかし、設計上の制約と目的は通常、現実のシナリオで動的に変化する。 さらに、潜在的な嗜好ごとにポリシーを保存することはスケーラブルではない。 したがって、1つのトレーニングで所定の領域内の選好空間全体に対するpareto front solutionのセットを得ることは極めて重要である。 そこで本研究では,連続ロボットタスクにスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークを訓練する新しいmorlアルゴリズムを提案する。 提案手法である Preference-Driven MORL (PD-MORL) は、ネットワークパラメータを更新するためのガイダンスとして、好みを利用する。 また、サンプル効率を高めるために新しい並列化アプローチも採用している。 pd-morlは,連続制御タスクに対して最大25%大きなハイパーボリュームを達成し,トレーニング可能なパラメータを従来よりも桁違いに削減できることを示した。

Multi-objective reinforcement learning (MORL) approaches have emerged to tackle many real-world problems with multiple conflicting objectives by maximizing a joint objective function weighted by a preference vector. These approaches find fixed customized policies corresponding to preference vectors specified during training. However, the design constraints and objectives typically change dynamically in real-life scenarios. Furthermore, storing a policy for each potential preference is not scalable. Hence, obtaining a set of Pareto front solutions for the entire preference space in a given domain with a single training is critical. To this end, we propose a novel MORL algorithm that trains a single universal network to cover the entire preference space scalable to continuous robotic tasks. The proposed approach, Preference-Driven MORL (PD-MORL), utilizes the preferences as guidance to update the network parameters. It also employs a novel parallelization approach to increase sample efficiency. We show that PD-MORL achieves up to 25% larger hypervolume for challenging continuous control tasks and uses an order of magnitude fewer trainable parameters compared to prior approaches.
翻訳日:2023-06-01 02:45:07 公開日:2023-05-29
# InfoOT: 最適輸送を最大化する情報

InfoOT: Information Maximizing Optimal Transport ( http://arxiv.org/abs/2210.03164v2 )

ライセンス: Link先を確認
Ching-Yao Chuang, Stefanie Jegelka, David Alvarez-Melis(参考訳) 最適な輸送は、幾何距離など、それらの間の輸送コストを最小限にして、分布をまたいだサンプルを並べる。 しかし、クラスタのようなデータのコヒーレンス構造を無視し、アウトレーヤをうまく扱わず、新しいデータポイントを統合することができない。 これらの欠点に対処するために、幾何距離を最小化しながらドメイン間の相互情報を最大化する最適な輸送の情報理論拡張であるInfoOTを提案する。 結果として得られる目標は(一般化された)最適輸送問題として定式化でき、投影勾配降下によって効率的に解くことができる。 この定式化は、外れ値にロバストな新しい射影法を与え、見当たらないサンプルに一般化する。 InfoOTは、ドメイン適応、クロスドメイン検索、シングルセルアライメントにおけるベンチマーク間のアライメントの質を実証的に改善する。

Optimal transport aligns samples across distributions by minimizing the transportation cost between them, e.g., the geometric distances. Yet, it ignores coherence structure in the data such as clusters, does not handle outliers well, and cannot integrate new data points. To address these drawbacks, we propose InfoOT, an information-theoretic extension of optimal transport that maximizes the mutual information between domains while minimizing geometric distances. The resulting objective can still be formulated as a (generalized) optimal transport problem, and can be efficiently solved by projected gradient descent. This formulation yields a new projection method that is robust to outliers and generalizes to unseen samples. Empirically, InfoOT improves the quality of alignments across benchmarks in domain adaptation, cross-domain retrieval, and single-cell alignment.
翻訳日:2023-06-01 02:37:43 公開日:2023-05-29
# 物理計算と構成性

Physical computation and compositionality ( http://arxiv.org/abs/2210.00392v3 )

ライセンス: Link先を確認
Nima Dehghani, Gianluca Caterina(参考訳) 量子コンピューティングおよび一般的には非標準コンピューティングシステムにおける開発は、物理コンピューティングデバイスとは何かという概念が厳密で健全な枠組みで再キャストされるべきであるという明確な兆候を表している。 物理コンピューティングは、様々な物理デバイスによってどのように情報が処理されるかを理解し、制御することを目的とした、新しい研究のストリームを開いた。 したがって、物理コンピューティングシステムとは何かというより広い概念に適合するために、古典的な定義とフレームワーク全体を適用する必要がある。 近年の研究では、より適切な物理コンピューティングの概念を彫るために使える形式主義が提案されている。 本稿では、カテゴリー理論の基本的な構成を通して、そのような結果を自然な方法で捉える枠組みを提案する。 さらに,本フレームワークでは,物理計算システムの構成的性質が自然に定式化され,その関係性によって一貫性のある構造に整理可能であることを示す。

Developments in quantum computing and, more in general, non-standard computing systems, represent a clear indication that the very notion of what a physical computing device is and does should be recast in a rigorous and sound framework. Physical computing has opened a whole stream of new research aimed to understand and control how information is processed by several types of physical devices. Therefore, classical definitions and entire frameworks need to be adapted in order to fit a broader notion of what physical computing systems really are. Recent studies have proposed a formalism that can be used to carve out a more proper notion of physical computing. In this paper we present a framework which capture such results in a very natural way via some basic constructions in Category Theory. Furthermore, we show that, within our framework, the compositional nature of physical computing systems is naturally formalized, and that it can be organized in coherent structures by the means of their relational nature.
翻訳日:2023-06-01 02:37:28 公開日:2023-05-29
# 大気乱流シーンにおける物体認識

Object recognition in atmospheric turbulence scenes ( http://arxiv.org/abs/2210.14318v2 )

ライセンス: Link先を確認
Disen Hu and Nantheera Anantrasirichai(参考訳) 取得した監視画像に対する大気乱流の影響は、画像の解釈やシーン分析において大きな課題となっている。 このような状況下では、目標分類と追跡に対する従来のアプローチは効果が低い。 深層学習に基づく物体検出手法は, 正常条件下では大きな成功を収めているが, 大気乱流列に直接適用することはできない。 本稿では,乱流環境における物体のタイプを検出し,分類するための歪み特徴を学習する新しいフレームワークを提案する。 具体的には,変形可能な畳み込みを利用して空間乱流の変位を扱う。 特徴ピラミッドネットワークを用いて特徴を抽出し,オブジェクト検出器として高速R-CNNを用いる。 合成VOCデータセットによる実験結果から,提案手法は平均精度(mAP)スコアが30%を超えるベンチマークよりも優れていた。 さらに、実データに対する主観的結果では、性能が著しく向上している。

The influence of atmospheric turbulence on acquired surveillance imagery poses significant challenges in image interpretation and scene analysis. Conventional approaches for target classification and tracking are less effective under such conditions. While deep-learning-based object detection methods have shown great success in normal conditions, they cannot be directly applied to atmospheric turbulence sequences. In this paper, we propose a novel framework that learns distorted features to detect and classify object types in turbulent environments. Specifically, we utilise deformable convolutions to handle spatial turbulent displacement. Features are extracted using a feature pyramid network, and Faster R-CNN is employed as the object detector. Experimental results on a synthetic VOC dataset demonstrate that the proposed framework outperforms the benchmark with a mean Average Precision (mAP) score exceeding 30%. Additionally, subjective results on real data show significant improvement in performance.
翻訳日:2023-06-01 02:26:15 公開日:2023-05-29
# 有限ボソニック状態の積における有限ランク生成単粒子作用素の行列要素の多項式計算複雑性

Polynomial computational complexity of matrix elements of finite-rank-generated single-particle operators in products of finite bosonic states ( http://arxiv.org/abs/2210.11568v2 )

ライセンス: Link先を確認
Dmitri A. Ivanov(参考訳) A$ が有限ランク行列である行列の永久性を計算するには、行列サイズで多くの演算多項式を必要とすることが知られている。 制限された量子計算のボソンサンプリングの提案に動機づけられ、この結果は行列の永続性の一般化に拡張される: 有界なボソン数を持つ多数の同一ボソン状態の積における期待値。 この結果は、ボソンサンプリングと関連するセットアップにおける計算複雑性に関する初期の研究を補完する。 ガウス平均化に基づく提案手法はボゾン系やフェルミオン系にも等しく適用可能である。 これにより、同じ問題のフェルミオンバージョンに対する初期の多項式複雑性の推定も改善できます。

It is known that computing the permanent of the matrix $1+A$, where $A$ is a finite-rank matrix, requires a number of operations polynomial in the matrix size. Motivated by the boson-sampling proposal of restricted quantum computation, I extend this result to a generalization of the matrix permanent: an expectation value in a product of a large number of identical bosonic states with a bounded number of bosons. This result complements earlier studies on the computational complexity in boson sampling and related setups. The proposed technique based on the Gaussian averaging is equally applicable to bosonic and fermionic systems. This also allows us to improve an earlier polynomial complexity estimate for the fermionic version of the same problem.
翻訳日:2023-06-01 02:25:45 公開日:2023-05-29
# 高速なブラックボックス変分推定のためのデュアル制御変分法

Dual control variate for faster black-box variational inference ( http://arxiv.org/abs/2210.07290v2 )

ライセンス: Link先を確認
Xi Wang, Tomas Geffner, Justin Domke(参考訳) ブラックボックス変分推論はベイジアン後部推論の広く使われている枠組みであるが、場合によっては勾配推定のばらつきが高く、精度と効率を損なう。 このばらつきは、データサブサンプリングとモンテカルロサンプリングの2つのランダム性源から生じる。 既存の制御変数はモンテカルロノイズのみに対応し,インクリメンタル勾配法はデータサブサンプリングのみを扱うのが一般的であるのに対し,両音源からのばらつきを協調的に低減できる新しい「二重」制御変数を提案する。 実世界のいくつかのアプリケーションにおいて、分散の低減と最適化の改善につながることを確認した。

Black-box variational inference is a widely-used framework for Bayesian posterior inference, but in some cases suffers from high variance in gradient estimates, harming accuracy and efficiency. This variance comes from two sources of randomness: Data subsampling and Monte Carlo sampling. Whereas existing control variates only address Monte Carlo noise and incremental gradient methods typically only address data subsampling, we propose a new "dual" control variate capable of jointly reducing variance from both sources of noise. We confirm that this leads to reduced variance and improved optimization in several real-world applications.
翻訳日:2023-06-01 02:25:32 公開日:2023-05-29
# 矛盾の利用は質問応答システムを改善する

Using contradictions improves question answering systems ( http://arxiv.org/abs/2211.05598v2 )

ライセンス: Link先を確認
\'Etienne Fortier-Dubois and Domenic Rosati(参考訳) 本研究は,自然言語推論(NLI)における質問応答(QA)の矛盾について検討する。 通常、NLIシステムは、潜在的な答えが何らかの背景コンテキストで \emph{entailed} (サポート) であるかどうかを決定することで、質問に答えるのに役立つ。 しかし、答えが文脈に矛盾するかどうかを判断するのも有用だろうか? 我々は、複数の選択と抽出されたQAの2つの設定でこれをテストし、矛盾を組み込んだシステムは、特定のデータセット上のエンテーメントのみのシステムよりもわずかに優れていることを発見した。 しかしながら、最高のパフォーマンスは矛盾、エンタテインメント、QAモデルの信頼性スコアを一緒に使うことから得られます。 これは、安全が問題となる医学や科学などの分野におけるQAシステムの展開に影響を及ぼす。

This work examines the use of contradiction in natural language inference (NLI) for question answering (QA). Typically, NLI systems help answer questions by determining if a potential answer is \emph{entailed} (supported) by some background context. But is it useful to also determine if an answer contradicts the context? We test this in two settings, multiple choice and extractive QA, and find that systems that incorporate contradiction can do slightly better than entailment-only systems on certain datasets. However, the best performances come from using contradiction, entailment, and QA model confidence scores together. This has implications for the deployment of QA systems in domains such as medicine and science where safety is an issue.
翻訳日:2023-06-01 02:17:29 公開日:2023-05-29
# lamassu:ニューラルトランスデューサを用いたストリーミング言語非依存多言語音声認識と翻訳モデル

LAMASSU: A Streaming Language-Agnostic Multilingual Speech Recognition and Translation Model Using Neural Transducers ( http://arxiv.org/abs/2211.02809v2 )

ライセンス: Link先を確認
Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li(参考訳) 自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。 したがって、両方のタスクを実行するために単一のトランスデューサモデルを使用することができる。 現実のアプリケーションでは、asrとstのジョイントモデルがストリーミングである必要があり、ソース言語識別(すなわち言語に依存しない)を必要としない。 本稿では,ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。 トランスデューサモデル構造に基づき,多言語出力のための統合結合予測ネットワーク,クラスタ化された多言語エンコーダ,エンコーダのターゲット言語識別,コネクショニスト時間分類規則化という4つの手法を提案する。 実験の結果,lamassuはモデルサイズを大幅に削減するだけでなく,単言語asrおよび両言語stモデルの性能も向上した。

Automatic speech recognition (ASR) and speech translation (ST) can both use neural transducers as the model structure. It is thus possible to use a single transducer model to perform both tasks. In real-world applications, such joint ASR and ST models may need to be streaming and do not require source language identification (i.e. language-agnostic). In this paper, we propose LAMASSU, a streaming language-agnostic multilingual speech recognition and translation model using neural transducers. Based on the transducer model structure, we propose four methods, a unified joint and prediction network for multilingual output, a clustered multilingual encoder, target language identification for encoder, and connectionist temporal classification regularization. Experimental results show that LAMASSU not only drastically reduces the model size but also reaches the performances of monolingual ASR and bilingual ST models.
翻訳日:2023-06-01 02:17:17 公開日:2023-05-29
# 視覚トランスフォーマーのためのデータレベル抽選券仮説

Data Level Lottery Ticket Hypothesis for Vision Transformers ( http://arxiv.org/abs/2211.01484v3 )

ライセンス: Link先を確認
Xuan Shen, Zhenglun Kong, Minghai Qin, Peiyan Dong, Geng Yuan, Xin Meng, Hao Tang, Xiaolong Ma, Yanzhi Wang(参考訳) 従来の抽選切符仮説(LTH)は、密集ニューラルネットワーク内にスパースサブネットワークが存在し、入賞切符と呼ばれる適切なランダム初期化法が存在し、それは密集切符と同程度にゼロからトレーニングすることができると主張している。 一方、視覚変換器(ViT)におけるLTHの研究はほとんど評価されていない。 本稿では,従来の方式ではvitの重量レベルでは従来の当選券を見つけることが困難であることを示す。 次に、VTの入力依存性にインスパイアされた画像パッチからなるデータを入力するために、VTのLTHを一般化する。 すなわち、入力イメージパッチのサブセットが存在し、このパッチのサブセットだけを使用して、ViTをゼロからトレーニングし、すべてのイメージパッチを使用してトレーニングされたViTと同様の精度を達成することができる。 我々は、このサブセットを、入力データのかなりの量の情報を表す、エムの入賞チケットにパッチを当てる。 チケットセレクタを用いて,DeiT,LV-ViT,Swin Transformerなど,様々な種類のViTのパッチ情報に基づいて,入賞券を生成する。 実験の結果, 入賞券で学習したモデルの性能とランダムに選択された部分集合との間には明らかな差が認められ, 提案する理論が検証された。 提案するデータ-LTH-ViTと従来のLTHの類似性について詳しく検討し,理論の完全性をさらに検証した。 ソースコードはhttps://github.com/shawnricecake/vit-lottery-ticket-inputで入手できる。

The conventional lottery ticket hypothesis (LTH) claims that there exists a sparse subnetwork within a dense neural network and a proper random initialization method called the winning ticket, such that it can be trained from scratch to almost as good as the dense counterpart. Meanwhile, the research of LTH in vision transformers (ViTs) is scarcely evaluated. In this paper, we first show that the conventional winning ticket is hard to find at the weight level of ViTs by existing methods. Then, we generalize the LTH for ViTs to input data consisting of image patches inspired by the input dependence of ViTs. That is, there exists a subset of input image patches such that a ViT can be trained from scratch by using only this subset of patches and achieve similar accuracy to the ViTs trained by using all image patches. We call this subset of input patches the em winning tickets, which represent a significant amount of information in the input data. We use a ticket selector to generate the winning tickets based on the informativeness of patches for various types of ViT, including DeiT, LV-ViT, and Swin Transformers. The experiments show that there is a clear difference between the performance of models trained with winning tickets and randomly selected subsets, which verifies our proposed theory. We elaborate on the analogical similarity between our proposed Data-LTH-ViTs and the conventional LTH to further verify the integrity of our theory. The Source codes are available at https://github.com/shawnricecake/vit-lottery-ticket-input.
翻訳日:2023-06-01 02:16:22 公開日:2023-05-29
# 連続コントラストファインタニングによる低リソース関係抽出

Continual Contrastive Finetuning Improves Low-Resource Relation Extraction ( http://arxiv.org/abs/2212.10823v2 )

ライセンス: Link先を確認
Wenxuan Zhou, Sheng Zhang, Tristan Naumann, Muhao Chen, Hoifung Poon(参考訳) モデルトレーニングのための構造的アノテーション付きコーパスに依存した関係抽出(RE)は、低リソースシナリオやドメインでは特に困難である。 近年の文献では、自己教師型学習による低リソースREに取り組み、REベースの目的によるエンティティペアの埋め込みの事前訓練や、分類ベースの目的によるラベル付きデータへの微調整などが行われている。 しかし、このアプローチにおける重要な課題は目的のギャップであり、REモデルは事前訓練された表現における知識を完全に活用できない。 本稿では,このギャップを埋めることを目指して,コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。 この種の表現学習パラダイムでは、ある関係は表現空間において容易に複数のクラスタを形成することができるため、一つの関係が複数のクラスタを形成して事前学習と整合する多中心コントラスト損失も提案する。 文書レベルのREデータセットであるBioREDとRe-DocREDの実験により,本手法の有効性が示された。 特に、1%のエンドタスクトレーニングデータを使用する場合、2つのデータセットで PLM ベースの RE 分類器を 10.5% と 6.1% で上回ります。

Relation extraction (RE), which has relied on structurally annotated corpora for model training, has been particularly challenging in low-resource scenarios and domains. Recent literature has tackled low-resource RE by self-supervised learning, where the solution involves pretraining the entity pair embedding by RE-based objective and finetuning on labeled data by classification-based objective. However, a critical challenge to this approach is the gap in objectives, which prevents the RE model from fully utilizing the knowledge in pretrained representations. In this paper, we aim at bridging the gap and propose to pretrain and finetune the RE model using consistent objectives of contrastive learning. Since in this kind of representation learning paradigm, one relation may easily form multiple clusters in the representation space, we further propose a multi-center contrastive loss that allows one relation to form multiple clusters to better align with pretraining. Experiments on two document-level RE datasets, BioRED and Re-DocRED, demonstrate the effectiveness of our method. Particularly, when using 1% end-task training data, our method outperforms PLM-based RE classifier by 10.5% and 6.1% on the two datasets, respectively.
翻訳日:2023-06-01 02:09:33 公開日:2023-05-29
# 4D ASR: CTC, Attention, Transducer, Mask-Predict Decoderの合同モデリング

4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decoders ( http://arxiv.org/abs/2212.10818v2 )

ライセンス: Link先を確認
Yui Sudo, Muhammad Shakeel, Brian Yan, Jiatong Shi, Shinji Watanabe(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)のネットワークアーキテクチャは、コネクショニスト時間分類(CTC)、リカレントニューラルネットワークトランスデューサ(RNN-T)、注意機構、非自己回帰マスク予測モデルなど、いくつかのモデルに分類される。 これらのネットワークアーキテクチャのそれぞれに長所と短所があるため、典型的なユースケースはアプリケーション要件に応じてこれらの別々のモデルを切り替えることであり、結果としてすべてのモデルを維持するオーバーヘッドが増加する。 オーバヘッド問題を解決するために2つの補完モデルを統合するいくつかの方法が提案されているが、より多くのモデルを統合すると、これらの補完モデルからさらに恩恵を受け、単一のシステムでより広範なアプリケーションを実現する。 本稿では,CTC,アテンション,RNN-T,マスク予測の4デコーダ共同モデリング(4D)を提案する。 1) 4つのデコーダは、アプリケーションシナリオに応じて容易に切り替えられるように、共同でトレーニングされる。 2) 連立訓練はモデル正規化をもたらし, 相補的な特性によりモデルロバスト性を向上させる。 3) CTC, attention, RNN-Tを用いた新しいワンパス共同復号法により, 性能が向上する。 実験の結果,提案したモデルが一貫してWERを減少させることがわかった。

The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.
翻訳日:2023-06-01 02:09:10 公開日:2023-05-29
# ORCA:アラビア語理解のためのベンチマーク

ORCA: A Challenging Benchmark for Arabic Language Understanding ( http://arxiv.org/abs/2212.10758v2 )

ライセンス: Link先を確認
AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) すべてのNLPにおいて重要な役割を担っているため、事前訓練された言語モデルを評価するためにいくつかのベンチマークが提案されている。 これらの努力にもかかわらず、アラビア語の評価のための様々な性質の公開ベンチマークは現存していない。 これにより、アラビア語と多言語の両方の言語モデルの進歩を測定することが困難になる。 この課題は、アラビア語を対象とするベンチマークは、アラビア語が単一の言語ではなく、言語や品種の集合であるという事実を考慮する必要があるという事実によって複雑化している。 本研究では,アラビア語理解評価のためのベンチマークであるORCAを紹介する。 ORCAは、7つのNLUタスククラスタにわたる60の異なるデータセットを活用する、さまざまなアラビアの多様性と幅広いアラビア理解タスクをカバーするために、慎重に構築されている。 アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。 また、将来の研究を促進するために、統一された単数評価基準(ORCAスコア)を備えた公開リーダーボードも提供する。

Due to their crucial role in all NLP, several benchmarks have been proposed to evaluate pretrained language models. In spite of these efforts, no public benchmark of diverse nature currently exists for evaluation of Arabic. This makes it challenging to measure progress for both Arabic and multilingual language models. This challenge is compounded by the fact that any benchmark targeting Arabic needs to take into account the fact that Arabic is not a single language but rather a collection of languages and varieties. In this work, we introduce ORCA, a publicly available benchmark for Arabic language understanding evaluation. ORCA is carefully constructed to cover diverse Arabic varieties and a wide range of challenging Arabic understanding tasks exploiting 60 different datasets across seven NLU task clusters. To measure current progress in Arabic NLU, we use ORCA to offer a comprehensive comparison between 18 multilingual and Arabic language models. We also provide a public leaderboard with a unified single-number evaluation metric (ORCA score) to facilitate future research.
翻訳日:2023-06-01 02:08:47 公開日:2023-05-29
# 生成対向ネットワークを利用した現実的な走査型電子顕微鏡画像の作成

Leveraging generative adversarial networks to create realistic scanning transmission electron microscopy images ( http://arxiv.org/abs/2301.07743v2 )

ライセンス: Link先を確認
Abid Khan, Chia-Hao Lee, Pinshane Y. Huang, and Bryan K. Clark(参考訳) 電子顕微鏡における自動化と機械学習(ML)の台頭は、自律的なデータ収集と処理を通じて材料研究に革命をもたらす可能性がある。 重要な課題は、様々な実験条件下で大規模データセットに迅速に一般化するMLモデルを開発することである。 本稿では,現実的な空間周波数情報を用いてシミュレーションデータを増強する相互空間判別器を備えたサイクル生成逆数ネットワーク(CycleGAN)を用いてこの問題に対処する。 これにより、CycleGANは実際のデータとほぼ区別できないイメージを生成し、MLアプリケーション用のラベルを提供することができる。 収差補正走査透過電子顕微鏡(stem)による自動取得により収集した450万個の原子データセットにおいて,完全畳み込みネットワーク(fcn)を訓練し,単一原子欠陥を同定する手法を示す。 本手法は,実験変数を最小限の介入で動的に変化させるように適応可能なfcnsを生成し,顕微鏡ビッグデータの完全自律利用に向けた重要なステップである。

The rise of automation and machine learning (ML) in electron microscopy has the potential to revolutionize materials research through autonomous data collection and processing. A significant challenge lies in developing ML models that rapidly generalize to large data sets under varying experimental conditions. We address this by employing a cycle generative adversarial network (CycleGAN) with a reciprocal space discriminator, which augments simulated data with realistic spatial frequency information. This allows the CycleGAN to generate images nearly indistinguishable from real data and provide labels for ML applications. We showcase our approach by training a fully convolutional network (FCN) to identify single atom defects in a 4.5 million atom data set, collected using automated acquisition in an aberration-corrected scanning transmission electron microscope (STEM). Our method produces adaptable FCNs that can adjust to dynamically changing experimental variables with minimal intervention, marking a crucial step towards fully autonomous harnessing of microscopy big data.
翻訳日:2023-06-01 01:59:45 公開日:2023-05-29
# hyperreel:レイコンサンプリング付き高忠実度6dofビデオ

HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling ( http://arxiv.org/abs/2301.02238v2 )

ライセンス: Link先を確認
Benjamin Attal, Jia-Bin Huang, Christian Richardt, Michael Zollhoefer, Johannes Kopf, Matthew O'Toole, Changil Kim(参考訳) ボリュームシーン表現は静的シーンのフォトリアリスティックなビュー合成を可能にし、既存の6-DoFビデオ技術の基礎を形成する。 しかし、これらの表現を駆動するボリュームレンダリング手順は、品質、レンダリング速度、メモリ効率に関して慎重なトレードオフを必要とする。 特に、既存のメソッドは、リアルタイムパフォーマンス、小さなメモリフットプリント、現実世界のシーンに挑戦するための高品質なレンダリングを同時に達成することができない。 これらの問題に対処するために,新しい6-DoFビデオ表現HyperReelを提案する。 ハイパーリールの2つのコアコンポーネントは、(1)高精細で高フレームレートのレンダリングを可能にするレイコンディショニングされたサンプル予測ネットワーク、(2)コンパクトでメモリ効率の良い動的ボリューム表現である。 私たちの6dofビデオパイプラインは、小さなメモリ要件による視覚品質の面では、以前のものよりも優れたパフォーマンスを実現していますが、カスタムcudaコードなしでは最大18フレーム/秒のメガピクセル解像度でレンダリングできます。

Volumetric scene representations enable photorealistic view synthesis for static scenes and form the basis of several existing 6-DoF video techniques. However, the volume rendering procedures that drive these representations necessitate careful trade-offs in terms of quality, rendering speed, and memory efficiency. In particular, existing methods fail to simultaneously achieve real-time performance, small memory footprint, and high-quality rendering for challenging real-world scenes. To address these issues, we present HyperReel -- a novel 6-DoF video representation. The two core components of HyperReel are: (1) a ray-conditioned sample prediction network that enables high-fidelity, high frame rate rendering at high resolutions and (2) a compact and memory-efficient dynamic volume representation. Our 6-DoF video pipeline achieves the best performance compared to prior and contemporary approaches in terms of visual quality with small memory requirements, while also rendering at up to 18 frames-per-second at megapixel resolution without any custom CUDA code.
翻訳日:2023-06-01 01:58:48 公開日:2023-05-29
# CD-GraB: 加速トレーニングのための分散サンプルオーダーの調整

CD-GraB: Coordinating Distributed Example Orders for Provably Accelerated Training ( http://arxiv.org/abs/2302.00845v3 )

ライセンス: Link先を確認
A. Feder Cooper, Wentao Guo, Khiem Pham, Tiancheng Yuan, Charlie F. Ruan, Yucheng Lu, Christopher De Sa(参考訳) オンライングラディエント・バランシング(GraB)に関する最近の研究は、ランダム・リシャッフル(RR)に勝ることを保証する置換に基づく例順が存在することを明らかにした。 RRはトレーニングの例を任意に置換するが、GraBは以前のエポックから古い勾配を利用してサンプルを順序付けする。 しかし、GraBは設計によって制限されている: 集中型データのトレーニングをスケールアップする印象的な能力を示しているが、現代の分散MLワークロードに自然に拡張するわけではない。 そこで本研究では,カーネルの薄型化に関する先行研究から得られた知見をもとに,分散設定への変換を高速化するCoordinated Distributed GraB(CD-GraB)を提案する。 無視可能なオーバーヘッドでは、CD-GraBは集中型GraBよりも収束率の線形高速化を示し、様々なベンチマークタスクで分散RRを含むベースラインを経験的に上回る。

Recent research on online Gradient Balancing (GraB) has revealed that there exist permutation-based example orderings that are guaranteed to outperform random reshuffling (RR). Whereas RR arbitrarily permutes training examples, GraB leverages stale gradients from prior epochs to order examples -- achieving a provably faster convergence rate than RR. However, GraB is limited by design: While it demonstrates an impressive ability to scale-up training on centralized data, it does not naturally extend to modern distributed ML workloads. We therefore propose Coordinated Distributed GraB (CD-GraB), which uses insights from prior work on kernel thinning to translate the benefits of provably faster permutation-based example ordering to distributed settings. With negligible overhead, CD-GraB exhibits a linear speedup in convergence rate over centralized GraB and outperforms baselines empirically, including distributed RR, on a variety of benchmark tasks.
翻訳日:2023-06-01 01:49:37 公開日:2023-05-29
# 準modoを用いたシンボリック量子シミュレーション

Symbolic Quantum Simulation with Quasimodo ( http://arxiv.org/abs/2302.04349v2 )

ライセンス: Link先を確認
Meghana Sistla, Swarat Chaudhuri, Thomas Reps(参考訳) 古典的コンピュータ上の量子回路のシミュレーションは、量子コンピューティングにおいて重要な問題である。 このようなシミュレーションは、非常に大きな基底ベクトルの集合上の分布の表現を必要としており、最近の研究は、この目的のためにバイナリ決定図(BDD)のような象徴的なデータ構造を用いてきた。 本稿では,量子回路のシンボリックシミュレーションのための拡張可能なオープンソースのpythonライブラリであるsimusmodoを提案する。 Quasimodoは他のバックエンドに簡単に拡張できるように設計されている。 Quasimodoは量子回路のシミュレーション、量子回路の出力特性のチェック、量子回路のデバッグを可能にする。 また、ユーザはいくつかのシンボリックなデータ構造 – 非重み付けと重み付けのBDD – と、最近のContext-Free-Language Ordered Binary Decision Diagram (CFLOBDDs)と呼ばれる構造 – の中から選択でき、他のシンボリックなデータ構造をサポートするように簡単に拡張できる。

The simulation of quantum circuits on classical computers is an important problem in quantum computing. Such simulation requires representations of distributions over very large sets of basis vectors, and recent work has used symbolic data-structures such as Binary Decision Diagrams (BDDs) for this purpose. In this tool paper, we present Quasimodo, an extensible, open-source Python library for symbolic simulation of quantum circuits. Quasimodo is specifically designed for easy extensibility to other backends. Quasimodo allows simulations of quantum circuits, checking properties of the outputs of quantum circuits, and debugging quantum circuits. It also allows the user to choose from among several symbolic data-structures -- both unweighted and weighted BDDs, and a recent structure called Context-Free-Language Ordered Binary Decision Diagrams (CFLOBDDs) -- and can be easily extended to support other symbolic data-structures.
翻訳日:2023-06-01 01:40:27 公開日:2023-05-29
# テキストOOD検出のための教師なしレイヤワイズスコアアグリゲーション

Unsupervised Layer-wise Score Aggregation for Textual OOD Detection ( http://arxiv.org/abs/2302.09852v2 )

ライセンス: Link先を確認
Maxime Darrin, Guillaume Staerman, Eduardo Dadalto C\^amara Gomes, Jackie CK Cheung, Pablo Piantanida, Pierre Colombo(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、AIベースのシステムの増加によって、新たな堅牢性とセキュリティ要件によって急速に成長する分野である。 既存のOODテキスト検出器は、しばしばエンコーダの最後の層の埋め込み出力に計算された異常スコア(例えば、マハラノビス距離)に依存する。 本研究では,OOD検出性能がタスクやレイヤの出力によって大きく異なることを観察する。 さらに重要なことは、通常の選択(最後のレイヤ)がOOD検出に最適であることは滅多になく、最高のレイヤを選択したらはるかに良い結果が得られます。 そこで本研究では,データ駆動型非教師なし手法を提案する。 さらに,より現実的な設定を反映するクラス数(最大77まで)の分類タスクを含めることで,古典的テキスト型oodベンチマークを拡張する。 本ベンチマークでは,提案手法が手動の特徴選択を完全に除去しつつ,頑健で一貫した結果が得られることを示す。 彼らのパフォーマンスはoracleの最高のレイヤパフォーマンスに近い。

Out-of-distribution (OOD) detection is a rapidly growing field due to new robustness and security requirements driven by an increased number of AI-based systems. Existing OOD textual detectors often rely on an anomaly score (e.g., Mahalanobis distance) computed on the embedding output of the last layer of the encoder. In this work, we observe that OOD detection performance varies greatly depending on the task and layer output. More importantly, we show that the usual choice (the last layer) is rarely the best one for OOD detection and that far better results could be achieved if the best layer were picked. To leverage this observation, we propose a data-driven, unsupervised method to combine layer-wise anomaly scores. In addition, we extend classical textual OOD benchmarks by including classification tasks with a greater number of classes (up to 77), which reflects more realistic settings. On this augmented benchmark, we show that the proposed post-aggregation methods achieve robust and consistent results while removing manual feature selection altogether. Their performance achieves near oracle's best layer performance.
翻訳日:2023-06-01 01:29:06 公開日:2023-05-29
# 特徴度スコア:標本を用いた生成モデルの一般化評価

Feature Likelihood Score: Evaluating Generalization of Generative Models Using Samples ( http://arxiv.org/abs/2302.04440v2 )

ライセンス: Link先を確認
Marco Jiralerspong, Avishek Joey Bose, Ian Gemp, Chongli Qin, Yoram Bachrach, Gauthier Gidel(参考訳) ここ数年、高次元、複雑、フォトリアリスティックなデータを生成できる深層生成モデルの開発が目覚ましい進歩を遂げてきた。 しかし、これらのモデルを評価する現在の方法は不完全である: 標準的確率ベースメトリクスは必ずしも適用されておらず、知覚的忠実度とほとんど相関しないが、fidのようなサンプルベースメトリクスは過剰フィッティング、すなわちトレーニングセットを超えて一般化できないことに敏感である。 これらの限界に対処するために,密度推定を用いたパラメトリック・サンプルベーススコアであるfeature likelihood score(fls)という新しい指標を提案し,新しさ(すなわち,トレーニングサンプルとは異なる),忠実度,生成サンプルの多様性を考慮した包括的トライコトミック評価を提供する。 我々は,以前提案していたメトリクスが失敗した場合に,特定のオーバーフィッティング問題をflsが特定できることを実証的に実証する。 また,様々な画像データセットとモデルクラスのflsを広範囲に評価し,fidのような過去の指標の直観とマッチする能力を示し,生成モデルのより包括的評価を提供する。

The past few years have seen impressive progress in the development of deep generative models capable of producing high-dimensional, complex, and photo-realistic data. However, current methods for evaluating such models remain incomplete: standard likelihood-based metrics do not always apply and rarely correlate with perceptual fidelity, while sample-based metrics, such as FID, are insensitive to overfitting, i.e., inability to generalize beyond the training set. To address these limitations, we propose a new metric called the Feature Likelihood Score (FLS), a parametric sample-based score that uses density estimation to provide a comprehensive trichotomic evaluation accounting for novelty (i.e., different from the training samples), fidelity, and diversity of generated samples. We empirically demonstrate the ability of FLS to identify specific overfitting problem cases, where previously proposed metrics fail. We also extensively evaluate FLS on various image datasets and model classes, demonstrating its ability to match intuitions of previous metrics like FID while offering a more comprehensive evaluation of generative models.
翻訳日:2023-06-01 01:27:22 公開日:2023-05-29
# 建設番号:グラフの作り方?

Construction numbers: How to build a graph? ( http://arxiv.org/abs/2302.13186v2 )

ライセンス: Link先を確認
Paul C. Kainen(参考訳) 部分順序の線型拡大の数を数えることは、約50年前にスタンレーによって検討された。 包含によって決定されるグラフの頂点と辺の部分順序について、各辺がその両端に従うように、グラフに対してそのような線型拡張 {\it construction sequences} を呼ぶ。 経路、周期、星、二重星、完全なグラフに対するそのような配列の数が見つかる。 経路については、スタンレー(タンジェント数)に同意し、他のクラスの公式を得る。 構造や応用も研究されている。

Counting the number of linear extensions of a partial order was considered by Stanley about 50 years ago. For the partial order on the vertices and edges of a graph determined by inclusion, we call such linear extensions {\it construction sequences} for the graph as each edge follows both of its endpoints. The number of such sequences for paths, cycles, stars, double-stars, and complete graphs is found. For paths, we agree with Stanley (the Tangent numbers) and get formulas for the other classes. Structure and applications are also studied.
翻訳日:2023-06-01 01:18:40 公開日:2023-05-29
# グラフ信号の最適回復について

On the Optimal Recovery of Graph Signals ( http://arxiv.org/abs/2304.00474v2 )

ライセンス: Link先を確認
Simon Foucart, Chunyang Liao, Nate Veldt(参考訳) 部分的に観測されたデータからスムーズなグラフ信号を学ぶことは、グラフベースの機械学習においてよく研究される課題である。 この課題は、学習すべき関数のモデル仮定に結びついた最悪のケースの視点を採用する観測データから関数を学習するための数学的枠組みである最適回復の観点から考察する。 最適回復文献における初期の研究は、正規化対象の最小化は、一般的な問題のクラスに対する最適解を生成するが、正規化パラメータを完全には特定しないことを示した。 我々の主な貢献は、特にグラフ信号処理の問題に対して、最適またはほぼ最適(設定に依存する)な正規化パラメータを計算する方法を提供する。 本結果は,グラフに基づく学習における古典的最適化手法の新しい解釈と,ハイパーパラメータ選択のための新たな洞察を提供する。 半合成グラフ信号処理データセットの数値実験における本手法の可能性について述べる。

Learning a smooth graph signal from partially observed data is a well-studied task in graph-based machine learning. We consider this task from the perspective of optimal recovery, a mathematical framework for learning a function from observational data that adopts a worst-case perspective tied to model assumptions on the function to be learned. Earlier work in the optimal recovery literature has shown that minimizing a regularized objective produces optimal solutions for a general class of problems, but did not fully identify the regularization parameter. Our main contribution provides a way to compute regularization parameters that are optimal or near-optimal (depending on the setting), specifically for graph signal processing problems. Our results offer a new interpretation for classical optimization techniques in graph-based learning and also come with new insights for hyperparameter selection. We illustrate the potential of our methods in numerical experiments on several semi-synthetic graph signal processing datasets.
翻訳日:2023-06-01 01:10:31 公開日:2023-05-29
# rn-net: 貯水池ノードを有効とするニューロモルフィック視覚センシングネットワーク

RN-Net: Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network ( http://arxiv.org/abs/2303.10770v3 )

ライセンス: Link先を確認
Sangmin Yoo, Eric Yeu-Jer Lee, Ziyu Wang, Xinxin Wang, Wei D. Lu(参考訳) イベントベースのカメラは、生物学的視覚システムのスパースかつ非同期なスパイク表現にインスパイアされている。 しかし、イベントデータを処理するには、高価な機能記述子を使用してスパイクをフレームに変換するか、トレーニングに高価なスパイクニューラルネットワークを使用するかが必要になる。 本研究では,局所的および大域的時空間的特徴検出のための動的テンポラリエンコードストレージと統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャであるReservoir Nodes対応ニューロモルフィック・ビジョンセンシングネットワーク(RN-Net)を提案する。 RN-Netは非同期の時間的特徴の効率的な処理を可能にし、現在報告されているDVS128 Gestureの99.2%の最高精度と、より小さなネットワークサイズでDVS Lipデータセットの67.5%の最高精度の1つを達成する。 内部装置と回路のダイナミクスを活用することで、プリプロセッシングや専用メモリや演算ユニットなしで、非常に低いハードウェアコストで非同期の時間的特徴エンコーディングを実現することができる。 単純なDNNブロックと標準バックプロパゲーションベースのトレーニングルールを使用することで、実装コストをさらに削減できる。

Event-based cameras are inspired by the sparse and asynchronous spike representation of the biological visual system. However, processing the event data requires either using expensive feature descriptors to transform spikes into frames, or using spiking neural networks that are expensive to train. In this work, we propose a neural network architecture, Reservoir Nodes-enabled neuromorphic vision sensing Network (RN-Net), based on simple convolution layers integrated with dynamic temporal encoding reservoirs for local and global spatiotemporal feature detection with low hardware and training costs. The RN-Net allows efficient processing of asynchronous temporal features, and achieves the highest accuracy of 99.2% for DVS128 Gesture reported to date, and one of the highest accuracy of 67.5% for DVS Lip dataset at a much smaller network size. By leveraging the internal device and circuit dynamics, asynchronous temporal feature encoding can be implemented at very low hardware cost without preprocessing and dedicated memory and arithmetic units. The use of simple DNN blocks and standard backpropagation-based training rules further reduces implementation costs.
翻訳日:2023-06-01 01:08:21 公開日:2023-05-29
# GPT-4はニューラルネットワーク検索を実現できるか?

Can GPT-4 Perform Neural Architecture Search? ( http://arxiv.org/abs/2304.10970v3 )

ライセンス: Link先を確認
Mingkai Zheng, Xiu Su, Shan You, Fei Wang, Chen Qian, Chang Xu, Samuel Albanie(参考訳) gpt-4~\cite{gpt4}のニューラルネットワーク探索(nas)を行う可能性について検討した。 提案手法である \textbf{g}pt-4 \textbf{e}nhanced \textbf{n}eural arch\textbf{i}tect\textbf{u}re \textbf{s}earch (genius) では,gpt-4 の生成能力をブラックボックスオプティマイザとして活用し,アーキテクチャ探索空間をすばやくナビゲートし,有望な候補をピンポイントし,これらの候補を反復的に洗練してパフォーマンスを向上させる。 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。 最先端のパフォーマンスを目標とするのではなく、比較的限定的なドメイン専門知識を必要とする単純なプロンプトスキームを通じて、gpt-4の技術的問題の研究を支援する可能性を強調します。 }. より広範に、我々の予備的な結果は、多種多様な最適化タスクに汎用言語モデルを活用する将来の研究を指すと信じている。 また、研究における重要な制限を強調し、AIの安全性に影響を及ぼす点にも注目します。

We investigate the potential of GPT-4~\cite{gpt4} to perform Neural Architecture Search (NAS) -- the task of designing effective neural architectures. Our proposed approach, \textbf{G}PT-4 \textbf{E}nhanced \textbf{N}eural arch\textbf{I}tect\textbf{U}re \textbf{S}earch (GENIUS), leverages the generative capabilities of GPT-4 as a black-box optimiser to quickly navigate the architecture search space, pinpoint promising candidates, and iteratively refine these candidates to improve performance. We assess GENIUS across several benchmarks, comparing it with existing state-of-the-art NAS techniques to illustrate its effectiveness. Rather than targeting state-of-the-art performance, our objective is to highlight GPT-4's potential to assist research on a challenging technical problem through a simple prompting scheme that requires relatively limited domain expertise\footnote{Code available at \href{https://github.com/mingkai-zheng/GENIUS}{https://github.com/mingkai-zheng/GENIUS}.}. More broadly, we believe our preliminary results point to future research that harnesses general purpose language models for diverse optimisation tasks. We also highlight important limitations to our study, and note implications for AI safety.
翻訳日:2023-06-01 01:01:39 公開日:2023-05-29
# トークンと期間の同時予測による効率の良いシーケンス変換

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations ( http://arxiv.org/abs/2304.06795v2 )

ライセンス: Link先を確認
Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe, Boris Ginsburg(参考訳) 本稿では,シーケンス・ツー・シーケンスタスクのための新しいToken-and-Duration Transducer (TDT)アーキテクチャを提案する。 TDTは従来のRNN-Transducerアーキテクチャを拡張し、トークンとその期間、すなわち出力されたトークンでカバーされる入力フレームの数の両方を共同で予測する。 これは、2つの出力を独立に正規化してトークンと期間の分布を生成するジョイントネットワークを使用することで達成される。 推論中、TDTモデルは予測期間出力によって導かれる入力フレームをスキップすることができるため、エンコーダ出力フレームをフレーム単位で処理する従来のトランスデューサよりも大幅に高速である。 TDTモデルは、従来のトランスデューサよりも精度が高く、推論もかなり高速である。 音声認識のためのTDTモデルは従来のトランスデューサよりも2.82倍高速な推論を実現する。 TDTモデルは、従来のトランスデューサと比較してMUST-Cテストで1 BLEU以上の絶対ゲインを達成し、推論は2.27倍高速である。 Speech Intent ClassificationとSlot Fillingタスクでは、TDTモデルは従来のトランスデューサよりも最大1%(絶対)精度を向上し、最大1.28倍高速に動作している。 TDTモデルの実装はNeMo (https://github.com/NVIDIA/NeMo)ツールキットでオープンソース化されます。

This paper introduces a novel Token-and-Duration Transducer (TDT) architecture for sequence-to-sequence tasks. TDT extends conventional RNN-Transducer architectures by jointly predicting both a token and its duration, i.e. the number of input frames covered by the emitted token. This is achieved by using a joint network with two outputs which are independently normalized to generate distributions over tokens and durations. During inference, TDT models can skip input frames guided by the predicted duration output, which makes them significantly faster than conventional Transducers which process the encoder output frame by frame. TDT models achieve both better accuracy and significantly faster inference than conventional Transducers on different sequence transduction tasks. TDT models for Speech Recognition achieve better accuracy and up to 2.82X faster inference than conventional Transducers. TDT models for Speech Translation achieve an absolute gain of over 1 BLEU on the MUST-C test compared with conventional Transducers, and its inference is 2.27X faster. In Speech Intent Classification and Slot Filling tasks, TDT models improve the intent accuracy by up to over 1% (absolute) over conventional Transducers, while running up to 1.28X faster. Our implementation of the TDT model will be open-sourced with the NeMo (https://github.com/NVIDIA/NeMo) toolkit.
翻訳日:2023-06-01 00:59:56 公開日:2023-05-29
# 概要と詳細:構文的にガイドされた粗いコード生成

Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation ( http://arxiv.org/abs/2305.00909v3 )

ライセンス: Link先を確認
Wenqing Zheng, S P Sharan, Ajay Kumar Jaiswal, Kevin Wang, Yihan Xi, Dejia Xu, Zhangyang Wang(参考訳) 複雑なアルゴリズムでは、人間のプログラマによる実装は通常、粗い制御フローの概要から始まり、反復的な拡張が続き、最終的に階層内の注意深く生成された構文構造と変数が生成される。 しかし、最先端の大規模言語モデルは「アウトライン・then-detail」という構造化思考過程を反映する中間的なウォームアップを伴わず、単一のパスでコードを生成する。 近年のchain-of-thought プロンプトの成功に触発されて,python コードを段階的に生成するプログラム合成言語モデル chaincoder を提案する。 まず、ソースコードを抽象構文木解析によりレイアウトフレームコンポーネントとアクセサリコンポーネントに分解し、階層表現を構築する。 次に、予測対象をマルチパス対象に再構成し、各パスがサブシーケンスを生成し、階層構造に連結する。 最後に、自然言語記述と構文的に整合したI/Oデータサンプルを共同符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。 大規模な評価では、ChainCoderは最先端技術よりも優れており、我々の進歩的な生成が推論手順を緩和し、言語モデルに高品質なソリューションを生成することを実証している。 私たちのコードは、https://github.com/VITA-Group/ChainCoder.comで利用可能です。

For a complicated algorithm, its implementation by a human programmer usually starts with outlining a rough control flow followed by iterative enrichments, eventually yielding carefully generated syntactic structures and variables in a hierarchy. However, state-of-the-art large language models generate codes in a single pass, without intermediate warm-ups to reflect the structured thought process of "outline-then-detail". Inspired by the recent success of chain-of-thought prompting, we propose ChainCoder, a program synthesis language model that generates Python code progressively, i.e. from coarse to fine in multiple passes. We first decompose source code into layout frame components and accessory components via abstract syntax tree parsing to construct a hierarchical representation. We then reform our prediction target into a multi-pass objective, each pass generates a subsequence, which is concatenated in the hierarchy. Finally, a tailored transformer architecture is leveraged to jointly encode the natural language descriptions and syntactically aligned I/O data samples. Extensive evaluations show that ChainCoder outperforms state-of-the-arts, demonstrating that our progressive generation eases the reasoning procedure and guides the language model to generate higher-quality solutions. Our codes are available at: https://github.com/VITA-Group/ChainCoder.
翻訳日:2023-06-01 00:50:39 公開日:2023-05-29
# NOMA NTNにおけるAIベースの無線・コンピューティングリソース割り当てとパスプランニング:CSI不確実性の下でのAoI最小化

AI-based Radio and Computing Resource Allocation and Path Planning in NOMA NTNs: AoI Minimization under CSI Uncertainty ( http://arxiv.org/abs/2305.00780v2 )

ライセンス: Link先を確認
Maryam Ansarifard, Nader Mokari, Mohammadreza Javan, Hamid Saeedi, Eduard A. Jorswieck(参考訳) 本稿では,高高度プラットフォーム (HAP) と無人航空機 (UAV) を組み合わせた階層型空力計算フレームワークを開発し,地上モバイルユーザの全オフロードタスクを,アップリンク非直交多重アクセス (UL-NOMA) で接続する。 計算集約アプリケーションにおける情報の鮮度をよりよく評価するために、情報年齢基準(AoI)を検討する。 特に、UAVおよびHAPのチャネル状態情報(CSI)の不確実性やUAVとHAPの複数のリソース制約によって制限されるUAVとHAPの双方において、UAVの軌道とリソース割り当てを調整することで、弾性タスクを持つユーザの平均AoIを最小化する。 この非凸最適化問題を解決するために、UAVの軌道を設計し、チャネル、電力、CPU割り当てを得るために、マルチエージェント・ディープ決定性ポリシー勾配(MADDPG)とフェデレーション強化学習(FRL)の2つの手法を提案する。 タスクスケジューリングは平均aoiを著しく減少させることが示された。 この改善は、より大きなタスクサイズに対してより顕著である。 一方,全ユーザに対する全伝送電力使用に比べ,電力割当は平均aoiに対して限界効果があることが示された。 従来の送信方式と比較して, シミュレーション結果から, 平均AoIが大幅に向上したことを示す。

In this paper, we develop a hierarchical aerial computing framework composed of high altitude platform (HAP) and unmanned aerial vehicles (UAVs) to compute the fully offloaded tasks of terrestrial mobile users which are connected through an uplink non-orthogonal multiple access (UL-NOMA). To better assess the freshness of information in computation-intensive applications the criterion of age of information (AoI) is considered. In particular, the problem is formulated to minimize the average AoI of users with elastic tasks, by adjusting UAVs trajectory and resource allocation on both UAVs and HAP, which is restricted by the channel state information (CSI) uncertainty and multiple resource constraints of UAVs and HAP. In order to solve this non-convex optimization problem, two methods of multi-agent deep deterministic policy gradient (MADDPG) and federated reinforcement learning (FRL) are proposed to design the UAVs trajectory, and obtain channel, power, and CPU allocations. It is shown that task scheduling significantly reduces the average AoI. This improvement is more pronounced for larger task sizes. On one hand, it is shown that power allocation has a marginal effect on the average AoI compared to using full transmission power for all users. Compared with traditional transmission schemes, the simulation results show our scheduling scheme results in a substantial improvement in average AoI.
翻訳日:2023-06-01 00:50:15 公開日:2023-05-29
# 開領域対話生成のための言語間移動におけるカタストロフィック・フォーミングの促進のためのプロンプト学習

Prompt Learning to Mitigate Catastrophic Forgetting in Cross-lingual Transfer for Open-domain Dialogue Generation ( http://arxiv.org/abs/2305.07393v2 )

ライセンス: Link先を確認
Lei Liu, Jimmy Xiangji Huang(参考訳) 非英語言語のための対話システムは、長い間検討されていない。 本稿では,データ制限のある非英語言語におけるオープンドメイン対話生成の文脈において,多言語間転送学習(fs-xlt)とマルチタスク学習(mtl)について検討する。 予備実験では,FS-XLT と MTL の両言語で破滅的忘れを観察した。 この問題を軽減するため,FS-XLT と MTL の多言語事前学習言語モデル (mPLM) の多言語性を維持するための簡易かつ効果的なプロンプト学習手法を提案する。 自動評価と人的評価の両方の観点から,全6言語に対する実験結果から,提案手法の有効性が示された。 私たちのコードはhttps://github.com/jeremyleiliu/xlingudialで利用可能です。

Dialogue systems for non-English languages have long been under-explored. In this paper, we take the first step to investigate few-shot cross-lingual transfer learning (FS-XLT) and multitask learning (MTL) in the context of open-domain dialogue generation for non-English languages with limited data. We observed catastrophic forgetting in both FS-XLT and MTL for all 6 languages in our preliminary experiments. To mitigate the issue, we propose a simple yet effective prompt learning approach that can preserve the multilinguality of multilingual pre-trained language model (mPLM) in FS-XLT and MTL by bridging the gap between pre-training and fine-tuning with Fixed-prompt LM Tuning and our hand-crafted prompts. Experimental results on all 6 languages in terms of both automatic and human evaluations demonstrate the effectiveness of our approach. Our code is available at https://github.com/JeremyLeiLiu/XLinguDial.
翻訳日:2023-06-01 00:41:31 公開日:2023-05-29
# 離散拡散モデリングによる効率・遅延ガイドグラフ生成

Efficient and Degree-Guided Graph Generation via Discrete Diffusion Modeling ( http://arxiv.org/abs/2305.04111v3 )

ライセンス: Link先を確認
Xiaohui Chen, Jiaxing He, Xu Han, Li-Ping Liu(参考訳) 拡散に基づく生成グラフモデルは高品質の小さなグラフを生成するのに有効であることが証明されている。 しかし、グラフ統計を希望する数千のノードを含む大規模グラフを生成するには、よりスケーラブルでなければならない。 本研究では,大きなグラフを持つ生成タスクに対処する新しい拡散型生成グラフモデルであるEDGEを提案する。 計算効率を向上させるために,各時間ステップでエッジをランダムに除去し,最後に空グラフを得る離散拡散法を用いて,グラフスパーシティを奨励する。 EDGEはグラフ内のノードの一部のみに焦点を当てている。 従来の拡散ベースのモデルよりもエッジ予測がはるかに少ない。 さらにedgeは、グラフのノード次数を明示的にモデル化し、さらにモデル性能を改善している。 実験的な研究によると、EDGEは競合する手法よりも効率的であり、数千のノードで大きなグラフを生成することができる。 私たちのアプローチによって生成されたグラフは、トレーニンググラフのそれよりも類似したグラフ統計を持っています。

Diffusion-based generative graph models have been proven effective in generating high-quality small graphs. However, they need to be more scalable for generating large graphs containing thousands of nodes desiring graph statistics. In this work, we propose EDGE, a new diffusion-based generative graph model that addresses generative tasks with large graphs. To improve computation efficiency, we encourage graph sparsity by using a discrete diffusion process that randomly removes edges at each time step and finally obtains an empty graph. EDGE only focuses on a portion of nodes in the graph at each denoising step. It makes much fewer edge predictions than previous diffusion-based models. Moreover, EDGE admits explicitly modeling the node degrees of the graphs, further improving the model performance. The empirical study shows that EDGE is much more efficient than competing methods and can generate large graphs with thousands of nodes. It also outperforms baseline models in generation quality: graphs generated by our approach have more similar graph statistics to those of the training graphs.
翻訳日:2023-06-01 00:39:40 公開日:2023-05-29
# 分布的であることの利点:強化学習のための小損失限度

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning ( http://arxiv.org/abs/2305.15703v2 )

ライセンス: Link先を確認
Kaiwen Wang and Kevin Zhou and Runzhe Wu and Nathan Kallus and Wen Sun(参考訳) 分散強化学習(RL)は経験的成功を示しているが,いつ,なぜ有用かという疑問は未解決のままである。 本研究では,インスタンス依存の最適コストでスケールする小空間境界レンズによる分布RLの利点について説明する。 最適コストが小さい場合、我々の境界は非分配的アプローチのそれよりも強い。 ウォームアップとして、コスト分布の学習は文脈的バンディット(cb)に小さな損失をもたらすことを示し、分布型cbは3つの困難なタスクにおいて経験的に最先端を上回っていることを見出した。 オンラインrlでは,最大確率推定を用いて信頼セットを構成する分布型バージョン空間アルゴリズムを提案し,テーブル型mdpにおいて小損失の後悔を達成し,潜在変数モデルにおける小損失pac境界を享受できることを実証する。 同様の知見に基づいて,ペシミズム原理に基づく分布的オフラインrlアルゴリズムを提案し,新たなロバスト性を示す小損失pac境界を享受することを示す。 オンラインとオフラインの両方のrlに対して、この結果は、意思決定の手段だけが必要な場合であっても、学習分布の最初の理論的利点を提供します。

While distributional reinforcement learning (RL) has demonstrated empirical success, the question of when and why it is beneficial has remained unanswered. In this work, we provide one explanation for the benefits of distributional RL through the lens of small-loss bounds, which scale with the instance-dependent optimal cost. If the optimal cost is small, our bounds are stronger than those from non-distributional approaches. As warmup, we show that learning the cost distribution leads to small-loss regret bounds in contextual bandits (CB), and we find that distributional CB empirically outperforms the state-of-the-art on three challenging tasks. For online RL, we propose a distributional version-space algorithm that constructs confidence sets using maximum likelihood estimation, and we prove that it achieves small-loss regret in the tabular MDPs and enjoys small-loss PAC bounds in latent variable models. Building on similar insights, we propose a distributional offline RL algorithm based on the pessimism principle and prove that it enjoys small-loss PAC bounds, which exhibit a novel robustness property. For both online and offline RL, our results provide the first theoretical benefits of learning distributions even when we only need the mean for making decisions.
翻訳日:2023-06-01 00:12:26 公開日:2023-05-29
# SPRING: GPT-4 による論文と推論による RL アルゴリズムの性能向上

SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning ( http://arxiv.org/abs/2305.15486v2 )

ライセンス: Link先を確認
Yue Wu, Shrimai Prabhumoye, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Tom Mitchell, Yuanzhi Li(参考訳) オープンワールドサバイバルゲームは,マルチタスクや深い探索,目標優先といった要件から,aiアルゴリズムにとって大きな課題となる。 強化学習(rl)はゲームを解くために人気があるが、その高いサンプル複雑性はcrafterやminecraftのような複雑なオープンワールドゲームでの効果を制限している。 本稿では,ゲームオリジナルの学術論文を読むための新しいアプローチであるSPRINGを提案し,大言語モデル(LLM)を用いてゲームの説明とプレイの知識を利用する。 ゲームコンテキストとしてのLaTeXソースとエージェントの現在の観察を記述したSPRingフレームワークでは,ゲーム関連質問をノードとして,依存関係をエッジとして有向非巡回グラフ(DAG)を採用している。 dagをトラバースし、各ノードのllm応答を位相順に計算し、最終ノードに対するllmの応答を環境動作に直接翻訳することで、環境における最適な動作を特定する。 実験では,クラフトオープンワールド環境の設定の下で,異なる種類のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。 我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。 定量的には、GPT-4によるSPRingは、トレーニングなしで100万歩のトレーニングを受けたすべての最先端のRLベースラインを上回ります。 最後に,LLMのテストベッドとしてゲームの可能性を示す。

Open-world survival games pose significant challenges for AI algorithms due to their multi-tasking, deep exploration, and goal prioritization requirements. Despite reinforcement learning (RL) being popular for solving games, its high sample complexity limits its effectiveness in complex open-world games like Crafter or Minecraft. We propose a novel approach, SPRING, to read the game's original academic paper and use the knowledge learned to reason and play the game through a large language model (LLM). Prompted with the LaTeX source as game context and a description of the agent's current observation, our SPRING framework employs a directed acyclic graph (DAG) with game-related questions as nodes and dependencies as edges. We identify the optimal action to take in the environment by traversing the DAG and calculating LLM responses for each node in topological order, with the LLM's answer to final node directly translating to environment actions. In our experiments, we study the quality of in-context "reasoning" induced by different forms of prompts under the setting of the Crafter open-world environment. Our experiments suggest that LLMs, when prompted with consistent chain-of-thought, have great potential in completing sophisticated high-level trajectories. Quantitatively, SPRING with GPT-4 outperforms all state-of-the-art RL baselines, trained for 1M steps, without any training. Finally, we show the potential of games as a test bed for LLMs.
翻訳日:2023-06-01 00:11:45 公開日:2023-05-29
# オフポリティRLアルゴリズムはサンプル多重再利用による連続制御に有効である

Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse ( http://arxiv.org/abs/2305.18443v1 )

ライセンス: Link先を確認
Jiafei Lyu, Le Wan, Zongqing Lu, Xiu Li(参考訳) サンプル効率は、オンライン強化学習(RL)において最も重要な問題の一つである。 既存の手法は、モデルベースの手法、q-ensemble、またはより優れた探索機構を採用することで、より高いサンプル効率を達成する。 代わりに、我々は、固定されたサンプルバッチを複数回更新し、これらのサンプルを再利用し、単一の最適化ループ内でそれらをよりうまく活用することで、外部のRLエージェントをトレーニングすることを提案する。 我々は本手法のサンプル多重再利用 (SMR) を命名した。 理論的には,SMRを用いたQ-ラーニングの特性を示す。 さらに,市販のオフポリシーrlアルゴリズムにsmrを組み込んで,各種連続制御ベンチマーク実験を行った。 実験の結果、SMRは、ハイパーパラメータチューニングや追加のトリックを使わずに、評価タスクのほとんどにわたって、ベースメソッドのサンプル効率を著しく向上させることが示された。

Sample efficiency is one of the most critical issues for online reinforcement learning (RL). Existing methods achieve higher sample efficiency by adopting model-based methods, Q-ensemble, or better exploration mechanisms. We, instead, propose to train an off-policy RL agent via updating on a fixed sampled batch multiple times, thus reusing these samples and better exploiting them within a single optimization loop. We name our method sample multiple reuse (SMR). We theoretically show the properties of Q-learning with SMR, e.g., convergence. Furthermore, we incorporate SMR with off-the-shelf off-policy RL algorithms and conduct experiments on a variety of continuous control benchmarks. Empirical results show that SMR significantly boosts the sample efficiency of the base methods across most of the evaluated tasks without any hyperparameter tuning or additional tricks.
翻訳日:2023-05-31 21:06:15 公開日:2023-05-29
# プロジェクションフリーオンライン連続サブモジュラー最大化の改善

Improved Projection-free Online Continuous Submodular Maximization ( http://arxiv.org/abs/2305.18442v1 )

ライセンス: Link先を確認
Yucheng Liao and Yuanyu Wan and Chang Yao and Mingli Song(参考訳) 近年注目されているモノトーンおよび連続DR-サブモジュラー報酬関数を用いたオンライン学習の問題点について検討する。 この問題を、特に複雑な決定集合の場合において効率的に解決するために、以前の研究では、$O(T)$グラデーション評価と合計線形最適化ステップを用いて、Mono-Frank-Wolfe (Mono-FW)と呼ばれる効率的なプロジェクションフリーアルゴリズムを提案した。 ただし、$(1-1/e)$-regret bound of $O(T^{4/5})$である。 本稿では,Mono-FWと同じ計算量を維持しつつ,$O(T^{3/4})$に制限された後悔を低減させる改良されたプロジェクションフリーアルゴリズム,すなわちPOBGAを提案する。 Mono-FWを変更する代わりに、オンラインブースティング勾配上昇というプロジェクションベースの新しいアルゴリズムと、実現不可能なプロジェクションテクニック、ブロッキングテクニックを組み合わせることが必要です。 さらに、分散された設定を考慮し、この設定に対する効率的なプロジェクションフリーアルゴリズムの現在の最大の後悔境界を$O(T^{4/5})$から$O(T^{3/4})$に下げるだけでなく、通信の総複雑性を$O(T)$から$O(\sqrt{T})$に下げる。

We investigate the problem of online learning with monotone and continuous DR-submodular reward functions, which has received great attention recently. To efficiently handle this problem, especially in the case with complicated decision sets, previous studies have proposed an efficient projection-free algorithm called Mono-Frank-Wolfe (Mono-FW) using $O(T)$ gradient evaluations and linear optimization steps in total. However, it only attains a $(1-1/e)$-regret bound of $O(T^{4/5})$. In this paper, we propose an improved projection-free algorithm, namely POBGA, which reduces the regret bound to $O(T^{3/4})$ while keeping the same computational complexity as Mono-FW. Instead of modifying Mono-FW, our key idea is to make a novel combination of a projection-based algorithm called online boosting gradient ascent, an infeasible projection technique, and a blocking technique. Furthermore, we consider the decentralized setting and develop a variant of POBGA, which not only reduces the current best regret bound of efficient projection-free algorithms for this setting from $O(T^{4/5})$ to $O(T^{3/4})$, but also reduces the total communication complexity from $O(T)$ to $O(\sqrt{T})$.
翻訳日:2023-05-31 21:06:00 公開日:2023-05-29
# DeCoR: 初期のオーディオコードを予測して知識を忘れる

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes ( http://arxiv.org/abs/2305.18441v1 )

ライセンス: Link先を確認
Xilin Jiang, Yinghao Aaron Li, Nima Mesgarani(参考訳) 生涯音声の特徴抽出は、時間とともに新しいデータ分布に適応するために不可欠な、新しい音のクラスを漸進的に学習する。 しかし、新しいデータにのみモデルを最適化することは、以前に学習したタスクを壊滅的に忘れることになり、長期にわたってモデルの性能を損なう可能性がある。 本稿では,DeCoRと呼ばれる連続的な音声表現学習における新しいアプローチを提案する。 以前のデータ、機能、モデルを保存する他の方法とは異なり、DeCoRは遅延したコードブックから量子化指標を予測することによって、以前のモデルから最新のモデルへの知識を間接的に蒸留する。 decorは音響シーンの分類精度を向上し,連続的な自己教師付き表現学習とうまく統合できることを実証する。 このアプローチでは,最小限のストレージと計算オーバーヘッドを導入し,連続学習のための軽量で効率的なソリューションである。

Lifelong audio feature extraction involves learning new sound classes incrementally, which is essential for adapting to new data distributions over time. However, optimizing the model only on new data can lead to catastrophic forgetting of previously learned tasks, which undermines the model's ability to perform well over the long term. This paper introduces a new approach to continual audio representation learning called DeCoR. Unlike other methods that store previous data, features, or models, DeCoR indirectly distills knowledge from an earlier model to the latest by predicting quantization indices from a delayed codebook. We demonstrate that DeCoR improves acoustic scene classification accuracy and integrates well with continual self-supervised representation learning. Our approach introduces minimal storage and computation overhead, making it a lightweight and efficient solution for continual learning.
翻訳日:2023-05-31 21:05:27 公開日:2023-05-29
# ブラックボックス異常帰属

Black-Box Anomaly Attribution ( http://arxiv.org/abs/2305.18440v1 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Naoki Abe(参考訳) ブラックボックス機械学習モデルの予測が真の観測から逸脱したとき、その逸脱の背後にある理由について何を言えるだろうか? これは、ビジネスまたは産業用AIアプリケーションのエンドユーザがよく問う、基本的でユビキタスな質問である。 偏差は準最適ブラックボックスモデルによるものかもしれないし、単に、問題のサンプルが外れやすいためかもしれない。 いずれの場合も、何らかの形の帰属スコアを得るのが理想的であり、これは入力変数がその異常に対してどの程度の責任があるかを示す値である。 本稿では, モデルがブラックボックスであり, トレーニングデータが利用できない設定において, この課題である<anomaly attribution'に対処する。 具体的には,最も高い確率を達成するのに必要な入力変数ごとに,責任スコアを補正と同等に設定した,`likelihood compensation (lc)' と呼ばれる新しい確率に基づく帰属フレームワークを提案する。 まず,局所線形サロゲートモデリングやシェープリー値といったモデル非依存な説明手法が異常を説明するために設計されていない理由を形式的に示す。 特に,'deviation-specific,'',すなわち'deviation-agnostic'であり,その説明は,興味のあるサンプルのモデル予測に偏りがあるという事実に盲目であることを示している。 関数ファミリの統一された傘の下にこれらの既存のメソッドを配置することでこれを実現します。 提案手法の有効性を,公開データセットを用いて検証した。 また,実世界の建築エネルギー予測タスクを用いてケーススタディを行い,専門家のフィードバックに基づいてその有用性を確認した。

When the prediction of a black-box machine learning model deviates from the true observation, what can be said about the reason behind that deviation? This is a fundamental and ubiquitous question that the end user in a business or industrial AI application often asks. The deviation may be due to a sub-optimal black-box model, or it may be simply because the sample in question is an outlier. In either case, one would ideally wish to obtain some form of attribution score -- a value indicative of the extent to which an input variable is responsible for the anomaly. In the present paper we address this task of ``anomaly attribution,'' particularly in the setting in which the model is black-box and the training data are not available. Specifically, we propose a novel likelihood-based attribution framework we call the ``likelihood compensation (LC),'' in which the responsibility score is equated with the correction on each input variable needed to attain the highest possible likelihood. We begin by showing formally why mainstream model-agnostic explanation methods, such as the local linear surrogate modeling and Shapley values, are not designed to explain anomalies. In particular, we show that they are ``deviation-agnostic,'' namely, that their explanations are blind to the fact that there is a deviation in the model prediction for the sample of interest. We do this by positioning these existing methods under the unified umbrella of a function family we call the ``integrated gradient family.'' We validate the effectiveness of the proposed LC approach using publicly available data sets. We also conduct a case study with a real-world building energy prediction task and confirm its usefulness in practice based on expert feedback.
翻訳日:2023-05-31 21:05:13 公開日:2023-05-29
# 生成画像の変質とモデル非依存な原点帰属

Alteration-free and Model-agnostic Origin Attribution of Generated Images ( http://arxiv.org/abs/2305.18439v1 )

ライセンス: Link先を確認
Zhenting Wang, Chen Chen, Yi Zeng, Lingjuan Lyu, Shiqing Ma(参考訳) 近年,画像生成モデルに注目が集まっている。 しかし、これらのモデルに関連する悪用と知的財産権(ip)侵害の懸念が浮上している。 したがって、特定の画像が特定のモデル、すなわち、原点属性によって生成されたかどうかを推定することにより、画像の起源を分析する必要がある。 既存の方法は、特定の生成モデルに適用可能であり、トレーニングや生成の間に追加のステップを必要とする。 これにより、これらの特定の操作がなく、画像生成の品質を損なう可能性のある事前訓練されたモデルの使用が制限される。 この問題を克服するために,まず,特定の画像に対する特定のモデルの入力を反転する画像生成モデルに対する入力リバースエンジニアリングを通じて,変更のないモデル非依存な起源帰属法を開発した。 特定のモデルが与えられた場合、まず、生成したモデルや他の画像の逆エンジニアリングタスクの硬さの違いを解析する。 そこで本研究では,リバースエンジニアリングの再構築損失を利用して起源を推定する手法を提案する。 提案手法は,特定の生成モデルから生成された画像と,異なるモデルや実画像から生成された画像とを効果的に識別する。

Recently, there has been a growing attention in image generation models. However, concerns have emerged regarding potential misuse and intellectual property (IP) infringement associated with these models. Therefore, it is necessary to analyze the origin of images by inferring if a specific image was generated by a particular model, i.e., origin attribution. Existing methods are limited in their applicability to specific types of generative models and require additional steps during training or generation. This restricts their use with pre-trained models that lack these specific operations and may compromise the quality of image generation. To overcome this problem, we first develop an alteration-free and model-agnostic origin attribution method via input reverse-engineering on image generation models, i.e., inverting the input of a particular model for a specific image. Given a particular model, we first analyze the differences in the hardness of reverse-engineering tasks for the generated images of the given model and other images. Based on our analysis, we propose a method that utilizes the reconstruction loss of reverse-engineering to infer the origin. Our proposed method effectively distinguishes between generated images from a specific generative model and other images, including those generated by different models and real images.
翻訳日:2023-05-31 21:04:44 公開日:2023-05-29
# 人間のフィードバックによる強化学習:ペシミズムによる動的選択の学習

Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism ( http://arxiv.org/abs/2305.18438v1 )

ライセンス: Link先を確認
Zihao Li, Zhuoran Yang, Mengdi Wang(参考訳) 本稿では,人間の選択によって引き起こされる一連の軌道から,人間の基本的報酬とMDPの最適政策を学習することを目的としたオフライン強化学習と人間フィードバック(RLHF)について検討する。 RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。 本稿では,人間の選択をモデル化し理解するための動的離散選択(DDC)モデルに焦点を当てる。 dccは計量学と決定論に根ざしており、前方的かつ有界な合理性を持つ人間の意思決定プロセスをモデル化するために広く使われている。 dcppo法(\underline{d}ynamic-\underline{c}hoice-\underline{p}essimistic-\underline{p}olicy-\underline{o}ptimization)を提案する。 第2のステップは、学習された値関数を用いてベルマン平均2乗誤差を最小化し、人間の報酬関数を復元する。第3のステップは、学習した報酬をプラグインし、悲観的な価値反復を実行して、ほぼ最適ポリシーを見つけることである。 データセットの単一ポリシーカバレッジ(すなわち最適ポリシー)のみを用いて、dcppoのサブオプティリティが、分散シフトと次元へのサブオプティリティの依存性の観点から、古典的な悲観的オフラインrlアルゴリズムにほぼ一致することを証明する。 本稿では,動的離散的選択モデルを用いたオフラインrlhfに関する最初の理論的保証について述べる。

In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human's underlying reward and the MDP's optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality's dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model.
翻訳日:2023-05-31 21:04:25 公開日:2023-05-29
# 無損失可視化を用いた分類・混合データの説明可能な機械学習

Explainable Machine Learning for Categorical and Mixed Data with Lossless Visualization ( http://arxiv.org/abs/2305.18437v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Elijah McCoy(参考訳) 不均一/混合データのための正確で解釈可能な機械学習(ML)モデルの構築は、数値データ用に設計されたアルゴリズムの長年にわたる課題である。 この研究は、正確で説明可能なMLモデルをサポートするMLアルゴリズムの非数値属性のための数値符号化スキーム、これらの視覚化における視覚的ルール発見を伴うn-D非数値分類データの無意味な可視化方法、そして分類データのための正確で説明可能なMLモデルの開発に焦点を当てる。 本研究では、混合データ型を分類し、機械学習におけるそれらの重要な役割を分析する。 混合データ上での視覚的データ探索により、MLアルゴリズムのすべての内部操作の解釈可能性を高めるツールキットを提供する。 カテゴリーデータを用いた説明可能なルール生成のための新しい逐次ルール生成(SRG)アルゴリズムを提案し,複数の計算実験で評価した。 この研究は、Parallel Coordinatesを超えたGeneral Line Coordinatesにおけるn-Dデータのロスレス可視化をサポートする混合データのための全スコープMLアルゴリズムのステップの1つである。

Building accurate and interpretable Machine Learning (ML) models for heterogeneous/mixed data is a long-standing challenge for algorithms designed for numeric data. This work focuses on developing numeric coding schemes for non-numeric attributes for ML algorithms to support accurate and explainable ML models, methods for lossless visualization of n-D non-numeric categorical data with visual rule discovery in these visualizations, and accurate and explainable ML models for categorical data. This study proposes a classification of mixed data types and analyzes their important role in Machine Learning. It presents a toolkit for enforcing interpretability of all internal operations of ML algorithms on mixed data with a visual data exploration on mixed data. A new Sequential Rule Generation (SRG) algorithm for explainable rule generation with categorical data is proposed and successfully evaluated in multiple computational experiments. This work is one of the steps to the full scope ML algorithms for mixed data supported by lossless visualization of n-D data in General Line Coordinates beyond Parallel Coordinates.
翻訳日:2023-05-31 21:03:56 公開日:2023-05-29
# 非負の低ランク半定計画法による統計的K平均クラスタリング

Statistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming ( http://arxiv.org/abs/2305.18436v1 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang, Richard Y. Zhang(参考訳) K$-meansクラスタリングは、大規模なデータセットのパターンを識別する機械学習手法として広く使用されている。 半有限計画法(SDP)緩和法は, 統計的最適性の強い保証を享受する$K$-means最適化問題を解くために最近提案されているが, SDPソルバの実装の禁止コストは, これらの保証を実用的なデータセットに到達できないものにしている。 対照的に、非負行列分解(non negative matrix factorization, nmf)は、機械学習の実践者によって広く使われている単純なクラスタリングアルゴリズムである。 本稿では,sdpの非負低ランク制限を解いたnmfライクなアルゴリズムについて,非凸burer-monteiro因子分解法を用いて,k$-means定式化を緩和した。 結果として得られるアルゴリズムは、最先端のNMFアルゴリズムと同じくらい単純でスケーラブルであり、SDPと同じ強力な統計的最適性を保証する。 実験では,既存の最先端技術と比較して,アルゴリズムの誤クラスタ化誤差が著しく小さいことを観察した。

$K$-means clustering is a widely used machine learning method for identifying patterns in large datasets. Semidefinite programming (SDP) relaxations have recently been proposed for solving the $K$-means optimization problem that enjoy strong statistical optimality guarantees, but the prohibitive cost of implementing an SDP solver renders these guarantees inaccessible to practical datasets. By contrast, nonnegative matrix factorization (NMF) is a simple clustering algorithm that is widely used by machine learning practitioners, but without a solid statistical underpinning nor rigorous guarantees. In this paper, we describe an NMF-like algorithm that works by solving a nonnegative low-rank restriction of the SDP relaxed $K$-means formulation using a nonconvex Burer--Monteiro factorization approach. The resulting algorithm is just as simple and scalable as state-of-the-art NMF algorithms, while also enjoying the same strong statistical optimality guarantees as the SDP. In our experiments, we observe that our algorithm achieves substantially smaller mis-clustering errors compared to the existing state-of-the-art.
翻訳日:2023-05-31 21:03:40 公開日:2023-05-29
# 強化学習を用いた逐次実験設計のためのクロスエントロピー推定器

Cross-Entropy Estimators for Sequential Experiment Design with Reinforcement Learning ( http://arxiv.org/abs/2305.18435v1 )

ライセンス: Link先を確認
Tom Blau, Edwin Bonilla, Iadine Chades, Amir Dezfouli(参考訳) 強化学習は、実験のシーケンスを設計するための償却設計ポリシーを効果的に学習することができる。 しかし、現在の方法は、予測された情報ゲインの対比推定子に依存しており、偏りのない推定を達成するために指数関数的なコントラストサンプルを必要とする。 本稿では,ジョイントモデル分布のクロスエントロピーとフレキシブルな提案分布に基づく,代替の下限推定器を提案する。 この提案分布は、実験履歴と設計方針から得られたモデルパラメータの真の後部を近似する。 我々の推定器は、対照的なサンプルを必要とせず、高い情報ゲインのより正確な推定を達成でき、優れた設計方針の学習を可能にし、暗黙の確率モデルと互換性がある。 我々は、連続的および離散的設計や明示的かつ暗黙的な可能性を含む、様々なタスクにおけるアルゴリズムの性能を評価する。

Reinforcement learning can effectively learn amortised design policies for designing sequences of experiments. However, current methods rely on contrastive estimators of expected information gain, which require an exponential number of contrastive samples to achieve an unbiased estimation. We propose an alternative lower bound estimator, based on the cross-entropy of the joint model distribution and a flexible proposal distribution. This proposal distribution approximates the true posterior of the model parameters given the experimental history and the design policy. Our estimator requires no contrastive samples, can achieve more accurate estimates of high information gains, allows learning of superior design policies, and is compatible with implicit probabilistic models. We assess our algorithm's performance in various tasks, including continuous and discrete designs and explicit and implicit likelihoods.
翻訳日:2023-05-31 21:03:19 公開日:2023-05-29
# セマンティック3次元医用画像合成のための条件拡散モデル

Conditional Diffusion Models for Semantic 3D Medical Image Synthesis ( http://arxiv.org/abs/2305.18453v1 )

ライセンス: Link先を確認
Zolnamar Dorjsembe, Hsing-Kuo Pao, Sodtavilan Odonchimed, Furen Xiao(参考訳) 本稿では,データ不足,一貫性のない取得方法,プライバシの懸念といった医療画像における一般的な問題に対処するため,セマンティック3次元医用画像合成のための拡散モデルを用いた革新的なソリューションであるmed-ddpmを提案する。 実験的な証拠は、拡散モデルがGAN(Generative Adversarial Networks)を超える安定性と性能を示し、高品質でリアルな3D医療画像を生成する。 Med-DDPMの特徴は、3次元画像合成における拡散モデルのセマンティックコンディショニングの利用である。 ピクセルレベルマスクラベルによる生成プロセスを制御することにより、現実的な医療画像の作成が容易になる。 実験的な評価は、精度、安定性、汎用性などの指標において、GAN技術よりもMed-DDPMの方が優れた性能を示している。 さらに,Med-DDPMは,分割モデルの精度を高めるため,従来の拡張技術や合成GAN画像よりも優れている。 不十分なデータセット、注釈付きデータの欠如、クラス不均衡などの問題に対処する。 本稿では,Frechet開始距離(FID)の限界に注目し,ヒストグラム等化FID測定を有効性能評価に適用する。 要約すると、Med-DDPMは拡散モデルを利用して、高分解能な3次元医用画像合成の領域において重要な一歩を踏み出し、GANの限界とデータ制約を超越している。 この方法は、主にデータ拡張と匿名化のために、医療画像における有望なソリューションへの道を開き、この分野に大きく貢献する。

This paper introduces Med-DDPM, an innovative solution using diffusion models for semantic 3D medical image synthesis, addressing the prevalent issues in medical imaging such as data scarcity, inconsistent acquisition methods, and privacy concerns. Experimental evidence illustrates that diffusion models surpass Generative Adversarial Networks (GANs) in stability and performance, generating high-quality, realistic 3D medical images. The distinct feature of Med-DDPM is its use of semantic conditioning for the diffusion model in 3D image synthesis. By controlling the generation process through pixel-level mask labels, it facilitates the creation of realistic medical images. Empirical evaluations underscore the superior performance of Med-DDPM over GAN techniques in metrics such as accuracy, stability, and versatility. Furthermore, Med-DDPM outperforms traditional augmentation techniques and synthetic GAN images in enhancing the accuracy of segmentation models. It addresses challenges such as insufficient datasets, lack of annotated data, and class imbalance. Noting the limitations of the Frechet inception distance (FID) metric, we introduce a histogram-equalized FID metric for effective performance evaluation. In summary, Med-DDPM, by utilizing diffusion models, signifies a crucial step forward in the domain of high-resolution semantic 3D medical image synthesis, transcending the limitations of GANs and data constraints. This method paves the way for a promising solution in medical imaging, primarily for data augmentation and anonymization, thus contributing significantly to the field.
翻訳日:2023-05-31 20:55:21 公開日:2023-05-29
# 拡散による運転シーンの生成

Generating Driving Scenes with Diffusion ( http://arxiv.org/abs/2305.18452v1 )

ライセンス: Link先を確認
Ethan Pronovost, Kai Wang, Nick Roy(参考訳) 本稿では、自動運転車の知覚システムの出力をシミュレートするために設計された交通シーン生成の学習手法について述べる。 潜伏拡散に触発されたscene diffusionシステムでは,拡散と物体検出の新たな組み合わせを用いて,エージェントの離散境界ボックスの現実的かつ物理的に妥当な配置を直接生成する。 私たちのシーン生成モデルは、米国の異なる領域に適応できることを示し、各地域の複雑さを捉えたシナリオを生成します。

In this paper we describe a learned method of traffic scene generation designed to simulate the output of the perception system of a self-driving car. In our "Scene Diffusion" system, inspired by latent diffusion, we use a novel combination of diffusion and object detection to directly create realistic and physically plausible arrangements of discrete bounding boxes for agents. We show that our scene generation model is able to adapt to different regions in the US, producing scenarios that capture the intricacies of each region.
翻訳日:2023-05-31 20:54:57 公開日:2023-05-29
# 因果部分構造を用いたシフトロバスト分子関係学習

Shift-Robust Molecular Relational Learning with Causal Substructure ( http://arxiv.org/abs/2305.18451v1 )

ライセンス: Link先を確認
Namkyeong Lee, Kanghoon Yoon, Gyoung S. Na, Sein Kim, Chanyoung Park(参考訳) 近年、分子対間の相互作用の振る舞いを予測することを目的とした分子関係学習が、幅広い応用のために分子科学への関心が高まっている。 本研究では,分子関係学習における分布変化に頑健なCMRLを提案する。 そこで我々はまず,分子科学の領域知識に基づいて因果関係を仮定し,変数間の関係を明らかにする構造因果モデル(SCM)を構築する。 SCMに基づいて, 組換え分子上での干渉を条件付けした新しい条件付き干渉機構を導入する。 条件付き介入の枠組みにより,本モデルは因果的サブ構造から学習し,化学反応に急激な相関を持つショートカットサブ構造の共起効果を緩和する。 実世界および合成データセットを用いた様々なタスクに関する大規模な実験は、最先端のベースラインモデルよりもCMRLの方が優れていることを示す。 私たちのコードはhttps://github.com/namkyeong/cmrlで利用可能です。

Recently, molecular relational learning, whose goal is to predict the interaction behavior between molecular pairs, got a surge of interest in molecular sciences due to its wide range of applications. In this work, we propose CMRL that is robust to the distributional shift in molecular relational learning by detecting the core substructure that is causally related to chemical reactions. To do so, we first assume a causal relationship based on the domain knowledge of molecular sciences and construct a structural causal model (SCM) that reveals the relationship between variables. Based on the SCM, we introduce a novel conditional intervention framework whose intervention is conditioned on the paired molecule. With the conditional intervention framework, our model successfully learns from the causal substructure and alleviates the confounding effect of shortcut substructures that are spuriously correlated to chemical reactions. Extensive experiments on various tasks with real-world and synthetic datasets demonstrate the superiority of CMRL over state-of-the-art baseline models. Our code is available at https://github.com/Namkyeong/CMRL.
翻訳日:2023-05-31 20:54:47 公開日:2023-05-29
# GBG++: 分類のための高速で安定なグラニュラーボール生成方法

GBG++: A Fast and Stable Granular Ball Generation Method for Classification ( http://arxiv.org/abs/2305.18450v1 )

ライセンス: Link先を確認
Qin Xie, Qinghua Zhang, Shuyin Xia, Fan Zhao, Chengying Wu, Guoyin Wang and Weiping Ding(参考訳) 粒度ボールコンピューティング(gbc)は、効率的で堅牢でスケーラブルな学習手法として、粒度計算の一般的な研究テーマとなっている。 GBCには、グラニュラーボール生成(GBG)とグラニュラーボール(GB)に基づく多粒度学習という2つの段階がある。 しかしながら、既存のGBG法の安定性と効率は、$k$-meansや$k$-divisionに強く依存するため、さらに改善する必要がある。 さらに、GBベースの分類器は、GBの幾何学的特徴を一方的に考慮して分類規則を構築するが、GBの品質は無視される。 そこで本研究では,注意機構に基づいて,高速かつ安定したGBG(GBG++)手法を提案する。 具体的には,各GBを分割する場合,データ駆動中心から未分割サンプルまでの距離を計算し,その中心をランダムに選択し,すべてのサンプルまでの距離を計算する。 さらに,局所的な外れ値を特定するために,外れ値検出手法を導入する。 その結果,GBG++法は絶対安定でありながら,有効性,堅牢性,効率性を著しく向上させることができる。 第2に、GB内のサンプルサイズがGBの品質に与える影響を考慮し、GBG++法に基づいて、クラス境界における誤分類をある程度低減できる$k$-nearest neighborsアルゴリズム(GB$k$NN++)を提示する。 最後に,提案手法が20ドルの公開ベンチマークデータセットにおいて,既存のgbベース分類器や古典的機械学習分類器を上回っていることを示す。

Granular ball computing (GBC), as an efficient, robust, and scalable learning method, has become a popular research topic of granular computing. GBC includes two stages: granular ball generation (GBG) and multi-granularity learning based on the granular ball (GB). However, the stability and efficiency of existing GBG methods need to be further improved due to their strong dependence on $k$-means or $k$-division. In addition, GB-based classifiers only unilaterally consider the GB's geometric characteristics to construct classification rules, but the GB's quality is ignored. Therefore, in this paper, based on the attention mechanism, a fast and stable GBG (GBG++) method is proposed first. Specifically, the proposed GBG++ method only needs to calculate the distances from the data-driven center to the undivided samples when splitting each GB, instead of randomly selecting the center and calculating the distances between it to all samples. Moreover, an outlier detection method is introduced to identify local outliers. Consequently, the GBG++ method can significantly improve effectiveness, robustness, and efficiency while being absolutely stable. Second, considering the influence of the sample size within the GB on the GB's quality, based on the GBG++ method, a $k$-nearest neighbors algorithm (GB$k$NN++) which can reduce misclassification at class boundary to some extent is presented. Finally, the experimental results indicate that the proposed method outperforms several existing GB-based classifiers and classical machine learning classifiers on $20$ public benchmark data sets.
翻訳日:2023-05-31 20:54:29 公開日:2023-05-29
# taming ai bots: 大規模言語モデルにおける神経状態の制御可能性

Taming AI Bots: Controllability of Neural States in Large Language Models ( http://arxiv.org/abs/2305.18449v1 )

ライセンス: Link先を確認
Stefano Soatto, Paulo Tabuada, Pratik Chaudhari, Tian Yu Liu(参考訳) エージェントが適切なプロンプトの選択によって、任意の状態にAIボットを制御できるかどうかという問題に取り組む。 その目的のために、まず、分析に適した ``meaning''' の形式的定義を導入する。 次に,大規模言語モデル (LLM) を視覚的に訓練した ' ` meaningful data' と,今日の LLM でほぼ満たされている条件下で '` well-trained LLMs' を特徴付ける。 十分に訓練された LLM はユークリッド (Euclidean) という意味の埋め込み空間を構成するが、それ自体はベクトル(線型)部分空間ではなく、むしろ商空間である。 次に、入力プロンプトのためにLLMの状態によって到達可能な意味のサブセットを特徴付け、十分に訓練されたボットが小さな確率でどんな意味でも到達可能であることを示す。 次に、制御可能性のより強固な概念を {\em almost certain reachability} として導入し、意味空間に制限された場合、aiボットは制御可能であることを示す。 我々は、注意深いAIボットの機能的特徴を導入し、最終的に制御性に必要な十分な条件を導き出す。 AIボットが制御可能であるという事実は、敵がそれらをあらゆる状態に向けて操ることができることを意味している。 しかし、サンプリングプロセスは、逆作用を防ぎ、その境界を越える前に状態空間の望ましくない領域に到達することを避けるように設計することができる。

We tackle the question of whether an agent can, by suitable choice of prompts, control an AI bot to any state. To that end, we first introduce a formal definition of ``meaning'' that is amenable to analysis. Then, we characterize ``meaningful data'' on which large language models (LLMs) are ostensibly trained, and ``well-trained LLMs'' through conditions that are largely met by today's LLMs. While a well-trained LLM constructs an embedding space of meanings that is Euclidean, meanings themselves do not form a vector (linear) subspace, but rather a quotient space within. We then characterize the subset of meanings that can be reached by the state of the LLMs for some input prompt, and show that a well-trained bot can reach any meaning albeit with small probability. We then introduce a stronger notion of controllability as {\em almost certain reachability}, and show that, when restricted to the space of meanings, an AI bot is controllable. We do so after introducing a functional characterization of attentive AI bots, and finally derive necessary and sufficient conditions for controllability. The fact that AI bots are controllable means that an adversary could steer them towards any state. However, the sampling process can be designed to counteract adverse actions and avoid reaching undesirable regions of state space before their boundary is crossed.
翻訳日:2023-05-31 20:53:59 公開日:2023-05-29
# 誘導正則化器によるニューラルネットワークの低減

Neural Network Reduction with Guided Regularizers ( http://arxiv.org/abs/2305.18448v1 )

ライセンス: Link先を確認
Ali Haisam Muhammad Rafid, Adrian Sandu(参考訳) $\mathcal{l}_1$ や $\mathcal{l}_2$ のような正規化技術はニューラルネットワーク(nn)のスパース化に有効である。 しかし、nns内の特定のニューロンまたはチャネルを除去するためには、そのニューロンまたはチャネルに関連する全ての重み要素は、従来の正規化によって保証されていないprunableである必要がある。 本稿では,訓練中のnn単位の重みを他の単位よりも優先する「誘導正規化」という単純な新しい手法を提案する。 これは、ゼロである重み行列の成分がどこにでも配置できる、$\mathcal{l}_1$ と $\mathcal{l}_2$ の散在したスパース化とは異なる。 提案手法は,不必要な単位を中和しながらモデルが訓練されているという意味で,nnを自然に還元する。 提案手法は,性能を保ちながらNNを刈り取るのに有効であることを示す。

Regularization techniques such as $\mathcal{L}_1$ and $\mathcal{L}_2$ regularizers are effective in sparsifying neural networks (NNs). However, to remove a certain neuron or channel in NNs, all weight elements related to that neuron or channel need to be prunable, which is not guaranteed by traditional regularization. This paper proposes a simple new approach named "Guided Regularization" that prioritizes the weights of certain NN units more than others during training, which renders some of the units less important and thus, prunable. This is different from the scattered sparsification of $\mathcal{L}_1$ and $\mathcal{L}_2$ regularizers where the the components of a weight matrix that are zeroed out can be located anywhere. The proposed approach offers a natural reduction of NN in the sense that a model is being trained while also neutralizing unnecessary units. We empirically demonstrate that our proposed method is effective in pruning NNs while maintaining performance.
翻訳日:2023-05-31 20:53:34 公開日:2023-05-29
# 個人差分MLにおけるランダム化のパワーの解放

Unleashing the Power of Randomization in Auditing Differentially Private ML ( http://arxiv.org/abs/2305.18447v1 )

ライセンス: Link先を確認
Krishna Pillutla, Galen Andrew, Peter Kairouz, H. Brendan McMahan, Alina Oprea, Sewoong Oh(参考訳) 我々は、カナリアと呼ばれる慎重に設計された複数の例を追加することによって、微分プライベートな機械学習アルゴリズムを監査するための厳密な方法論を提案する。 私たちは3つの重要なコンポーネントに基づいた最初の原則アプローチを取ります。 まず、ランダム化されたデータセットを扱うために差分プライバシーの定義を拡張するLifted Differential Privacy (LiDP)を導入する。 これにより、ランダム化されたカナリアを設計する自由が得られます。 次に、データセット内の1ドルカナリアに対して$K$カナリアでトレーニングされたモデルと1ドルカナリアでトレーニングされたモデルを区別してLiDPを監査します。 カナリアを描画することで、LiDPは設計における対称性を活用でき、各プライベートトレーニングされたモデルを再利用して複数の統計テストを実行する。 第3に,経験的な高次相関に適応することで,複数のテスト統計を生かした新たな信頼区間を導入する。 この新しいレシピは、理論上も経験上も、合成データと実データを使って、サンプルの複雑さを大幅に改善することを示している。 さらに、より強力なカナリアを設計する最近の進歩は、容易に新しいフレームワークに組み込まれる。

We present a rigorous methodology for auditing differentially private machine learning algorithms by adding multiple carefully designed examples called canaries. We take a first principles approach based on three key components. First, we introduce Lifted Differential Privacy (LiDP) that expands the definition of differential privacy to handle randomized datasets. This gives us the freedom to design randomized canaries. Second, we audit LiDP by trying to distinguish between the model trained with $K$ canaries versus $K - 1$ canaries in the dataset, leaving one canary out. By drawing the canaries i.i.d., LiDP can leverage the symmetry in the design and reuse each privately trained model to run multiple statistical tests, one for each canary. Third, we introduce novel confidence intervals that take advantage of the multiple test statistics by adapting to the empirical higher-order correlations. Together, this new recipe demonstrates significant improvements in sample complexity, both theoretically and empirically, using synthetic and real data. Further, recent advances in designing stronger canaries can be readily incorporated into the new framework.
翻訳日:2023-05-31 20:53:17 公開日:2023-05-29
# Trompt: タブラルデータのためのより優れたディープニューラルネットワークを目指す

Trompt: Towards a Better Deep Neural Network for Tabular Data ( http://arxiv.org/abs/2305.18446v1 )

ライセンス: Link先を確認
Kuan-Yu Chen, Ping-Han Chiang, Hsin-Rung Chou, Ting-Wei Chen, Tien-Hao Chang(参考訳) タブラルデータ(Tabular data)は、金融、ヘルスケア、電子商取引など、さまざまな実践領域でよく使われているデータ構造の一つである。 内在する異質性により、表型データは豊富な情報を格納することができる。 しかし、最近発表された表型ベンチマークに基づいて、ディープニューラルネットワークは依然として表型データセットのツリーベースモデルに遅れていることがわかる。 本稿では,言語モデルのプロンプト学習にインスパイアされた新しいアーキテクチャであるtmpt(tabular prompt)を提案する。 プロンプト学習の本質は、モデルを直接修正することなく、モデル外の一連のプロンプトを通じて、大きな事前学習されたモデルを調整することである。 このアイデアに基づいて、Tromptは表データの学習戦略を2つに分けている。 最初の部分は、事前訓練されたモデルに似ているが、テーブルの本質的な情報を学ぶことに集中している。 第2部はプロンプトに似ているが、サンプルのバリエーションを学ぶことに集中している。 Tromptは上記のベンチマークで評価される。 実験結果は、tmptが最先端のディープニューラルネットワークよりも優れており、ツリーベースモデルに匹敵することを示した。

Tabular data is arguably one of the most commonly used data structures in various practical domains, including finance, healthcare and e-commerce. The inherent heterogeneity allows tabular data to store rich information. However, based on a recently published tabular benchmark, we can see deep neural networks still fall behind tree-based models on tabular datasets. In this paper, we propose Trompt--which stands for Tabular Prompt--a novel architecture inspired by prompt learning of language models. The essence of prompt learning is to adjust a large pre-trained model through a set of prompts outside the model without directly modifying the model. Based on this idea, Trompt separates the learning strategy of tabular data into two parts. The first part, analogous to pre-trained models, focus on learning the intrinsic information of a table. The second part, analogous to prompts, focus on learning the variations among samples. Trompt is evaluated with the benchmark mentioned above. The experimental results demonstrate that Trompt outperforms state-of-the-art deep neural networks and is comparable to tree-based models.
翻訳日:2023-05-31 20:52:58 公開日:2023-05-29
# ディープニューラルネットワークのためのインテリジェント勾配増幅

Intelligent gradient amplification for deep neural networks ( http://arxiv.org/abs/2305.18445v1 )

ライセンス: Link先を確認
Sunitha Basodi, Krishna Pusuluri, Xueli Xiao, Yi Pan(参考訳) ディープラーニングモデルは、さまざまなタスクやドメインにおいて、他の機械学習技術よりも優れたパフォーマンスを提供するが、独自の課題を提起する。 特にディープラーニングモデルは、モデルの深さが増加するにつれてトレーニング時間を大きくし、勾配の消失に悩まされる。 いくつかの解は独立してこれらの問題に対処するが、消失する勾配に対処することでモデルの性能を改善する統合ソリューションを同定する努力は最小限に抑えられ、学習速度が大きくなるとより高い性能を達成するためのトレーニングプロセスを加速する。 そこで本研究では,学習中にレイヤの勾配変動を分析する定式化手法を用いて,深層学習モデルのどの層に勾配増幅を適用するかをインテリジェントに決定する。 より詳細な実験は、2つの異なる知的測度と2つの異なるしきい値を使ってよりシンプルで深いニューラルネットワークに対して行われ、増幅層を決定する。 その結果,従来のモデルと比較して精度が向上し,CIFAR-100データセットでは約2.5%,CIFAR-100データセットでは約4.5%の精度向上が達成された。

Deep learning models offer superior performance compared to other machine learning techniques for a variety of tasks and domains, but pose their own challenges. In particular, deep learning models require larger training times as the depth of a model increases, and suffer from vanishing gradients. Several solutions address these problems independently, but there have been minimal efforts to identify an integrated solution that improves the performance of a model by addressing vanishing gradients, as well as accelerates the training process to achieve higher performance at larger learning rates. In this work, we intelligently determine which layers of a deep learning model to apply gradient amplification to, using a formulated approach that analyzes gradient fluctuations of layers during training. Detailed experiments are performed for simpler and deeper neural networks using two different intelligent measures and two different thresholds that determine the amplification layers, and a training strategy where gradients are amplified only during certain epochs. Results show that our amplification offers better performance compared to the original models, and achieves accuracy improvement of around 2.5% on CIFAR- 10 and around 4.5% on CIFAR-100 datasets, even when the models are trained with higher learning rates.
翻訳日:2023-05-31 20:52:41 公開日:2023-05-29
# スパースプロンプティングによるメタポリティネットワークにおける連続タスク割り当て

Continual Task Allocation in Meta-Policy Network via Sparse Prompting ( http://arxiv.org/abs/2305.18444v1 )

ライセンス: Link先を確認
Yijun Yang, Tianyi Zhou, Jing Jiang, Guodong Long, Yuhui Shi(参考訳) タスクのシーケンスを継続的に学習することで、一般化可能なメタポリシーをトレーニングする方法? エージェントは、以前のタスク(安定性)からの共通知識を維持しながら、新しいタスク(塑性)に迅速に適応することが期待されている。 本稿では,スパース・プロンプティング(CoTASP)によるタスク・アロケーション(Continual Task Allocation via Sparse Prompting, 連続タスク・アロケーション)を用いて,メタ政治ネットワークから各タスクのサブネットワークを抽出するプロンプトとして,スパース・マスクを生成するための過剰な辞書を学習する。 サブネットワークを最適化し、代わりにプロンプトすることで、CoTASPはタスク固有のポリシーをトレーニングすることでメタポリシーを更新します。 次に辞書が更新され、最適化されたプロンプトとタスクの埋め込みを整合させ、意味的相関をキャプチャする。 したがって、関連するタスクは同様のプロンプトを介してメタポリケーションネットワーク内のニューロンを多く共有する一方、タスク間の干渉によって忘れることが効果的に抑制される。 ディクショナリーが更新された訓練されたメタ政治を考えると、新しいタスク適応は高度に効率的なスパースプロンプトとサブネットワークの微調整に還元される。 実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性のトレードオフを実現し、既存の連続およびマルチタスクのRLメソッドを全てのタスクで上回り、縮小を忘れ、目に見えないタスクに一般化する。

How to train a generalizable meta-policy by continually learning a sequence of tasks? It is a natural human skill yet challenging to achieve by current reinforcement learning: the agent is expected to quickly adapt to new tasks (plasticity) meanwhile retaining the common knowledge from previous tasks (stability). We address it by "Continual Task Allocation via Sparse Prompting (CoTASP)", which learns over-complete dictionaries to produce sparse masks as prompts extracting a sub-network for each task from a meta-policy network. By optimizing the sub-network and prompts alternatively, CoTASP updates the meta-policy via training a task-specific policy. The dictionary is then updated to align the optimized prompts with tasks' embedding, thereby capturing their semantic correlations. Hence, relevant tasks share more neurons in the meta-policy network via similar prompts while cross-task interference causing forgetting is effectively restrained. Given a trained meta-policy with updated dictionaries, new task adaptation reduces to highly efficient sparse prompting and sub-network finetuning. In experiments, CoTASP achieves a promising plasticity-stability trade-off without storing or replaying any past tasks' experiences and outperforms existing continual and multi-task RL methods on all seen tasks, forgetting reduction, and generalization to unseen tasks.
翻訳日:2023-05-31 20:52:21 公開日:2023-05-29
# 準現実的政策一般化のための原始的知識蒸留

Privileged Knowledge Distillation for Sim-to-Real Policy Generalization ( http://arxiv.org/abs/2305.18464v1 )

ライセンス: Link先を確認
Haoran He, Chenjia Bai, Hang Lai, Lingxiao Wang, Weinan Zhang(参考訳) 強化学習(rl)はロボット制御で最近目覚ましい成功を収めている。 しかし、ほとんどのrl手法は、特権知識(例えば、ダイナミクス、周囲、地形)が容易に利用できるシミュレーション環境で動作する。 逆に、現実のシナリオでは、ロボットエージェントは通常、アクションを選択するために、局所的な状態(例えば、ロボット関節の受容的フィードバック)のみに依存する。 既存の方法は、特権知識への依存を徐々に減らしたり、2段階の政策模倣を行うことによって、このギャップに対処する。 しかし、これらの手法は特権知識を十分に活用する能力に限られており、結果として準最適性能をもたらすと論じる。 本稿では,シム・トゥ・リアルギャップを狭めるために,歴史情報ボトルネック (hib) と呼ばれる新しい一段階特化知識蒸留法を提案する。 特に、HIBは、変化可能な動的情報を取得することによって、歴史的軌跡から特権的な知識表現を学習する。 理論的分析は、学習された特権的知識表現が、託宣と学習した政策の間の価値の相違を減らすのに役立つことを示している。 シミュレーションと実世界のタスクの両方に関する実証実験により、hibは従来の方法に比べて一般化性が向上することが示された。

Reinforcement Learning (RL) has recently achieved remarkable success in robotic control. However, most RL methods operate in simulated environments where privileged knowledge (e.g., dynamics, surroundings, terrains) is readily available. Conversely, in real-world scenarios, robot agents usually rely solely on local states (e.g., proprioceptive feedback of robot joints) to select actions, leading to a significant sim-to-real gap. Existing methods address this gap by either gradually reducing the reliance on privileged knowledge or performing a two-stage policy imitation. However, we argue that these methods are limited in their ability to fully leverage the privileged knowledge, resulting in suboptimal performance. In this paper, we propose a novel single-stage privileged knowledge distillation method called the Historical Information Bottleneck (HIB) to narrow the sim-to-real gap. In particular, HIB learns a privileged knowledge representation from historical trajectories by capturing the underlying changeable dynamic information. Theoretical analysis shows that the learned privileged knowledge representation helps reduce the value discrepancy between the oracle and learned policies. Empirical experiments on both simulated and real-world tasks demonstrate that HIB yields improved generalizability compared to previous methods.
翻訳日:2023-05-31 20:47:51 公開日:2023-05-29
# 近隣比較による言語モデルに対する会員推測攻撃

Membership Inference Attacks against Language Models via Neighbourhood Comparison ( http://arxiv.org/abs/2305.18462v1 )

ライセンス: Link先を確認
Justus Mattern, Fatemehsadat Mireshghallah, Zhijing Jin, Bernhard Sch\"olkopf, Mrinmaya Sachan, Taylor Berg-Kirkpatrick(参考訳) 会員推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としており、言語モデルのプライバシーリスクを評価するために広く利用されている。 既存の攻撃のほとんどは、モデルがトレーニングサンプルに非トレーニングポイントよりも高い確率を割り当てる傾向にあるという観察に依存している。 しかし、モデルスコアの分離による単純な閾値付けは、サンプルの本質的な複雑さを考慮しないため、高い偽陽性率をもたらす傾向にある。 近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。 しかし、参照モデルをトレーニングするために、このような攻撃は、敵が元のトレーニングデータとよく似たサンプルにアクセスできるという強い非現実的な仮定をもたらす。 したがって、より現実的なシナリオでその性能を調査し、参照モデルのトレーニングに使用されるデータ分散に関して非常に脆弱であることを見出します。 筆者らは,この脆弱性が安全性の層を提供するかどうかを検討するために,与えられたサンプルのモデルスコアと合成した隣接テキストのスコアを比較し,トレーニングデータ配信へのアクセスの必要性を排除した近傍攻撃を提案し,評価する。 我々は,トレーニングデータ分布に関する完全な知識を持つ参照ベースの攻撃と競合することに加えて,既存の参照フリー攻撃と不完全な知識を持つ参照ベースの攻撃を明らかに上回っていることを示し,敵攻撃の脅威モデルの再評価の必要性を実証する。

Membership Inference attacks (MIAs) aim to predict whether a data sample was present in the training data of a machine learning model or not, and are widely used for assessing the privacy risks of language models. Most existing attacks rely on the observation that models tend to assign higher probabilities to their training samples than non-training points. However, simple thresholding of the model score in isolation tends to lead to high false-positive rates as it does not account for the intrinsic complexity of a sample. Recent work has demonstrated that reference-based attacks which compare model scores to those obtained from a reference model trained on similar data can substantially improve the performance of MIAs. However, in order to train reference models, attacks of this kind make the strong and arguably unrealistic assumption that an adversary has access to samples closely resembling the original training data. Therefore, we investigate their performance in more realistic scenarios and find that they are highly fragile in relation to the data distribution used to train reference models. To investigate whether this fragility provides a layer of safety, we propose and evaluate neighbourhood attacks, which compare model scores for a given sample to scores of synthetically generated neighbour texts and therefore eliminate the need for access to the training data distribution. We show that, in addition to being competitive with reference-based attacks that have perfect knowledge about the training data distribution, our attack clearly outperforms existing reference-free attacks as well as reference-based attacks with imperfect knowledge, which demonstrates the need for a reevaluation of the threat model of adversarial attacks.
翻訳日:2023-05-31 20:47:32 公開日:2023-05-29
# 集合通信のための帯域幅最適パイプラインスケジュール

Bandwidth Optimal Pipeline Schedule for Collective Communication ( http://arxiv.org/abs/2305.18461v1 )

ライセンス: Link先を確認
Liangyu Zhao, Siddharth Pal, Prithwish Basu, Joud Khoury, Arvind Krishnamurthy(参考訳) 我々は,スイッチの有無に関わらず,任意のネットワークトポロジ上で帯域幅の最適allgather/reduce-scatterを生成するための強多項式時間アルゴリズムを提案する。 提案アルゴリズムは,与えられたトポロジ上で最高の帯域幅性能を実現するパイプラインスケジュールを構築する。 普遍的な解法を提供するため、ネットワークトポロジーを不均一なリンク容量を持つ有向グラフとしてモデル化し、グラフ表現の頂点として直接スイッチする。 アルゴリズムはトポロジーサイズに関して強い多項式時間である。 この研究は、エッジ分離スパンディングツリーとエッジ分割に関する以前のグラフ理論の研究に大きく依存している。 allgatherにフォーカスしながら、この論文のメソッドを簡単に拡張して、reduce、casting、reduce-scatter、allreduceのスケジュールを生成することができます。

We present a strongly polynomial-time algorithm to generate bandwidth optimal allgather/reduce-scatter on any network topology, with or without switches. Our algorithm constructs pipeline schedules achieving provably the best possible bandwidth performance on a given topology. To provide a universal solution, we model the network topology as a directed graph with heterogeneous link capacities and switches directly as vertices in the graph representation. The algorithm is strongly polynomial-time with respect to the topology size. This work heavily relies on previous graph theory work on edge-disjoint spanning trees and edge splitting. While we focus on allgather, the methods in this paper can be easily extended to generate schedules for reduce, broadcast, reduce-scatter, and allreduce.
翻訳日:2023-05-31 20:47:06 公開日:2023-05-29
# 一様普遍近似のための漏洩ReLUニューラルネットワークの最小幅

Minimum Width of Leaky-ReLU Neural Networks for Uniform Universal Approximation ( http://arxiv.org/abs/2305.18460v1 )

ライセンス: Link先を確認
Li'ang Li, Yifei Duan, Guanghua Ji, Yongqiang Cai(参考訳) ニューラルネットワーク(NN)のための普遍近似特性(UAP)の研究には長い歴史がある。 ネットワーク幅が無制限の場合、UAPには単一の隠蔽層のみが十分である。 対照的に、深さが無制限の場合、UAPの幅は臨界幅$w^*_{\min}=\max(d_x,d_y)$より小さく、$d_x$と$d_y$はそれぞれ入力と出力の寸法である。 最近 \cite{cai2022achieve} は、この臨界幅を持つリークReLU NN が、コンパクト領域 $K$, \emph{i.e.,} 上の$L^p(K,\mathbb{R}^{d_y})$の UAP に対して$L^p$ の UAP を達成することができることを示した。 本稿では、関数クラス $C(K,\mathbb{R}^{d_y})$ に対する統一 UAP を検証し、出力次元の影響を伴って、リーク-ReLU NN の正確な最小幅を $w_{\min}=\max(d_x+1,d_y)+1_{d_y=d_x+1}$ とする。 この結果を得るために,一様UAPが位相理論と深い関係を持つことを示す,新しいリフトフロー分散手法を提案する。

The study of universal approximation properties (UAP) for neural networks (NN) has a long history. When the network width is unlimited, only a single hidden layer is sufficient for UAP. In contrast, when the depth is unlimited, the width for UAP needs to be not less than the critical width $w^*_{\min}=\max(d_x,d_y)$, where $d_x$ and $d_y$ are the dimensions of the input and output, respectively. Recently, \cite{cai2022achieve} shows that a leaky-ReLU NN with this critical width can achieve UAP for $L^p$ functions on a compact domain $K$, \emph{i.e.,} the UAP for $L^p(K,\mathbb{R}^{d_y})$. This paper examines a uniform UAP for the function class $C(K,\mathbb{R}^{d_y})$ and gives the exact minimum width of the leaky-ReLU NN as $w_{\min}=\max(d_x+1,d_y)+1_{d_y=d_x+1}$, which involves the effects of the output dimensions. To obtain this result, we propose a novel lift-flow-discretization approach that shows that the uniform UAP has a deep connection with topological theory.
翻訳日:2023-05-31 20:46:53 公開日:2023-05-29
# diffusion modelはマルチタスク強化学習のための効果的なプランナーおよびデータシンセサイザである

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2305.18459v1 )

ライセンス: Link先を確認
Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong Wang, Bin Zhao, Xuelong Li(参考訳) 拡散モデルは視覚とNLPにおいて非常に表現力の高い生成能力を示す。 最近の強化学習(rl)の研究により、拡散モデルはオフラインデータセットにおける複雑なポリシーや軌道のモデリングにも有効であることが示されている。 しかし、これらの作業は、マルチタスクのプレディショニングに対処できるジェネラリストエージェントがいないシングルタスク設定に限定されている。 本稿では,大規模マルチタスクオフラインデータのモデル化における単一拡散モデルの有効性について検討する。 具体的には、トランスフォーマーバックボーンとプロンプトラーニングを組み込んだ拡散ベース手法であるマルチタスク拡散モデル(\textsc{mtdiff})を提案する。 \textsc{MTDiff} はマルチタスクデータで利用可能な膨大な知識を活用し、タスク間で暗黙的な知識共有を行う。 生成計画では,Meta-World上の50のタスク,Maze2D上の8のマップにおいて,‘textsc{MTDiff} は最先端のアルゴリズムよりも優れていた。 データ合成のために、 \textsc{mtdiff} は、1つのデモンストレーションをプロンプトとして与えられたタスクをテストするための高品質なデータを生成する。

Diffusion models have demonstrated highly-expressive generative capabilities in vision and NLP. Recent studies in reinforcement learning (RL) have shown that diffusion models are also powerful in modeling complex policies or trajectories in offline datasets. However, these works have been limited to single-task settings where a generalist agent capable of addressing multi-task predicaments is absent. In this paper, we aim to investigate the effectiveness of a single diffusion model in modeling large-scale multi-task offline data, which can be challenging due to diverse and multimodal data distribution. Specifically, we propose Multi-Task Diffusion Model (\textsc{MTDiff}), a diffusion-based method that incorporates Transformer backbones and prompt learning for generative planning and data synthesis in multi-task offline settings. \textsc{MTDiff} leverages vast amounts of knowledge available in multi-task data and performs implicit knowledge sharing among tasks. For generative planning, we find \textsc{MTDiff} outperforms state-of-the-art algorithms across 50 tasks on Meta-World and 8 maps on Maze2D. For data synthesis, \textsc{MTDiff} generates high-quality data for testing tasks given a single demonstration as a prompt, which enhances the low-quality datasets for even unseen tasks.
翻訳日:2023-05-31 20:46:23 公開日:2023-05-29
# ラベルシフトを伴う領域適応のための条件付き支援アライメント

Conditional Support Alignment for Domain Adaptation with Label Shift ( http://arxiv.org/abs/2305.18458v1 )

ライセンス: Link先を確認
Anh T Nguyen, Lam Tran, Anh Tong, Tuan-Duy H. Nguyen, Toan Tran(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)とは、学習モデルを、ソースドメイン上のラベル付きサンプルと、ターゲットドメイン内の未ラベルのサンプルに基づいてトレーニングするドメイン適応フレームワークである。 古典的共変量シフトを仮定してドメイン不変な特徴表現を学ぶ分野における支配的既存手法は、ソース領域とターゲット領域の間のラベル分布シフトの下での準最適性能をもたらす。 本稿では,対象領域の特徴表現分布とソース領域の特徴表現分布との条件対称的サポートのばらつきを最小限に抑えることを目的とした,新しい条件逆サポートアライメント(CASA)を提案する。 また,UDA設定における既存の限界的サポートアライメントアプローチと比較して,条件付き特徴分布のサポートの整合性を正当化する理論的ターゲットリスクバウンドを導入する。 そして,提案する目標リスクバウンドに基づいて目標最適化関数を精度良く学習するための完全なトレーニングプロセスを提供する。 実験の結果、CASAはラベルシフト条件下での異なるUDAベンチマークタスクにおいて、他の最先端手法よりも優れていることが示された。

Unsupervised domain adaptation (UDA) refers to a domain adaptation framework in which a learning model is trained based on the labeled samples on the source domain and unlabelled ones in the target domain. The dominant existing methods in the field that rely on the classical covariate shift assumption to learn domain-invariant feature representation have yielded suboptimal performance under the label distribution shift between source and target domains. In this paper, we propose a novel conditional adversarial support alignment (CASA) whose aim is to minimize the conditional symmetric support divergence between the source's and target domain's feature representation distributions, aiming at a more helpful representation for the classification task. We also introduce a novel theoretical target risk bound, which justifies the merits of aligning the supports of conditional feature distributions compared to the existing marginal support alignment approach in the UDA settings. We then provide a complete training process for learning in which the objective optimization functions are precisely based on the proposed target risk bound. Our empirical results demonstrate that CASA outperforms other state-of-the-art methods on different UDA benchmark tasks under label shift conditions.
翻訳日:2023-05-31 20:45:58 公開日:2023-05-29
# 弱情報を用いた強グラフニューラルネットワークの学習

Learning Strong Graph Neural Networks with Weak Information ( http://arxiv.org/abs/2305.18457v1 )

ライセンス: Link先を確認
Yixin Liu, Kaize Ding, Jianling Wang, Vincent Lee, Huan Liu, Shirui Pan(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフ学習タスクで素晴らしいパフォーマンスを示している。 それでも、入力グラフデータが弱い情報、すなわち不完全な構造、不完全な特徴、不十分なラベルに悩まされた場合、GNNの性能は低下する。 特定の種類の弱い情報でグラフデータから学習しようとするほとんどの先行研究は、多様なデータ不足が存在し、相互に影響を与え合うシナリオに対処するのに効果的ではない。 本稿では,このギャップを埋めるために,弱い情報(glwi)を用いたグラフ学習問題に対する効果的かつ原則的なアプローチを開発することを目的とする。 実験分析の結果から,gnnの長距離伝搬を可能にし,最大連結成分から分離した層状ノードへの情報伝達を可能にするという,glwiの問題を解決するための2つの設計焦点を導出した。 そこで我々は,不完全構造を持つ入力グラフだけでなく,大域的な意味的類似性を符号化する大域グラフ上でも長距離情報伝達を行う2チャネルgnnフレームワークであるd$^2$ptを提案する。 さらに,2つのチャネルから学習したクラスレベルのプロトタイプを整列させることにより,2つの異なる情報伝達プロセスが相互に利益を得ることができ,最終的に学習したモデルがGLWI問題にうまく対処できるような,コントラッシブアライメントアルゴリズムのプロトタイプを開発する。 8つの実世界のベンチマークデータセットに対する大規模な実験は,提案手法の有効性と有効性を示す。

Graph Neural Networks (GNNs) have exhibited impressive performance in many graph learning tasks. Nevertheless, the performance of GNNs can deteriorate when the input graph data suffer from weak information, i.e., incomplete structure, incomplete features, and insufficient labels. Most prior studies, which attempt to learn from the graph data with a specific type of weak information, are far from effective in dealing with the scenario where diverse data deficiencies exist and mutually affect each other. To fill the gap, in this paper, we aim to develop an effective and principled approach to the problem of graph learning with weak information (GLWI). Based on the findings from our empirical analysis, we derive two design focal points for solving the problem of GLWI, i.e., enabling long-range propagation in GNNs and allowing information propagation to those stray nodes isolated from the largest connected component. Accordingly, we propose D$^2$PT, a dual-channel GNN framework that performs long-range information propagation not only on the input graph with incomplete structure, but also on a global graph that encodes global semantic similarities. We further develop a prototype contrastive alignment algorithm that aligns the class-level prototypes learned from two channels, such that the two different information propagation processes can mutually benefit from each other and the finally learned model can well handle the GLWI problem. Extensive experiments on eight real-world benchmark datasets demonstrate the effectiveness and efficiency of our proposed methods in various GLWI scenarios.
翻訳日:2023-05-31 20:45:22 公開日:2023-05-29
# 透かし付き大規模言語モデル同定のためのベースライン

Baselines for Identifying Watermarked Large Language Models ( http://arxiv.org/abs/2305.18456v1 )

ライセンス: Link先を確認
Leonard Tang, Gavin Uberti, Tom Shlomi(参考訳) 本稿では,広く利用されている,公開されている,クローズドソースの大規模言語モデル(LLM)において,透かし方式の存在と使用を識別することの課題について考察する。 本稿では,LLMにおける透かしを識別するためのベースラインアルゴリズムを紹介し,透かしと無印のLLMによって生成された出力トークンとロジットの分布を解析することに依存する。 特に、透かし付きLLMは、定性的かつ同定可能な分布を標準モデルから生成する傾向にある。 さらに,様々な強度における透かしの識別性について検討し,透かしシナリオにおける識別機構のトレードオフを検討する。 その過程で, LLMにおける透かしの特定や, LLMにおける透かしや透かしの検出といった特定の問題を形式化し, それらを研究するための枠組みと基盤を提供する。

We consider the emerging problem of identifying the presence and use of watermarking schemes in widely used, publicly hosted, closed source large language models (LLMs). We introduce a suite of baseline algorithms for identifying watermarks in LLMs that rely on analyzing distributions of output tokens and logits generated by watermarked and unmarked LLMs. Notably, watermarked LLMs tend to produce distributions that diverge qualitatively and identifiably from standard models. Furthermore, we investigate the identifiability of watermarks at varying strengths and consider the tradeoffs of each of our identification mechanisms with respect to watermarking scenario. Along the way, we formalize the specific problem of identifying watermarks in LLMs, as well as LLM watermarks and watermark detection in general, providing a framework and foundations for studying them.
翻訳日:2023-05-31 20:44:29 公開日:2023-05-29
# Diff-Instruct: 事前学習した拡散モデルから知識を伝達するためのユニバーサルアプローチ

Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models ( http://arxiv.org/abs/2305.18455v1 )

ライセンス: Link先を確認
Weijian Luo and Tianyang Hu and Shifeng Zhang and Jiacheng Sun and Zhenguo Li and Zhihua Zhang(参考訳) トレーニングの容易さ、スケール性、高いサンプル品質のため、拡散モデル(dms)は生成モデリングの選択肢として好まれており、多くの事前学習されたモデルがさまざまなデータセットで利用可能である。 データ分散に関する複雑な情報を含む、事前訓練されたDMは、下流アプリケーションにとって貴重な資産である。 本研究では,事前学習されたdmから学習し,その知識をデータ無しで他の生成モデルに転送することを検討する。 具体的には,生成したサンプルがモデルパラメータに対して微分可能であれば,任意の生成モデルのトレーニングを指示するdiff-instructと呼ばれる汎用フレームワークを提案する。 提案するdiff-instructは厳密な数学的基礎に基づいており、命令過程は積分kullback-leibler(ikl)発散と呼ばれる新しい発散の最小化に直接対応している。 iklは拡散過程に沿ってklの発散の積分を計算することでdms用に調整されており、分布を不整合な支持体と比較する上でより堅牢であることを示している。 また,dreamfusion やgenerative adversarial training などの既存作品との非自明な接続も明らかにする。 Diff-Instructの有効性と普遍性を示すために、事前学習した拡散モデルの蒸留と既存のGANモデルの精製の2つのシナリオを検討する。 プレトレーニング拡散モデルの蒸留実験は、Diff-Instructが最先端の単一ステップ拡散モデルをもたらすことを示す。 GANモデルの精錬実験は、Diff-Instructが様々な設定でGANモデルの事前訓練されたジェネレータを一貫して改善できることを示している。

Due to the ease of training, ability to scale, and high sample quality, diffusion models (DMs) have become the preferred option for generative modeling, with numerous pre-trained models available for a wide variety of datasets. Containing intricate information about data distributions, pre-trained DMs are valuable assets for downstream applications. In this work, we consider learning from pre-trained DMs and transferring their knowledge to other generative models in a data-free fashion. Specifically, we propose a general framework called Diff-Instruct to instruct the training of arbitrary generative models as long as the generated samples are differentiable with respect to the model parameters. Our proposed Diff-Instruct is built on a rigorous mathematical foundation where the instruction process directly corresponds to minimizing a novel divergence we call Integral Kullback-Leibler (IKL) divergence. IKL is tailored for DMs by calculating the integral of the KL divergence along a diffusion process, which we show to be more robust in comparing distributions with misaligned supports. We also reveal non-trivial connections of our method to existing works such as DreamFusion, and generative adversarial training. To demonstrate the effectiveness and universality of Diff-Instruct, we consider two scenarios: distilling pre-trained diffusion models and refining existing GAN models. The experiments on distilling pre-trained diffusion models show that Diff-Instruct results in state-of-the-art single-step diffusion-based models. The experiments on refining GAN models show that the Diff-Instruct can consistently improve the pre-trained generators of GAN models across various settings.
翻訳日:2023-05-31 20:44:10 公開日:2023-05-29
# PubChemQC B3LYP/6-31G*//PM6データセット:B3LYP/6-31G*計算を用いた86万分子の電子構造

PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G* calculations ( http://arxiv.org/abs/2305.18454v1 )

ライセンス: Link先を確認
Maho Nakata and Toshiyuki Maeda(参考訳) 本稿では85,938,443分子の電子的性質を含む「PubChemQC B3LYP/6-31G*//PM6」データセットについて述べる。 軌道、軌道エネルギー、全エネルギー、双極子モーメント、その他の関連する性質を含む。 このデータセットは必須化合物から分子量1000までの幅広い分子を包含しており、オリジナルのpubchem化合物カタログの94.0%をカバーしている(2016年8月29日現在)。 電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。 データセットには3つのフォーマットがある。 (i) 量子化学プログラムファイルのゲーム。 (ii)選択したJSON出力ファイル、 (iii)PostgreSQLデータベースで、研究者が分子特性をクエリできる。 5つのサブデータセットは、より具体的なデータを提供する。 最初の2つのサブセットは、それぞれ300と500の分子量以下のC、H、O、Nの分子を含む。 第3および第4サブセットは、それぞれ300と500の分子量以下のC、H、N、O、P、S、F、Clを含む。 5番目のサブセットは、500分子量以下のC、H、N、O、P、S、F、Cl、Na、K、Mg、Caを含む。 決定係数はHOMO-LUMOエネルギーギャップに対して0.892 (CHON500) から0.803 (全体) まで変化した。 これらの発見は広範な調査であり、薬物の発見、物質科学、その他の応用に利用できる。 データセットはCreative Commons Attribution 4.0 International License at https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.htmlで公開されている。

This article presents the "PubChemQC B3LYP/6-31G*//PM6" dataset, containing electronic properties of 85,938,443 molecules. It includes orbitals, orbital energies, total energies, dipole moments, and other relevant properties. The dataset encompasses a wide range of molecules, from essential compounds to biomolecules up to 1000 molecular weight, covering 94.0% of the original PubChem Compound catalog (as of August 29, 2016). The electronic properties were calculated using the B3LYP/6-31G* and PM6 methods. The dataset is available in three formats: (i) GAMESS quantum chemistry program files, (ii) selected JSON output files, and (iii) a PostgreSQL database, enabling researchers to query molecular properties. Five sub-datasets offer more specific data. The first two subsets include molecules with C, H, O, and N, under 300 and 500 molecular weight respectively. The third and fourth subsets contain C, H, N, O, P, S, F, and Cl, under 300 and 500 molecular weight respectively. The fifth subset includes C, H, N, O, P, S, F, Cl, Na, K, Mg, and Ca, under 500 molecular weight. Coefficients of determination ranged from 0.892 (CHON500) to 0.803 (whole) for the HOMO-LUMO energy gap. These findings represent extensive investigations and can be utilized for drug discovery, material science, and other applications. The datasets are available under the Creative Commons Attribution 4.0 International license at https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html.
翻訳日:2023-05-31 20:43:39 公開日:2023-05-29
# シーケンスモデリングのための変圧器ネットワークの近似理論

Approximation theory of transformer networks for sequence modeling ( http://arxiv.org/abs/2305.18475v1 )

ライセンス: Link先を確認
Haotian Jiang, Qianxiao Li(参考訳) トランスフォーマーはシーケンスモデリングアプリケーションで広く応用されているアーキテクチャであるが、その動作原理の理論的理解は限られている。 本研究では,変換器の逐次関係を近似する能力について検討する。 まず、変圧器仮説空間に対する普遍近似定理を証明する。 その導出から、明示的な近似率の推定を証明できる新しい正則性の概念を同定する。 この推定は変圧器の重要な構造特性を明らかにし、変圧器が近似に適応する系列関係のタイプを示唆する。 特に、トランスフォーマーとリカレントニューラルネットワークのような古典的なシーケンスモデリング手法との間の構造バイアスを具体的に議論することができる。 我々の発見は数値実験によって裏付けられている。

The transformer is a widely applied architecture in sequence modeling applications, but the theoretical understanding of its working principles is limited. In this work, we investigate the ability of transformers to approximate sequential relationships. We first prove a universal approximation theorem for the transformer hypothesis space. From its derivation, we identify a novel notion of regularity under which we can prove an explicit approximation rate estimate. This estimate reveals key structural properties of the transformer and suggests the types of sequence relationships that the transformer is adapted to approximating. In particular, it allows us to concretely discuss the structural bias between the transformer and classical sequence modeling methods, such as recurrent neural networks. Our findings are supported by numerical experiments.
翻訳日:2023-05-31 20:36:24 公開日:2023-05-29
# Make-An-Audio 2: 一時的なテキスト・ツー・オーディオ生成

Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation ( http://arxiv.org/abs/2305.18474v1 )

ライセンス: Link先を確認
Jiawei Huang, Yi Ren, Rongjie Huang, Dongchao Yang, Zhenhui Ye, Chen Zhang, Jinglin Liu, Xiang Yin, Zejun Ma, Zhou Zhao(参考訳) 大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功しているが、しばしば、自然言語の理解やデータ不足による意味的ミスアライメントや時間的一貫性の低下といった共通の問題に悩まされる。 さらに、T2A作品で広く使われている2次元空間構造は、時間情報を適切に優先順位付けしていないため、可変長オーディオサンプルを生成する際に、満足のいく音質をもたらす。 これらの課題に対処するため,我々はMake-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。 まず、事前訓練された大規模言語モデル(llm)を使用して、テキストを構造化された<event & order>ペアに解析し、時間的情報収集を改善する。 また,拡散分節化過程における意味的アライメント学習を支援する別の構造化テキストエンコーダも導入する。 可変長生成の性能向上と時間情報抽出の向上を目的として,フィードフォワードトランスフォーマーを用いた拡散デノイザの設計を行った。 最後に、大量の音声ラベルデータを音声テキストデータセットに拡張・変換するためにllmを使用し、時間的データの不足の問題を軽減する。 実験の結果,本手法は主観的,主観的両指標のベースラインモデルより優れ,時間的情報理解,意味的整合性,音質に有意な向上が得られた。

Large diffusion models have been successful in text-to-audio (T2A) synthesis tasks, but they often suffer from common issues such as semantic misalignment and poor temporal consistency due to limited natural language understanding and data scarcity. Additionally, 2D spatial structures widely used in T2A works lead to unsatisfactory audio quality when generating variable-length audio samples since they do not adequately prioritize temporal information. To address these challenges, we propose Make-an-Audio 2, a latent diffusion-based T2A method that builds on the success of Make-an-Audio. Our approach includes several techniques to improve semantic alignment and temporal consistency: Firstly, we use pre-trained large language models (LLMs) to parse the text into structured <event & order> pairs for better temporal information capture. We also introduce another structured-text encoder to aid in learning semantic alignment during the diffusion denoising process. To improve the performance of variable length generation and enhance the temporal information extraction, we design a feed-forward Transformer-based diffusion denoiser. Finally, we use LLMs to augment and transform a large amount of audio-label data into audio-text datasets to alleviate the problem of scarcity of temporal data. Extensive experiments show that our method outperforms baseline models in both objective and subjective metrics, and achieves significant gains in temporal information understanding, semantic consistency, and sound quality.
翻訳日:2023-05-31 20:36:14 公開日:2023-05-29
# Alg{\i}lanan Stres Testinin Makine \"O\u{g}renmesi ile Analiz Edilmesi

Alg{\i}lanan Stres Testinin Makine \"O\u{g}renmesi ile Analiz Edilmesi ( http://arxiv.org/abs/2305.18473v1 )

ライセンス: Link先を確認
Toygar Tanyel(参考訳) 本研究の目的は、機械学習を用いて認知ストレステストを再解析し、150人の認知ストレスレベルを特定し、テスト質問の影響を測定することである。 テストは14の質問で構成され、それぞれ0から4の尺度でスコアされ、合計スコアは0-56である。 これらの質問のうち、7は負の文脈で定式化され、それに応じてスコアされ、残りの7は正の文脈で定式化され、逆となる。 テストはまた、自己効力感とストレス/不快感の2つのサブファクターを識別するように設計されている。 この研究の主な目的は、テスト質問が人工知能技術で同等に重要でないこと、機械学習を用いて社会のバリエーションを示す質問を明らかにすること、そして最終的に心理的に観察される異なるパターンの存在を実証することである。 本研究は、機械学習によるテストを繰り返して、既存の心理学文献とは異なる視点を提供する。 また,ストレステストの結果を解釈するために用いられる尺度の正確性に疑問を呈し,テスト質問の優先順位付けにおける差異を考慮することの重要性を強調した。 本研究は,ストレスに対する対処戦略と治療的アプローチに関する新たな知見を提供するものである。 ソースコード: https://github.com/toygarr/ppl-r-stressed

The aim of this study is to reanalyze the perceived stress test using machine learning to determine the perceived stress levels of 150 individuals and measure the impact of the test questions. The test consists of 14 questions, each scored on a scale of 0 to 4, resulting in a total score range of 0-56. Out of these questions, 7 are formulated in a negative context and scored accordingly, while the remaining 7 are formulated in a positive context and scored in reverse. The test is also designed to identify two sub-factors: perceived self-efficacy and stress/discomfort perception. The main objectives of this research are to demonstrate that test questions may not have equal importance using artificial intelligence techniques, reveal which questions exhibit variations in the society using machine learning, and ultimately demonstrate the existence of distinct patterns observed psychologically. This study provides a different perspective from the existing psychology literature by repeating the test through machine learning. Additionally, it questions the accuracy of the scale used to interpret the results of the perceived stress test and emphasizes the importance of considering differences in the prioritization of test questions. The findings of this study offer new insights into coping strategies and therapeutic approaches in dealing with stress. Source code: https://github.com/toygarr/ppl-r-stressed
翻訳日:2023-05-31 20:35:45 公開日:2023-05-29
# 双方向伝搬による深部予測符号化による分類と再構成

Deep Predictive Coding with Bi-directional Propagation for Classification and Reconstruction ( http://arxiv.org/abs/2305.18472v1 )

ライセンス: Link先を確認
Senhui Qiu, Saugat Bhattacharyya, Damien Coyle, Shirin Dora(参考訳) 本稿では,開発ネットワークが同一の重みで分類と再構築を同時に行うことを可能にする,深双方向予測符号化(dbpc)と呼ばれる新しい学習アルゴリズムを提案する。 予測符号化(PC)は脳の情報処理の基礎となる顕著な理論である。 pcでの学習の一般的な概念は、各層が前の層におけるニューロンの活動を予測することを学び、エラーの局所的な計算とレイヤー間の並列学習を可能にすることである。 本稿では,情報のフィードフォワードとフィードバックの両方をサポートするネットワークを構築することにより,既存のpcアプローチを拡張する。 DBPCを用いてトレーニングされたネットワークの各レイヤは、前層と次層のニューロンの活動を予測することを学習し、それぞれフィードフォワードとフィードバックの伝搬を用いて分類と再構築を同時に行うことができる。 DBPCはまた、学習のためにローカルに利用可能な情報にも依存しているため、ネットワーク内のすべてのレイヤにわたって並列学習を可能にする。 提案手法は,完全連結ネットワークと畳み込みニューラルネットワークの両方を訓練するために開発された。 dbpcの性能は、mnist と fashionmnist データセットを用いた分類と再構成のタスクの両方で評価されている。 DBPCを用いてトレーニングしたネットワークの分類と再構築性能は、比較に用いる他のアプローチと似ているが、DBPCはネットワークをはるかに小さくしている。 さらに、DBPCの利点は、ローカルで利用可能な情報と効率的なトレーニングプロトコルをもたらす並列学習機構を用いて、この性能を実現する能力である。 この結果から,DBPCは分類と再構築を同時に行うネットワーク開発において,より効率的なアプローチであることが示唆された。

This paper presents a new learning algorithm, termed Deep Bi-directional Predictive Coding (DBPC) that allows developing networks to simultaneously perform classification and reconstruction tasks using the same weights. Predictive Coding (PC) has emerged as a prominent theory underlying information processing in the brain. The general concept for learning in PC is that each layer learns to predict the activities of neurons in the previous layer which enables local computation of error and in-parallel learning across layers. In this paper, we extend existing PC approaches by developing a network which supports both feedforward and feedback propagation of information. Each layer in the networks trained using DBPC learn to predict the activities of neurons in the previous and next layer which allows the network to simultaneously perform classification and reconstruction tasks using feedforward and feedback propagation, respectively. DBPC also relies on locally available information for learning, thus enabling in-parallel learning across all layers in the network. The proposed approach has been developed for training both, fully connected networks and convolutional neural networks. The performance of DBPC has been evaluated on both, classification and reconstruction tasks using the MNIST and FashionMNIST datasets. The classification and the reconstruction performance of networks trained using DBPC is similar to other approaches used for comparison but DBPC uses a significantly smaller network. Further, the significant benefit of DBPC is its ability to achieve this performance using locally available information and in-parallel learning mechanisms which results in an efficient training protocol. This results clearly indicate that DBPC is a much more efficient approach for developing networks that can simultaneously perform both classification and reconstruction.
翻訳日:2023-05-31 20:35:24 公開日:2023-05-29
# 非凸対象に対するAdaGradの収束性:単純証明と緩和推定

Convergence of AdaGrad for Non-convex Objectives: Simple Proofs and Relaxed Assumptions ( http://arxiv.org/abs/2305.18471v1 )

ライセンス: Link先を確認
Bohan Wang, Huishuai Zhang, Zhi-Ming Ma, Wei Chen(参考訳) AdaGradはアフィン雑音分散と有界滑らか性仮定のみの下で非凸目標を最適化する単純な収束証明を提供する。 この証明は本質的には、AdaGradの更新の数値と分母の間の相関を扱う複雑さを解消する新しい補助関数 $\xi$ に基づいている。 単純な証明を利用することで、既存の結果より厳密な結果を得ることができ、分析をいくつかの新しい重要なケースに拡張することができる。 具体的には、過剰にパラメータ化されたレジームに対しては、アダグラードに対して$\mathcal{o}(\frac{1}{\varepsilon^2})$の勾配ノルムが$\varepsilon$より小さいことを保証するために、わずか$\mathcal{o}(\frac{1}{\varepsilon^2})$の反復が必要であることを示す。 次に、有界な滑らかさの仮定を捨てて、局所滑らかさを勾配ノルムで成長させることができる$(L_0,L_1)$-smooth条件と呼ばれる滑らかさの現実的な仮定を考える。 また、補助関数 $\xi$ に基づいて、学習率が閾値より低い限り、アダグラードは$(l_0,l_1)$-smooth条件下での収束に成功したことを証明する。 さらに,学習速度の選択によらず収束が保証される均一な平滑性条件とは対照的に,(L_0,L_1)$-smooth条件下での学習率の要件は矛盾による証明によって必要であることを示す。 そこで本研究では,AdaGradの理解を深め,AdaGradの研究における新たな補助機能の力を示す。

We provide a simple convergence proof for AdaGrad optimizing non-convex objectives under only affine noise variance and bounded smoothness assumptions. The proof is essentially based on a novel auxiliary function $\xi$ that helps eliminate the complexity of handling the correlation between the numerator and denominator of AdaGrad's update. Leveraging simple proofs, we are able to obtain tighter results than existing results \citep{faw2022power} and extend the analysis to several new and important cases. Specifically, for the over-parameterized regime, we show that AdaGrad needs only $\mathcal{O}(\frac{1}{\varepsilon^2})$ iterations to ensure the gradient norm smaller than $\varepsilon$, which matches the rate of SGD and significantly tighter than existing rates $\mathcal{O}(\frac{1}{\varepsilon^4})$ for AdaGrad. We then discard the bounded smoothness assumption and consider a realistic assumption on smoothness called $(L_0,L_1)$-smooth condition, which allows local smoothness to grow with the gradient norm. Again based on the auxiliary function $\xi$, we prove that AdaGrad succeeds in converging under $(L_0,L_1)$-smooth condition as long as the learning rate is lower than a threshold. Interestingly, we further show that the requirement on learning rate under the $(L_0,L_1)$-smooth condition is necessary via proof by contradiction, in contrast with the case of uniform smoothness conditions where convergence is guaranteed regardless of learning rate choices. Together, our analyses broaden the understanding of AdaGrad and demonstrate the power of the new auxiliary function in the investigations of AdaGrad.
翻訳日:2023-05-31 20:34:58 公開日:2023-05-29
# 制約設計生成のための拡散モデルによる最適化軌道の調整

Aligning Optimization Trajectories with Diffusion Models for Constrained Design Generation ( http://arxiv.org/abs/2305.18470v1 )

ライセンス: Link先を確認
Giorgio Giannone, Akash Srivastava, Ole Winther, Faez Ahmed(参考訳) 生成モデルは、視覚と言語に大きな影響を与え、マルチモーダル生成アプリケーションの新しい時代への道を開いた。 これらの成功は研究者に、デザインプロセスを加速し、反復最適化への依存を減らすために、科学と工学における生成モデルの利用を探求するきっかけとなったが、課題は残る。 具体的には、データ不足や精度が最重要である制約された環境を扱う場合、物理に基づく工学的最適化手法は生成モデルよりも優れている。 これらの課題に対処するために,拡散最適化モデル (DOM) とトラジェクティブアライメント (TA) を導入する。これは,拡散モデルのサンプリング軌道と従来の物理法に基づく最適化軌道との整合性を示す学習フレームワークである。 このアライメントにより、サンプリングプロセスが基礎となる物理原理に基盤を置き続けることが保証される。 本手法は, コストのかかる前処理や外部サロゲートモデル, 付加的なラベル付きデータなしで, わずか2ステップで実現可能かつ高性能な設計を生成できる。 本稿では,機械設計における基本的問題である構造的トポロジ最適化に適用し,その性能評価を行う。 この結果から, TAは分布内構成における最先端の深層生成モデルより優れ, 推論計算コストを半減することがわかった。 最適化のいくつかのステップと組み合わせることで、アウトオブディストリビューション条件における製造性も向上する。 性能と推論効率を大幅に向上させることで、DOMは、数ステップで高品質な設計を生成でき、それらを高性能で製造可能な領域へと導くことができ、大規模データ駆動設計における生成モデルの普及への道を開いた。

Generative models have had a profound impact on vision and language, paving the way for a new era of multimodal generative applications. While these successes have inspired researchers to explore using generative models in science and engineering to accelerate the design process and reduce the reliance on iterative optimization, challenges remain. Specifically, engineering optimization methods based on physics still outperform generative models when dealing with constrained environments where data is scarce and precision is paramount. To address these challenges, we introduce Diffusion Optimization Models (DOM) and Trajectory Alignment (TA), a learning framework that demonstrates the efficacy of aligning the sampling trajectory of diffusion models with the optimization trajectory derived from traditional physics-based methods. This alignment ensures that the sampling process remains grounded in the underlying physical principles. Our method allows for generating feasible and high-performance designs in as few as two steps without the need for expensive preprocessing, external surrogate models, or additional labeled data. We apply our framework to structural topology optimization, a fundamental problem in mechanical design, evaluating its performance on in- and out-of-distribution configurations. Our results demonstrate that TA outperforms state-of-the-art deep generative models on in-distribution configurations and halves the inference computational cost. When coupled with a few steps of optimization, it also improves manufacturability for out-of-distribution conditions. By significantly improving performance and inference efficiency, DOM enables us to generate high-quality designs in just a few steps and guide them toward regions of high performance and manufacturability, paving the way for the widespread application of generative models in large-scale data-driven design.
翻訳日:2023-05-31 20:34:21 公開日:2023-05-29
# ランダム化トップkスパルシフィケーションによる分割学習のためのコミュニケーションの削減

Reducing Communication for Split Learning by Randomized Top-k Sparsification ( http://arxiv.org/abs/2305.18469v1 )

ライセンス: Link先を確認
Fei Zheng, Chaochao Chen, Lingjuan Lyu, Binhui Yao(参考訳) スプリットラーニングは垂直連合学習(vfl)のためのシンプルなソリューションであり、単純さと効率性から研究と応用の両方において大きな注目を集めている。 しかし、分割学習ではコミュニケーション効率が依然として重要な問題である。 本稿では,カット層サイズ低減,トップkスパース化,量子化,l1正規化など,分割学習のための複数のコミュニケーション削減手法について検討する。 さらに,カット層サイズ低減とトップkスパーシフィケーションの分析により,モデルの一般化と収束性を向上させるために,ランダム化トップkスパーシフィケーションを提案する。 これは、大きな確率でtop-k要素を選択し、非top-k要素を選択する確率を小さくすることで行われる。 実験の結果,提案手法は,他の通信方式と比較して,同じ圧縮レベルでのモデル性能が向上することが示された。

Split learning is a simple solution for Vertical Federated Learning (VFL), which has drawn substantial attention in both research and application due to its simplicity and efficiency. However, communication efficiency is still a crucial issue for split learning. In this paper, we investigate multiple communication reduction methods for split learning, including cut layer size reduction, top-k sparsification, quantization, and L1 regularization. Through analysis of the cut layer size reduction and top-k sparsification, we further propose randomized top-k sparsification, to make the model generalize and converge better. This is done by selecting top-k elements with a large probability while also having a small probability to select non-top-k elements. Empirical results show that compared with other communication-reduction methods, our proposed randomized top-k sparsification achieves a better model performance under the same compression level.
翻訳日:2023-05-31 20:33:50 公開日:2023-05-29
# 幾何グラフフィルタとニューラルネットワーク : 限界特性と判別可能性トレードオフ

Geometric Graph Filters and Neural Networks: Limit Properties and Discriminability Trade-offs ( http://arxiv.org/abs/2305.18467v1 )

ライセンス: Link先を確認
Zhiyang Wang and Luana Ruiz and Alejandro Ribeiro(参考訳) 本稿では、グラフニューラルネットワーク(gnn)と多様体ニューラルネットワーク(mnn)の関係について、グラフが多様体からサンプリングされた点の集合から構築され、幾何学的情報をエンコードする場合に検討する。 我々は、多様体とグラフの畳み込みがそれぞれラプラス・ベルトラミ作用素とグラフラプラシアンで定義されるような畳み込み MNN と GNN を考える。 適切なカーネルを用いて、密度と適度なスパースグラフの両方を分析する。 これらのグラフ上の畳み込みフィルタとニューラルネットワークが連続多様体上の畳み込みフィルタとニューラルネットワークに収束することを示す非漸近的誤差境界を証明した。 この分析の副産物として、グラフフィルタの識別性と、多様体フィルタの所望の挙動を近似する能力との間の重要なトレードオフを観察する。 次に、非線形性の周波数混合性により、このトレードオフがニューラルネットワークでどのように改善されるかについて議論する。 さらに、同一多様体からサンプリングされた幾何グラフの転送可能性も導出する。 本研究は,ナビゲーション制御問題と点雲分類タスクで数値的に検証する。

This paper studies the relationship between a graph neural network (GNN) and a manifold neural network (MNN) when the graph is constructed from a set of points sampled from the manifold, thus encoding geometric information. We consider convolutional MNNs and GNNs where the manifold and the graph convolutions are respectively defined in terms of the Laplace-Beltrami operator and the graph Laplacian. Using the appropriate kernels, we analyze both dense and moderately sparse graphs. We prove non-asymptotic error bounds showing that convolutional filters and neural networks on these graphs converge to convolutional filters and neural networks on the continuous manifold. As a byproduct of this analysis, we observe an important trade-off between the discriminability of graph filters and their ability to approximate the desired behavior of manifold filters. We then discuss how this trade-off is ameliorated in neural networks due to the frequency mixing property of nonlinearities. We further derive a transferability corollary for geometric graphs sampled from the same manifold. We validate our results numerically on a navigation control problem and a point cloud classification task.
翻訳日:2023-05-31 20:33:33 公開日:2023-05-29
# 大規模言語モデルにおける近隣住民のテスト時間訓練

Test-Time Training on Nearest Neighbors for Large Language Models ( http://arxiv.org/abs/2305.18466v1 )

ライセンス: Link先を確認
Moritz Hardt and Yu Sun(参考訳) 最近の多くの取り組みは、テスト時にデータベースから取得した関連情報を言語モデルに拡張することを目的としている。 テスト時に取得したデータに対して,標準のトレーニング設定を使ってモデルを微調整することで,迅速なエンジニアリングの必要性を回避する。 そこで本研究では,Pileデータセットのテキスト埋め込みに基づく大規模分散近接インデックスを構築した。 言語モデルへのクエリが与えられたら、システムはクエリの近傍を検索し、その近隣に対応するテキストデータ上でモデルを微調整します。 驚いたことに、わずか20人の隣人による検索とトレーニングが、それぞれ1回の勾配イテレーションで、pillベンチマークで20以上の言語モデリングタスクのパフォーマンスを劇的に改善している。 例えば、テストタイムトレーニングでは、小さなGPT2モデルと10倍以上のGPTNeoモデルのパフォーマンスギャップが大幅に狭まり、特にPileに収束するように訓練されている。 しかし、十分なインデックスの品質とサイズは重要だ。 私たちの研究は、大規模な言語モデルのコンテキストでテスト時トレーニングを実装する上で、価値ある最初のベースラインを確立します。

Many recent efforts aim to augment language models with relevant information retrieved from a database at test time. We avoid the need for prompt engineering by directly fine-tuning the model on data retrieved at test time using its standard training setup. For this purpose, we build a large-scale distributed nearest neighbor index based on text embeddings of the Pile dataset. Given a query to a language model, our system retrieves the neighbors of the query and fine-tunes the model on the text data corresponding to those neighbors. Surprisingly, retrieving and training on as few as 20 neighbors, each for only one gradient iteration, drastically improves performance across more than twenty language modeling tasks in the Pile benchmark. For example, test-time training significantly narrows the performance gap between a small GPT2 model and a GPTNeo model, more than ten times larger, that was specifically trained to convergence on the Pile. Sufficient index quality and size, however, are important. Our work establishes a valuable first baseline for implementing test-time training in the context of large language models, opening the door to numerous promising research avenues.
翻訳日:2023-05-31 20:33:17 公開日:2023-05-29
# 差分プライバシーを持つGboard言語モデルのフェデレーション学習

Federated Learning of Gboard Language Models with Differential Privacy ( http://arxiv.org/abs/2305.18465v1 )

ライセンス: Link先を確認
Zheng Xu, Yanxiang Zhang, Galen Andrew, Christopher A. Choquette-Choo, Peter Kairouz, H. Brendan McMahan, Jesse Rosenstock, Yuanbo Zhang(参考訳) 我々は,Google Keyboard (Gboard) において,フェデレートラーニング (FL) と差分プライバシ (DP) を用いて言語モデル (LM) を訓練する。 我々は,DP-Follow-the-Regularized-Leader (DP-FTRL)~\citep{kairouz21b} アルゴリズムを適用し,クライアントデバイスの一様サンプリングを必要とせずに有意義に形式的なDP保証を実現する。 適切なプライバシ利用のトレードオフを提供するため,新たなクライアント参加基準を導入し,大規模システムにおけるその構成の意義について考察する。 DP-FTRLと組み合わせることで、トレーニング中のクリップ基準を適応的に選択したり、トレーニングの準備のためにハイパーパラメータチューニングを減らしたりすることができることを示す。 公開データの事前トレーニングの助けを借りて、高いユーティリティと$\rho-$zcdpプライバシ保証を達成する20以上のgboard lmsを、$\rho \in (0.2, 2)$でトレーニングし、セキュアアグリゲーションでさらに2つのモデルをトレーニングします。 gboardの次のワード予測ニューラルネットワークlmsがdp保証を持つことを発表して、gboardニューラルネットワークlmsの今後のローンチにはdp保証が必要です。 筆者らの経験を要約し,DP研修に関する具体的な提案を行う。

We train language models (LMs) with federated learning (FL) and differential privacy (DP) in the Google Keyboard (Gboard). We apply the DP-Follow-the-Regularized-Leader (DP-FTRL)~\citep{kairouz21b} algorithm to achieve meaningfully formal DP guarantees without requiring uniform sampling of client devices. To provide favorable privacy-utility trade-offs, we introduce a new client participation criterion and discuss the implication of its configuration in large scale systems. We show how quantile-based clip estimation~\citep{andrew2019differentially} can be combined with DP-FTRL to adaptively choose the clip norm during training or reduce the hyperparameter tuning in preparation for training. With the help of pretraining on public data, we train and deploy more than twenty Gboard LMs that achieve high utility and $\rho-$zCDP privacy guarantees with $\rho \in (0.2, 2)$, with two models additionally trained with secure aggregation~\citep{bonawitz2017practical}. We are happy to announce that all the next word prediction neural network LMs in Gboard now have DP guarantees, and all future launches of Gboard neural network LMs will require DP guarantees. We summarize our experience and provide concrete suggestions on DP training for practitioners.
翻訳日:2023-05-31 20:32:59 公開日:2023-05-29
# 表現学習のための自動符号化条件付きニューラルプロセス

Autoencoding Conditional Neural Processes for Representation Learning ( http://arxiv.org/abs/2305.18485v1 )

ライセンス: Link先を確認
Victor Prokhorov, Ivan Titov, N. Siddharth(参考訳) 条件付きニューラルプロセス(CNP)は、観測から確率過程を学ぶことを学ぶ、柔軟で効率的なモデルのファミリーである。 視覚領域では、コンテクスト画像補完において特定の応用が見られ、ある場所でピクセル値を観察し、他の観測されていない場所での値の分布を予測する。 しかし、そのようなCNPを学習する際のピクセルの選択は、通常、ランダムまたは単純な統計測度(例えば、ピクセル分散)から導出される。 ここでは、問題を頭を回して、どのピクセルをCNPが観察したいのかを尋ねます。 つまり、どのピクセルがCNPのフィッティングを許可し、そのようなピクセルが背景画像について何か教えてくれるのか? 固定サイズ潜在表現としてCNPに提供するコンテキストを考察し、CNPの学習と同時にこのコンテキストを予測するための補正された変分フレームワークである部分画素空間変分自動符号化(PPS-VAE)を構築した。 我々は,一連の視覚データセット上でPSS-VAEを評価し,CNPを装着しながらコンテキストポイントを学習できるだけでなく,その空間配置や値が画像に含まれる情報に対して強い信号を与えることを発見した。 我々は、PS-VAEが、解釈可能かつ効果的な視覚表現を学ぶための、有望な道を提供すると考えている。

Conditional neural processes (CNPs) are a flexible and efficient family of models that learn to learn a stochastic process from observations. In the visual domain, they have seen particular application in contextual image completion - observing pixel values at some locations to predict a distribution over values at other unobserved locations. However, the choice of pixels in learning such a CNP is typically either random or derived from a simple statistical measure (e.g. pixel variance). Here, we turn the problem on its head and ask: which pixels would a CNP like to observe? That is, which pixels allow fitting CNP, and do such pixels tell us something about the underlying image? Viewing the context provided to the CNP as fixed-size latent representations, we construct an amortised variational framework, Partial Pixel Space Variational Autoencoder (PPS-VAE), for predicting this context simultaneously with learning a CNP. We evaluate PPS-VAE on a set of vision datasets, and find that not only is it possible to learn context points while also fitting CNPs, but that their spatial arrangement and values provides strong signal for the information contained in the image - evaluated through the lens of classification. We believe the PPS-VAE provides a promising avenue to explore learning interpretable and effective visual representations.
翻訳日:2023-05-31 20:26:38 公開日:2023-05-29
# ニューラルフーリエ変換:等変表現学習への一般的なアプローチ

Neural Fourier Transform: A General Approach to Equivariant Representation Learning ( http://arxiv.org/abs/2305.18484v1 )

ライセンス: Link先を確認
Masanori Koyama and Kenji Fukumizu and Kohei Hayashi and Takeru Miyato(参考訳) 対称性学習はデータの隠れ構造を抽出するための効果的なアプローチであることが証明されており、その中心的な役割は等分散関係である。 しかし、現在の研究のほとんどは、アーキテクチャ理論とデータ形式に関する対応する仮定に基づいている。 ニューラルフーリエ変換 (neural fourier transform, nft) は, 集団がデータに対してどのように作用するかを明示的に知ることなく, 集団の潜在線形作用を学習する一般的なフレームワークである。 NFTの理論的基礎を述べるとともに、同値学習においてユビキタスに仮定された線形同変特徴の存在は、データ空間上の群不変カーネルの存在と等価であることを示す。 また,動作群に関する知識のレベルが異なる典型的シナリオにおけるNFTの適用を実証するための実験結果も提供する。

Symmetry learning has proven to be an effective approach for extracting the hidden structure of data, with the concept of equivariance relation playing the central role. However, most of the current studies are built on architectural theory and corresponding assumptions on the form of data. We propose Neural Fourier Transform (NFT), a general framework of learning the latent linear action of the group without assuming explicit knowledge of how the group acts on data. We present the theoretical foundations of NFT and show that the existence of a linear equivariant feature, which has been assumed ubiquitously in equivariance learning, is equivalent to the existence of a group invariant kernel on the dataspace. We also provide experimental results to demonstrate the application of NFT in typical scenarios with varying levels of knowledge about the acting group.
翻訳日:2023-05-31 20:26:17 公開日:2023-05-29
# 光速への正規化最適輸送:GPUに適応した分割法

Bringing regularized optimal transport to lightspeed: a splitting method adapted for GPUs ( http://arxiv.org/abs/2305.18483v1 )

ライセンス: Link先を確認
Jacob Lindb\"ack, Zesen Wang, Mikael Johansson(参考訳) 本稿では,最適輸送の効率のよいアルゴリズムを提案する。 従来の手法とは対照的に、ダグラス・ラッチフォード分割法を用いて幅広い正規化器を扱える効率的な解法を開発した。 このアルゴリズムは、強力なグローバルコンバージェンス保証を持ち、イテレーション当たりのコストが低く、GPU並列化を活用できるため、多くの問題において最先端よりもかなり高速である。 ドメイン適応や生成モデルの学習など,いくつかのアプリケーションでその競争力を示す。

We present an efficient algorithm for regularized optimal transport. In contrast to previous methods, we use the Douglas-Rachford splitting technique to develop an efficient solver that can handle a broad class of regularizers. The algorithm has strong global convergence guarantees, low per-iteration cost, and can exploit GPU parallelization, making it considerably faster than the state-of-the-art for many problems. We illustrate its competitiveness in several applications, including domain adaptation and learning of generative models.
翻訳日:2023-05-31 20:26:00 公開日:2023-05-29
# トップズ&ボトムズのためのファッションオブジェクト検出

Fashion Object Detection for Tops & Bottoms ( http://arxiv.org/abs/2305.18482v1 )

ライセンス: Link先を確認
Andreas Petridis, Mirela Popa, Filipa Peleja, Dario Dotti and Alberto de Santos(参考訳) Fashionは世界最大の産業の1つであり、特にオブジェクト検出やアパレルセグメンテーションといったタスクにおいて、コンピュータビジョン技術が近年人気を集めている。 コンピュータビジョンソリューションの急速な成長、特にファッション業界において、多くの問題が解決されるには程遠い。 したがって、常にトレーニング済みのコンピュータビジョンモデルを調整することは、望ましい解決策となる。 本稿では,人とのノイズの多い画像を撮影し,下着や上着の領域を具体的に検出するパイプラインを提案する。 我々のソリューションは、フルボディ対ハーフボディなどの画像中の人間の部分を見つけることができるモデルを実装している。 すると、人間が存在することを知る他のモデル(例えば、常にフルボディを持っているとは限らない)は、画像のバウンディングボックスや領域が、ボトムやトップと非常に一致する可能性が高い。 境界ボックス/リージョンタスクを作成するために、ベンチマークデータセットが特別に準備された。 その結果,Mask RCNNソリューションはロバストで,不明瞭なアパレル/ファッションデータで使用でき,スケーラブルであることがわかった。

Fashion is one of the largest world's industries and computer vision techniques have been becoming more popular in recent years, in particular, for tasks such as object detection and apparel segmentation. Even with the rapid growth in computer vision solutions, specifically for the fashion industry, many problems are far for being resolved. Therefore, not at all times, adjusting out-of-the-box pre-trained computer vision models will provide the desired solution. In the present paper is proposed a pipeline that takes a noisy image with a person and specifically detects the regions with garments that are bottoms or tops. Our solution implements models that are capable of finding human parts in an image e.g. full-body vs half-body, or no human is found. Then, other models knowing that there's a human and its composition (e.g. not always we have a full-body) finds the bounding boxes/regions of the image that very likely correspond to a bottom or a top. For the creation of bounding boxes/regions task, a benchmark dataset was specifically prepared. The results show that the Mask RCNN solution is robust, and generalized enough to be used and scalable in unseen apparel/fashion data.
翻訳日:2023-05-31 20:25:52 公開日:2023-05-29
# UAVに基づく自律的メタバースデータ収集のための強化学習と凸最適化のハイブリッドフレームワーク

A Hybrid Framework of Reinforcement Learning and Convex Optimization for UAV-Based Autonomous Metaverse Data Collection ( http://arxiv.org/abs/2305.18481v1 )

ライセンス: Link先を確認
Peiyuan Si, Liangxin Qian, Jun Zhao, Kwok-Yan Lam(参考訳) 無人航空機(UAV)は、特に新興のMetaverse and Internet of Things(IoT)の文脈において、コストとモビリティの優位性のために通信サービスを提供することを約束している。 本稿では,UAVが基地局(BS)を網羅し,道路側ユニット(RSU)で生成されたMetaverseデータを収集する,UAV支援型Metaverseネットワークについて考察する。 具体的には、データ収集効率を改善するために、リソース割り当てとトラジェクトリ制御をシステムモデルに統合する。 最適化問題の時間依存の性質は、従来の凸最適化法で解くことは自明ではない。 提案したUAV支援型Metaverseネットワークシステムモデルに基づいて,時間系列最適化問題を協調的に解くための強化学習と凸最適化を備えたハイブリッドフレームワークを設計する。 シミュレーションの結果,提案するフレームワークは,所定の送信電力資源でミッション完了時間を短縮できることがわかった。

Unmanned aerial vehicles (UAVs) are promising for providing communication services due to their advantages in cost and mobility, especially in the context of the emerging Metaverse and Internet of Things (IoT). This paper considers a UAV-assisted Metaverse network, in which UAVs extend the coverage of the base station (BS) to collect the Metaverse data generated at roadside units (RSUs). Specifically, to improve the data collection efficiency, resource allocation and trajectory control are integrated into the system model. The time-dependent nature of the optimization problem makes it non-trivial to be solved by traditional convex optimization methods. Based on the proposed UAV-assisted Metaverse network system model, we design a hybrid framework with reinforcement learning and convex optimization to {cooperatively} solve the time-sequential optimization problem. Simulation results show that the proposed framework is able to reduce the mission completion time with a given transmission power resource.
翻訳日:2023-05-31 20:25:31 公開日:2023-05-29
# 単一画像に基づく人体形状分類

Human Body Shape Classification Based on a Single Image ( http://arxiv.org/abs/2305.18480v1 )

ライセンス: Link先を確認
Cameron Trotter, Filipa Peleja, Dario Dotti and Alberto de Santos(参考訳) 消費者の体型のニーズを組み込んだオンラインファッションレコメンデーションシステムに対する高い需要がある。 そこで本研究では,1つの画像から人体形状を分類する手法を提案する。 これは、オープンソースのベンチマークデータセットでのみトレーニングされたインスタンスセグメンテーションとキーポイント推定モデルを使用することで実現されている。 このシステムは、頑丈なバックグラウンドサブトラクションのため、ノイズの多い環境で実行することができる。 提案手法は、推定キーポイントに基づく分類の結果、3次元ボディレクリエーションを必要とせず、また、利用者の操作に関する履歴情報も必要とせず、使用時点で必要なすべての測定値を計算する。 提案手法は,既存の体型分類器に対して定性的に,またコミュニティに有用な新たな画像データセットに対して定量的に評価する。 結果として得られたボディシェイプの分類は、サイズへの入力や適合推奨、仮想トライオンシステムなど、さまざまな下流タスクで利用することができる。

There is high demand for online fashion recommender systems that incorporate the needs of the consumer's body shape. As such, we present a methodology to classify human body shape from a single image. This is achieved through the use of instance segmentation and keypoint estimation models, trained only on open-source benchmarking datasets. The system is capable of performing in noisy environments owing to to robust background subtraction. The proposed methodology does not require 3D body recreation as a result of classification based on estimated keypoints, nor requires historical information about a user to operate - calculating all required measurements at the point of use. We evaluate our methodology both qualitatively against existing body shape classifiers and quantitatively against a novel dataset of images, which we provide for use to the community. The resultant body shape classification can be utilised in a variety of downstream tasks, such as input to size and fit recommendation or virtual try-on systems.
翻訳日:2023-05-31 20:25:13 公開日:2023-05-29
# FMM-X3D:人間行動認識のためのFPGAによるX3Dのモデリングとマッピング

FMM-X3D: FPGA-based modeling and mapping of X3D for Human Action Recognition ( http://arxiv.org/abs/2305.18479v1 )

ライセンス: Link先を確認
Petros Toupas, Christos-Savvas Bouganis, Dimitrios Tzovaras(参考訳) 3d畳み込みニューラルネットワークは、研究者や実践者から注目を集め、監視システム、自動運転車、人間の監視システム、ビデオ検索など、多くの領域で応用されている。 しかし、その普及は、特にリソース制約されたシステムが対象である場合、高い計算とメモリ要求によって妨げられる。 本稿では,UCF101ベンチマークで95.5\%の精度を実現する人間行動認識の最先端モデルであるX3Dを,FPGAデバイスにマッピングする問題に対処する。 提案するツールフローは,FPGAデバイスの利用可能なリソースとオフチップメモリ特性を考慮した最適化ストリームベースハードウェアシステムを生成する。 生成された設計は、現在のパフォーマンスの精度を前面に押し上げ、ヒューマンアクション認識タスクのためのこのような複雑なモデルアーキテクチャのターゲティングを初めて可能にする。

3D Convolutional Neural Networks are gaining increasing attention from researchers and practitioners and have found applications in many domains, such as surveillance systems, autonomous vehicles, human monitoring systems, and video retrieval. However, their widespread adoption is hindered by their high computational and memory requirements, especially when resource-constrained systems are targeted. This paper addresses the problem of mapping X3D, a state-of-the-art model in Human Action Recognition that achieves accuracy of 95.5\% in the UCF101 benchmark, onto any FPGA device. The proposed toolflow generates an optimised stream-based hardware system, taking into account the available resources and off-chip memory characteristics of the FPGA device. The generated designs push further the current performance-accuracy pareto front, and enable for the first time the targeting of such complex model architectures for the Human Action Recognition task.
翻訳日:2023-05-31 20:24:56 公開日:2023-05-29
# 線形時間畳み込みネットワークのフォワードおよび逆近似理論

Forward and Inverse Approximation Theory for Linear Temporal Convolutional Networks ( http://arxiv.org/abs/2305.18478v1 )

ライセンス: Link先を確認
Haotian Jiang, Qianxiao Li(参考訳) 本稿では,畳み込みアーキテクチャの近似特性の理論的解析を行い,時間系列のモデル化に適用する。 具体的には、近似レート推定(ジャックソン型の結果)と逆近似定理(バーンスタイン型の結果)を証明し、時間的畳み込み構造によって効率的に捉えられる逐次関係の型を包括的に特徴づける。 レート推定は、改良された複雑性測度の導入によって以前の結果を改善するが、逆近似定理は新しいものである。

We present a theoretical analysis of the approximation properties of convolutional architectures when applied to the modeling of temporal sequences. Specifically, we prove an approximation rate estimate (Jackson-type result) and an inverse approximation theorem (Bernstein-type result), which together provide a comprehensive characterization of the types of sequential relationships that can be efficiently captured by a temporal convolutional architecture. The rate estimate improves upon a previous result via the introduction of a refined complexity measure, whereas the inverse approximation theorem is new.
翻訳日:2023-05-31 20:24:40 公開日:2023-05-29
# beyond the meta: パッチ非依存のeスポーツ分析にゲーム設計パラメータを活用する

Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic Esport Analytics ( http://arxiv.org/abs/2305.18477v1 )

ライセンス: Link先を確認
Alan Pedrassoli Chitayat, Florian Block, James Walker, Anders Drachen(参考訳) スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。 これは、ゲームからのテレメトリデータを使用してプレイヤー、コーチ、ブロードキャスター、その他の利害関係者に通知するesports analyticsの領域を生み出した。 伝統的なスポーツと比較すると、eスポーツのタイトルはメカニックとルールの点で急速に変化する。 ゲームのパラメータの頻繁な変更により、エスポート分析モデルは短い寿命しか持たないが、これは文献ではほとんど無視されている問題である。 本稿では,ゲーム設計から情報(パッチノート)を抽出し,クラスタリング技術を用いて新たな文字表現方式を提案する。 ケーススタディでは、ニューラルネットワークモデルを用いて、この新しいキャラクタ表現技術を利用して、Dota 2マッチにおける殺人数を予測する。 このモデルの性能は、従来の手法を含む2つの異なるベースラインに対して評価される。 このモデルは精度の点でベースラインを著しく上回っていた(85% auc)だけでなく、新しいキャラクタと全く新しいキャラクタタイプを導入したゲームの2つの新しいイテレーションで精度を維持している。 ゲームの設計に導入されたこれらの変更は、通常、文学で一般的に使用される従来のテクニックを破ることになる。 したがって,提案手法は,従来の文学的手法と比較して,機械学習モデルの寿命を増加させるだけでなく,高い性能をもたらすことができる。

Esport games comprise a sizeable fraction of the global games market, and is the fastest growing segment in games. This has given rise to the domain of esports analytics, which uses telemetry data from games to inform players, coaches, broadcasters and other stakeholders. Compared to traditional sports, esport titles change rapidly, in terms of mechanics as well as rules. Due to these frequent changes to the parameters of the game, esport analytics models can have a short life-spam, a problem which is largely ignored within the literature. This paper extracts information from game design (i.e. patch notes) and utilises clustering techniques to propose a new form of character representation. As a case study, a neural network model is trained to predict the number of kills in a Dota 2 match utilising this novel character representation technique. The performance of this model is then evaluated against two distinct baselines, including conventional techniques. Not only did the model significantly outperform the baselines in terms of accuracy (85% AUC), but the model also maintains the accuracy in two newer iterations of the game that introduced one new character and a brand new character type. These changes introduced to the design of the game would typically break conventional techniques that are commonly used within the literature. Therefore, the proposed methodology for representing characters can increase the life-spam of machine learning models as well as contribute to a higher performance when compared to traditional techniques typically employed within the literature.
翻訳日:2023-05-31 20:24:31 公開日:2023-05-29
# ユニバーサルフォアグラウンドセグメンテーションのための明示的ビジュアルプロンプティング

Explicit Visual Prompting for Universal Foreground Segmentations ( http://arxiv.org/abs/2305.18476v1 )

ライセンス: Link先を確認
Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun(参考訳) 前景のセグメンテーションはコンピュータビジョンの基本的な問題であり、有能な物体検出、偽造検出、デフォーカスのぼかし検出、影検出、迷彩物体検出を含む。 従来の作業は通常、これらのアプリケーションにおける正確性と堅牢性の問題に対処するために、ドメイン固有のソリューションに依存しています。 本稿では,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。 我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルをプロンプトし、Explicit Visual Prompting (EVP) という新しいビジュアルプロンプトモデルを提案する。 データセットレベルの暗黙的埋め込みである以前のビジュアルプロンプトとは異なり、私たちの重要な洞察は、個々のイメージからの明示的なビジュアルコンテンツ、すなわち凍結パッチ埋め込みと高周波コンポーネントの特徴に焦点を当てたチューニング可能なパラメータを強制することです。 本手法では,事前学習したモデルを凍結し,追加パラメータを用いてタスク固有の知識を学習する。 調整可能なパラメータは少ないが、EVPは完全な微調整や他のパラメータ効率の良い微調整方法よりも優れた性能を達成する。 5つのタスクにまたがる14のデータセットでの実験では、提案手法は他のタスク固有の手法よりもかなり単純である。 提案手法は,異なるアーキテクチャ,事前学習した重み,タスクのスケーラビリティを示す。 コードは、https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.comで入手できる。

Foreground segmentation is a fundamental problem in computer vision, which includes salient object detection, forgery detection, defocus blur detection, shadow detection, and camouflage object detection. Previous works have typically relied on domain-specific solutions to address accuracy and robustness issues in those applications. In this paper, we present a unified framework for a number of foreground segmentation tasks without any task-specific designs. We take inspiration from the widely-used pre-training and then prompt tuning protocols in NLP and propose a new visual prompting model, named Explicit Visual Prompting (EVP). Different from the previous visual prompting which is typically a dataset-level implicit embedding, our key insight is to enforce the tunable parameters focusing on the explicit visual content from each individual image, i.e., the features from frozen patch embeddings and high-frequency components. Our method freezes a pre-trained model and then learns task-specific knowledge using a few extra parameters. Despite introducing only a small number of tunable parameters, EVP achieves superior performance than full fine-tuning and other parameter-efficient fine-tuning methods. Experiments in fourteen datasets across five tasks show the proposed method outperforms other task-specific methods while being considerably simple. The proposed method demonstrates the scalability in different architectures, pre-trained weights, and tasks. The code is available at: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.
翻訳日:2023-05-31 20:24:07 公開日:2023-05-29
# パッシブTiO2 ReRAMクロスバーへの元ニューラルネットワーク転送のロバスト性向上のためのハードウェア・アウェア・トレーニング技術

Hardware-aware Training Techniques for Improving Robustness of Ex-Situ Neural Network Transfer onto Passive TiO2 ReRAM Crossbars ( http://arxiv.org/abs/2305.18495v1 )

ライセンス: Link先を確認
Philippe Drolet, Rapha\"el Dawant, Victor Yon, Pierre-Antoine Mouny, Matthieu Valdenaire, Javier Arias Zapata, Pierre Gliech, Sean U. N. Wood, Serge Ecoffey, Fabien Alibart, Yann Beilliard, Dominique Drouin(参考訳) アナログ行列ベクトル乗算に使用される有望な新興技術であるパッシブ抵抗ランダムアクセスメモリ(ReRAM)クロスバーアレイは、積分密度の点で、そのアクティブな1T1Rよりもはるかに優れている。 しかし、クロスバーアーキテクチャにおけるメモリデバイスのコンダクタンス状態へのニューラルネットワーク重みの電流伝達は、スニークパス電流やバイアススキーム効果、コンダクタンスチューニング不整合などのハードウェアの変動による精度の大幅な低下を伴う。 本研究では,ハードウェア転送に適合するモデルを生成するために,ドロップアウト,再パラメータ化トリック,tio2クロスバー確率への正規化といった手法を適応させるトレーニング手法を提案する。 実験データに基づくシミュレーションにおいて,本手法の有効性は,提案したハードウェア・アウェアネットワークの出力と精度を,半衛星データセットを用いて数千以上の全接続ネットワークの出力と精度と比較することによって実証される。 提案したハードウェア認識方式を用いてトレーニングされたニューラルネットワークでは、テストセットのデータポイントの79.5%が95%以上の精度で分類でき、テストセットのデータポイントの18.5%のみが、定期的にトレーニングされたニューラルネットワークによってこの精度で分類できる。

Passive resistive random access memory (ReRAM) crossbar arrays, a promising emerging technology used for analog matrix-vector multiplications, are far superior to their active (1T1R) counterparts in terms of the integration density. However, current transfers of neural network weights into the conductance state of the memory devices in the crossbar architecture are accompanied by significant losses in precision due to hardware variabilities such as sneak path currents, biasing scheme effects and conductance tuning imprecision. In this work, training approaches that adapt techniques such as dropout, the reparametrization trick and regularization to TiO2 crossbar variabilities are proposed in order to generate models that are better adapted to their hardware transfers. The viability of this approach is demonstrated by comparing the outputs and precision of the proposed hardware-aware network with those of a regular fully connected network over a few thousand weight transfers using the half moons dataset in a simulation based on experimental data. For the neural network trained using the proposed hardware-aware method, 79.5% of the test set's data points can be classified with an accuracy of 95% or higher, while only 18.5% of the test set's data points can be classified with this accuracy by the regularly trained neural network.
翻訳日:2023-05-31 20:16:03 公開日:2023-05-29
# 長い文書に対する学習されたスパース検索の適応

Adapting Learned Sparse Retrieval for Long Documents ( http://arxiv.org/abs/2305.18494v1 )

ライセンス: Link先を確認
Thong Nguyen, Sean MacAvaney and Andrew Yates(参考訳) 学習されたスパース検索(LSR)は、クエリとドキュメントを語彙に整合したスパース重みベクトルに変換するニューラルネットワークのファミリーである。 SpladeのようなLSRアプローチは短いパスでうまく機能するが、どれだけ長いドキュメントを扱うかは定かではない。 我々は,LSRを長い文書に適用するための既存の集約手法について検討し,LSRが長い文書を扱うためには近位スコアが不可欠であることを示す。 この特性を活用するために,SDM(Sequential Dependence Model)のLSRへの2つの適応(ExactSDMとSoftSDM)を提案した。 ExactSDMは厳密なクエリ項依存のみを前提としており、SoftSDMはクエリ項とその拡張項の依存をモデル化する潜在的な関数(つまり、トランスフォーマーのマスキング言語モデリングヘッドを用いて識別される用語)を使用する。 MSMARCO DocumentとTREC Robust04データセットの実験により、ExactSDMとSoftSDMは文書の長さの制約に対して既存のLSRアグリゲーションアプローチより優れていることが示された。 驚いたことに、SoftSDMはExactSDMよりもパフォーマンス上の利点を提供していません。 このことは、LSRの項依存をモデル化するのにソフト近接マッチングは必要ないことを示唆している。 本研究は,長い文書をLSRで処理し,その性能を向上させる適応を提案する。

Learned sparse retrieval (LSR) is a family of neural retrieval methods that transform queries and documents into sparse weight vectors aligned with a vocabulary. While LSR approaches like Splade work well for short passages, it is unclear how well they handle longer documents. We investigate existing aggregation approaches for adapting LSR to longer documents and find that proximal scoring is crucial for LSR to handle long documents. To leverage this property, we proposed two adaptations of the Sequential Dependence Model (SDM) to LSR: ExactSDM and SoftSDM. ExactSDM assumes only exact query term dependence, while SoftSDM uses potential functions that model the dependence of query terms and their expansion terms (i.e., terms identified using a transformer's masked language modeling head). Experiments on the MSMARCO Document and TREC Robust04 datasets demonstrate that both ExactSDM and SoftSDM outperform existing LSR aggregation approaches for different document length constraints. Surprisingly, SoftSDM does not provide any performance benefits over ExactSDM. This suggests that soft proximity matching is not necessary for modeling term dependence in LSR. Overall, this study provides insights into handling long documents with LSR, proposing adaptations that improve its performance.
翻訳日:2023-05-31 20:15:36 公開日:2023-05-29
# フロー誘導型ナノスケール局在の宇宙探査からの洞察

Insights from the Design Space Exploration of Flow-Guided Nanoscale Localization ( http://arxiv.org/abs/2305.18493v1 )

ライセンス: Link先を確認
Filip Lemic, Gerard Calvo Bartra, Arnau Brosa L\'opez, Jorge Torres G\'omez, Jakob Struye, Falko Dressler, Sergi Abadal, Xavier Costa Perez(参考訳) terahertz(thz)ベースの無線通信機能を備えたナノデバイスは、血流中のフロー誘導型局在のプライマーを提供する。 このようなローカライゼーションは、知覚された事象の場所をイベント自体に割り当てることを可能にし、早期かつ正確な診断の線に沿って精度の高い医療の恩恵を与え、コストと侵襲性を低減させる。 フロー誘導型ローカライゼーションはまだ初歩的な段階であり、この問題を対象とする研究はごくわずかである。 それでも、提案されたソリューションのパフォーマンス評価は、通常、単一のパフォーマンスメトリックに沿って、非標準化な方法で実行されており、そのようなスケール(例えば、ナノデバイスの限られたエネルギー)およびそのような困難な環境(例えば、体内thz伝播の極端な減衰)に関連する様々な側面を無視している。 したがって、これらの評価は現実主義の低レベルを特徴とし、客観的な比較はできない。 本稿では,シナリオの環境とスケールに関する特異性を考慮し,その精度や信頼性などの不均質な性能指標に沿った2つの最先端フロー誘導型ローカライズ手法の性能評価を行う。

Nanodevices with Terahertz (THz)-based wireless communication capabilities are providing a primer for flow-guided localization within the human bloodstreams. Such localization is allowing for assigning the locations of sensed events with the events themselves, providing benefits in precision medicine along the lines of early and precise diagnostics, and reduced costs and invasiveness. Flow-guided localization is still in a rudimentary phase, with only a handful of works targeting the problem. Nonetheless, the performance assessments of the proposed solutions are already carried out in a non-standardized way, usually along a single performance metric, and ignoring various aspects that are relevant at such a scale (e.g., nanodevices' limited energy) and for such a challenging environment (e.g., extreme attenuation of in-body THz propagation). As such, these assessments feature low levels of realism and cannot be compared in an objective way. Toward addressing this issue, we account for the environmental and scale-related peculiarities of the scenario and assess the performance of two state-of-the-art flow-guided localization approaches along a set of heterogeneous performance metrics such as the accuracy and reliability of localization.
翻訳日:2023-05-31 20:15:12 公開日:2023-05-29
# DMS:サイド情報を用いたデータセット非依存タスク特定クラスタリングにおける平均値シフト

DMS: Differentiable Mean Shift for Dataset Agnostic Task Specific Clustering Using Side Information ( http://arxiv.org/abs/2305.18492v1 )

ライセンス: Link先を確認
Michael A. Hobley, Victor A. Prisacariu(参考訳) 我々は,ペアワイズ例の小さな集合として,サイド情報から直接データをクラスタ化することを学ぶための新しいアプローチを提案する。 以前の方法とは異なり、サイド情報の有無に関わらず、クラスタの数やその中心、あるいは類似性のための距離メトリクスを知る必要はない。 サイド情報によって定義された特定のタスクのニーズに応じて,同じデータポイントを様々な方法で分割することが可能である。 対照的に、他の作品は一般的に、内在的で最も明白なクラスタのみを見つける。 平均シフトアルゴリズムにインスパイアされた我々は、カスタム反復ニューラルネットワークを使用して、新しいクラスタリングアプローチを実装し、芸術的、データセットに依存しない、クラスタリング手法である微分可能な平均シフト(DMS)を作成する。 トレーニング中に各クラスタを提示しなければならないという制約を課すことなく、強力なクラスタ定義をトレーニングできることが分かりました。 DMSは、本質的および非本質的なデータセットタスクにおいて、現在のメソッドよりも優れています。

We present a novel approach, in which we learn to cluster data directly from side information, in the form of a small set of pairwise examples. Unlike previous methods, with or without side information, we do not need to know the number of clusters, their centers or any kind of distance metric for similarity. Our method is able to divide the same data points in various ways dependant on the needs of a specific task, defined by the side information. Contrastingly, other work generally finds only the intrinsic, most obvious, clusters. Inspired by the mean shift algorithm, we implement our new clustering approach using a custom iterative neural network to create Differentiable Mean Shift (DMS), a state of the art, dataset agnostic, clustering method. We found that it was possible to train a strong cluster definition without enforcing a constraint that each cluster must be presented during training. DMS outperforms current methods in both the intrinsic and non-intrinsic dataset tasks.
翻訳日:2023-05-31 20:14:52 公開日:2023-05-29
# td-learningにおける表現ダイナミクスの理解を深める

Towards a Better Understanding of Representation Dynamics under TD-learning ( http://arxiv.org/abs/2305.18491v1 )

ライセンス: Link先を確認
Yunhao Tang, R\'emi Munos(参考訳) TD-learningは、価値予測のための基礎強化学習(RL)アルゴリズムである。 値予測の正確性には、状態表現の質が不可欠である。 エンド・ツー・エンドのtd学習は、時間とともに表現にどのように影響するか? 先行研究の補完として、TD学習下での表現力学にさらに光を当てる分析セットを提供する。 まず,環境が可逆である場合,エンドツーエンドtd学習は時間とともに値近似誤差を厳密に減少させることを示した。 環境上のさらなる仮定の下では、表現力学と遷移行列上のスペクトル分解を結びつけることができる。 後者の発見は,表型ゲーム群とatariゲーム群の両方で経験的に検証を行うため,ランダムに生成した報酬から複数の値関数を表現学習の補助タスクとして適合させる。

TD-learning is a foundation reinforcement learning (RL) algorithm for value prediction. Critical to the accuracy of value predictions is the quality of state representations. In this work, we consider the question: how does end-to-end TD-learning impact the representation over time? Complementary to prior work, we provide a set of analysis that sheds further light on the representation dynamics under TD-learning. We first show that when the environments are reversible, end-to-end TD-learning strictly decreases the value approximation error over time. Under further assumptions on the environments, we can connect the representation dynamics with spectral decomposition over the transition matrix. This latter finding establishes fitting multiple value functions from randomly generated rewards as a useful auxiliary task for representation learning, as we empirically validate on both tabular and Atari game suites.
翻訳日:2023-05-31 20:14:36 公開日:2023-05-29
# SANE: シャープネス調整された有効パラメータ数による勾配降下の位相

SANE: The phases of gradient descent through Sharpness Adjusted Number of Effective parameters ( http://arxiv.org/abs/2305.18490v1 )

ライセンス: Link先を確認
Lawrence Wang, Stephen J. Roberts(参考訳) 現代のニューラルネットワークは間違いなく成功している。 多くの研究が、損失景観の曲率が溶液の質に与える影響について研究している。 本稿では,ネットワークトレーニングにおけるヘッセン行列について考察する。 我々は,「よく決定された」パラメータと「効果的」パラメータとニューラルネットワークの一般化性能との関係を再確認し,モデル比較ツールとしての利用を実証する。 局所曲率を考慮し,解の質に対する有効次元の尺度であるシャープネス調整実効パラメータ数(sane)を提案する。 SANEは,魅力的だが(不安定な)学習体制を表現し,大きな学習率に対して堅牢であることを示す。 我々は、大きな学習率で「ロス盆地」にまたがるヘッセンシフトを証明し特徴付ける。 最後に、解析をより深いニューラルネットワークに拡張することで、全ネットワークのヘッセンに近似し、神経重みの自然な順序を活用し、この近似を用いて我々の主張に対する広範な実証的証拠を提供する。

Modern neural networks are undeniably successful. Numerous studies have investigated how the curvature of loss landscapes can affect the quality of solutions. In this work we consider the Hessian matrix during network training. We reiterate the connection between the number of "well-determined" or "effective" parameters and the generalisation performance of neural nets, and we demonstrate its use as a tool for model comparison. By considering the local curvature, we propose Sharpness Adjusted Number of Effective parameters (SANE), a measure of effective dimensionality for the quality of solutions. We show that SANE is robust to large learning rates, which represent learning regimes that are attractive but (in)famously unstable. We provide evidence and characterise the Hessian shifts across "loss basins" at large learning rates. Finally, extending our analysis to deeper neural networks, we provide an approximation to the full-network Hessian, exploiting the natural ordering of neural weights, and use this approximation to provide extensive empirical evidence for our claims.
翻訳日:2023-05-31 20:14:23 公開日:2023-05-29
# スマートフォン画像からmpoxを検出するトランスファー学習と説明可能な解法

A Transfer Learning and Explainable Solution to Detect mpox from Smartphones images ( http://arxiv.org/abs/2305.18489v1 )

ライセンス: Link先を確認
Mattia Giovanni Campana, Marco Colussi, Franca Delmastro, Sergio Mascetti, Elena Pagani(参考訳) 世界保健機関(WHO)が「国際的関心事の公衆衛生緊急事態」と宣言するまで、世界の限られた地域で流行していたサルポックスウイルスはここ数カ月、複数の国で流行し始めている。 2023年2月、いくつかの国でウイルスが持続的に発生し、新たな感染拡大が懸念されたため、警告が更新された。 ワクチンや検査のインフラが不十分な低所得国は特に危険にさらされている。 mpox感染症の症状は、皮膚の発疹や噴火の出現であり、患者は医療アドバイスを求めることができる。 皮膚病変の側面に基づいて予備的なスクリーニングを行うのに役立つ技術は、画像分類に機械学習を使用することである。 しかし、この技術を大規模に活用するためには、遠隔医療専門家に通知する可能性があり、人のモバイルデバイス上で直接利用する必要がある。 本研究では,皮膚病変画像からmpoxを検出するためのDeep Learningの採用について検討する。 提案では、Transfer Learningを活用して、mpoxイメージデータセットの不足に対処する。 第1のステップとして、利用可能な画像データの手動選択と前処理によって、均質で未汚染のデータセットが生成される。 また、この分野の研究者にも公開される予定だ。 次に,10倍の層状化クロスバリデーションに基づく畳み込みニューラルネットワークの網羅的な比較を行う。 最適なモデルは、モバイルデバイスでの量子化によって最適化され、分類品質、メモリフットプリント、処理時間の測定により、提案手法の有効性が検証される。 さらに、eXplainable AIの使用は、技術的および臨床的に分類結果を評価するのに適した手段として研究されている。

In recent months, the monkeypox (mpox) virus -- previously endemic in a limited area of the world -- has started spreading in multiple countries until being declared a ``public health emergency of international concern'' by the World Health Organization. The alert was renewed in February 2023 due to a persisting sustained incidence of the virus in several countries and worries about possible new outbreaks. Low-income countries with inadequate infrastructures for vaccine and testing administration are particularly at risk. A symptom of mpox infection is the appearance of skin rashes and eruptions, which can drive people to seek medical advice. A technology that might help perform a preliminary screening based on the aspect of skin lesions is the use of Machine Learning for image classification. However, to make this technology suitable on a large scale, it should be usable directly on mobile devices of people, with a possible notification to a remote medical expert. In this work, we investigate the adoption of Deep Learning to detect mpox from skin lesion images. The proposal leverages Transfer Learning to cope with the scarce availability of mpox image datasets. As a first step, a homogenous, unpolluted, dataset is produced by manual selection and preprocessing of available image data. It will also be released publicly to researchers in the field. Then, a thorough comparison is conducted amongst several Convolutional Neural Networks, based on a 10-fold stratified cross-validation. The best models are then optimized through quantization for use on mobile devices; measures of classification quality, memory footprint, and processing times validate the feasibility of our proposal. Additionally, the use of eXplainable AI is investigated as a suitable instrument to both technically and clinically validate classification outcomes.
翻訳日:2023-05-31 20:14:07 公開日:2023-05-29
# 適応後部濃度を有するベイズスパース因子モデル

A Bayesian sparse factor model with adaptive posterior concentration ( http://arxiv.org/abs/2305.18488v1 )

ライセンス: Link先を確認
Ilsang Ohn, Lizhen Lin, Yongdai Kim(参考訳) 本稿では,負荷行列の係数次元とスパース構造の両方を推定できる高次元スパース因子モデルに対する新しいベイズ推定法を提案する。 この新規性は、空間レベルと係数次元の一定の依存性を導入することであり、計算的トラクタビリティを維持しながら適応的な後部濃度をもたらす。 後続分布は漸近的に真の因子の次元性に集中しており、さらにこの後続一貫性は真の荷重行列の疎度レベルとノイズ分散に適応していることを示す。 また,提案するベイズモデルにより,より一般的な状況下での因子次元の最適検出率が得られることを証明した。 さらに,共分散行列の近似的後方濃度率を求める。 数値実験を行い,提案手法が他の競合手法と比較して優れていることを示す。

In this paper, we propose a new Bayesian inference method for a high-dimensional sparse factor model that allows both the factor dimensionality and the sparse structure of the loading matrix to be inferred. The novelty is to introduce a certain dependence between the sparsity level and the factor dimensionality, which leads to adaptive posterior concentration while keeping computational tractability. We show that the posterior distribution asymptotically concentrates on the true factor dimensionality, and more importantly, this posterior consistency is adaptive to the sparsity level of the true loading matrix and the noise variance. We also prove that the proposed Bayesian model attains the optimal detection rate of the factor dimensionality in a more general situation than those found in the literature. Moreover, we obtain a near-optimal posterior concentration rate of the covariance matrix. Numerical studies are conducted and show the superiority of the proposed method compared with other competitors.
翻訳日:2023-05-31 20:13:41 公開日:2023-05-29
# 太陽放射予測変圧器

Solar Irradiance Anticipative Transformer ( http://arxiv.org/abs/2305.18487v1 )

ライセンス: Link先を確認
Thomas M. Mercier, Tasmiat Rahman, Amin Sabet(参考訳) 本稿では,短期太陽照度予測のための予測トランスベースモデルを提案する。 提案した視覚変換器は,連続した画像の特徴を符号化し,将来の空像に付随する照射値を予測するトランスフォーマーデコーダに入力する。 また,本モデルでは,画像の特徴のみへの適応を効果的に学習し,照度を予測できることを示す。 さらに,提案した予測変換器は,スカイイメージ間の長距離依存関係を捕捉し,スマート永続モデルと比較して新たに導入されたオールスキー画像のデータセットを15分前に予測し,21.45 %の予測技術を実現する。

This paper proposes an anticipative transformer-based model for short-term solar irradiance forecasting. Given a sequence of sky images, our proposed vision transformer encodes features of consecutive images, feeding into a transformer decoder to predict irradiance values associated with future unseen sky images. We show that our model effectively learns to attend only to relevant features in images in order to forecast irradiance. Moreover, the proposed anticipative transformer captures long-range dependencies between sky images to achieve a forecasting skill of 21.45 % on a 15 minute ahead prediction for a newly introduced dataset of all-sky images when compared to a smart persistence model.
翻訳日:2023-05-31 20:13:29 公開日:2023-05-29
# ベンチマークデータセットにおけるChatGPTの体系的研究と総合評価

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets ( http://arxiv.org/abs/2305.18486v1 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang(参考訳) ChatGPTのような大規模言語モデル(LLM)の開発は、最近多くの注目を集めている。 しかし,本モデルが生み出す生成的アウトプットを根底から評価することの難しさから,その評価は未検討のままである。 本稿では,問合せ,テキスト要約,コード生成,コモンセンス推論,数学的問題解決,機械翻訳,バイアス検出,倫理的考察など,さまざまな学術データセットにおけるchatgptの性能を徹底的に評価することを目的とする。 具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。 これにより、NLPベンチマークにおけるChatGPTの最大の評価が得られます。 本研究の目的は,様々なタスクにおけるChatGPTの強みと弱みを検証し,LCMを用いた今後の研究への洞察を提供することである。 また、ChatGPTや他の命令調整モデルでよく見られるマルチクエリ命令に従う新しい創発的能力についても報告する。 我々の広範な評価によると、ChatGPTは様々なタスクを実行でき、いくつかのベンチマークデータセットで印象的なパフォーマンスを得ることができるが、多くの課題を確実に解決する能力を達成するには程遠い。 多様なNLPタスクに対してChatGPTの性能を徹底的に評価することにより、現実のアプリケーションにChatGPTライクなLLMをターゲットとして配置するためのステージを設定する。

The development of large language models (LLMs) such as ChatGPT has brought a lot of attention recently. However, their evaluation in the benchmark academic datasets remains under-explored due to the difficulty of evaluating the generative outputs produced by this model against the ground truth. In this paper, we aim to present a thorough evaluation of ChatGPT's performance on diverse academic datasets, covering tasks like question-answering, text summarization, code generation, commonsense reasoning, mathematical problem-solving, machine translation, bias detection, and ethical considerations. Specifically, we evaluate ChatGPT across 140 tasks and analyze 255K responses it generates in these datasets. This makes our work the largest evaluation of ChatGPT in NLP benchmarks. In short, our study aims to validate the strengths and weaknesses of ChatGPT in various tasks and provide insights for future research using LLMs. We also report a new emergent ability to follow multi-query instructions that we mostly found in ChatGPT and other instruction-tuned models. Our extensive evaluation shows that even though ChatGPT is capable of performing a wide variety of tasks, and may obtain impressive performance in several benchmark datasets, it is still far from achieving the ability to reliably solve many challenging tasks. By providing a thorough assessment of ChatGPT's performance across diverse NLP tasks, this paper sets the stage for a targeted deployment of ChatGPT-like LLMs in real-world applications.
翻訳日:2023-05-31 20:13:20 公開日:2023-05-29
# RLでヒューマンフィードバックを効率的にクエリする方法

How to Query Human Feedback Efficiently in RL? ( http://arxiv.org/abs/2305.18505v1 )

ライセンス: Link先を確認
Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee(参考訳) 強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、RLエージェントが、明示的な報酬信号ではなく、軌道上のペア指向のフィードバックを用いてタスクを最適化することを学ぶパラダイムである。 rlhfは微調整言語モデルの実用的成功を証明しているが、既存の経験的研究は、人間のフィードバックをクエリするために軌道ペアを効率的にサンプリングする方法の課題に対処していない。 本研究では,人間のフィードバックを収集する前に隠れた報酬関数の正確な学習を可能にする探索軌道取得のための効率的なサンプリング手法を提案する。 理論的解析により,線形パラメータ化と未知遷移を伴う選好モデルの下での最適方針学習において,既存の文献と比較して,アルゴリズムが人間からのフィードバックを少なくすることを示した。 具体的には、線形および低ランクのMDPを組み込むことができる。 さらに,アクションベース比較フィードバックによるrlhfの調査を行い,このシナリオに合わせた効率的なクエリアルゴリズムを提案する。

Reinforcement Learning with Human Feedback (RLHF) is a paradigm in which an RL agent learns to optimize a task using pair-wise preference-based feedback over trajectories, rather than explicit reward signals. While RLHF has demonstrated practical success in fine-tuning language models, existing empirical work does not address the challenge of how to efficiently sample trajectory pairs for querying human feedback. In this study, we propose an efficient sampling approach to acquiring exploratory trajectories that enable accurate learning of hidden reward functions before collecting any human feedback. Theoretical analysis demonstrates that our algorithm requires less human feedback for learning the optimal policy under preference-based models with linear parameterization and unknown transitions, compared to the existing literature. Specifically, our framework can incorporate linear and low-rank MDPs. Additionally, we investigate RLHF with action-based comparison feedback and introduce an efficient querying algorithm tailored to this scenario.
翻訳日:2023-05-31 20:07:27 公開日:2023-05-29
# MLにおける構成可能な公正解に対する一般化された異種影響

Generalized Disparate Impact for Configurable Fairness Solutions in ML ( http://arxiv.org/abs/2305.18504v1 )

ライセンス: Link先を確認
Luca Giuliani, Eleonora Misino, Michele Lombardi(参考訳) 我々は、継続的な保護属性よりもAIフェアネスの分野で2つの貢献をしている。 まず,hirschfeld-gebelein-renyi(hgr)指標が有用であるが,意味論,解釈可能性,ロバスト性に関していくつかの重要な制限が課されていることを示す。 次に、以下の指標の族を紹介します。 1) 意味論におけるHGRの補完 2) 完全に解釈可能かつ透明である。 3) 有限標本に対する堅牢性 4) 特定のアプリケーションに適合するように設定可能。 このアプローチはまた、特定の種類の依存を許容し、他の制約を選択的に禁止するためのきめ細かい制約を定義することを可能にする。 継続的保護属性のオプションを拡大することにより、我々のアプローチは公正な人工知能の領域に重要な貢献を成す。

We make two contributions in the field of AI fairness over continuous protected attributes. First, we show that the Hirschfeld-Gebelein-Renyi (HGR) indicator (the only one currently available for such a case) is valuable but subject to a few crucial limitations regarding semantics, interpretability, and robustness. Second, we introduce a family of indicators that are: 1) complementary to HGR in terms of semantics; 2) fully interpretable and transparent; 3) robust over finite samples; 4) configurable to suit specific applications. Our approach also allows us to define fine-grained constraints to permit certain types of dependence and forbid others selectively. By expanding the available options for continuous protected attributes, our approach represents a significant contribution to the area of fair artificial intelligence.
翻訳日:2023-05-31 20:07:09 公開日:2023-05-29
# 敵対的アームレースからモデル中心評価へ:統一された自動ロバストネス評価フレームワークをモチベーション

From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework ( http://arxiv.org/abs/2305.18503v1 )

ライセンス: Link先を確認
Yangyi Chen, Hongcheng Gao, Ganqu Cui, Lifan Yuan, Dehan Kong, Hanlu Wu, Ning Shi, Bo Yuan, Longtao Huang, Hui Xue, Zhiyuan Liu, Maosong Sun, Heng Ji(参考訳) テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。 自然言語処理(NLP)における長期にわたる対敵攻撃防御兵器競争はアルゴリズム中心であり、自動ロバストネス評価のための貴重な技術を提供する。 しかし、既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、および無効な敵のサンプルの問題を示す可能性がある。 本稿では,モデル中心の評価へ移行し,敵の攻撃の利点をさらに活用する,統一的なロバストネス評価フレームワークの構築を目標とする。 上記の課題に対処するために,まずモデル能力に基づいてロバスト性評価次元を決定し,各次元に対して逆サンプルを生成する合理的なアルゴリズムを指定する。 そして、評価設定やメトリクスを含む評価プロトコルを現実的な要求のもとに確立する。 最後に, 対向サンプルの摂動度を用いてサンプルの有効性を制御する。 自動ロバストネス評価フレームワークを実現するツールキットRobTestを実装した。 実験では,RoBERTaモデルのロバスト性評価を行い,評価フレームワークの有効性を実証するとともに,フレームワーク内の各コンポーネントの合理性を示す。 コードは \url{https://github.com/thunlp/RobTest} で公開される。

Textual adversarial attacks can discover models' weaknesses by adding semantic-preserved but misleading perturbations to the inputs. The long-lasting adversarial attack-and-defense arms race in Natural Language Processing (NLP) is algorithm-centric, providing valuable techniques for automatic robustness evaluation. However, the existing practice of robustness evaluation may exhibit issues of incomprehensive evaluation, impractical evaluation protocol, and invalid adversarial samples. In this paper, we aim to set up a unified automatic robustness evaluation framework, shifting towards model-centric evaluation to further exploit the advantages of adversarial attacks. To address the above challenges, we first determine robustness evaluation dimensions based on model capabilities and specify the reasonable algorithm to generate adversarial samples for each dimension. Then we establish the evaluation protocol, including evaluation settings and metrics, under realistic demands. Finally, we use the perturbation degree of adversarial samples to control the sample validity. We implement a toolkit RobTest that realizes our automatic robustness evaluation framework. In our experiments, we conduct a robustness evaluation of RoBERTa models to demonstrate the effectiveness of our evaluation framework, and further show the rationality of each component in the framework. The code will be made public at \url{https://github.com/thunlp/RobTest}.
翻訳日:2023-05-31 20:06:56 公開日:2023-05-29
# escaping mediocrity: sgdで2層ネットワークがハードなシングルインデックスモデルを学ぶ方法

Escaping mediocrity: how two-layer networks learn hard single-index models with SGD ( http://arxiv.org/abs/2305.18502v1 )

ライセンス: Link先を確認
Luca Arnaboldi, Florent Krzakala, Bruno Loureiro, Ludovic Stephan(参考訳) 本研究では,Stochastic Gradient Descent (SGD)の下で,2層ニューラルネットワークが単一インデックス対象関数を学習する際のサンプルの複雑さについて検討した。 このシナリオでは、$n=O(d\log{d})$サンプルは通常必要である。 しかし、高次元の文脈と様々な幅のプレファクタについて正確な結果を提供する。 特に,過パラメータ化はこの問題クラス内の定数因子によってのみ収束を増強できることが示唆された。 これらの洞察は、sgdダイナミクスをより低い次元の確率過程に還元し、脱出するメディオクラリティが終了時刻の計算に等しいことに着目する。 しかし,この過程の決定論的近似が脱出時間を表すことを証明し,確率性の役割がこのシナリオにおいて最小となることを示唆する。

This study explores the sample complexity for two-layer neural networks to learn a single-index target function under Stochastic Gradient Descent (SGD), focusing on the challenging regime where many flat directions are present at initialization. It is well-established that in this scenario $n=O(d\log{d})$ samples are typically needed. However, we provide precise results concerning the pre-factors in high-dimensional contexts and for varying widths. Notably, our findings suggest that overparameterization can only enhance convergence by a constant factor within this problem class. These insights are grounded in the reduction of SGD dynamics to a stochastic process in lower dimensions, where escaping mediocrity equates to calculating an exit time. Yet, we demonstrate that a deterministic approximation of this process adequately represents the escape time, implying that the role of stochasticity may be minimal in this scenario.
翻訳日:2023-05-31 20:06:34 公開日:2023-05-29
# DoMo-AC:2段階のオフ政治アクター批判アルゴリズム

DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm ( http://arxiv.org/abs/2305.18501v1 )

ライセンス: Link先を確認
Yunhao Tang, Tadashi Kozuno, Mark Rowland, Anna Harutyunyan, R\'emi Munos, Bernardo \'Avila Pires, Michal Valko(参考訳) マルチステップ学習は、複数の時間ステップにルックアヘッドを適用し、ポリシー評価設定で価値が証明されている。 しかし、最適制御の場合、事前の努力にもかかわらず、多段階学習の影響は相対的に限定されている。 基本的には、多段階の政策改善は確率的なサンプルで近似できない操作を必要とするため、実際にそのような手法が広く採用されるのを妨げる可能性がある。 このような制約に対処するため,多段階政策改善と政策評価を組み合わせた新しいオラクルアルゴリズムDoMo-VIを導入する。 DoMo-VIは、最適ポリシーに対するコンバージェンス・スピードアップを保証し、一般的な政治以外の学習環境に適用できる。 次に,DoMo-VIアルゴリズムの現実的なインスタンス化である2段階のオフポリチック・アクター・クリティック(DoMo-AC)を提案する。 DoMo-ACは、政策勾配の推定を改善するバイアス分散トレードオフを導入している。 IMPALAアーキテクチャと組み合わせると、DoMo-ACはAtari-57ゲームベンチマークのベースラインアルゴリズムよりも改善されている。

Multi-step learning applies lookahead over multiple time steps and has proved valuable in policy evaluation settings. However, in the optimal control case, the impact of multi-step learning has been relatively limited despite a number of prior efforts. Fundamentally, this might be because multi-step policy improvements require operations that cannot be approximated by stochastic samples, hence hindering the widespread adoption of such methods in practice. To address such limitations, we introduce doubly multi-step off-policy VI (DoMo-VI), a novel oracle algorithm that combines multi-step policy improvements and policy evaluations. DoMo-VI enjoys guaranteed convergence speed-up to the optimal policy and is applicable in general off-policy learning settings. We then propose doubly multi-step off-policy actor-critic (DoMo-AC), a practical instantiation of the DoMo-VI algorithm. DoMo-AC introduces a bias-variance trade-off that ensures improved policy gradient estimates. When combined with the IMPALA architecture, DoMo-AC has showed improvements over the baseline algorithm on Atari-57 game benchmarks.
翻訳日:2023-05-31 20:06:17 公開日:2023-05-29
# VAST:Vision-Audio-Subtitle-Text Omni-Modality Foundationモデルとデータセット

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset ( http://arxiv.org/abs/2305.18500v1 )

ライセンス: Link先を確認
Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Mingzhen Sun, Xinxin Zhu, Jing Liu(参考訳) 視覚とテキストは現代のビデオテキストの基礎モデルで十分に研究されてきたが、音声や字幕といった他のモダリティは十分に注目されていない。 本稿では,VAST-27Mと呼ばれる大規模モダリティビデオキャプションデータセットを自動生成することで,視覚,オーディオ,字幕,テキストなどのマルチモダリティビデオトラック間の接続を確立する。 具体的には、2700万のオープンドメインビデオクリップを収集し、視覚とオーディオキャプタを個別にトレーニングして、視覚とオーディオキャプタを生成する。 次に,既成のLarge Language Model (LLM) を用いて,生成されたキャプションと,字幕と指導プロンプトを組み込んだオムニモダリティキャプションを統合する。 提案したVAST-27Mデータセットに基づいて、ビデオから視覚、オーディオ、サブタイトルのモダリティを知覚・処理し、視覚テキスト、オーディオテキスト、マルチモーダルなビデオテキストタスク(検索、キャプション、QA)を含む様々なタスクをより良くサポートする、VASTという全モードのビデオテキスト基盤モデルを訓練する。 提案した VAST-27M コーパスと VAST ファンデーションモデルの有効性を示すため, 大規模な実験を行った。 VASTは、さまざまなモダリティベンチマークで22の新たな最先端結果を達成する。 コード、モデル、データセットはhttps://github.com/TXH-mercury/VASTでリリースされる。

Vision and text have been fully explored in contemporary video-text foundational models, while other modalities such as audio and subtitles in videos have not received sufficient attention. In this paper, we resort to establish connections between multi-modality video tracks, including Vision, Audio, and Subtitle, and Text by exploring an automatically generated large-scale omni-modality video caption dataset called VAST-27M. Specifically, we first collect 27 million open-domain video clips and separately train a vision and an audio captioner to generate vision and audio captions. Then, we employ an off-the-shelf Large Language Model (LLM) to integrate the generated captions, together with subtitles and instructional prompts into omni-modality captions. Based on the proposed VAST-27M dataset, we train an omni-modality video-text foundational model named VAST, which can perceive and process vision, audio, and subtitle modalities from video, and better support various tasks including vision-text, audio-text, and multi-modal video-text tasks (retrieval, captioning and QA). Extensive experiments have been conducted to demonstrate the effectiveness of our proposed VAST-27M corpus and VAST foundation model. VAST achieves 22 new state-of-the-art results on various cross-modality benchmarks. Code, model and dataset will be released at https://github.com/TXH-mercury/VAST.
翻訳日:2023-05-31 20:06:00 公開日:2023-05-29
# 強化学習のためのWildビデオを用いた事前学習型世界モデル

Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning ( http://arxiv.org/abs/2305.18499v1 )

ライセンス: Link先を確認
Jialong Wu, Haoyu Ma, Chaoyi Deng, Mingsheng Long(参考訳) 大規模かつ多様なデータセットを用いた教師なし事前トレーニング手法は、さまざまなドメインで大きな成功を収めています。 最近の研究は、モデルベース強化学習(MBRL)の教師なし事前学習法を研究しているが、ドメイン固有データやシミュレーションデータに限られている。 本稿では,下流の視覚的制御タスクを効率的に学習するために,映像を多用した事前学習型世界モデルの課題について検討する。 しかし、この動画は複雑な背景やテクスチャ的な外観といった様々な文脈要因に複雑であり、世界モデルが共有世界知識を抽出してより一般化することを妨げる。 この問題に対処するため,我々は,映像の複雑さと多様性を克服し,異なるシーン間の知識伝達を容易にするために,コンテキストとダイナミクスの両方を明示的にモデル化する文脈化世界モデル(contextwm)を導入する。 具体的には、コンテキストエンコーダを組み込んでコンテキスト情報を保持し、画像デコーダの権限を付与することにより、潜在ダイナミクスモデルのコンテキスト化拡張を精巧に実現し、潜在ダイナミクスモデルが本質的な時間的変動に集中できるようにする。 実験の結果,ContextWMを内蔵した動画事前学習は,ロボット操作,移動,自律運転など,様々な領域におけるMBRLのサンプル効率を著しく向上させることができることがわかった。

Unsupervised pre-training methods utilizing large and diverse datasets have achieved tremendous success across a range of domains. Recent work has investigated such unsupervised pre-training methods for model-based reinforcement learning (MBRL) but is limited to domain-specific or simulated data. In this paper, we study the problem of pre-training world models with abundant in-the-wild videos for efficient learning of downstream visual control tasks. However, in-the-wild videos are complicated with various contextual factors, such as intricate backgrounds and textured appearance, which precludes a world model from extracting shared world knowledge to generalize better. To tackle this issue, we introduce Contextualized World Models (ContextWM) that explicitly model both the context and dynamics to overcome the complexity and diversity of in-the-wild videos and facilitate knowledge transfer between distinct scenes. Specifically, a contextualized extension of the latent dynamics model is elaborately realized by incorporating a context encoder to retain contextual information and empower the image decoder, which allows the latent dynamics model to concentrate on essential temporal variations. Our experiments show that in-the-wild video pre-training equipped with ContextWM can significantly improve the sample-efficiency of MBRL in various domains, including robotic manipulation, locomotion, and autonomous driving.
翻訳日:2023-05-31 20:05:31 公開日:2023-05-29
# ANPL: インタラクティブな分解による自然プログラムのコンパイル

ANPL: Compiling Natural Programs with Interactive Decomposition ( http://arxiv.org/abs/2305.18498v1 )

ライセンス: Link先を確認
Di Huang, Ziyuan Nan, Xing Hu, Pengwei Jin, Shaohui Peng, Yuanbo Wen, Rui Zhang, Zidong Du, Qi Guo, Yewen Pu, Yunji Chen(参考訳) 大規模言語モデル(llms)の出現により、自然相互作用を用いたプログラミングの強化が期待されている。 しかし、LLMはプログラミング言語、例えばPythonに共通使用パターンをコンパイルするのに熟練しているが、LLM生成プログラムの編集とデバッグは依然として難しい。 本稿では,ユーザ固有のタスクを分解可能なプログラミングシステムANPLを紹介する。 ANPLプログラムでは、ユーザは、生成されたプログラムのデータフローを指定するスケッチを直接操作することができる。 ユーザはモジュールに注釈を付け、LLMに機能を生成する高価なタスクをオフロードする自然言語記述に穴を開ける。 ANPLプログラムが与えられた後、ANPLコンパイラは、スケッチで指定されたデータフローを尊重しながら、ホール内で機能を実装する密集したPythonプログラムを生成する。 私たちは、最先端のAIシステムでは困難な、ユニークなタスクのセットであるAbstraction and Reasoning Corpus(ARC)にANPLをデプロイし、ベースラインプログラミングシステムよりも優れています。 (a)タスクを対話的に分解する機能を持たず (b) モジュールが正しく構成できることを保証することなく。 我々は,Pythonで構築された300/400のARCタスクからなるデータセットを入手し,人間がプログラムタスクを分解する方法に関する貴重な洞察を提供する。 データセットはhttps://iprc-dip.github.io/darcを参照。

The advents of Large Language Models (LLMs) have shown promise in augmenting programming using natural interactions. However, while LLMs are proficient in compiling common usage patterns into a programming language, e.g., Python, it remains a challenge how to edit and debug an LLM-generated program. We introduce ANPL, a programming system that allows users to decompose user-specific tasks. In an ANPL program, a user can directly manipulate sketch, which specifies the data flow of the generated program. The user annotates the modules, or hole with natural language descriptions offloading the expensive task of generating functionalities to the LLM. Given an ANPL program, the ANPL compiler generates a cohesive Python program that implements the functionalities in hole, while respecting the dataflows specified in sketch. We deploy ANPL on the Abstraction and Reasoning Corpus (ARC), a set of unique tasks that are challenging for state-of-the-art AI systems, showing it outperforms baseline programming systems that (a) without the ability to decompose tasks interactively and (b) without the guarantee that the modules can be correctly composed together. We obtain a dataset consisting of 300/400 ARC tasks that were successfully decomposed and grounded in Python, providing valuable insights into how humans decompose programmatic tasks. See the dataset at https://iprc-dip.github.io/DARC.
翻訳日:2023-05-31 20:05:06 公開日:2023-05-29
# 予測合意による協調学習

Collaborative Learning via Prediction Consensus ( http://arxiv.org/abs/2305.18497v1 )

ライセンス: Link先を確認
Dongyang Fan, Celestine Mendler-D\"unner, Martin Jaggi(参考訳) 各エージェントの目標が,自身のトレーニングデータに加えて,協力者の専門知識を活用することによって,自身のモデルを改善することにある,協調学習環境を考える。 エージェント間の専門知識の交換を容易にするため,未ラベル付き補助データを利用した蒸留法を提案する。 提案手法の中心となる信頼重み付け方式は,補助データのラベル付け方法が合意に達するまで,各協力者の擬似ラベルへの影響を適応的に評価するものである。 本研究は,地域学習と比較して,各モデルのパフォーマンスをグローバル分布に対して著しく向上させることができることを実証する。 同時に、適応的信頼度は、悪いモデルが集団に与える影響を効果的に識別し軽減することができる。 本手法は,訓練データとモデルアーキテクチャの両方において,個々のエージェント間の不均一性の存在に特に有効であることがわかった。

We consider a collaborative learning setting where each agent's goal is to improve their own model by leveraging the expertise of collaborators, in addition to their own training data. To facilitate the exchange of expertise among agents, we propose a distillation-based method leveraging unlabeled auxiliary data, which is pseudo-labeled by the collective. Central to our method is a trust weighting scheme which serves to adaptively weigh the influence of each collaborator on the pseudo-labels until a consensus on how to label the auxiliary data is reached. We demonstrate that our collaboration scheme is able to significantly boost individual model's performance with respect to the global distribution, compared to local training. At the same time, the adaptive trust weights can effectively identify and mitigate the negative impact of bad models on the collective. We find that our method is particularly effective in the presence of heterogeneity among individual agents, both in terms of training data as well as model architectures.
翻訳日:2023-05-31 20:04:44 公開日:2023-05-29
# 部分サンプリングとリッジ正則化の一般同値

Generalized equivalences between subsampling and ridge regularization ( http://arxiv.org/abs/2305.18496v1 )

ライセンス: Link先を確認
Pratik Patil and Jin-Hong Du(参考訳) 我々は,アンサンブルリッジ推定器のサブサンプリングとリッジ正規化の正確な構造的およびリスク等価性を確立する。 具体的には、異なるリッジ正規化レベル$\lambda$とsubsampleアスペクト比$\psi$は、$(\lambda, \psi )$-plane(ここで$\psi$はサブサンプルサイズに対する特徴次元の比率である)の特定の経路に沿って漸近的に等価であることを示す。 その結果,特徴量分布と応答分布の有界モーメント仮定のみが必要となり,任意のジョイント分布が可能となった。 さらに、$(\lambda, \psi )$の等価パスを決定するためのデータ依存メソッドを提供する。 我々の同値の間接的含意は、最適に調整されたリッジ回帰がデータアスペクト比において単調な予測リスクを示すことである。 これは、一般的なデータ分布の下でNakkiranらによって提起された最近のオープン問題と、線形化された信号-雑音比を通じて回帰硬度を維持する緩やかな規則性条件を解消する。

We establish precise structural and risk equivalences between subsampling and ridge regularization for ensemble ridge estimators. Specifically, we prove that linear and quadratic functionals of subsample ridge estimators, when fitted with different ridge regularization levels $\lambda$ and subsample aspect ratios $\psi$, are asymptotically equivalent along specific paths in the $(\lambda, \psi )$-plane (where $\psi$ is the ratio of the feature dimension to the subsample size). Our results only require bounded moment assumptions on feature and response distributions and allow for arbitrary joint distributions. Furthermore, we provide a datadependent method to determine the equivalent paths of $(\lambda, \psi )$. An indirect implication of our equivalences is that optimally-tuned ridge regression exhibits a monotonic prediction risk in the data aspect ratio. This resolves a recent open problem raised by Nakkiran et al. under general data distributions and a mild regularity condition that maintains regression hardness through linearized signal-to-noise ratios.
翻訳日:2023-05-31 20:04:29 公開日:2023-05-29
# 時空対称性を持つカラーデコレーション周波数格子からの固有フロケ位相分類

Distinct Floquet topological classifications from color-decorated frequency lattices with space-time symmetries ( http://arxiv.org/abs/2305.18532v1 )

ライセンス: Link先を確認
Ilyoun Na, Jack Kemp, Robert-Jan Slager, Yang Peng(参考訳) ユニタリループとストロボスコピック発展を用いたフロッケ系における非自明な位相相について,動的時空対称性の存在下での静的フロッケハミルトンのh_f$の下で考察する。 後者は、周期的に駆動される系に追加の結晶対称性を持つ10倍の方法と系を拡張した平衡外分類の対象であるが、動的時空対称性$M$と反対称性$A$$$$G$の共存から生じる異常位相零モードを探索し、周波数領域の定式化を用いて分類する。 さらに,格子頂点上の色の自由度で表される装飾を備えた周波数格子を用いて,得られたフロッケ位相相の解釈を行う。 これらの色は群拡大の係数 $n$ に対応する: $\tilde{g}$ of $g$ 周波数格子に沿って、$n=z\rtimes h^1[a,m]$ で与えられる。 準エネルギースペクトルの異なるエネルギーギャップで生じる異なる位相分類は、群拡大を分類するコホモロジー群$H^{2}[G,N]$のねじれ積によって記述される。

We consider nontrivial topological phases in Floquet systems using unitary loops and stroboscopic evolutions under a static Floquet Hamiltonian $H_F$ in the presence of dynamical space-time symmetries $G$. While the latter has been subject of out-of-equilibrium classifications that extend the ten-fold way and systems with additional crystalline symmetries to periodically driven systems, we explore the anomalous topological zero modes that arise in $H_F$ from the coexistence of a dynamical space-time symmetry $M$ and antisymmetry $A$ of $G$, and classify them using a frequency-domain formulation. Moreover, we provide an interpretation of the resulting Floquet topological phases using a frequency lattice with a decoration represented by color degrees of freedom on the lattice vertices. These colors correspond to the coefficient $N$ of the group extension $\tilde{G}$ of $G$ along the frequency lattice, given by $N=Z\rtimes H^1[A,M]$. The distinct topological classifications that arise at different energy gaps in its quasi-energy spectrum are described by the torsion product of the cohomology group $H^{2}[G,N]$ classifying the group extension.
翻訳日:2023-05-31 19:58:21 公開日:2023-05-29
# 量子カイ二乗トモグラフィと相互情報検査

Quantum chi-squared tomography and mutual information testing ( http://arxiv.org/abs/2305.18519v1 )

ライセンス: Link先を確認
Steven T. Flammia and Ryan O'Donnell(参考訳) ランク-$r$次元-$d$状態の量子状態トモグラフィでは、$\widetilde{o}(r^{.5}d^{1.5}/\epsilon) \leq \widetilde{o}(d^2/\epsilon)$ copy suffice for accuracy $\epsilon$ for (bures) $\chi^2$-divergence, $\widetilde{o}(rd/\epsilon)$ copy suffice for accuracy $\epsilon$ が量子相対エントロピーに関して示されている。 最善の限界は不完全性に関して$\widetilde{o}(rd/\epsilon) \leq \widetilde{o}(d^2/\epsilon)$であり、結果は \[ \text{infidelity} \leq \text{relative entropy} \leq \text{$\chi^2$-divergence} である。 単一コピー計測を使用するアルゴリズムについては、$\widetilde{o}(r^{1.5} d^{1.5}/\epsilon) \leq \widetilde{o}(d^3/\epsilon)$ copy suffice for $\chi^2$-divergence, $\widetilde{o}(r^{2} d/\epsilon)$ suffice for relative entropy を示す。 このトモグラフィーアルゴリズムを用いて、$\widetilde{o}(d^{2.5}/\epsilon) $d\times d$-dimensional bipartite state のコピーが量子相互情報 0 または少なくとも $\epsilon$ を持つかどうかを検証できることを示した。 共役として、古典的相互情報テストの最もよく知られたサンプルの複雑さを$\widetilde{o}(d/\epsilon)$に改善する。

For quantum state tomography on rank-$r$ dimension-$d$ states, we show that $\widetilde{O}(r^{.5}d^{1.5}/\epsilon) \leq \widetilde{O}(d^2/\epsilon)$ copies suffice for accuracy $\epsilon$ with respect to (Bures) $\chi^2$-divergence, and $\widetilde{O}(rd/\epsilon)$ copies suffice for accuracy $\epsilon$ with respect to quantum relative entropy. The best previous bound was $\widetilde{O}(rd/\epsilon) \leq \widetilde{O}(d^2/\epsilon)$ with respect to infidelity; our results are an improvement since \[ \text{infidelity} \leq \text{relative entropy} \leq \text{$\chi^2$-divergence}.\] For algorithms that are required to use single-copy measurements, we show that $\widetilde{O}(r^{1.5} d^{1.5}/\epsilon) \leq \widetilde{O}(d^3/\epsilon)$ copies suffice for $\chi^2$-divergence, and $\widetilde{O}(r^{2} d/\epsilon)$ suffice for relative entropy. Using this tomography algorithm, we show that $\widetilde{O}(d^{2.5}/\epsilon)$ copies of a $d\times d$-dimensional bipartite state suffice to test if it has quantum mutual information 0 or at least $\epsilon$. As a corollary, we also improve the best known sample complexity for the classical version of mutual information testing to $\widetilde{O}(d/\epsilon)$.
翻訳日:2023-05-31 19:57:57 公開日:2023-05-29
# 高温量子ギブス状態の多項式時間古典サンプリング

Polynomial-time classical sampling of high-temperature quantum Gibbs states ( http://arxiv.org/abs/2305.18514v1 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas(参考訳) 量子多体系をシミュレートする計算の複雑さは一般に粒子の数に指数関数的にスケールする。 この膨大な計算コストは、量子化学のシミュレーションから量子物質や高密度中性子星の熱力学的位相図の発見まで、科学全体で重要な問題の第一原理シミュレーションを禁止している。 本稿では,高温量子ギブス状態から計算(製品状態)ベースでサンプルする古典的アルゴリズムを提案する。 ランタイムは粒子の数で多項式に成長し、エラーは多項式に消滅する。 このアルゴリズムは、符号問題を克服するための既存の量子モンテカルロ法に代わる戦略を提供する。 その結果,gibbs状態における計測に基づく量子計算は,十分に低い温度でのみ指数関数速度を上昇させることができ,量子コンピュータで指数関数的に速くなれるタスクを制限できることがわかった。

The computational complexity of simulating quantum many-body systems generally scales exponentially with the number of particles. This enormous computational cost prohibits first principles simulations of many important problems throughout science, ranging from simulating quantum chemistry to discovering the thermodynamic phase diagram of quantum materials or high-density neutron stars. We present a classical algorithm that samples from a high-temperature quantum Gibbs state in a computational (product state) basis. The runtime grows polynomially with the number of particles, while error vanishes polynomially. This algorithm provides an alternative strategy to existing quantum Monte Carlo methods for overcoming the sign problem. Our result implies that measurement-based quantum computation on a Gibbs state can provide exponential speed up only at sufficiently low temperature, and further constrains what tasks can be exponentially faster on quantum computers.
翻訳日:2023-05-31 19:57:02 公開日:2023-05-29
# slimfit:トレーニングダイナミクスを用いたトランスフォーマーモデルのメモリ効率の良い微調整

SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics ( http://arxiv.org/abs/2305.18513v1 )

ライセンス: Link先を確認
Arash Ardakani, Altan Haan, Shangyin Tan, Doru Thom Popovici, Alvin Cheung, Costin Iancu, Koushik Sen(参考訳) BERTやViTのようなトランスフォーマーベースのモデルは、異なる自然言語処理(NLP)とコンピュータビジョン(CV)タスクで最先端の結果を得た。 しかしながら、これらのモデルは微調整プロセス中に非常にメモリ集約的であるため、メモリリソースの制限されたgpuへのデプロイが困難である。 この問題に対処するため、我々はSlimFitという新しいツールを導入し、これらのモデルのメモリ要件を動的に解析し、微調整中に少ないコントリビュータ層を凍結することで削減する。 凍結する層は、実行時層間スケジューリングアルゴリズムを用いて選択される。 slimfitでは、動的アクティベーションの負荷のバランスと静的アクティベーションのメモリフットプリントの最小化のために、特定のレイヤの量子化とプルーニングを採用している。 これにより、SlimFitは95%のレイヤを凍結し、ViTやBERTといったトランスフォーマーベースのモデル全体のGPUメモリ使用量を平均2.2倍に削減し、GLUE、SQuAD 2.0、CIFAR-10、CIFAR-100、ImageNetなどの異なるNLPおよびCVベンチマーク/データセットを平均0.2%の精度で削減できる。 このようなNLPおよびCVタスクでは、SlimFitはデバイス上のメモリ使用量の最大3.1倍を削減でき、精度は0.4%まで低下する。 その結果、ImageNet上のViTと、バッチサイズ128のSQuAD 2.0上のBERTでは、それぞれ3と2の32GBのGPUを必要とする一方で、SlimFitは、大きな精度の劣化なしに、単一の32GBのGPU上での微調整を可能にする。

Transformer-based models, such as BERT and ViT, have achieved state-of-the-art results across different natural language processing (NLP) and computer vision (CV) tasks. However, these models are extremely memory intensive during their fine-tuning process, making them difficult to deploy on GPUs with limited memory resources. To address this issue, we introduce a new tool called SlimFit that reduces the memory requirements of these models by dynamically analyzing their training dynamics and freezing less-contributory layers during fine-tuning. The layers to freeze are chosen using a runtime inter-layer scheduling algorithm. SlimFit adopts quantization and pruning for particular layers to balance the load of dynamic activations and to minimize the memory footprint of static activations, where static activations refer to those that cannot be discarded regardless of freezing. This allows SlimFit to freeze up to 95% of layers and reduce the overall on-device GPU memory usage of transformer-based models such as ViT and BERT by an average of 2.2x, across different NLP and CV benchmarks/datasets such as GLUE, SQuAD 2.0, CIFAR-10, CIFAR-100 and ImageNet with an average degradation of 0.2% in accuracy. For such NLP and CV tasks, SlimFit can reduce up to 3.1x the total on-device memory usage with an accuracy degradation of only up to 0.4%. As a result, while fine-tuning of ViT on ImageNet and BERT on SQuAD 2.0 with a batch size of 128 requires 3 and 2 32GB GPUs respectively, SlimFit enables their fine-tuning on a single 32GB GPU without any significant accuracy degradation.
翻訳日:2023-05-31 19:56:47 公開日:2023-05-29
# ディープネットワークブラックボックスの虹

A Rainbow in Deep Network Black Boxes ( http://arxiv.org/abs/2305.18512v1 )

ライセンス: Link先を確認
Florentin Guth, Brice M\'enard, Gaspar Rochette, St\'ephane Mallat(参考訳) トレーニングされた深層ニューラルネットワークの確率モデルとしてレインボーネットワークを導入する。 モデルは、体重分布が学習されるランダム特徴マップをカスケードする。 異なる層の重み間の依存関係は、入力活性化を整列する回転に還元されると仮定する。 このアライメントの後、層内のニューロンの重みは独立している。 彼らの活性化は無限幅極限において決定論的となるカーネルを定義する。 これはimagenetデータセットでトレーニングされたresnetに対して数値的に検証される。 また,学習重量分布は低ランク共分散を有することを示した。 したがって、レインボーネットワークは、白いランダムな特徴を持つ線形次元還元と非線形高次元埋め込みを交互に行う。 ガウスの虹網はガウスの重量分布で定義される。 これらのモデルは、ウェーブレット散乱ネットワークを用いて、CIFAR-10データセットの画像分類に基づいて数値的に検証される。 さらに, トレーニング中, sgd はガウス初期化を維持しつつ, 重み共分散を更新できることを示した。

We introduce rainbow networks as a probabilistic model of trained deep neural networks. The model cascades random feature maps whose weight distributions are learned. It assumes that dependencies between weights at different layers are reduced to rotations which align the input activations. Neuron weights within a layer are independent after this alignment. Their activations define kernels which become deterministic in the infinite-width limit. This is verified numerically for ResNets trained on the ImageNet dataset. We also show that the learned weight distributions have low-rank covariances. Rainbow networks thus alternate between linear dimension reductions and non-linear high-dimensional embeddings with white random features. Gaussian rainbow networks are defined with Gaussian weight distributions. These models are validated numerically on image classification on the CIFAR-10 dataset, with wavelet scattering networks. We further show that during training, SGD updates the weight covariances while mostly preserving the Gaussian initialization.
翻訳日:2023-05-31 19:56:12 公開日:2023-05-29
# 予算情報公開を伴うコンテキスト帯域

Contextual Bandits with Budgeted Information Reveal ( http://arxiv.org/abs/2305.18511v1 )

ライセンス: Link先を確認
Kyra Gan, Esmaeil Keyvanshokooh, Xueqing Liu, Susan Murphy(参考訳) コンテキストバンディットアルゴリズムは、パーソナライズされた治療を推奨するために一般的にデジタルヘルスで使用される。 しかし、治療の有効性を確保するために、患者は直接の利益のない行動を取るよう要求されることがしばしばあり、これは前処置行動(pro-treatment action)と呼ばれる。 実際には、臨床医は患者にこれらの行動を奨励し、追加情報を集めるための予算が限られている。 本稿では,この問題に対処するための新しい最適化と学習アルゴリズムを提案する。 このアルゴリズムは、シームレスな方法で2つのアルゴリズムアプローチの強みを効果的に結合する。 1)患者にリーチする最適なタイミングを決定するオンラインプライマル・デュアルアルゴリズム,および 2)患者にパーソナライズされた治療を提供するコンテキストバンディット学習アルゴリズム。 我々は、このアルゴリズムがサブ線形後悔境界を認めることを証明した。 本アルゴリズムは,合成データと実世界のデータの両方において有用であることを示す。

Contextual bandit algorithms are commonly used in digital health to recommend personalized treatments. However, to ensure the effectiveness of the treatments, patients are often requested to take actions that have no immediate benefit to them, which we refer to as pro-treatment actions. In practice, clinicians have a limited budget to encourage patients to take these actions and collect additional information. We introduce a novel optimization and learning algorithm to address this problem. This algorithm effectively combines the strengths of two algorithmic approaches in a seamless manner, including 1) an online primal-dual algorithm for deciding the optimal timing to reach out to patients, and 2) a contextual bandit learning algorithm to deliver personalized treatment to the patient. We prove that this algorithm admits a sub-linear regret bound. We illustrate the usefulness of this algorithm on both synthetic and real-world data.
翻訳日:2023-05-31 19:55:55 公開日:2023-05-29
# rlad: 都市環境における自律運転のための画素からの強化学習

RLAD: Reinforcement Learning from Pixels for Autonomous Driving in Urban Environments ( http://arxiv.org/abs/2305.18510v1 )

ライセンス: Link先を確認
Daniel Coelho, Miguel Oliveira, and Vitor Santos(参考訳) 都市自律運転(AD)に適用された強化学習(RL)の最近のアプローチは、運転政策訓練から知覚訓練を分離することに焦点を当てている。 主な理由は、コンボリューションエンコーダをポリシーネットワークと並行してトレーニングすることを避けることである。 しかし、このパラダイムは下流のタスクと一致しない環境の表現につながり、結果として最適でないパフォーマンスをもたらす可能性がある。 この制限に対処するために,都市AD領域に適用された最初のRLfP(Reinforcement Learning from Pixels)手法であるRLADを提案する。 本稿では,この領域におけるRLfPアルゴリズムの性能向上のためのいくつかの手法を提案する。 一 画像拡張及び適応局所信号混合(A-LIX)層の両方を利用する画像エンコーダ ii)wayconv1dは,1次元畳み込みを用いて,ウェイポイントの2次元幾何学的情報を利用するウェイポイントエンコーダである。 三 環境の潜在表現における交通灯の意義を高めるための補助的損失 実験の結果,RLADはNoCrashベンチマークにおいて,最先端のRLfP手法を著しく上回ることがわかった。 また,nocrash-regularベンチマークの屈折解析を行い,衝突速度と赤色光屈折率の両方においてrladが他の手法よりも優れた性能を示す。

Current approaches of Reinforcement Learning (RL) applied in urban Autonomous Driving (AD) focus on decoupling the perception training from the driving policy training. The main reason is to avoid training a convolution encoder alongside a policy network, which is known to have issues related to sample efficiency, degenerated feature representations, and catastrophic self-overfitting. However, this paradigm can lead to representations of the environment that are not aligned with the downstream task, which may result in suboptimal performances. To address this limitation, this paper proposes RLAD, the first Reinforcement Learning from Pixels (RLfP) method applied in the urban AD domain. We propose several techniques to enhance the performance of an RLfP algorithm in this domain, including: i) an image encoder that leverages both image augmentations and Adaptive Local Signal Mixing (A-LIX) layers; ii) WayConv1D, which is a waypoint encoder that harnesses the 2D geometrical information of the waypoints using 1D convolutions; and iii) an auxiliary loss to increase the significance of the traffic lights in the latent representation of the environment. Experimental results show that RLAD significantly outperforms all state-of-the-art RLfP methods on the NoCrash benchmark. We also present an infraction analysis on the NoCrash-regular benchmark, which indicates that RLAD performs better than all other methods in terms of both collision rate and red light infractions.
翻訳日:2023-05-31 19:55:37 公開日:2023-05-29
# 経験的リスク最小化のばらつき,適応性,安定性について

On the Variance, Admissibility, and Stability of Empirical Risk Minimization ( http://arxiv.org/abs/2305.18508v1 )

ライセンス: Link先を確認
Gil Kur, Eli Putterman and Alexander Rakhlin(参考訳) 二乗損失を持つ経験的リスク最小化(ERM)が極小最適誤差率を達成することはよく知られている(Birg\'e and Massart, 1993)。 本論文の重要なメッセージは、軽微な仮定の下では、ERMの準最適性は分散よりも大きなバイアスによるものでなければならないということである。 より正確には、ERMの2乗誤差のバイアス分散分解において、分散項は必ずしもミニマックスレートを楽しむ。 固定設計の場合、確率的手法を用いて、この事実の基本的な証明を提供する。 そして、ランダムな設計設定において、様々なモデルに対してこの結果を証明する。 さらに、chatterjee の許容性定理(chatterjee, 2014 theorem 1.4)の簡単な証明を提供し、固定設計設定において erm は最適な手法として除外できないとし、この結果をランダムな設計設定に拡張する。 また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。 最後に、非Donskerクラスでは、ERMに近い関数が存在するが、経験的損失の最小化には程遠いことが示され、損失ランドスケープのやや不規則な性質が強調された。

It is well known that Empirical Risk Minimization (ERM) with squared loss may attain minimax suboptimal error rates (Birg\'e and Massart, 1993). The key message of this paper is that, under mild assumptions, the suboptimality of ERM must be due to large bias rather than variance. More precisely, in the bias-variance decomposition of the squared error of the ERM, the variance term necessarily enjoys the minimax rate. In the case of fixed design, we provide an elementary proof of this fact using the probabilistic method. Then, we prove this result for various models in the random design setting. In addition, we provide a simple proof of Chatterjee's admissibility theorem (Chatterjee, 2014, Theorem 1.4), which states that ERM cannot be ruled out as an optimal method, in the fixed design setting, and extend this result to the random design setting. We also show that our estimates imply stability of ERM, complementing the main result of Caponnetto and Rakhlin (2006) for non-Donsker classes. Finally, we show that for non-Donsker classes, there are functions close to the ERM, yet far from being almost-minimizers of the empirical loss, highlighting the somewhat irregular nature of the loss landscape.
翻訳日:2023-05-31 19:54:34 公開日:2023-05-29
# コードプロンプティング:大規模言語モデルにおける複雑推論のためのニューラルシンボリック手法

Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models ( http://arxiv.org/abs/2305.18507v1 )

ライセンス: Link先を確認
Yi Hu, Haotong Yang, Zhouchen Lin, Muhan Zhang(参考訳) 大規模言語モデル(LLM)は、様々なプロンプトメソッドの助けを借りて、幅広い複雑な推論タスクをアンロックするために拡張されている。 しかし、現在のプロンプトメソッドは推論に役立つ自然言語中間ステップを生成し、不完全なタスクの削減と混乱を引き起こす可能性がある。 このような制限を軽減するため、コードプロンプトは、中間ステップとしてコードをトリガーするゼロショットバージョンとマイショットバージョンの両方を持つ、ニューラルシンボリックプロンプトメソッドである。 我々は記号的推論と算術的推論を含む7つの広く使われているベンチマーク実験を行った。 コードプロンプトは一般にチェーン・オブ・マインド(cot)プロンプトを上回っている。 コードプロンプトの性能と限界をより深く理解するために、広範囲にわたるアブレーション研究とエラー解析を行い、自然言語と比較して記号プロンプトを使うことによるいくつかの排他的利点を識別する。 また,コードプロンプトとcotの組み合わせによって,両者の強みを組み合わせることも検討する。 最後に、コードアノテーションとその場所がコードのプロンプトにどのように影響するかを実験を通して示す。

Large language models (LLMs) have scaled up to unlock a wide range of complex reasoning tasks with the aid of various prompting methods. However, current prompting methods generate natural language intermediate steps to help reasoning, which can cause imperfect task reduction and confusion. To mitigate such limitations, we explore code prompting, a neural symbolic prompting method with both zero-shot and few-shot versions which triggers code as intermediate steps. We conduct experiments on 7 widely-used benchmarks involving symbolic reasoning and arithmetic reasoning. Code prompting generally outperforms chain-of-thought (CoT) prompting. To further understand the performance and limitations of code prompting, we perform extensive ablation studies and error analyses, and identify several exclusive advantages of using symbolic promptings compared to natural language. We also consider the ensemble of code prompting and CoT prompting to combine the strengths of both. Finally, we show through experiments how code annotations and their locations affect code prompting.
翻訳日:2023-05-31 19:54:06 公開日:2023-05-29
# 広域残留ネットワークの一般化能力

Generalization Ability of Wide Residual Networks ( http://arxiv.org/abs/2305.18506v1 )

ライセンス: Link先を確認
Jianfa Lai, Zixiong Yu, Songtao Tian, Qian Lin(参考訳) 本稿では,ReLU 活性化関数を持つ $\mathbb{S}^{d-1}$ 上での広域残差ネットワークの一般化能力について検討する。 まず、幅$m\rightarrow\infty$として、残留ネットワークカーネル(RNK)が残留ニューラルネットワークカーネル(RNTK)に均一に収束することを示す。 この一様収束は、残差ネットワークの一般化誤差が RNTK に関するカーネル回帰の誤差に収束することをさらに保証する。 直接行程として、(i)$$ の初期停止戦略を持つワイド残差ネットワークは、RNTKに付随する再生カーネルヒルベルト空間(RKHS)にターゲット回帰関数が落ちても、最小値を達成することができる。 最終的に、我々の理論結果と広く観察された「良性過剰フィッティング現象」との矛盾を解消するいくつかの実験を示す。

In this paper, we study the generalization ability of the wide residual network on $\mathbb{S}^{d-1}$ with the ReLU activation function. We first show that as the width $m\rightarrow\infty$, the residual network kernel (RNK) uniformly converges to the residual neural tangent kernel (RNTK). This uniform convergence further guarantees that the generalization error of the residual network converges to that of the kernel regression with respect to the RNTK. As direct corollaries, we then show $i)$ the wide residual network with the early stopping strategy can achieve the minimax rate provided that the target regression function falls in the reproducing kernel Hilbert space (RKHS) associated with the RNTK; $ii)$ the wide residual network can not generalize well if it is trained till overfitting the data. We finally illustrate some experiments to reconcile the contradiction between our theoretical result and the widely observed ``benign overfitting phenomenon''
翻訳日:2023-05-31 19:53:48 公開日:2023-05-29
# 回転不変性に対するロバストネスの3次元形状解析法の評価

Evaluating 3D Shape Analysis Methods for Robustness to Rotation Invariance ( http://arxiv.org/abs/2305.18557v1 )

ライセンス: Link先を確認
Supriya Gadi Patil, Angel X. Chang, Manolis Savva(参考訳) 本稿では,最近の3次元形状記述子のSO(3)回転に対する堅牢性について解析する。 具体的には、回転した3Dオブジェクトインスタンス検出のタスクを定式化する。 そこで我々は,異なる方向から物体が出現する3次元屋内シーンのデータベースについて考察する。 このタスクの文脈において,特徴抽出と分類のための異なる手法をベンチマークする。 異なる回転分布の性能, 物体に対する偏観測の程度, 負対の難易度などについて, 様々な実験において, 異なる選択を系統的に比較検討した。 本研究では,オブジェクトインスタンスが異なる向きに出現する3次元シーンの合成データセットについて,深層学習に基づく回転不変量法が比較的容易な設定に有効であることを明らかにする。 しかし、入力対の回転差が大きい場合や、入力対象の観察度が低下する場合や、入力対の難易度が大きくなる場合には、その性能は著しく低下する。 最後に、回転不変法用に設計された特徴エンコーディングを3次元幾何学と結びつけ、回転不変性の性質を取得する。

This paper analyzes the robustness of recent 3D shape descriptors to SO(3) rotations, something that is fundamental to shape modeling. Specifically, we formulate the task of rotated 3D object instance detection. To do so, we consider a database of 3D indoor scenes, where objects occur in different orientations. We benchmark different methods for feature extraction and classification in the context of this task. We systematically contrast different choices in a variety of experimental settings investigating the impact on the performance of different rotation distributions, different degrees of partial observations on the object, and the different levels of difficulty of negative pairs. Our study, on a synthetic dataset of 3D scenes where objects instances occur in different orientations, reveals that deep learning-based rotation invariant methods are effective for relatively easy settings with easy-to-distinguish pairs. However, their performance decreases significantly when the difference in rotations on the input pair is large, or when the degree of observation of input objects is reduced, or the difficulty level of input pair is increased. Finally, we connect feature encodings designed for rotation-invariant methods to 3D geometry that enable them to acquire the property of rotation invariance.
翻訳日:2023-05-31 19:48:13 公開日:2023-05-29
# 忘れられた知識:NLPにおける鎮静覚醒の検討

Forgotten Knowledge: Examining the Citational Amnesia in NLP ( http://arxiv.org/abs/2305.18554v1 )

ライセンス: Link先を確認
Janvijay Singh, Mukund Rungta, Diyi Yang, Saif M. Mohammad(参考訳) 論文の引用は、現代の科学的著作が過去の作品に基づいて論じ、構築する主要な方法である。 集合的に、多種多様な論文(時間と研究領域)を引用することは、コミュニティがいかに広く読んでいるかを示す指標である。 しかし、引用の幅広い時間的パターンを考察する作業はほとんどない。 この作業は体系的かつ経験的に、次のように検証する。 時間の中で、論文を引用する傾向はどれくらいありますか? それは時間とともにどのように変化し、どの要因がこの引用的注意/記憶と相関するか? 我々は、NLPを我々の関心領域として選び、約71.5Kの論文を分析して、引用におけるいくつかの重要な傾向を示し、定量化した。 特に引用された論文の約62%は出版直前の5年前のものであり、わずか17%が10年以上前のものである。 さらに,1990年から2014年にかけて,引用論文の平均年齢と年齢の多様性は着実に増加傾向にあったが,その後傾向が逆転し,現在のNLP論文は時間的引用の多様性が低かった。 最後に、1990年代とは異なり、過去10年間に引用された論文は、最も引用の多様性が低い論文であり、おそらく強い(そしておそらく有害な)傾向に寄与していることを示している。 コード、データ、デモはプロジェクトのホームページで公開されている。

Citing papers is the primary method through which modern scientific writing discusses and builds on past work. Collectively, citing a diverse set of papers (in time and area of study) is an indicator of how widely the community is reading. Yet, there is little work looking at broad temporal patterns of citation. This work systematically and empirically examines: How far back in time do we tend to go to cite papers? How has that changed over time, and what factors correlate with this citational attention/amnesia? We chose NLP as our domain of interest and analyzed approximately 71.5K papers to show and quantify several key trends in citation. Notably, around 62% of cited papers are from the immediate five years prior to publication, whereas only about 17% are more than ten years old. Furthermore, we show that the median age and age diversity of cited papers were steadily increasing from 1990 to 2014, but since then, the trend has reversed, and current NLP papers have an all-time low temporal citation diversity. Finally, we show that unlike the 1990s, the highly cited papers in the last decade were also papers with the least citation diversity, likely contributing to the intense (and arguably harmful) recency focus. Code, data, and a demo are available on the project homepage.
翻訳日:2023-05-31 19:47:53 公開日:2023-05-29
# 破壊の制御可能な経路

Controllable Path of Destruction ( http://arxiv.org/abs/2305.18553v1 )

ライセンス: Link先を確認
Matthew Siper, Sam Earle, Zehua Jiang, Ahmed Khalifa, Julian Togelius(参考訳) Path of Destruction (PoD) は反復ジェネレータを学習するための自己教師型手法である。 基本的な考え方は、一連のアーティファクトを破壊してトレーニングセットを作成し、破壊的なステップ毎に、対応する修復アクションに基づいてトレーニングインスタンスを作成することだ。 このデータセットでトレーニングされたジェネレータは、任意の状態から `repairing'' によって新しいアーティファクトを生成することができる。 PoD法は非常にデータ効率が良く、ゲームレベルや離散3D構造などのカテゴリデータからなる機能的アーティファクトに適している。 本稿では,生成したアーティファクトの側面を設計者が制御できるように,破壊の経路を拡張する。 制御性は、修復軌道を構成する状態-作用対に条件入力を追加することによって導入される。 2dダンジョンの設定で制御可能なpodメソッドをテストし、また小さな3dレゴカーの領域でテストした。

Path of Destruction (PoD) is a self-supervised method for learning iterative generators. The core idea is to produce a training set by destroying a set of artifacts, and for each destructive step create a training instance based on the corresponding repair action. A generator trained on this dataset can then generate new artifacts by ``repairing'' from arbitrary states. The PoD method is very data-efficient in terms of original training examples and well-suited to functional artifacts composed of categorical data, such as game levels and discrete 3D structures. In this paper, we extend the Path of Destruction method to allow designer control over aspects of the generated artifacts. Controllability is introduced by adding conditional inputs to the state-action pairs that make up the repair trajectories. We test the controllable PoD method in a 2D dungeon setting, as well as in the domain of small 3D Lego cars.
翻訳日:2023-05-31 19:47:30 公開日:2023-05-29
# ニューラルネットワークにおける線形群学習

Learning Linear Groups in Neural Networks ( http://arxiv.org/abs/2305.18552v1 )

ライセンス: Link先を確認
Emmanouil Theodosis and Karim Helwani and Demba Ba(参考訳) ニューラルネットワークに等価性を採用することにより、パラメータ効率が向上し、アーキテクチャにおけるドメイン知識の符号化による一般化性能が向上するが、既存のアプローチの大半は、望ましい対称性の事前仕様を必要とする。 ニューラルネットワークの重み空間に作用する線形群を学習するためのニューラルネットワークアーキテクチャであるLinear Group Networks(LGNs)を提案する。 線型群は、それらの固有の解釈可能性から、有限行列として表現できるので望ましい。 LGNはデータ内の隠された対称性の監督や知識なしにグループを学習し、そのグループを機械学習のよく知られた操作にマッピングすることができる。 我々はLGNを用いて、異なる下流タスクを考慮しながら複数のデータセット上のグループを学習し、線形群構造がデータ分布と考慮されたタスクの両方に依存することを示した。

Employing equivariance in neural networks leads to greater parameter efficiency and improved generalization performance through the encoding of domain knowledge in the architecture; however, the majority of existing approaches require an a priori specification of the desired symmetries. We present a neural network architecture, Linear Group Networks (LGNs), for learning linear groups acting on the weight space of neural networks. Linear groups are desirable due to their inherent interpretability, as they can be represented as finite matrices. LGNs learn groups without any supervision or knowledge of the hidden symmetries in the data and the groups can be mapped to well known operations in machine learning. We use LGNs to learn groups on multiple datasets while considering different downstream tasks; we demonstrate that the linear group structure depends on both the data distribution and the considered task.
翻訳日:2023-05-31 19:47:16 公開日:2023-05-29
# 短期電力負荷予測におけるエラーのメタ回帰分析

Meta-Regression Analysis of Errors in Short-Term Electricity Load Forecasting ( http://arxiv.org/abs/2305.18550v1 )

ライセンス: Link先を確認
Konstantin Hopf, Hannah Hartstang, Thorsten Staake(参考訳) 電力需要の予測は、電力供給の信頼性とコスト効率の確保に重要な役割を果たす。 分散型再生可能エネルギー源へのグローバル移行と暖房と輸送の電化により、正確な負荷予測がより重要になる。 多くの実証的研究やいくつかのレビュー記事が存在するが、その論文の驚くほどの量的分析はほとんどなく、特に、実証研究全体のパフォーマンスを予測する要因が与える影響を特定するものはない。 そこで本稿では,短期電力負荷予測の精度に影響を与える要因を考察するメタ回帰分析(MRA)を提案する。 59の研究で公表された予測モデル421からのデータを用いる。 グリッドレベル(個別対集約対システム)、予測粒度、使用されるアルゴリズムは、mape、書誌データ、データセットサイズ、予測地平線に大きな影響を与えているように見える。 LSTMアプローチとニューラルネットワークと他のアプローチの組み合わせが最高の予測方法であることがわかった。 その結果、実践者や研究者が意味のあるモデル選択を行うのに役立つ。 しかし,本論文では,負荷予測の分野におけるさらなるMRAが,負荷予測の研究や実践において盲点を埋めることを求めている。

Forecasting electricity demand plays a critical role in ensuring reliable and cost-efficient operation of the electricity supply. With the global transition to distributed renewable energy sources and the electrification of heating and transportation, accurate load forecasts become even more important. While numerous empirical studies and a handful of review articles exist, there is surprisingly little quantitative analysis of the literature, most notably none that identifies the impact of factors on forecasting performance across the entirety of empirical studies. In this article, we therefore present a Meta-Regression Analysis (MRA) that examines factors that influence the accuracy of short-term electricity load forecasts. We use data from 421 forecast models published in 59 studies. While the grid level (esp. individual vs. aggregated vs. system), the forecast granularity, and the algorithms used seem to have a significant impact on the MAPE, bibliometric data, dataset sizes, and prediction horizon show no significant effect. We found the LSTM approach and a combination of neural networks with other approaches to be the best forecasting methods. The results help practitioners and researchers to make meaningful model choices. Yet, this paper calls for further MRA in the field of load forecasting to close the blind spots in research and practice of load forecasting.
翻訳日:2023-05-31 19:47:04 公開日:2023-05-29
# 反体制的腐敗に対するロバストなリプシッツ・バンディット

Robust Lipschitz Bandits to Adversarial Corruptions ( http://arxiv.org/abs/2305.18543v1 )

ライセンス: Link先を確認
Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続腕集合を扱う確率的バンディットの変種である。 本稿では,適応的相手が確率的報酬を最大で$C$まで損なうような,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。 予算は、時間的水平線における汚職水準の合計によって測定される。 我々は、攻撃前の現在の行動に弱い敵と強い敵の両方が気づいておらず、強い敵はそれを観察できると考えている。 我々の研究は、汚職の総額$C$がエージェントに未公表である場合でも、両方の種類の敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。 各タイプの敵に対して下限を提供し,本アルゴリズムが強大な場合において最適であることを示す。 最後に,従来の2種類の攻撃に対するアルゴリズムの有効性を示す実験を行った。

Lipschitz bandit is a variant of stochastic bandits that deals with a continuous arm set defined on a metric space, where the reward function is subject to a Lipschitz constraint. In this paper, we introduce a new problem of Lipschitz bandits in the presence of adversarial corruptions where an adaptive adversary corrupts the stochastic rewards up to a total budget $C$. The budget is measured by the sum of corruption levels across the time horizon $T$. We consider both weak and strong adversaries, where the weak adversary is unaware of the current action before the attack, while the strong one can observe it. Our work presents the first line of robust Lipschitz bandit algorithms that can achieve sub-linear regret under both types of adversary, even when the total budget of corruption $C$ is unrevealed to the agent. We provide a lower bound under each type of adversary, and show that our algorithm is optimal under the strong case. Finally, we conduct experiments to illustrate the effectiveness of our algorithms against two classic kinds of attacks.
翻訳日:2023-05-31 19:46:21 公開日:2023-05-29
# パウリ-マルコフ鎖による多体魔法-臨界からゲージ理論まで

Many-body magic via Pauli-Markov chains -- from criticality to gauge theories ( http://arxiv.org/abs/2305.18541v1 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, Titas Chanda, Marcello Dalmonte(参考訳) マルコフ連鎖によるパウリ弦の統計的探索に基づいて,量子系における多体マジックを測定する手法を提案する。 このようなポーリ・マルコフ鎖のサンプリングは、サンプリングするパーティションの観点で多くの柔軟性をもたらすことを実証する: 特に、マジックの非局所性を特徴付ける広く分離されたサブシステム間の相関に含まれるマジックを効率的に抽出することができる。 我々の方法は様々な状況で実装できる。 本稿では,木テンソルネットワークを用いた効率的なサンプリング手順について述べる。その階層構造を利用して,システム規模でo(\log n)$計算スケーリングを行う。 本手法の適用性と効率性を示すため,多体システムにおける魔法の重要性を,以下の発見を通じて示す。 a) 1次元システムの場合、長距離魔法は共形量子臨界性の強いシグネチャ(Ising, Potts, Gaussian)を示し、完全な状態魔法の限界を克服することを示す。 b) 2次元の$\mathbb{Z}_2$格子ゲージ理論において、魔術が閉じ込め分解遷移を識別できるという決定的な証拠を提供し、比較的穏やかな体積でも重要なスケーリング挙動を示す。 最後に,パウリ観測値の測定のみに依存する手法の実験的実装について論じる。

We introduce a method to measure many-body magic in quantum systems based on a statistical exploration of Pauli strings via Markov chains. We demonstrate that sampling such Pauli-Markov chains gives ample flexibility in terms of partitions where to sample from: in particular, it enables to efficiently extract the magic contained in the correlations between widely-separated subsystems, which characterizes the nonlocality of magic. Our method can be implemented in a variety of situations. We describe an efficient sampling procedure using Tree Tensor Networks, that exploits their hierarchical structure leading to a modest $O(\log N)$ computational scaling with system size. To showcase the applicability and efficiency of our method, we demonstrate the importance of magic in many-body systems via the following discoveries: (a) for one dimensional systems, we show that long-range magic displays strong signatures of conformal quantum criticality (Ising, Potts, and Gaussian), overcoming the limitations of full state magic; (b) in two-dimensional $\mathbb{Z}_2$ lattice gauge theories, we provide conclusive evidence that magic is able to identify the confinement-deconfinement transition, and displays critical scaling behavior even at relatively modest volumes. Finally, we discuss an experimental implementation of the method, which only relies on measurements of Pauli observables.
翻訳日:2023-05-31 19:45:55 公開日:2023-05-29
# 厳密なローカルUnion-Find

Strictly local Union-Find ( http://arxiv.org/abs/2305.18534v1 )

ライセンス: Link先を確認
Tim Chan, Simon C. Benjamin(参考訳) フォールトトレラント量子コンピューティングは、エラー訂正に必要なデコードを実行するために古典的なハードウェアを必要とする。 ユニオン・フィールド・デコーダは最も優れた候補の1つである。 非常に有機的な特徴を持ち、近辺のステップでデータ構造が成長し、統合される。これは自然に近辺のリンクを持つ非常に単純なプロセッサの格子を用いてUnion-Findを実現する可能性を示唆している。 このように計算負荷は、ほぼ理想的並列性で分散することができる。 ここでは、この厳密な(部分的な)ローカリティが初めて実用的であることを示し、最悪のランタイムである$\mathcal O(d^3)$と、$d$の平均ランタイムサブクワッドラティックな$d$で、$d$が表面コード距離であることを示す。 従来提案されていたアーキテクチャを簡素化する新しいパリティ計算方式が採用されている。 我々は、厳密な局所的な実現と長距離リンクによる拡張を比較する。後者は、もちろん高速だが、ローカルな非同期ロジックは、その違いをほとんど否定できる。

Fault-tolerant quantum computing requires classical hardware to perform the decoding necessary for error correction. The Union-Find decoder is one of the best candidates for this. It has remarkably organic characteristics, involving the growth and merger of data structures through nearest-neighbour steps; this naturally suggests the possibility of realising Union-Find using a lattice of very simple processors with strictly nearest-neighbour links. In this way the computational load can be distributed with near-ideal parallelism. Here we build on earlier work to show for the first time that this strict (rather than partial) locality is practical, with a worst-case runtime $\mathcal O(d^3)$ and mean runtime subquadratic in $d$ where $d$ is the surface code distance. A novel parity-calculation scheme is employed, which can also simplify previously proposed architectures. We compare our strictly local realisation with one augmented by long-range links; while the latter is of course faster, we note that local asynchronous logic could largely negate the difference.
翻訳日:2023-05-31 19:45:32 公開日:2023-05-29
# パンデミック文化戦争:covid-19議論の道徳言語における党派的非対称性

Pandemic Culture Wars: Partisan Asymmetries in the Moral Language of COVID-19 Discussions ( http://arxiv.org/abs/2305.18533v1 )

ライセンス: Link先を確認
Ashwin Rao, Siyi Guo, Sze-Yuh Nina Wang, Fred Morstatter and Kristina Lerman(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を抑制するため、マスクや隔離などの緩和策を共同で導入する必要がある。 しかし、パンデミックの初期に現れた政治的分裂は、適切な対応に関する合意を妨げた。 これらの部門をよりよく理解するため、本研究では新型コロナウイルス関連のツイートの膨大なコレクションを調査した。 われわれは新型コロナウイルス、ロックダウン、マスク、教育、ワクチンの5つの問題に焦点を当てている。 本稿では,問題関連ツイートを識別するための弱い教師付き手法について述べるとともに,モラル言語の分析や政治イデオロギーの推測に最先端の計算手法を用いる。 我々は、イデオロギーの分裂と道徳言語がこれらの問題についての会話をいかに形成するかを考察する。 本研究は,モラル言語のイデオロギー的相違と動的相違を明らかにした。 保守派はリベラル派よりも否定的な道徳的言語を使うが、保守派による道徳的言語の使用は持続性が低く、ニュースサイクルのダイナミクスによって駆動されているように見える。 さらに、政治エリートは、ほとんどの問題において非エリートよりも道徳的な修辞を多く用いている。 分裂問題の進化とモラル化を調べることは、新型コロナウイルスの議論のダイナミクスに関する貴重な洞察を与え、政策立案者がイデオロギー的分裂の出現をより深く理解するのを助けることができる。

Effective response to the COVID-19 pandemic required coordinated adoption of mitigation measures, like masking and quarantines, to curb virus's spread. However, political divisions that emerged early in the pandemic hindered consensus on the appropriate response. To better understand these divisions, our study examines a vast collection of COVID-19-related tweets. We focus on five contentious issues: coronavirus origins, lockdowns, masking, education, and vaccines. We describe a weakly supervised method to identify issue-relevant tweets and employ state-of-the-art computational methods to analyze moral language and infer political ideology. We explore how ideological divisions and moral language shape conversations about these issues. Our findings reveal ideological differences in issue salience and the dynamics of moral language. We find that conservatives use more negatively-valenced moral language than liberals, but moral language use by conservatives is less persistent and appears to be driven by dynamics of the news cycle. Furthermore, we find that political elites use moral rhetoric to a greater extent than non-elites across most issues. Examining the evolution and moralization on divisive issues can provide valuable insights into the dynamics of COVID-19 discussions and assist policymakers in better understanding the emergence of ideological divisions.
翻訳日:2023-05-31 19:45:12 公開日:2023-05-29
# 露出バイアス緩和による大規模言語モデルの自己情報更新

Self Information Update for Large Language Models through Mitigating Exposure Bias ( http://arxiv.org/abs/2305.18582v1 )

ライセンス: Link先を確認
Pengfei Yu and Heng Ji(参考訳) 現在のllmは、様々な種類の情報に対するユーザの要求に対処する際、顕著な能力を示している。 しかし、これらのモデルはトレーニング前のコーパスで利用可能な最新のデータによって制限され、最新の情報を提供することができない。 ゼロからLLMを調整することはコストを抑え、新しいコーパスに対する連続微調整の有効性を十分に検討していない。 さらに、現在の更新手順では、知識トリプル、会話データ、人的フィードバックによる応答といった、より構造化されたフォーマットで情報を作成するために、重要なヒューマンインプットを要求する。 本研究では,LLMにおける新たな自己情報更新タスクの包括的検討を行う。 例えば、最新のニュース記事を使用して、llmsの既存の知識を更新できます。 この目的のために,自己情報更新タスクを定義し,継続的な微調整手法を評価する。 我々は,情報更新の有効性を損なう不正確な推論連鎖を生じさせる新たな情報よりも既存の情報を優先する,llmsの露出バイアスにより,継続的な微調整のナイーブな手法が問題となる可能性があることを観察する。 そこで本研究では,学習損失に関連事実の選択を組み込むことにより,露光バイアスを軽減する効果的な手法を提案する。 さらに,2023年3月以降のニュース記事から得られた情報更新を評価するデータセットを開発した。 実験の結果,提案手法は,新たな情報に直接関連しない命令のパフォーマンスに最小限の影響を与えながら,事実整合性スコア(0~1)を0~0.16に向上させることを示した。

Current LLMs have demonstrated remarkable capabilities in addressing users' requests for various types of information. However, these models are limited by the most recent data available in their pretraining corpora, rendering them incapable of providing up-to-date information. Retraining LLMs from scratch is cost-prohibitive, and the effectiveness of continual fine-tuning on new corpora has not been thoroughly examined. Additionally, current update procedures typically demand significant human input to prepare the information into more structured format, such as knowledge triples, conversational data or responses with human feedback. In this study, we conduct a comprehensive examination of a novel self information update task in LLMs, which only requires the provision of informative text corpora. For instance, we can use the latest news articles to update the LLMs' existing knowledge. We define the self information update task and assess the continual fine-tuning approach for this purpose. We observe that the naive method of continual fine-tuning can be problematic due to LLMs' exposure bias, which prioritizes existing information over new information we aim to integrate and leads to incorrect reasoning chains that ultimately diminish the efficacy of information updates. Based on our analysis, we propose an effective method to mitigate exposure bias by incorporating the selection of relevant facts into training losses. Furthermore, we develop a dataset to evaluate information updates, derived from news articles published after March 2023. Experimental results demonstrate that our proposed approach significantly increases the factual consistency score (0 to 1) by 0.16 while having minimal impact on performance for instructions not directly related to the new information.
翻訳日:2023-05-31 19:37:24 公開日:2023-05-29
# クイック適応三分法:隠れマルコフモデルの効率的な復号法

Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For Hidden Markov Models ( http://arxiv.org/abs/2305.18578v1 )

ライセンス: Link先を確認
Alexandre M\"osching, Housen Li, Axel Munk(参考訳) 隠れマルコフモデル(HMM)は、隠れマルコフ鎖の観測不能な(隠された)マルコフ連鎖と、隠された鎖のノイズのあるバージョンである観測可能過程によって特徴づけられる。 ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。 既存の復号アルゴリズムであるビタビアルゴリズムは、観測シーケンスの長さにおいて最も線形に計算複雑性を持ち、マルコフ連鎖の状態空間の大きさではサブクアドラティックである。 本稿では,多対数計算の複雑度で隠れた列を列の長さでデコードし,状態空間の大きさを立方体で表し,比較的少ない状態の大規模hmmに対して特に適合する3次分割法であるquick adaptive ternary segmentation (qats)を提案する。 この手順はまた、特定の累積和としてデータストレージの効果的な方法を提案する。 本質的に、推定された状態列は、少なくとも3つのセグメントを持つ全ての局所経路の局所的確率スコアを逐次最大化する。 最大化は適応探索手順を用いてのみ行われる。 結果列は、全ての遷移が正の確率で起こるという意味で許容される。 我々のアプローチを正当化する公式な結果を補完するため、我々は、返却シーケンスの精度解析とともに、QATSによるビタビと比較しての高速化を示すモンテカルロシミュレーションを提案する。 C++でのQATSの実装は、RパッケージのQATSで提供されており、GitHubから入手できる。

Hidden Markov models (HMMs) are characterized by an unobservable (hidden) Markov chain and an observable process, which is a noisy version of the hidden chain. Decoding the original signal (i.e., hidden chain) from the noisy observations is one of the main goals in nearly all HMM based data analyses. Existing decoding algorithms such as the Viterbi algorithm have computational complexity at best linear in the length of the observed sequence, and sub-quadratic in the size of the state space of the Markov chain. We present Quick Adaptive Ternary Segmentation (QATS), a divide-and-conquer procedure which decodes the hidden sequence in polylogarithmic computational complexity in the length of the sequence, and cubic in the size of the state space, hence particularly suited for large scale HMMs with relatively few states. The procedure also suggests an effective way of data storage as specific cumulative sums. In essence, the estimated sequence of states sequentially maximizes local likelihood scores among all local paths with at most three segments. The maximization is performed only approximately using an adaptive search procedure. The resulting sequence is admissible in the sense that all transitions occur with positive probability. To complement formal results justifying our approach, we present Monte-Carlo simulations which demonstrate the speedups provided by QATS in comparison to Viterbi, along with a precision analysis of the returned sequences. An implementation of QATS in C++ is provided in the R-package QATS and is available from GitHub.
翻訳日:2023-05-31 19:36:55 公開日:2023-05-29
# 最適学習のための数学的構造の構築に向けて

Towards Constituting Mathematical Structures for Learning to Optimize ( http://arxiv.org/abs/2305.18577v1 )

ライセンス: Link先を確認
Jialin Liu, Xiaohan Chen, Zhangyang Wang, Wotao Yin, HanQin Cai(参考訳) データから自動的に最適化アルゴリズムを学習する機械学習技術である learning to optimize (l2o) が近年注目されている。 ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。 一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。 本稿では,更新規則をよく満たす基本的な数学的条件を導出する。 そこで本研究では, 分布外問題に対して広く適用でき, 一般化された数学的構造を持つ新しいL2Oモデルを提案する。 数値シミュレーションにより,提案するl2oモデルの優れた実験性能が得られた。

Learning to Optimize (L2O), a technique that utilizes machine learning to learn an optimization algorithm automatically from data, has gained arising attention in recent years. A generic L2O approach parameterizes the iterative update rule and learns the update direction as a black-box network. While the generic approach is widely applicable, the learned model can overfit and may not generalize well to out-of-distribution test sets. In this paper, we derive the basic mathematical conditions that successful update rules commonly satisfy. Consequently, we propose a novel L2O model with a mathematics-inspired structure that is broadly applicable and generalized well to out-of-distribution problems. Numerical simulations validate our theoretical findings and demonstrate the superior empirical performance of the proposed L2O model.
翻訳日:2023-05-31 19:36:29 公開日:2023-05-29
# treeman:icd符号化のためのツリーエンハンスドマルチモーダルアテンションネットワーク

TreeMAN: Tree-enhanced Multimodal Attention Network for ICD Coding ( http://arxiv.org/abs/2305.18576v1 )

ライセンス: Link先を確認
Zichen Liu, Xuyuan Liu, Yanlong Wen, Guoqing Zhao, Fen Xia, Xiaojie Yuan(参考訳) ICD符号化は、請求書や臨床統計に欠かせない電子健康記録(EHR)に病気の符号を割り当てるように設計されている。 手動符号化の有効性と効率を改善するため,臨床ノートからICD符号を自動的に予測する手法が多数提案されている。 しかしながら,eersの構造化医療データに含まれている決定的な情報を無視した先行研究は少なく,騒がしい臨床記録から捉えることは困難である。 本稿では,木に基づく特徴を持つテキスト表現を拡張し,表的特徴とテクスト的特徴をマルチモーダル表現に融合する,木強調型マルチモーダルアテンションネットワーク (treeman) を提案する。 木に基づく特徴は、構造化されたマルチモーダル医療データから学習した決定木に基づいて構築される。 従来のテキストモデルと同じマルチラベル分類器をマルチモーダル表現に適用してicd符号を予測できる。 2つの模倣データセットに関する実験により,本手法が先行するicd符号化手法よりも優れていることが示された。 コードはhttps://github.com/liu-zichen/treemanで入手できる。

ICD coding is designed to assign the disease codes to electronic health records (EHRs) upon discharge, which is crucial for billing and clinical statistics. In an attempt to improve the effectiveness and efficiency of manual coding, many methods have been proposed to automatically predict ICD codes from clinical notes. However, most previous works ignore the decisive information contained in structured medical data in EHRs, which is hard to be captured from the noisy clinical notes. In this paper, we propose a Tree-enhanced Multimodal Attention Network (TreeMAN) to fuse tabular features and textual features into multimodal representations by enhancing the text representations with tree-based features via the attention mechanism. Tree-based features are constructed according to decision trees learned from structured multimodal medical data, which capture the decisive information about ICD coding. We can apply the same multi-label classifier from previous text models to the multimodal representations to predict ICD codes. Experiments on two MIMIC datasets show that our method outperforms prior state-of-the-art ICD coding approaches. The code is available at https://github.com/liu-zichen/TreeMAN.
翻訳日:2023-05-31 19:36:18 公開日:2023-05-29
# gpuによる検索に基づく正規表現推論

Search-Based Regular Expression Inference on a GPU ( http://arxiv.org/abs/2305.18575v1 )

ライセンス: Link先を確認
Mojtaba Valizadeh, Martin Berger(参考訳) 正規表現推論(Regular Expression Inference、REI)は、正規表現のコストメトリックと、入力として文字列の正と負の例を用いる教師付き機械学習およびプログラム合成問題である。 正確な正規表現(つまり、すべての正を受け入れ、すべての負の例を拒絶する)と最小の w.r.t. をコストメトリックに出力する。 本稿では,任意のアルファベットに対するREIの新しいアルゴリズムを提案する。 我々のアルゴリズムの主なアイデアは、ビットベクトルの連続行列として簡潔に正規表現の探索空間を実装することである。 集合的に、ビットベクターは特性列として、正および負の例の和の固定閉包のすべての部分言語を表す。 数学的には、これは(不変の)形式的パワー級数の半環である。 Infix-closureは、セミリングの操作を用いて、より小さな正規表現からより大きい構成のボトムアップ構築を可能にする。 これはデータ移動とデータ依存分岐を最小化し、データ並列性を最大化する。 さらに、infix-closureは検索中に変化しないため、検索は、まず様々な高価な操作をプリコンプリートし、計算集約的な検索プロセスを実行する。 汎用CPU用とNvidia GPU用(CUDAを使用)の2つのC++実装を提供する。 GPUの実装は、最も難しいベンチマークのCPU実装よりも平均1000倍以上高速です。

Regular expression inference (REI) is a supervised machine learning and program synthesis problem that takes a cost metric for regular expressions, and positive and negative examples of strings as input. It outputs a regular expression that is precise (i.e., accepts all positive and rejects all negative examples), and minimal w.r.t. to the cost metric. We present a novel algorithm for REI over arbitrary alphabets that is enumerative and trades off time for space. Our main algorithmic idea is to implement the search space of regular expressions succinctly as a contiguous matrix of bitvectors. Collectively, the bitvectors represent, as characteristic sequences, all sub-languages of the infix-closure of the union of positive and negative examples. Mathematically, this is a semiring of (a variant of) formal power series. Infix-closure enables bottom-up compositional construction of larger from smaller regular expressions using the operations of our semiring. This minimises data movement and data-dependent branching, hence maximises data-parallelism. In addition, the infix-closure remains unchanged during the search, hence search can be staged: first pre-compute various expensive operations, and then run the compute intensive search process. We provide two C++ implementations, one for general purpose CPUs and one for Nvidia GPUs (using CUDA). We benchmark both on Google Colab Pro: the GPU implementation is on average over 1000x faster than the CPU implementation on the hardest benchmarks.
翻訳日:2023-05-31 19:36:01 公開日:2023-05-29
# 基底状態エネルギー問題に対する量子変分埋め込み:正方形の和とクラスター選択

Quantum variational embedding for ground-state energy problems: sum of squares and cluster selection ( http://arxiv.org/abs/2305.18571v1 )

ライセンス: Link先を確認
Bowen Li, Jianfeng Lu(参考訳) 量子多体問題に対して下方から基底状態エネルギーを近似する2乗数 sdp 階層を自然量子埋め込み解釈を用いて導入する。 我々は、このアプローチと、変分埋め込み、量子化学における rdm 法、アンダーソン境界など、下限に対する他の変分法との関係を確立する。 さらに,量子情報理論に着想を得て,クラスタ選択を最適化し,計算予算内に留まりながらSDP緩和を緩和する効率的な手法を提案する。 本手法の有効性を示すための数値実験を行った。 我々の研究の副産物として、量子絡み合いは多体ハミルトニアンの基盤となるグラフを捉えることができる。

We introduce a sum-of-squares SDP hierarchy approximating the ground-state energy from below for quantum many-body problems, with a natural quantum embedding interpretation. We establish the connections between our approach and other variational methods for lower bounds, including the variational embedding, the RDM method in quantum chemistry, and the Anderson bounds. Additionally, inspired by the quantum information theory, we propose efficient strategies for optimizing cluster selection to tighten SDP relaxations while staying within a computational budget. Numerical experiments are presented to demonstrate the effectiveness of our strategy. As a byproduct of our investigation, we find that quantum entanglement has the potential to capture the underlying graph of the many-body Hamiltonian.
翻訳日:2023-05-31 19:35:40 公開日:2023-05-29
# PaLI-X: マルチ言語ビジョンと言語モデルのスケールアップについて

PaLI-X: On Scaling up a Multilingual Vision and Language Model ( http://arxiv.org/abs/2305.18565v1 )

ライセンス: Link先を確認
Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, Siamak Shakeri, Mostafa Dehghani, Daniel Salz, Mario Lucic, Michael Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang, Ceslee Montgomery, Paulina Pietrzyk, Marvin Ritter, AJ Piergiovanni, Matthias Minderer, Filip Pavetic, Austin Waters, Gang Li, Ibrahim Alabdulmohsin, Lucas Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li, Daniel Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov, Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut(参考訳) 本稿では,多言語ビジョンと言語モデルであるpali-xのトレーニングレシピと,そのトレーニングタスク混合物の大きさと幅について検討する。 本モデルでは,複数のイメージベースキャプションと質問応答タスク,画像ベース文書理解,少数ショット(テキスト内)学習,オブジェクト検出,ビデオ質問応答,ビデオキャプションなど,多種多様な複雑なタスクに対して,新たなレベルのパフォーマンスを実現する。 PaLI-Xは、ほとんどの視覚および言語ベンチマーク(そのうち25以上)で最先端を推し進めている。 最後に、複雑なカウントや多言語オブジェクト検出といった、トレーニングミックスに明示的に含まれないタスクの出現する機能を観察する。

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of performance on a wide-range of varied and complex tasks, including multiple image-based captioning and question-answering tasks, image-based document understanding and few-shot (in-context) learning, as well as object detection, video question answering, and video captioning. PaLI-X advances the state-of-the-art on most vision-and-language benchmarks considered (25+ of them). Finally, we observe emerging capabilities, such as complex counting and multilingual object detection, tasks that are not explicitly in the training mix.
翻訳日:2023-05-31 19:35:27 公開日:2023-05-29
# SHARP: 神経誘発連続学習のための空間性と隠れた活性化再生

SHARP: Sparsity and Hidden Activation RePlay for Neuro-Inspired Continual Learning ( http://arxiv.org/abs/2305.18563v1 )

ライセンス: Link先を確認
Mustafa Burak Gurbuz, Jean Michael Moorman and Constantine Dovrolis(参考訳) ディープニューラルネットワーク(DNN)は、固定データセットや静止環境に依存するため、動的環境での学習に苦労する。 継続学習(CL)は、この制限に対処し、DNNが人間の学習と同様に、徐々に知識を蓄積できるようにすることを目的としている。 脳が記憶を統合させる方法に触発されて、CLの強力な戦略はリプレイであり、新しいクラスとすべてのクラスでDNNを訓練する。 しかし、既存のリプレイ法は生物学的リプレイの重要な2つの側面を見落としている。 1)脳は生入力の代わりに処理されたニューラルパターンを再生し、 2)過去の経験を再考するのではなく,近年の学習情報の再生を優先する。 これらの違いに対処するために,スパース動的接続とアクティベーションリプレイを利用した,効率的な神経誘発CL法であるSHARPを提案する。 他のアクティベーション・リプレイ法とは異なり、SHARPはすべてのレイヤを継続的に更新することができる。 また、SHARPは、過去のすべてのクラスの代わりに最近見られたクラスを再生するだけであるという点でユニークである。 5つのデータセットに対する実験により、SHARPはクラスインクリメンタル学習において最先端のリプレイ手法より優れていることが示された。 さらに,学習エピソード間の境界が曖昧な新しいCLシナリオにおいて,SHARPの柔軟性を示す。 SHARPコードは \url{https://github.com/BurakGurbuz97/SHARP-Continual-Learning} で公開されている。

Deep neural networks (DNNs) struggle to learn in dynamic environments since they rely on fixed datasets or stationary environments. Continual learning (CL) aims to address this limitation and enable DNNs to accumulate knowledge incrementally, similar to human learning. Inspired by how our brain consolidates memories, a powerful strategy in CL is replay, which involves training the DNN on a mixture of new and all seen classes. However, existing replay methods overlook two crucial aspects of biological replay: 1) the brain replays processed neural patterns instead of raw input, and 2) it prioritizes the replay of recently learned information rather than revisiting all past experiences. To address these differences, we propose SHARP, an efficient neuro-inspired CL method that leverages sparse dynamic connectivity and activation replay. Unlike other activation replay methods, which assume layers not subjected to replay have been pretrained and fixed, SHARP can continually update all layers. Also, SHARP is unique in that it only needs to replay few recently seen classes instead of all past classes. Our experiments on five datasets demonstrate that SHARP outperforms state-of-the-art replay methods in class incremental learning. Furthermore, we showcase SHARP's flexibility in a novel CL scenario where the boundaries between learning episodes are blurry. The SHARP code is available at \url{https://github.com/BurakGurbuz97/SHARP-Continual-Learning}.
翻訳日:2023-05-31 19:35:14 公開日:2023-05-29
# 計測専用量子回路のためのマヨラナループモデル

Majorana Loop Models for Measurement-Only Quantum Circuits ( http://arxiv.org/abs/2305.18559v1 )

ライセンス: Link先を確認
Kai Klocke, Michael Buchhold(参考訳) ランダム量子回路における射影測定は、豊富な絡み合い位相をもたらし、非ユニタリ量子力学の領域を拡張する。 ここでは, 1次元における計測専用量子回路と2次元のループモデルの統計力学との関係を考察する。 ガウシアン・マヨラナ回路はループモデルへの顕微鏡的マッピングを認めているが、非ガウシアン、すなわちジェネリック・クリフォードの場合、対応する写像は粗い粒度のスケールでのみ現れる。 次にループモデルの基本的な対称性、すなわち世界線の向き付けに注目する。 オリエンタビリティが計測フレームワークにどのように入り込むのかを議論し、回路における普遍的長波長動作のセパラトリクスとして振る舞う。 オリエンタビリティが破られたとき、回路は交差(CPLC)を持つ密閉ループの普遍性クラスに陥り、特異で普遍的な$\log^2(L)$-scaling of the entanglement entropyを持つゴールドストーン位相を特徴とする。 順番に、オリエンタビリティが保存されると、回路の長波長の挙動は2次元ポッツモデル(結合)の挙動を模倣する。 我々は,様々な測定専用クリフォード回路を数値シミュレーションすることで,ループモデルアプローチの強度を示す。 測定された演算子のセットを変更すると、cplcから1ドルの状態ポットモデル(パーコレーション)、$$$ステートポットモデル(イジング)、結合ポットモデル(bkt)の普遍性クラスまで、豊富な回路ダイナミクスが観察される。 ループモデルは、多数の測定専用回路にアクセスし、測定によって所望の絡み合い位相を実現する方法の青写真を得るためのハンドルを提供する。

Projective measurements in random quantum circuits lead to a rich breadth of entanglement phases and extend the realm of non-unitary quantum dynamics. Here we explore the connection between measurement-only quantum circuits in one spatial dimension and the statistical mechanics of loop models in two dimensions. While Gaussian Majorana circuits admit a microscopic mapping to loop models, for non-Gaussian, i.e., generic Clifford, circuits a corresponding mapping may emerge only on a coarse grained scale. We then focus on a fundamental symmetry of loop models: the orientability of world lines. We discuss how orientability enters in the measurement framework, acting as a separatrix for the universal long-wavelength behavior in a circuit. When orientability is broken, the circuit falls into the universality class of closely packed loops with crossings (CPLC) and features a Goldstone phase with a peculiar, universal $\log^2(L)$-scaling of the entanglement entropy. In turn, when orientability is preserved, the long-wavelength behavior of the circuit mimics that of (coupled) two-dimensional Potts models. We demonstrate the strength of the loop model approach by numerically simulating a variety of measurement-only Clifford circuits. Upon varying the set of measured operators, a rich circuit dynamics is observed, ranging from CPLC to the $1$-state Potts model (percolation), the $2$-state Potts model (Ising) and coupled Potts models (BKT) universality class. Loop models thus provide a handle to access a large class of measurement-only circuits and yield a blueprint on how to realize desired entanglement phases by measurement.
翻訳日:2023-05-31 19:34:49 公開日:2023-05-29
# DelBugV: デルタデバッグニューラルネットワーク検証

DelBugV: Delta-Debugging Neural Network Verifiers ( http://arxiv.org/abs/2305.18558v1 )

ライセンス: Link先を確認
Raya Elsaleh and Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は、ボード全体の多様なシステムにおいて重要なコンポーネントになりつつある。 しかし、その成功にもかかわらず、しばしば悲惨な事態に陥り、公式な検証に多大な関心が寄せられている。 残念なことに、DNN検証は複雑なツールであり、音質のバグの影響を受けやすい。 DNN検証の複雑さとDNNのサイズが検証されているため、そのようなエラーをデバッグするのは大変な作業である。 本稿では,DNN検証器上でデルタデバッギングを自動的に行うDelBugVという新しいツールを提案する。 参照ポイントとしての誤動作DNN検証器と正しい検証器が与えられた場合(あるいは、ある場合、単に単一の誤動作検証器)、DelBugVは、望ましくない動作をトリガーするはるかに単純なDNN検証インスタンスを生成することができる。 我々のツールはモジュールで拡張可能であり、追加のネットワーク単純化手法や戦略で容易に拡張できる。 評価のために,DelBugVを4基のDNN検証エンジン上で実行し,2021年のニューラルネットワーク検証コンテスト(VNN-COMP'21)で不正な結果が得られた。 私たちはこれらの欠陥行動を引き起こす検証クエリの多くを、最大99%単純化することができました。 我々は我々の仕事を、信頼性と信頼性のあるDNNベースのソフトウェアを開発するという究極の目標への一歩と考えている。

Deep neural networks (DNNs) are becoming a key component in diverse systems across the board. However, despite their success, they often err miserably; and this has triggered significant interest in formally verifying them. Unfortunately, DNN verifiers are intricate tools, and are themselves susceptible to soundness bugs. Due to the complexity of DNN verifiers, as well as the sizes of the DNNs being verified, debugging such errors is a daunting task. Here, we present a novel tool, named DelBugV, that uses automated delta debugging techniques on DNN verifiers. Given a malfunctioning DNN verifier and a correct verifier as a point of reference (or, in some cases, just a single, malfunctioning verifier), DelBugV can produce much simpler DNN verification instances that still trigger undesired behavior -- greatly facilitating the task of debugging the faulty verifier. Our tool is modular and extensible, and can easily be enhanced with additional network simplification methods and strategies. For evaluation purposes, we ran DelBugV on 4 DNN verification engines, which were observed to produce incorrect results at the 2021 neural network verification competition (VNN-COMP'21). We were able to simplify many of the verification queries that trigger these faulty behaviors, by as much as 99%. We regard our work as a step towards the ultimate goal of producing reliable and trustworthy DNN-based software.
翻訳日:2023-05-31 19:34:15 公開日:2023-05-29
# BRIGHT:ハッシュテーブル群を用いた画像コレクションの2レベル特徴表現

BRIGHT: Bi-level Feature Representation of Image Collections using Groups of Hash Tables ( http://arxiv.org/abs/2305.18601v1 )

ライセンス: Link先を確認
Dingdong Yang, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 画像コレクションのためのbi-level feature表現であるbrightを,マルチスケールな機能グリッド空間上に,画像毎の潜在空間で表現する。 この表現はオートエンコーダによって学習され、イメージを連続キーコードにエンコードし、マルチレゾリューションハッシュテーブルの群から特徴を抽出します。 我々のキーコードとハッシュテーブルは、明確に定義された勾配流とともに連続的に訓練され、ハッシュテーブルエントリの高利用と、離散ベクトル量子化(VQ)と比較して生成モデリングの改善につながる。 kl正規化潜在符号のような既存の連続表現とは異なり、我々の重要なコードはスケールと分散で厳密に区切られている。 総じて、BRIGHTによる特徴符号化はコンパクトで訓練に効率的であり、遅延拡散モデル(LDM)のような最先端のジェネレータを用いて画像コード上で生成モデリングを可能にする。 提案手法は,より小型で効率的なデコーダネットワークを持ちながら,VQ手法に匹敵する再構成結果が得られることを示す。 キーコード空間にLDMを適用することで、LSUN-Churchおよびヒューマン・フェイス・データセットの画像合成における最先端のパフォーマンスを実現する。

We present BRIGHT, a bi-levelfeature representation for an imagecollection, consisting of a per-image latent space on top of a multi-scale feature grid space. Our representation is learned by an autoencoder to encode images intocontinuouskey codes, which are used to retrieve features fromgroups of multi-resolution hashtables. Our key codes and hash tables are trained together continuously with well-defined gradient flows, leading to high usage of the hash table entries and improved generative modeling compared to discrete Vector Quantization (VQ). Differently from existing continuous representations such as KL-regularized latent codes, our key codes are strictly bounded in scale and variance. Overall, feature encoding by BRIGHT is compact, efficient to train, and enables generative modeling over the image codes using state-of-the-art generators such as latent diffusion models(LDMs). Experimental results show that our method achieves comparable recon-struction results to VQ methods while having a smaller and more efficient decoder network. By applying LDM over our key code space, we achieve state-of-the-art performance on image synthesis on the LSUN-Church and human-face datasets.
翻訳日:2023-05-31 19:30:23 公開日:2023-05-29
# Despertando de Interesse de Mulheres para os Cursos em STEM

Despertando o Interesse de Mulheres para os Cursos em STEM ( http://arxiv.org/abs/2305.18600v1 )

ライセンス: Link先を確認
Tainara Silva Novaes, Kathleen Danielly Souza Lins, Adolfo Gustavo S. Seca Neto, Mariangela de Oliveira G. Setti, Maria Claudia F. Pereira Emer(参考訳) 本稿では,stem分野への女性の参加を促進することを目的としたイニシアティブについて紹介する。 これらの取り組みの1つは、学校のワークショップを組織するEm\'ilias - Arma\c{c}\~ao em Bits Projectである。 さらに、コンピューティングの分野における若者とプロフェッショナルの交流を促進するためにポッドキャストが作成され、また業界における女性の役割モデルの確立にも貢献している。 これらの取り組みの結果は有望であり、ワークショップに参加した学生の70.6%がコンピューティングに関心を示した。 さらにSpotifyによると、ポッドキャストのオーディエンスは女性53%、男性44%、未特定3%で構成されており、女性人口に到達したことを示している。 Resumo Este artigo apresenta iniciativas que t\^em como objetivo promover a participa\c{c}\~ao das mulheres nas \'areas de STEM, buscando encorajar mais mulheres a seguirem carreiras nesses campos。 O Projeto Em\'iliasArma\c{c}\~ao em Bits desenvolve oficinas nas escolas e tamb\’em um podcast, promovendo a intera\c{c}\~ao entre jovens e profissionais da \'area de computa\c{c}\~ao, al\'em de contribuir para a forma\c{c}\~ao de modelos femininos nesse campo os resultados demonstraram que 70,6% das estudantes demonstraram interesse pela computa\c{c}\~ao ap\'os participarem das oficinas Em rela\c{c}\~ao aos ouvintes do podcast, dados do Spotify indicaram que 53% do p\'ublico se identifica como feminino, 44% como masculino, e 3% n\~ao especificaram o g\^enero, o que mostra que o podcast tem alcan\c{c}ado um p'ublico feminino。

This article presents initiatives aimed at promoting female participation in STEM fields, with the goal of encouraging more women to pursue careers in these areas. One of these initiatives is the Em\'ilias - Arma\c{c}\~ao em Bits Project, which organizes workshops in schools. Additionally, a podcast has been created to foster interaction between young people and professionals in the field of computing, while also contributing to the establishment of female role models in the industry. The results of these initiatives have been promising, as 70.6% of the students who participated in the workshops expressed an interest in computing. Furthermore, according to Spotify, the podcast's audience consists of 53% females, 44% males, and 3% unspecified, indicating that it has successfully reached a female demographic. Resumo. Este artigo apresenta iniciativas que t\^em como objetivo promover a participa\c{c}\~ao das mulheres nas \'areas de STEM, buscando encorajar mais mulheres a seguirem carreiras nesses campos. O Projeto Em\'ilias - Arma\c{c}\~ao em Bits desenvolve oficinas nas escolas e tamb\'em um podcast, promovendo a intera\c{c}\~ao entre jovens e profissionais da \'area de computa\c{c}\~ao, al\'em de contribuir para a forma\c{c}\~ao de modelos femininos nesse campo. Os resultados demonstraram que 70,6% das estudantes demonstraram interesse pela computa\c{c}\~ao ap\'os participarem das oficinas. Em rela\c{c}\~ao aos ouvintes do podcast, dados do Spotify indicaram que 53% do p\'ublico se identifica como feminino, 44% como masculino, e 3% n\~ao especificaram o g\^enero, o que mostra que o podcast tem alcan\c{c}ado um p\'ublico feminino.
翻訳日:2023-05-31 19:29:34 公開日:2023-05-29
# マルチモーダルフェイクニュース検出のための一般化の改善

Improving Generalization for Multimodal Fake News Detection ( http://arxiv.org/abs/2305.18599v1 )

ライセンス: Link先を確認
Sahar Tahmasebi, Sherzod Hakimov, Ralph Ewerth, Eric M\"uller-Budack(参考訳) 誤情報の増加とその脅威的影響は、業界と学界の両方に偽ニュース検出のアプローチを開発する動機を与えている。 しかしながら、最先端のアプローチは通常、小さなサイズのデータセットや特定のトピックの限られたセットでトレーニングされる。 その結果、これらのモデルは一般化能力に欠け、現実世界のデータには適用できない。 本稿では,マルチモーダルフェイクニュース検出に最先端のマルチモーダルトランスを採用した3つのモデルを提案する。 ソーシャルメディア上の現実的なユースケースにおけるモデル性能の探索を目的とした入力データを操作し,詳細な分析を行う。 複数のモデルにまたがる研究は、これらのシステムが操作されたデータに対して著しい性能低下を被っていることを示している。 バイアスを低減し,モデル一般化を改善するために,ソーシャルメディア上で偽ニュース検出のためのより有意義な実験を行うためのトレーニングデータ拡張を提案する。 提案したデータ拡張技術により、モデルはより一般化され、最先端の結果が得られる。

The increasing proliferation of misinformation and its alarming impact have motivated both industry and academia to develop approaches for fake news detection. However, state-of-the-art approaches are usually trained on datasets of smaller size or with a limited set of specific topics. As a consequence, these models lack generalization capabilities and are not applicable to real-world data. In this paper, we propose three models that adopt and fine-tune state-of-the-art multimodal transformers for multimodal fake news detection. We conduct an in-depth analysis by manipulating the input data aimed to explore models performance in realistic use cases on social media. Our study across multiple models demonstrates that these systems suffer significant performance drops against manipulated data. To reduce the bias and improve model generalization, we suggest training data augmentation to conduct more meaningful experiments for fake news detection on social media. The proposed data augmentation techniques enable models to generalize better and yield improved state-of-the-art results.
翻訳日:2023-05-31 19:27:58 公開日:2023-05-29
# 解釈可能な文脈埋め込み空間を用いた文法構成における意味構成の研究

A Method for Studying Semantic Construal in Grammatical Constructions with Interpretable Contextual Embedding Spaces ( http://arxiv.org/abs/2305.18598v1 )

ライセンス: Link先を確認
Gabriella Chronis, Kyle Mahowald, Katrin Erk(参考訳) 大規模言語モデルを用いた文法構成における意味的構成法について検討した。 まず、文脈的単語埋め込みを3つの解釈可能な意味空間に投影し、それぞれ異なる精神言語的特徴ノルムによって定義する。 我々はこれらの解釈可能な空間を検証し、同じ文中の主語や対象位置の名詞と、AANN構成(例えば「美しい3日間」)の2つの文法構造において、語彙項目の意味的特徴を自動的に導出する。 対象位置にある単語は、対象位置にある単語と全く同じ単語と解釈され、AANN構造中の名詞は、標準交替時よりも、より測定的なものとして解釈されることを示す。 本手法は,特定のレキセムから抽象化されたテンポラティックレベルで構文構成の分布的意味を調べることができる。

We study semantic construal in grammatical constructions using large language models. First, we project contextual word embeddings into three interpretable semantic spaces, each defined by a different set of psycholinguistic feature norms. We validate these interpretable spaces and then use them to automatically derive semantic characterizations of lexical items in two grammatical constructions: nouns in subject or object position within the same sentence, and the AANN construction (e.g., `a beautiful three days'). We show that a word in subject position is interpreted as more agentive than the very same word in object position, and that the nouns in the AANN construction are interpreted as more measurement-like than when in the canonical alternation. Our method can probe the distributional meaning of syntactic constructions at a templatic level, abstracted away from specific lexemes.
翻訳日:2023-05-31 19:27:40 公開日:2023-05-29
# 音声検索のための高精度低レイテンシASRの構築

Building Accurate Low Latency ASR for Streaming Voice Search ( http://arxiv.org/abs/2305.18596v1 )

ライセンス: Link先を確認
Abhinav Goyal and Nikesh Garera(参考訳) 音声認識(ASR)は音声ベースのアプリケーションにおいて重要な役割を果たす。 音声検索のようなリアルタイムフィードバックを必要とするアプリケーションでは、ストリーミング機能が不可欠になる。 LSTM/RNN と CTC ベースの ASR システムは低レイテンシなストリーミングアプリケーションに一般的に使用されるが、将来のオーディオフレームの欠如により最先端のモデルに比べて精度は低い。 本研究では,大規模なHinglish(ヒンディー語と英語のブレンド)音声検索のためのLSTM,アテンション,CTCに基づくストリーミングASRモデルの開発に焦点をあてる。 本研究では,バニラLSTMトレーニングの各種修正について検討し,ストリーミング機能を維持しながらシステムの精度を向上する。 また,ストリーミングアプリケーションにおけるエンド・オブ・音声(EOS)検出の要件にも対処する。 本稿では,共同ASRとEOS検出が可能なエンドツーエンドCTCモデルの簡単なトレーニングと推論戦略を提案する。 flipkartの音声検索における1日あたり600万のクエリの実質的なトラフィックを処理するモデルの評価は、vanilla lstm-ctcモデルよりも大きなパフォーマンス向上を示している。 我々のモデルは、EOSのない3.69%の単語誤り率(WER)とEOSのない4.78%の単語誤り率(WER)を達成し、また、独立音声活動検出(VAD)モデルと比較して、検索遅延を約1300ms(46.64%)削減する。

Automatic Speech Recognition (ASR) plays a crucial role in voice-based applications. For applications requiring real-time feedback like Voice Search, streaming capability becomes vital. While LSTM/RNN and CTC based ASR systems are commonly employed for low-latency streaming applications, they often exhibit lower accuracy compared to state-of-the-art models due to a lack of future audio frames. In this work, we focus on developing accurate LSTM, attention, and CTC based streaming ASR models for large-scale Hinglish (a blend of Hindi and English) Voice Search. We investigate various modifications in vanilla LSTM training which enhance the system's accuracy while preserving its streaming capabilities. We also address the critical requirement of end-of-speech (EOS) detection in streaming applications. We present a simple training and inference strategy for end-to-end CTC models that enables joint ASR and EOS detection. The evaluation of our model on Flipkart's Voice Search, which handles substantial traffic of approximately 6 million queries per day, demonstrates significant performance gains over the vanilla LSTM-CTC model. Our model achieves a word error rate (WER) of 3.69% without EOS and 4.78% with EOS while also reducing the search latency by approximately ~1300 ms (equivalent to 46.64% reduction) when compared to an independent voice activity detection (VAD) model.
翻訳日:2023-05-31 19:27:23 公開日:2023-05-29
# 異常検出のための拡散モデルについて

On Diffusion Modeling for Anomaly Detection ( http://arxiv.org/abs/2305.18593v1 )

ライセンス: Link先を確認
Victor Livernoche, Vineet Jain, Yashar Hezaveh, Siamak Ravanbakhsh(参考訳) 生成モデルにおける優れた性能で知られ、拡散モデルは密度に基づく異常検出の魅力的な候補である。 本稿では,非教師付きおよび半教師付き異常検出のための拡散モデルの違いについて検討する。 特に, DPM (Denoising Diffusion Probability Models) は, 異常検出ベンチマークの性能は高いが, 計算コストは高い。 DDPMの異常検出への応用を単純化することにより、Diffusion Time Probabilistic Model (DTPM)と呼ばれる別のアプローチが自然に導かれる。 DTPMは、与えられた入力の拡散時間を超える後部分布を推定し、より大きな時間ステップで高い後部密度による異常の同定を可能にする。 この後続密度の解析形式を導出し、深部ニューラルネットワークを利用して推論効率を向上させる。 ADBenchベンチマークの実験的評価により,拡散に基づく異常検出手法がすべて競合的に動作することを示した。 特に、DTPMはDDPMよりも桁違いに高速な推論時間を実現し、このベンチマークではそれを上回っている。 これらの結果から,従来の手法や近年のディープラーニング技術に代わる,解釈可能な,スケーラブルな拡散型異常検出が確立された。

Known for their impressive performance in generative modeling, diffusion models are attractive candidates for density-based anomaly detection. This paper investigates different variations of diffusion modeling for unsupervised and semi-supervised anomaly detection. In particular, we find that Denoising Diffusion Probability Models (DDPM) are performant on anomaly detection benchmarks yet computationally expensive. By simplifying DDPM in application to anomaly detection, we are naturally led to an alternative approach called Diffusion Time Probabilistic Model (DTPM). DTPM estimates the posterior distribution over diffusion time for a given input, enabling the identification of anomalies due to their higher posterior density at larger timesteps. We derive an analytical form for this posterior density and leverage a deep neural network to improve inference efficiency. Through empirical evaluations on the ADBench benchmark, we demonstrate that all diffusion-based anomaly detection methods perform competitively. Notably, DTPM achieves orders of magnitude faster inference time than DDPM, while outperforming it on this benchmark. These results establish diffusion-based anomaly detection as an interpretable and scalable alternative to traditional methods and recent deep-learning techniques.
翻訳日:2023-05-31 19:26:39 公開日:2023-05-29
# Hate-Speech検出モデルにおける設計逆攻撃への説明可能性と攻撃抵抗性の評価

Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models ( http://arxiv.org/abs/2305.18585v1 )

ライセンス: Link先を確認
Pranath Reddy Kumbam, Sohaib Uddin Syed, Prashanth Thamminedi, Suhas Harish, Ian Perera, and Bonnie J. Dorr(参考訳) ソーシャルメディアの出現は多くの倫理的問題を引き起こし、ヘイトスピーチが最も重要な関心事となっている。 研究者はヘイトスピーチの検出と言語モデルを活用して、コンテンツを自動的に調整し、民事談話を促進することで、この問題に対処しようとしている。 残念なことに、最近の研究では、ヘイトスピーチ検出システムは敵の攻撃によって誤解され、そのレジリエンスに対する懸念が高まっている。 従来の研究では、敵の攻撃下でのモデルの堅牢性と解釈可能性について別々に研究されてきたが、それらの交差点を探索する包括的な研究は行われていない。 この2つの重要な側面を組み合わせることで、潜在的な脆弱性を識別し、ターゲットとする敵攻撃の設計を可能にする。 本稿では,様々なヘイト音声検出モデルを用いて,敵対的頑健性の包括的・比較分析を行った。 本研究は,これらのモデルの敵攻撃に対する耐性を説明可能性技術を用いて評価する。 モデルの意思決定プロセスに関する洞察を得るために、我々はLocal Interpretable Model-Agnostic Explanations (LIME)フレームワークを使用します。 LIMEで得られた説明可能性に基づき、TextAttackツールを利用してテキストに対するターゲット攻撃を考案、実行した。 その結果,最先端のヘイトスピーチ検出モデルが示す脆弱性や強度の理解を深めることができた。 この研究は、敵の攻撃に対する弾力性を高めるために、そのようなモデルの開発と評価に説明可能性を含めることの重要性を強調している。 最終的にこの研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムの構築、より安全なオンライン環境の育成、ソーシャルメディアプラットフォームでの倫理的談話の促進への道を開くものだ。

The advent of social media has given rise to numerous ethical challenges, with hate speech among the most significant concerns. Researchers are attempting to tackle this problem by leveraging hate-speech detection and employing language models to automatically moderate content and promote civil discourse. Unfortunately, recent studies have revealed that hate-speech detection systems can be misled by adversarial attacks, raising concerns about their resilience. While previous research has separately addressed the robustness of these models under adversarial attacks and their interpretability, there has been no comprehensive study exploring their intersection. The novelty of our work lies in combining these two critical aspects, leveraging interpretability to identify potential vulnerabilities and enabling the design of targeted adversarial attacks. We present a comprehensive and comparative analysis of adversarial robustness exhibited by various hate-speech detection models. Our study evaluates the resilience of these models against adversarial attacks using explainability techniques. To gain insights into the models' decision-making processes, we employ the Local Interpretable Model-agnostic Explanations (LIME) framework. Based on the explainability results obtained by LIME, we devise and execute targeted attacks on the text by leveraging the TextAttack tool. Our findings enhance the understanding of the vulnerabilities and strengths exhibited by state-of-the-art hate-speech detection models. This work underscores the importance of incorporating explainability in the development and evaluation of such models to enhance their resilience against adversarial attacks. Ultimately, this work paves the way for creating more robust and reliable hate-speech detection systems, fostering safer online environments and promoting ethical discourse on social media platforms.
翻訳日:2023-05-31 19:26:22 公開日:2023-05-29
# Coeditor: マルチラウンドコード自動編集におけるコンテキスト変更の活用

Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing ( http://arxiv.org/abs/2305.18584v1 )

ライセンス: Link先を確認
Jiayi Wei, Greg Durrett, Isil Dillig(参考訳) 開発者はしばしば、既存のコードのメンテナンスとリファクタリングにかなりの時間を費やします。 しかしながら、コードの生成モデルに関するほとんどの以前の作業は、新しいコードの作成のみに焦点を当てており、既存のコード編集のユニークな要件を無視している。 本研究では,コードベース内の最近の変更に基づいて,コード領域への編集を予測することを目的とした,複数ラウンドのコード自動編集設定について検討する。 私たちのモデルであるcoeditorは、コード編集タスク用に特別に設計された、微調整されたcodet5モデルです。 行差分形式を用いてコード変更をエンコードし、静的解析を用いて大きなカスタマイズされたモデルコンテキストを形成し、予測に適切な情報を確保する。 トレーニングと評価のために1650のオープンソースのPythonプロジェクトのコミット履歴からコード編集データセットを収集します。 単純化されたシングルラウンドのシングル編集タスクにおいて、Coeditorは最高のコード補完アプローチ -- はるかに小さなモデルを使用しても、正確なマッチ精度をほぼ2倍に -- を大幅に上回っており、コード補完に編集履歴を組み込むことのメリットを示している。 マルチラウンド・マルチエディット・セッティングでは,ユーザ編集の追加でモデルを反復的に促すことにより,かなりのゲインを観測する。 私たちはコード、データ、モデルウェイトをオープンソース化し、将来の研究を奨励し、インタラクティブな使用のために私たちのモデルを利用したVSCode拡張をリリースします。

Developers often dedicate significant time to maintaining and refactoring existing code. However, most prior work on generative models for code focuses solely on creating new code, neglecting the unique requirements of editing existing code. In this work, we explore a multi-round code auto-editing setting, aiming to predict edits to a code region based on recent changes within the same codebase. Our model, Coeditor, is a fine-tuned CodeT5 model with enhancements specifically designed for code editing tasks. We encode code changes using a line diff format and employ static analysis to form large customized model contexts, ensuring appropriate information for prediction. We collect a code editing dataset from the commit histories of 1650 open-source Python projects for training and evaluation. In a simplified single-round, single-edit task, Coeditor significantly outperforms the best code completion approach -- nearly doubling its exact-match accuracy, despite using a much smaller model -- demonstrating the benefits of incorporating editing history for code completion. In a multi-round, multi-edit setting, we observe substantial gains by iteratively prompting the model with additional user edits. We open-source our code, data, and model weights to encourage future research and release a VSCode extension powered by our model for interactive usage.
翻訳日:2023-05-31 19:25:54 公開日:2023-05-29
# GPT-4による可制御型テキスト・画像生成

Controllable Text-to-Image Generation with GPT-4 ( http://arxiv.org/abs/2305.18583v1 )

ライセンス: Link先を確認
Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang(参考訳) 現在のテキスト・ツー・イメージ生成モデルは、テキストの指示に従うのに苦労することが多い。 一方、GPT-4のようなLLM(Large Language Models)は、例えばTikZを通じてテキスト入力をグラフィカルにスケッチするコードスニペットを生成する際、顕著な精度を示している。 本稿では,GPT-4 が生成するプログラムスケッチを用いて,拡散に基づくテキスト・画像・パイプラインをガイドする Control-GPT を提案する。 Control-GPT は GPT-4 に問い合わせて TikZ のコードを書き、生成したスケッチは拡散モデル(例えば ControlNet)のテキスト命令と共に参照として使われ、フォトリアリスティックな画像を生成する。 パイプラインをトレーニングする上で大きな課題のひとつは、整列したテキスト、イメージ、スケッチを含むデータセットがないことです。 既存のデータセットのインスタンスマスクをポリゴンに変換して、テスト時に使用するスケッチを模倣することで、この問題に対処する。 その結果、制御-GPTは画像生成の制御可能性を大幅に向上させる。 空間配置と物体位置決め生成に関する新たな技術を確立し、ユーザのオブジェクトの位置やサイズなどの制御を強化し、事前モデルの精度をほぼ2倍にする。 最初の試みとして,コンピュータビジョンタスクの性能向上にLLMを採用する可能性を示す。

Current text-to-image generation models often struggle to follow textual instructions, especially the ones requiring spatial reasoning. On the other hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable precision in generating code snippets for sketching out text inputs graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide the diffusion-based text-to-image pipelines with programmatic sketches generated by GPT-4, enhancing their abilities for instruction following. Control-GPT works by querying GPT-4 to write TikZ code, and the generated sketches are used as references alongside the text instructions for diffusion models (e.g., ControlNet) to generate photo-realistic images. One major challenge to training our pipeline is the lack of a dataset containing aligned text, images, and sketches. We address the issue by converting instance masks in existing datasets into polygons to mimic the sketches used at test time. As a result, Control-GPT greatly boosts the controllability of image generation. It establishes a new state-of-art on the spatial arrangement and object positioning generation and enhances users' control of object positions, sizes, etc., nearly doubling the accuracy of prior models. Our work, as a first attempt, shows the potential for employing LLMs to enhance the performance in computer vision tasks.
翻訳日:2023-05-31 19:25:32 公開日:2023-05-29
# w-procer: 重み付き原型的コントラスト学習による医療用少数ショットエンティティ認識

W-procer: Weighted Prototypical Contrastive Learning for Medical Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2305.18624v1 )

ライセンス: Link先を確認
Mingchen Li, Yang Ye, Jeremy Yeung, Huixue Zhou, Huaiyuan Chu, Rui Zhang(参考訳) 対照的学習は、NER(Non-shot Name Entity Regniation)の一般的なソリューションとなっている。 従来の構成では、同じラベルを持つトークン間の距離を減らし、異なるラベルを持つトークン間の距離を増やそうとしている。 しかし、医療分野では、OUTSIDE (O) として注釈付けされたエンティティが多数存在し、現在の対照的な学習方法によってOUTSIDE (O) とラベル付けされていない他のエンティティに非推奨にプッシュされ、ラベルのセマンティックな表現のためのノイズの多いプロトタイプで終わるが、OUTSIDE (O) にラベル付けされたエンティティがラベル付けされたエンティティに関連するものも多い。 この課題に対処するために,医用フリューショット名義エンティティ認識のためのWeighted Prototypeal Contrastive Learning (W-PROCER) という新しい手法を提案する。 当社のアプローチは主に,プロトタイプベースの契約損失と重み付けネットワークの構築を中心に展開している。 これらのコンポーネントは、外部(o)トークンから負のサンプルを区別し、コントラスト学習の識別能力を高める上で、モデルを支援する上で重要な役割を果たす。 実験の結果,提案するW-PROCERフレームワークは,3つのベンチマークデータセットの強いベースラインを著しく上回ることがわかった。

Contrastive learning has become a popular solution for few-shot Name Entity Recognization (NER). The conventional configuration strives to reduce the distance between tokens with the same labels and increase the distance between tokens with different labels. The effect of this setup may, however, in the medical domain, there are a lot of entities annotated as OUTSIDE (O), and they are undesirably pushed apart to other entities that are not labeled as OUTSIDE (O) by the current contrastive learning method end up with a noisy prototype for the semantic representation of the label, though there are many OUTSIDE (O) labeled entities are relevant to the labeled entities. To address this challenge, we propose a novel method named Weighted Prototypical Contrastive Learning for Medical Few Shot Named Entity Recognization (W-PROCER). Our approach primarily revolves around constructing the prototype-based contractive loss and weighting network. These components play a crucial role in assisting the model in differentiating the negative samples from OUTSIDE (O) tokens and enhancing the discrimination ability of contrastive learning. Experimental results show that our proposed W-PROCER framework significantly outperforms the strong baselines on the three medical benchmark datasets.
翻訳日:2023-05-31 19:18:34 公開日:2023-05-29
# Alfred: 急激な弱みのスーパービジョンのためのシステム

Alfred: A System for Prompted Weak Supervision ( http://arxiv.org/abs/2305.18623v1 )

ライセンス: Link先を確認
Peilin Yu and Stephen Bach(参考訳) Alfredは、プログラムによる弱い監督(PWS)のための最初のシステムであり、プロンプトによって機械学習のためのトレーニングデータを生成する。 弱い監督源が専門家によってコード化されている典型的なPWSシステムとは対照的に、Alfredは言語や視覚言語モデルのための自然言語プロンプトを通じて、ユーザーが主題の専門知識をエンコードすることができる。 Alfred氏は、この新興パラダイムの重要なステップのための単純なPythonインターフェースを提供し、大規模データラベリングのための高スループットバックエンドを提供する。 ユーザは、迅速にプロンプトベースの弱い監督ソースを作成し、評価し、洗練し、結果を弱いラベルにマップし、ラベルモデルとの相違を解消することができる。 Alfredは、セルフマネージドコンピューティングクラスタから提供されるモデルによって、シームレスなローカル開発エクスペリエンスを実現する。 最適化されたバッチ機構でプロンプトの実行を自動的に最適化する。 この最適化によってクエリのスループットが2.9倍向上する。 本稿では,YouTubeにおけるAlfredコメントスパム検出とペット品種分類の2例を紹介する。 Alfredはオープンソースで、https://github.com/BatsResearch/alfred.comで入手できる。

Alfred is the first system for programmatic weak supervision (PWS) that creates training data for machine learning by prompting. In contrast to typical PWS systems where weak supervision sources are programs coded by experts, Alfred enables users to encode their subject matter expertise via natural language prompts for language and vision-language models. Alfred provides a simple Python interface for the key steps of this emerging paradigm, with a high-throughput backend for large-scale data labeling. Users can quickly create, evaluate, and refine their prompt-based weak supervision sources; map the results to weak labels; and resolve their disagreements with a label model. Alfred enables a seamless local development experience backed by models served from self-managed computing clusters. It automatically optimizes the execution of prompts with optimized batching mechanisms. We find that this optimization improves query throughput by 2.9x versus a naive approach. We present two example use cases demonstrating Alfred on YouTube comment spam detection and pet breeds classification. Alfred is open source, available at https://github.com/BatsResearch/alfred.
翻訳日:2023-05-31 19:18:08 公開日:2023-05-29
# 位置対応グラフ強化変分オートエンコーダによるネットワーク時系列計算

Networked Time Series Imputation via Position-aware Graph Enhanced Variational Autoencoders ( http://arxiv.org/abs/2305.18612v1 )

ライセンス: Link先を確認
Dingsu Wang, Yuchen Yan, Ruizhong Qiu, Yada Zhu, Kaiyu Guan, Andrew J Margenot, Hanghang Tong(参考訳) 多変量時系列計算(MTS)は近年広く研究されている問題である。 既存の手法は,(1)時系列の特徴に主眼を置く深部再帰モデル,あるいは生成モデル,(2)MTS固有のグラフ構造からのトポロジ情報を利用したグラフニューラルネットワーク(GNN)に基づくモデル,の2つの主要なグループに分けられる。 しかしながら、これらの手法は位相情報を無視するか、グラフ構造が固定され、正確に知られていると仮定する。 したがって、基盤となるグラフが絶えず変化し、エッジが不足しているようなネットワーク時系列(nts)のようなより困難なmtsデータにおいて、正確なインプテーションのためにグラフダイナミクスを十分に活用できない。 本稿では,これらの制約を克服するための新しいアプローチを提案する。 まず、ノード時系列の特徴とグラフ構造の両方に欠落した値を含むNTS上の計算問題を定義する。 そこで我々は,変分オートエンコーダ(VAE)を利用して,ノード時系列の特徴とグラフ構造の両方の欠落値を予測するPoGeVonという新しいモデルの設計を行った。 特に,メッセージパッシング型グラフニューラルネットワーク (gnns) と比較して高い表現力を有するエンコーダにおいて,ランダムウォークに基づく新しいノード位置埋め込み(rwr)を提案する。 さらに,マルチタスク学習の観点からの3段階予測を用いたデコーダの設計を行い,時系列構造とグラフ構造の両方における欠落値を相互に反映する。 実験結果は,ベースライン上でのモデルの有効性を示す。

Multivariate time series (MTS) imputation is a widely studied problem in recent years. Existing methods can be divided into two main groups, including (1) deep recurrent or generative models that primarily focus on time series features, and (2) graph neural networks (GNNs) based models that utilize the topological information from the inherent graph structure of MTS as relational inductive bias for imputation. Nevertheless, these methods either neglect topological information or assume the graph structure is fixed and accurately known. Thus, they fail to fully utilize the graph dynamics for precise imputation in more challenging MTS data such as networked time series (NTS), where the underlying graph is constantly changing and might have missing edges. In this paper, we propose a novel approach to overcome these limitations. First, we define the problem of imputation over NTS which contains missing values in both node time series features and graph structures. Then, we design a new model named PoGeVon which leverages variational autoencoder (VAE) to predict missing values over both node time series features and graph structures. In particular, we propose a new node position embedding based on random walk with restart (RWR) in the encoder with provable higher expressive power compared with message-passing based graph neural networks (GNNs). We further design a decoder with 3-stage predictions from the perspective of multi-task learning to impute missing values in both time series and graph structures reciprocally. Experiment results demonstrate the effectiveness of our model over baselines.
翻訳日:2023-05-31 19:16:24 公開日:2023-05-29
# 量子鍵分布における検出器制御攻撃対策の自動検証

Automated verification of countermeasure against detector-control attack in quantum key distribution ( http://arxiv.org/abs/2305.18610v1 )

ライセンス: Link先を確認
Polina Acheva, Konstantin Zaitsev, Vladimir Zavodilenko, Anton Losev, Anqi Huang, Vadim Makarov(参考訳) 量子鍵分布における単一光子検出器を制御する攻撃は、秘密鍵を盗聴することができる。 ここでは、これらの攻撃に対する検出器の脆弱性をチェックする自動テストベンチを報告する。 平均光電流を測定する初歩的対策を含む自由走行検出器を試験することにより,その性能を実証する。 我々のテストベンチは、連続盲検状態にある検出器を自動で検出するが、この対策は、量子状態よりもかなり多い光電流を登録し、攻撃を明らかにする。 次に手動でパルスブラインド攻撃を行い、間欠的に検出器を制御する。 この攻撃は、広範囲の目隠しパルス持続時間とパワーによる対策によって見落とされ、キーを盗聴することができる。 我々は,テストベンチの改善と対策の両立を推奨する。

Attacks that control single-photon detectors in quantum key distribution using tailored bright illumination are capable of eavesdropping the secret key. Here we report an automated testbench that checks the detector's vulnerabilities against these attacks. We illustrate its performance by testing a free-running detector that includes a rudimentary countermeasure measuring an average photocurrent. While our testbench automatically finds the detector to be controllable in a continuous-blinding regime, the countermeasure registers photocurrent significantly exceeding that in a quantum regime, thus revealing the attack. We then perform manually a pulsed blinding attack, which controls the detector intermittently. This attack is missed by the countermeasure in a wide range of blinding pulse durations and powers, still allowing to eavesdrop the key. We make recommendations for improvement of both the testbench and countermeasure.
翻訳日:2023-05-31 19:15:58 公開日:2023-05-29
# セキュリティ脆弱性の修正にニューラルネットワークがいかに効果的か

How Effective Are Neural Networks for Fixing Security Vulnerabilities ( http://arxiv.org/abs/2305.18607v1 )

ライセンス: Link先を確認
Yi Wu, Nan Jiang, Hung Viet Pham, Thibaud Lutellier, Jordan Davis, Lin Tan, Petr Babkin, Sameena Shah(参考訳) セキュリティ脆弱性の修復は自動化が必要な難しい作業です。 1)コード補完などのタスクのためにソースコードで事前訓練された大規模コード言語モデル(LLM)と、(2)ディープラーニング(DL)モデルを使用してソフトウェアバグを自動的に修正する自動プログラム修復(APR)技術である。 本稿では LLM と DL ベースの APR モデルの Java 脆弱性修復機能について検討し比較した。 The contributions include that we (1) apply and evaluate five LLMs (Codex, CodeGen, CodeT5, PLBART and InCoder), four fine-tuned LLMs, and four DL-based APR techniques on two real-world Java vulnerability benchmarks (Vul4J and VJBench), (2) design code transformations to address the training and test data overlapping threat to Codex, (3) create a new Java vulnerability repair benchmark VJBench, and its transformed version VJBench-trans and (4) evaluate LLMs and APR techniques on the transformed vulnerabilities in VJBench-trans. その結果,(1)既存の LLM モデルと APR モデルは,Java の脆弱性をほとんど解決していないことがわかった。 codexは10.2 (20.4%)の脆弱性を修正している。 2)一般APRデータによる微調整により,LLMの脆弱性修正能力が向上する。 (3) 我々の新しいVJBenchは、LLMとAPRモデルが、CWE-325ミス暗号化ステップやCWE-444HTTPリクエストの密輸など、多くの共通弱列挙型(CWE)の修正に失敗していることを明らかにする。 (4) Codexはまだ8.3の変換された脆弱性を修正しており、変換された脆弱性に関する他のLLMやAPRモデルよりも優れている。 結果として、より大きな脆弱性修復トレーニングデータの作成、そのようなデータによるllmのチューニング、脆弱性修復を容易にするコード単純化変換の適用など、javaの脆弱性修復の自動化に関するイノベーションが求められている。

Security vulnerability repair is a difficult task that is in dire need of automation. Two groups of techniques have shown promise: (1) large code language models (LLMs) that have been pre-trained on source code for tasks such as code completion, and (2) automated program repair (APR) techniques that use deep learning (DL) models to automatically fix software bugs. This paper is the first to study and compare Java vulnerability repair capabilities of LLMs and DL-based APR models. The contributions include that we (1) apply and evaluate five LLMs (Codex, CodeGen, CodeT5, PLBART and InCoder), four fine-tuned LLMs, and four DL-based APR techniques on two real-world Java vulnerability benchmarks (Vul4J and VJBench), (2) design code transformations to address the training and test data overlapping threat to Codex, (3) create a new Java vulnerability repair benchmark VJBench, and its transformed version VJBench-trans and (4) evaluate LLMs and APR techniques on the transformed vulnerabilities in VJBench-trans. Our findings include that (1) existing LLMs and APR models fix very few Java vulnerabilities. Codex fixes 10.2 (20.4%), the most number of vulnerabilities. (2) Fine-tuning with general APR data improves LLMs' vulnerability-fixing capabilities. (3) Our new VJBench reveals that LLMs and APR models fail to fix many Common Weakness Enumeration (CWE) types, such as CWE-325 Missing cryptographic step and CWE-444 HTTP request smuggling. (4) Codex still fixes 8.3 transformed vulnerabilities, outperforming all the other LLMs and APR models on transformed vulnerabilities. The results call for innovations to enhance automated Java vulnerability repair such as creating larger vulnerability repair training data, tuning LLMs with such data, and applying code simplification transformation to facilitate vulnerability repair.
翻訳日:2023-05-31 19:15:45 公開日:2023-05-29
# snippet-lects」から「doculects and dialects」へ : 言語環境における音声信号配置のための音声のニューラル表現の活用

From `Snippet-lects' to Doculects and Dialects: Leveraging Neural Representations of Speech for Placing Audio Signals in a Language Landscape ( http://arxiv.org/abs/2305.18602v1 )

ライセンス: Link先を確認
S\'everine Guillaume, Guillaume Wisniewski, and Alexis Michaud(参考訳) XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築し、様々な計算処理を可能にする。 ここで報告された実験では、この神経表現を用いて音声ファイル間の近接度を推定し、究極的には関連する言語特性の抽出を目的としている。 我々は、最大プーリングを用いて、5秒音声スニペットの音声(snippet-lect)から、与えられたリソースの音声(doculect)へと神経表現を集約し、その後、方言や言語に変換する。 5つの少ない言語に属する11の方言のコーパスからのデータを使用します。 11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。 調査結果は (i)音声ファイルを特徴付ける様々なパラメータに方言/言語が出現することがある (ii) 音声・音韻的近接性の評価は, ほとんど情報源のない, あるいは完全に未知の言語に対して得られる。 この発見は、音声のニューラル表現が捉えた情報の種類と、それらの表現からどのように抽出できるかを光らせるのに役立つ。

XLSR-53 a multilingual model of speech, builds a vector representation from audio, which allows for a range of computational treatments. The experiments reported here use this neural representation to estimate the degree of closeness between audio files, ultimately aiming to extract relevant linguistic properties. We use max-pooling to aggregate the neural representations from a "snippet-lect" (the speech in a 5-second audio snippet) to a "doculect" (the speech in a given resource), then to dialects and languages. We use data from corpora of 11 dialects belonging to 5 less-studied languages. Similarity measurements between the 11 corpora bring out greatest closeness between those that are known to be dialects of the same language. The findings suggest that (i) dialect/language can emerge among the various parameters characterizing audio files and (ii) estimates of overall phonetic/phonological closeness can be obtained for a little-resourced or fully unknown language. The findings help shed light on the type of information captured by neural representations of speech and how it can be extracted from these representations
翻訳日:2023-05-31 19:15:11 公開日:2023-05-29
# Chirped Fractional Stimulated Raman adiabatic Passage

Chirped Fractional Stimulated Raman Adiabatic Passage ( http://arxiv.org/abs/2305.18652v1 )

ライセンス: Link先を確認
Jabir Chathanathil, Aneesh Ramaswamy, Vladimir S. Malinovsky, Dmitry Budker, Svetlana A. Malinovskaya(参考訳) Stimulated Raman Adiabatic Passage (STIRAP) は多レベルシステムで広く使われている断熱性集団移動法である。 本研究では,STIRAPを新しい条件下で研究し,最大コヒーレンスを持つ重ね合わせ状態を生成することが知られているF-STIRAPに着目した。 両構成,STIRAP,F-STIRAPでは,高いコントラスト,拡張スペクトル選択性,拡張スペクトルパラメータを目標としたパルスチャープ処理を実装した。 このような目標は、量子イメージング、センシング、メトロロジーの改善を目標とし、量子制御技術やプロトコルの応用範囲を広げることである。 従来のSTIRAPとF-STIRAPでは、暗黒状態内の力学の断熱条件を満たすために、2光子共鳴が必要である。 そこで本研究では,STIRAPとF-STIRAPの断熱条件をパルスチャープによって2光子デチューニングを巧みに補正することにより,非ゼロ2光子デチューニングと制御方式を提案する。 C-STIRAPは, 従来のSTIRAPでは解けなかった場合, ほぼ退化した2つの最終状態のうち, 所定の状態への断熱通過を許容する。 このような選択性は、2光子デチューンとチャープレートの幅広いパラメータの範囲で示される。 C−F−STIRAPにおいて、ポンプとストークスパルスを異なる時間遅延でチャープすることにより、2光子デチューニングの完全補償が可能となり、従来のF−STIRAPよりも高スペクトル分解能で初期および目標状態の選択的最大コヒーレンスが得られる。

Stimulated Raman Adiabatic Passage (STIRAP) is a widely used method for adiabatic population transfer in a multilevel system. In this work, we study STIRAP under novel conditions and focus on the fractional, F-STIRAP, which is known to create a superposition state with the maximum coherence. In both configurations, STIRAP and F-STIRAP, we implement pulse chirping aiming at a higher contrast, a broader range of parameters for adiabaticity, and enhanced spectral selectivity. Such goals target improvement of quantum imaging, sensing and metrology, and broaden the range of applications of quantum control techniques and protocols. In conventional STIRAP and F-STIRAP, two-photon resonance is required conceptually to satisfy the adiabaticity condition for dynamics within the dark state. Here, we account for a non-zero two-photon detuning and present control schemes to achieve the adiabatic conditions in STIRAP and F-STIRAP through a skillful compensation of the two-photon detuning by pulse chirping. We show that the chirped configuration - C-STIRAP - permits adiabatic passage to a predetermined state among two nearly degenerate final states, when conventional STIRAP fails to resolve them. We demonstrate such a selectivity within a broad range of parameters of the two-photon detuning and the chirp rate. In the C-F-STIRAP, chirping of the pump and the Stokes pulses with different time delays permits a complete compensation of the two-photon detuning and results in a selective maximum coherence of the initial and the target state with higher spectral resolution than in the conventional F-STIRAP.
翻訳日:2023-05-31 19:09:52 公開日:2023-05-29
# UMD: X2Xバックドア攻撃の教師なしモデル検出

UMD: Unsupervised Model Detection for X2X Backdoor Attacks ( http://arxiv.org/abs/2305.18651v1 )

ライセンス: Link先を確認
Zhen Xiang, Zidi Xiong, Bo Li(参考訳) バックドア(トロイの木馬)攻撃はディープニューラルネットワークに対する一般的な脅威であり、バックドアトリガーに埋め込まれた1つ以上のソースクラスからのサンプルは、敵のターゲットクラスに誤分類される。 既存の分類器がバックドア攻撃であるかどうかを検出する方法は、主に1対1攻撃(例えば全対1攻撃)で攻撃するために設計されている。 我々の知る限り、監督なしでは、任意のソースクラスでより一般的なX2X攻撃に効果的に対処する既存のメソッドは、いずれも任意のターゲットクラスとペアリングすることはできません。 本稿では,敵(ソース,ターゲット)クラスペアの合同推論により,x2xバックドア攻撃を効果的に検出する,初の教師なしモデル検出手法umdを提案する。 特に,提案するクラスタリングアプローチに基づき,提案するバックドアクラスペアのサブセットを計測・選択するための新しい転送可能性統計を最初に定義した。 次に,提案するロバストで教師なしの異常検出器を用いて,検出推定のためのリバースエンジニアリングトリガサイズの集約に基づいて,選択されたクラスペアを共同で評価する。 我々は, CIFAR-10, GTSRB, Imagenetteデータセットの総合的な評価を行い, 多様なX2X攻撃に対する検出精度の観点から, 教師なしUDDがSOTA検出器(監督下でも)を17%, 4%, 8%で上回っていることを示す。 また,いくつかの強適応攻撃に対するumdの強力な検出性能を示す。

Backdoor (Trojan) attack is a common threat to deep neural networks, where samples from one or more source classes embedded with a backdoor trigger will be misclassified to adversarial target classes. Existing methods for detecting whether a classifier is backdoor attacked are mostly designed for attacks with a single adversarial target (e.g., all-to-one attack). To the best of our knowledge, without supervision, no existing methods can effectively address the more general X2X attack with an arbitrary number of source classes, each paired with an arbitrary target class. In this paper, we propose UMD, the first Unsupervised Model Detection method that effectively detects X2X backdoor attacks via a joint inference of the adversarial (source, target) class pairs. In particular, we first define a novel transferability statistic to measure and select a subset of putative backdoor class pairs based on a proposed clustering approach. Then, these selected class pairs are jointly assessed based on an aggregation of their reverse-engineered trigger size for detection inference, using a robust and unsupervised anomaly detector we proposed. We conduct comprehensive evaluations on CIFAR-10, GTSRB, and Imagenette dataset, and show that our unsupervised UMD outperforms SOTA detectors (even with supervision) by 17%, 4%, and 8%, respectively, in terms of the detection accuracy against diverse X2X attacks. We also show the strong detection performance of UMD against several strong adaptive attacks.
翻訳日:2023-05-31 19:09:19 公開日:2023-05-29
# 連合学習に適合する深層平衡モデル

Deep Equilibrium Models Meet Federated Learning ( http://arxiv.org/abs/2305.18646v1 )

ライセンス: Link先を確認
Alexandros Gkillas, Dimitris Ampeliotis, Kostas Berberidis(参考訳) 本研究では,従来の深層学習ネットワークではなく,Deep Equilibrium(DEQ)モデルを用いて,新しい視点でFederated Learning(FL)の課題を考察する。 フェデレーション学習フレームワークにdeqモデルを組み込むことは、大きなモデルを共有することによる通信オーバーヘッドや、計算能力が著しく異なる異種エッジデバイスを統合する能力など、flのいくつかのオープンな問題に自然に対処できると主張している。 さらに、ヘテロジニアスエッジデバイスからのモデルの異なる品質を考慮するために、flフレームワークのサーバ側で重み付け平均融合ルールが提案されている。 我々の知る限りでは、この研究はdeqモデルと連合学習の関連を確立する最初の方法であり、効率的かつ効果的なflフレームワークの開発に寄与している。 最後に、有望な最初の実験結果が示され、flの課題に取り組む際のこのアプローチの可能性を示す。

In this study the problem of Federated Learning (FL) is explored under a new perspective by utilizing the Deep Equilibrium (DEQ) models instead of conventional deep learning networks. We claim that incorporating DEQ models into the federated learning framework naturally addresses several open problems in FL, such as the communication overhead due to the sharing large models and the ability to incorporate heterogeneous edge devices with significantly different computation capabilities. Additionally, a weighted average fusion rule is proposed at the server-side of the FL framework to account for the different qualities of models from heterogeneous edge devices. To the best of our knowledge, this study is the first to establish a connection between DEQ models and federated learning, contributing to the development of an efficient and effective FL framework. Finally, promising initial experimental results are presented, demonstrating the potential of this approach in addressing challenges of FL.
翻訳日:2023-05-31 19:08:50 公開日:2023-05-29
# 位相空間における古典的および半古典的極限

Classical and semi-classical limits in phase space ( http://arxiv.org/abs/2305.18644v1 )

ライセンス: Link先を確認
Clay D. Spence(参考訳) 半古典力学の別の見方は、シュル=オディンガー方程式の近似の形で導出され、位相空間上の線型一階偏微分方程式を与える。 この方程式は古典的軌跡に沿って波動関数を対流輸送するので、軌道が続くにつれて振幅は一定であり、作用によって位相は$\hbar$で割られる。 波動関数の2乗マグニチュードは可算位相空間密度であり、そのような密度の古典的時間発展に対するリウヴィルの方程式に従う。 これはKoopman-von–Neumann (KvN) の古典力学の定式化の導出である。 時間に依存しない形式では、連続性はトーラスの任意の閉経路の位相の変化を2\pi$の整数倍に制限し、本質的にトーラス上の定在波を与えるため、量子化が発生する。 これはどんな系にも当てはまるが、分離可能な系ではボーア・ソマーフェルト量子化を与える。

An alternative view of semiclassical mechanics is derived in the form of an approximation to Schr\"odinger's equation, giving a linear first-order partial differential equation on phase space. The equation advectively transports wavefunctions along classical trajectories, so that as a trajectory is followed the amplitude remains constant and the phase changes by the action divided by $\hbar$. The wavefunction's squared-magnitude is a plausible phase space density and obeys Liouville's equation for the classical time evolution of such densities. This is a derivation of the Koopman-von~Neumann (KvN) formulation of classical mechanics, which previously was postulated but not derived. With the time-independent form, quantization arises because continuity constrains the change of phase around any closed path in the torus covered by the classical solution to be an integer multiple of $2\pi$, essentially giving standing waves on the torus. While this applies to any system, for separable systems it gives Bohr-Sommerfeld quantization.
翻訳日:2023-05-31 19:08:33 公開日:2023-05-29
# プロットテーブル対のクロスモーダル事前学習による視覚・言語タスクにおけるチャート理解の強化

Enhanced Chart Understanding in Vision and Language Task via Cross-modal Pre-training on Plot Table Pairs ( http://arxiv.org/abs/2305.18641v1 )

ライセンス: Link先を確認
Mingyang Zhou, Yi R. Fung, Long Chen, Christopher Thomas, Heng Ji, Shih-Fu Chang(参考訳) チャートを理解し、背後に隠された健全な情報を伝達できるクロスモデルインテリジェンスの構築は、ビジョンと言語(V+L)コミュニティにおいて魅力的な課題である。 グラフ図の下の表データを明らかにする能力は、自動チャート理解の鍵となる。 プロットテーブル対のクロスモーダル事前学習を通じてチャート画像からテーブル情報を解釈する方法を学ぶv+lモデルであるchartt5を紹介する。 具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。 提案する事前学習戦略の有効性を検証するために,チャート質問応答とチャート要約に関する広範な実験を行った。 特にchartqaベンチマークでは、chartt5は最先端の非トレーニングメソッドを8%以上のパフォーマンス向上で上回っています。

Building cross-model intelligence that can understand charts and communicate the salient information hidden behind them is an appealing challenge in the vision and language(V+L) community. The capability to uncover the underlined table data of chart figures is a critical key to automatic chart understanding. We introduce ChartT5, a V+L model that learns how to interpret table information from chart images via cross-modal pre-training on plot table pairs. Specifically, we propose two novel pre-training objectives: Masked Header Prediction (MHP) and Masked Value Prediction (MVP) to facilitate the model with different skills to interpret the table information. We have conducted extensive experiments on chart question answering and chart summarization to verify the effectiveness of the proposed pre-training strategies. In particular, on the ChartQA benchmark, our ChartT5 outperforms the state-of-the-art non-pretraining methods by over 8% performance gains.
翻訳日:2023-05-31 19:08:12 公開日:2023-05-29
# ワンショットプロンプトとテキスト類似性スコアリングモデルを用いた短解像

Short Answer Grading Using One-shot Prompting and Text Similarity Scoring Model ( http://arxiv.org/abs/2305.18638v1 )

ライセンス: Link先を確認
Su-Youn Yoon(参考訳) 本研究では,分析スコアと最終総合スコアの両方を提供する自動短解格付け(ASAG)モデルを開発した。 短い回答項目は通常、複数のサブクエストで構成され、分析スコアと各サブクエストに関連するテキストスパンを提供することで、自動化されたスコアの解釈可能性を高めることができる。 さらに、生徒にアクション可能なフィードバックを生成するために使うことができる。 これらの利点にもかかわらず、ほとんどの研究は手動アノテーションでデータセットを構築するのが難しいため、総合的なスコアのみを予測することに重点を置いている。 この課題に対処するために,大規模な言語モデル(llm)ベースのワンショットプロンプトと,小さな手作業によるアノテーション付きデータセットを用いたドメイン適応によるテキスト類似度スコアリングモデルを用いた。 このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。 このモデルは多数派ベースラインを大きく改善した。

In this study, we developed an automated short answer grading (ASAG) model that provided both analytic scores and final holistic scores. Short answer items typically consist of multiple sub-questions, and providing an analytic score and the text span relevant to each sub-question can increase the interpretability of the automated scores. Furthermore, they can be used to generate actionable feedback for students. Despite these advantages, most studies have focused on predicting only holistic scores due to the difficulty in constructing dataset with manual annotations. To address this difficulty, we used large language model (LLM)-based one-shot prompting and a text similarity scoring model with domain adaptation using small manually annotated dataset. The accuracy and quadratic weighted kappa of our model were 0.67 and 0.71 on a subset of the publicly available ASAG dataset. The model achieved a substantial improvement over the majority baseline.
翻訳日:2023-05-31 19:07:56 公開日:2023-05-29
# グラフニューラルネットワークのためのグラフ書き換え

Graph Rewriting for Graph Neural Networks ( http://arxiv.org/abs/2305.18632v1 )

ライセンス: Link先を確認
Adam Machowczyk and Reiko Heckel(参考訳) グラフが入力として与えられると、グラフニューラルネットワーク(GNN)はノード、エッジ、属性、グラフプロパティの推論をサポートする。 グラフ書き換えは、複雑なグラフ変換をモデル化するためのグラフの規則ベースの操作を調べる。 そこで我々はそれを提案します (i)グラフ書き換えはGNNを仮定し、それらを研究・比較するための形式モデルとして機能し得る。 (II)グラフ書き換えシステムとしてのGNNの表現は、GNNとそのアーキテクチャとアルゴリズムの設計と分析に役立つ。 そこで我々は,グラフ書き換えニューラルネットワーク(GReNN)を,GNNの新たなセマンティック基盤とエンジニアリング分野として提案する。 本稿では,Grooveグラフ書き換えモデルとして実現したメッセージパッシングニューラルネットワークのケーススタディを開発し,動的更新に対応するインクリメンタル操作について検討する。

Given graphs as input, Graph Neural Networks (GNNs) support the inference of nodes, edges, attributes, or graph properties. Graph Rewriting investigates the rule-based manipulation of graphs to model complex graph transformations. We propose that, therefore, (i) graph rewriting subsumes GNNs and could serve as formal model to study and compare them, and (ii) the representation of GNNs as graph rewrite systems can help to design and analyse GNNs, their architectures and algorithms. Hence we propose Graph Rewriting Neural Networks (GReNN) as both novel semantic foundation and engineering discipline for GNNs. We develop a case study reminiscent of a Message Passing Neural Network realised as a Groove graph rewriting model and explore its incremental operation in response to dynamic updates.
翻訳日:2023-05-31 19:07:42 公開日:2023-05-29
# ベイズ最適化による雨水制御戦略の同定とそれに伴う不確実性

Identification of stormwater control strategies and their associated uncertainties using Bayesian Optimization ( http://arxiv.org/abs/2305.18630v1 )

ライセンス: Link先を確認
Abhiram Mullapudi, Branko Kerkez(参考訳) 急速進行する気象パターンのストレス下でのストームウォーターシステムの運用に有効な方法論として,動的制御が登場している。 降雨予測やリアルタイムセンサによる計測により、雨水ネットワークの制御資産を動的に設定し、雨水ネットワークの挙動を調整し、都市洪水のリスクを低減し、水処理施設への流れを等しくし、受信水体を保護することができる。 しかし,このような制御戦略の開発には人的資源や計算資源が必要であり,これらの制御戦略の実装に伴うリスクを定量化するための方法論がまだ存在しない。 本稿では,これらの課題に対処するために,ベイズ最適化に基づくアプローチを導入し,雨水制御戦略を特定し,それに関連する不確実性を推定する。 実環境における実環境における実効性制御戦略の同定における本手法の有効性を評価する。 遺伝的アルゴリズムと比較することにより,提案手法の計算効率を示す。 さらに,ベイズ最適化に基づくアプローチを拡張して,特定した制御戦略に関連する不確実性を定量化し,合成雨水ネットワーク上で評価する。 我々の知る限り、これは特定された制御行動に関連する不確かさを定量化する最初のストームウォーター制御手法である。 このベイズ最適化に基づくストームウォーター制御手法は、降雨予測にアクセスできさえすれば、あらゆるストームウォーターネットワークを制御できるオフ・ザ・シェル制御手法であり、ストームウォーターネットワークの挙動をシミュレートするモデルが存在する。

Dynamic control is emerging as an effective methodology for operating stormwater systems under stress from rapidly evolving weather patterns. Informed by rainfall predictions and real-time sensor measurements, control assets in the stormwater network can be dynamically configured to tune the behavior of the stormwater network to reduce the risk of urban flooding, equalize flows to the water reclamation facilities, and protect the receiving water bodies. However, developing such control strategies requires significant human and computational resources, and a methodology does not yet exist for quantifying the risks associated with implementing these control strategies. To address these challenges, in this paper, we introduce a Bayesian Optimization-based approach for identifying stormwater control strategies and estimating the associated uncertainties. We evaluate the efficacy of this approach in identifying viable control strategies in a simulated environment on real-world inspired combined and separated stormwater networks. We demonstrate the computational efficiency of the proposed approach by comparing it against a Genetic algorithm. Furthermore, we extend the Bayesian Optimization-based approach to quantify the uncertainty associated with the identified control strategies and evaluate it on a synthetic stormwater network. To our knowledge, this is the first-ever stormwater control methodology that quantifies uncertainty associated with the identified control actions. This Bayesian optimization-based stormwater control methodology is an off-the-shelf control approach that can be applied to control any stormwater network as long we have access to the rainfall predictions, and there exists a model for simulating the behavior of the stormwater network.
翻訳日:2023-05-31 19:07:31 公開日:2023-05-29
# global-qsgd: 理論保証による分散学習のための実用的なフロートレス量子化

Global-QSGD: Practical Floatless Quantization for Distributed Learning with Theoretical Guarantees ( http://arxiv.org/abs/2305.18627v1 )

ライセンス: Link先を確認
Jihao Xin, Marco Canini, Peter Richt\'arik, Samuel Horv\'ath(参考訳) 効率的な分散トレーニングは、ディープラーニングの最近の進歩の主要な要因である。 しかし、通信はしばしばコストがかかり、これらのシステムの主要なボトルネックとなる。 その結果、理論的保証を提供しながらスループットを実証的に向上できる効率的な通信機構の設計が求められている。 本稿では,グローバルスケールに基づく分散トレーニングの高速化を目的とした,新しい量子化演算子群global-qsgdを提案する。 我々は、Global-QSGDが、圧縮エラーと通信節約のバランスを崩すことで、証明可能なスピードアップを実現する、理論上は厳密なAllreduce互換圧縮機構であることを示した。 重要なのは、Global-QSGDは本質的に不偏性のためコストのかかるエラーフィードバックに依存しておらず、一般的なQSGD量子化(n$は労働者数を表す)と比較して最大$O(\sqrt{n})$の圧縮比を提供する。 理論的保証を得るため,標準非バイアス圧縮演算子の概念を一般化し,グローバルQSGDを組み込む。 このより広いクラスは、非バイアス圧縮機の標準解析を可能にし、一般的な最適化アルゴリズム(例えば分散SGD)の収束を保証する。 本研究の実証的なコンポーネントとして,Global-QSGDが特定のハードウェア構成下でのトレーニングスループットを向上させることができるかどうかを判断する性能モデリング分析を行う。 また, NVLink と PCIe の接続と大規模クラウドシステムの両方で理論を検証し, 各種タスクに対する広範な実証評価を行った。

Efficient distributed training is a principal driver of recent advances in deep learning. However, communication often proves costly and becomes the primary bottleneck in these systems. As a result, there is a demand for the design of efficient communication mechanisms that can empirically boost throughput while providing theoretical guarantees. In this work, we introduce Global-QSGD, a novel family of quantization operators, engineered to accelerate distributed training based on global scaling. We demonstrate that Global-QSGD is the first theoretically rigorous Allreduce-compatible compression mechanism that achieves a provable speed-up by striking a balance between compression error and communication savings. Importantly, Global-QSGD does not rely on costly error feedback due to its inherent unbiasedness and offers up to $O(\sqrt{n})$ additional compression ratio compared to the popular QSGD quantization ($n$ represents the number of workers). To obtain theoretical guarantees, we generalize the notion of standard unbiased compression operators to incorporate Global-QSGD. We show that this wider class permits standard analysis for unbiased compressors and thus ensures convergence for popular optimization algorithms (e.g., distributed SGD) under typical settings. For the empirical component of our work, we carry out a performance modeling analysis to determine if Global-QSGD can enhance training throughput under specific hardware configurations. We also conduct extensive empirical evaluations on various tasks, testing our theory on both NVLink and PCIe connections as well as a large-scale cloud system.
翻訳日:2023-05-31 19:07:04 公開日:2023-05-29
# 量子スカイミオンホール効果

Quantum skyrmion Hall effect ( http://arxiv.org/abs/2305.18626v1 )

ライセンス: Link先を確認
Ashley M. Cook(参考訳) 実空間におけるトーラス幾何学の次元が$(2+1)$の磁気電荷の問題は、トーラスの表面に対して正規に作用する外部電場により逆ローレンツ力を受ける。 無視できないギャップのない励起や大域的な$\mathrm{U}(1)$電荷保存対称性の場合のこれらの電荷の輸送に関連するホール伝導度を計算し、磁気量子ホール効果(MQHE)に対応する整数値の位相不変量$\mathcal{Q}$に比例する。 外部電場がない場合にこの物理を実現する格子モデルを同定する。 これに基づいて, 量子skyrmion hall 効果 (qskhe) を用いたmqhe の一般化, 量子skyrmion hall 効果 (quantum skyrmion hall effect, qskhe) , 磁気skyrmion の容易平面異方性, 非圧縮性をもたらす磁気skyrmion に関連する電荷の有効保存, エネルギースケールの階層を尊重する。 格子モデルは、全チャーン数と位相不変な$\mathcal{q}$ の両方で特徴づけられるので、さらに、電荷、磁気電荷、および複合粒子と近似される磁性と電荷の相関について、合成粒子としてモデル化された電荷と電荷の間の中間強度相関のシナリオを扱うために、可能な場理論を概説する。 この問題を合成粒子に対する量子ホール効果の一般化された$(4+1)$D理論にマッピングする。

We consider the problem of magnetic charges in $(2+1)$ dimensions for a torus geometry in real-space, subjected to an inverted Lorentz force due to an external electric field applied normal to the surface of the torus. We compute the Hall conductivity associated with transport of these charges for the case of negligible gapless excitations and global $\mathrm{U}(1)$ charge conservation symmetry, and find it is proportional to an integer-valued topological invariant $\mathcal{Q}$, corresponding to a magnetic quantum Hall effect (MQHE). We identify a lattice model realizing this physics in the absence of an external electric field. Based on this, we identify a generalization of the MQHE to be quantized transport of magnetic skyrmions, the quantum skyrmion Hall effect (QSkHE), with a $\mathrm{U}(1)$ easy-plane anisotropy of magnetic skyrmions and effective conservation of charge associated with magnetic skyrmions yielding incompressibility, provided a hierarchy of energy scales is respected. As the lattice model may be characterized both by a total Chern number and the topological invariant $\mathcal{Q}$, we furthermore outline a possible field theory for electric charges, magnetic charges, and correlations between magnetic and electric charges approximated as composite particles, on a two-torus, to handle the scenario of intermediate-strength correlations between electric and magnetic charges modeled as composite particles. We map this problem to a generalized $(4+1)$D theory of the quantum Hall effect for the composite particles.
翻訳日:2023-05-31 19:06:35 公開日:2023-05-29
# 言語モデル埋め込み空間における語彙構造的特徴の表現

Representation Of Lexical Stylistic Features In Language Models' Embedding Space ( http://arxiv.org/abs/2305.18657v1 )

ライセンス: Link先を確認
Qing Lyu, Marianna Apidianaki, Chris Callison-Burch(参考訳) 事前訓練された言語モデル(LM)によって構築された表現空間は、単語とその関係(例えば、類似性、ハイパーネミー/ハイポニー、ポリセミー)と抽象的な意味概念(例えば、強度)に関する豊富な情報を符号化する。 本稿では,この空間において,複雑性,形式性,フィギュラリティといった語彙的様式的概念も同定できることを実証する。 これらのスタイリスティックな概念のそれぞれについて、少数のシードテキストペアからベクトル表現を導出することが可能であることを示す。 これらのベクトルを用いて、対応する埋め込み空間における簡単な計算を用いて、これらの次元の観点から新しいテキストを特徴付けることができる。 5つのデータセットで実験を行い、静的埋め込みがこれらの特徴をより正確に単語や句のレベルでエンコードすることを発見した。 単語レベルでの文脈化表現の低パフォーマンスは、部分的にベクトル空間の異方性に起因するものであり、標準化のような技術によってさらにパフォーマンスを向上させることができる。

The representation space built by pretrained Language Models (LMs) encodes rich information about words and their relationships (e.g., similarity, hypernymy/hyponymy, polysemy) as well as abstract semantic notions (e.g., intensity). In this paper, we demonstrate that lexical stylistic notions such as complexity, formality, and figurativeness, can also be identified in this space. We show that it is possible to derive a vector representation for each of these stylistic notions, from only a small number of seed text pairs. Using these vectors, we can characterize new texts in terms of these dimensions using simple calculations in the corresponding embedding space. We perform experiments on five datasets and find that static embeddings encode these features more accurately at the level of words and phrases, whereas contextualized LMs perform better on longer texts. The lower performance of contextualized representations at the word level is partially attributable to the anisotropy of their vector space, which can be corrected through techniques like standardization to further improve performance.
翻訳日:2023-05-31 18:56:19 公開日:2023-05-29
# パリティ校正

Parity Calibration ( http://arxiv.org/abs/2305.18655v1 )

ライセンス: Link先を確認
Youngseog Chung, Aaron Rumack, Chirag Gupta(参考訳) 逐次回帰設定では、意思決定者は、将来の観測の実際の値よりも、将来の観測が現在の観測よりも増加するか減少するかを主に懸念することができる。 この文脈では、時系列における増加(または「パリティ」)事象の予測のキャリブレーションの目標を捉えたパリティキャリブレーションの概念を導入する。 出力の予測分布からパリティ確率を抽出できるが,そのような戦略が理論的予測不可能と実用性能の低下につながることを示す。 次に,最初のタスクは回帰であるが,パリティキャリブレーションは2次キャリブレーションとして表現できることを示した。 そこで本研究では,オンラインバイナリキャリブレーション手法を用いてパリティキャリブレーションを行う。 提案手法は, 疫学, 気象予報, 核融合におけるモデルベース制御における実例研究における有効性を示す。

In a sequential regression setting, a decision-maker may be primarily concerned with whether the future observation will increase or decrease compared to the current one, rather than the actual value of the future observation. In this context, we introduce the notion of parity calibration, which captures the goal of calibrated forecasting for the increase-decrease (or "parity") event in a timeseries. Parity probabilities can be extracted from a forecasted distribution for the output, but we show that such a strategy leads to theoretical unpredictability and poor practical performance. We then observe that although the original task was regression, parity calibration can be expressed as binary calibration. Drawing on this connection, we use an online binary calibration method to achieve parity calibration. We demonstrate the effectiveness of our approach on real-world case studies in epidemiology, weather forecasting, and model-based control in nuclear fusion.
翻訳日:2023-05-31 18:55:58 公開日:2023-05-29
# 信仰とフェイト:構成性に関するトランスフォーマーの限界

Faith and Fate: Limits of Transformers on Compositionality ( http://arxiv.org/abs/2305.18654v1 )

ライセンス: Link先を確認
Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jian, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi(参考訳) transformer large language models (llms) は、複雑なマルチステップ推論を必要とするタスクにおける例外的なパフォーマンスを賞賛している。 しかし、これらのモデルは驚くほど自明な問題に対して同時に失敗を示す。 これらのエラーは偶発的か、それともより重大な制限を示すのか? トランスフォーマーを非神秘化しようとする試みとして,多桁乗算,論理格子パズル,古典的な動的プログラミング問題という,3つの代表的な構成タスクにまたがるモデルの限界について検討する。 これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。 合成タスクを計算グラフとして定式化し、複雑性のレベルを体系的に定量化し、推論ステップを中間のサブ手続きに分割する。 実験により,多段階合成推論を線形化部分グラフマッチングに還元することで,トランスフォーマーが構成課題を解くことを示唆した。 実験的な研究をまとめるために、トランスフォーマーのパフォーマンスがタスクの複雑さの増大とともに急速に低下することを示す抽象的な多段階推論問題について理論的に論じる。

Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify Transformers, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that Transformers solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how Transformers' performance will rapidly decay with increased task complexity.
翻訳日:2023-05-31 18:55:38 公開日:2023-05-29
# 2次元ロスレス可視化空間における全高次元知性学習

Full High-Dimensional Intelligible Learning In 2-D Lossless Visualization Space ( http://arxiv.org/abs/2305.19132v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Hoang Phan(参考訳) 本研究では,2次元可視化空間 (2-d ml) における機械学習分類タスクのための新しい手法について検討する。 これは、n次元データを抽象的n次元空間で処理する必要のない、完全な機械学習アプローチであることが示されている。 2次元空間におけるn-dデータのグラフ表現を用いて、n-d情報を失うことなく、n-d空間内のn-dパターンを発見できる。 具体的には, 静的および動的インライン座標を用いて, 一般直線座標のカテゴリである異なる修正を行なえることを示す。 これらのインライン座標に基づいて分類法と回帰法を開発した。 この戦略の有効性は、ベンチマークデータセット(Wisconsin Breast Cancer と Page Block Classification データセット)に基づく2つのケーススタディで示された。 ページブロック分類データの特徴は、複数のクラスで不均衡な高分解能データのアルゴリズムを開発し、決定木を決定木よりも一般的なモデルを生成するモデル設計ファシリテータとして活用した。 この研究は、完全な2d機械学習とその方法論の新興分野の継続的な統合を加速する。 この方法論では、エンドユーザーはモデルを発見し、それをセルフサービスとして正当化することができる。 解釈可能なMLモデルを提供することは、このアプローチのもうひとつのメリットである。

This study explores a new methodology for machine learning classification tasks in 2-dimensional visualization space (2-D ML) using Visual knowledge Discovery in lossless General Line Coordinates. It is shown that this is a full machine learning approach that does not require processing n-dimensional data in an abstract n-dimensional space. It enables discovering n-D patterns in 2-D space without loss of n-D information using graph representations of n-D data in 2-D. Specifically, this study shows that it can be done with static and dynamic In-line Based Coordinates in different modifications, which are a category of General Line Coordinates. Based on these inline coordinates, classification and regression methods were developed. The viability of the strategy was shown by two case studies based on benchmark datasets (Wisconsin Breast Cancer and Page Block Classification datasets). The characteristics of page block classification data led to the development of an algorithm for imbalanced high-resolution data with multiple classes, which exploits the decision trees as a model design facilitator producing a model, which is more general than a decision tree. This work accelerates the ongoing consolidation of an emerging field of full 2-D machine learning and its methodology. Within this methodology the end users can discover models and justify them as self-service. Providing interpretable ML models is another benefit of this approach.
翻訳日:2023-05-31 15:23:21 公開日:2023-05-29
# 論理に基づくエンティティ解決におけるグローバルとローカルの統合

Combining Global and Local Merges in Logic-based Entity Resolution ( http://arxiv.org/abs/2305.16926v2 )

ライセンス: Link先を確認
Meghyn Bienvenu, Gianluca Cima, V\'ictor Guti\'errez-Basulto, Yazm\'in Ib\'a\~nez-Garc\'ia(参考訳) 最近提案された集合的エンティティ解決のためのlaceフレームワークでは、論理ルールと制約が、同じエンティティを表すエンティティ参照のペア(著者やペーパーidなど)を識別するために使用される。 これらのエンティティ参照(おそらくは複数のデータベースタプルにまたがる)のすべての発生は等しく、マージ可能である。 対照的に、局所的なマージの形式は、例えば「J・スミス」のいくつかの発生が「ジョー・スミス」と同一視される場合や、「ジェーン・スミス」とマージする場合には、より自然なものであることが多い。 これは、Laceを局所的な値のマージで拡張し、結果の形式主義の計算的性質を探求する動機となる。

In the recently proposed Lace framework for collective entity resolution, logical rules and constraints are used to identify pairs of entity references (e.g. author or paper ids) that denote the same entity. This identification is global: all occurrences of those entity references (possibly across multiple database tuples) are deemed equal and can be merged. By contrast, a local form of merge is often more natural when identifying pairs of data values, e.g. some occurrences of 'J. Smith' may be equated with 'Joe Smith', while others should merge with 'Jane Smith'. This motivates us to extend Lace with local merges of values and explore the computational properties of the resulting formalism.
翻訳日:2023-05-31 11:43:58 公開日:2023-05-29
# 分散LTLのためのポリシー合成と強化学習

Policy Synthesis and Reinforcement Learning for Discounted LTL ( http://arxiv.org/abs/2305.17115v2 )

ライセンス: Link先を確認
Rajeev Alur, Osbert Bastani, Kishor Jothimurugan, Mateo Perez, Fabio Somenzi, Ashutosh Trivedi(参考訳) 報酬関数を手動で特定することの難しさは、強化学習(RL)の目的を表現するために線形時間論理(LTL)を使うことに関心を惹きつけた。 しかし、ltlは遷移確率の小さな摂動に敏感であり、追加の仮定なしにほぼ正しい(pac)学習を妨げているという欠点がある。 時間割引は、論理の高表現性を保ちながら、この感度を除去する方法を提供する。 マルコフ決定過程における政策合成における割引LTLの利用について検討し,全ての割引要因が同一である場合,報酬機を介して割引LTLを割引報酬に還元する方法を示す。

The difficulty of manually specifying reward functions has led to an interest in using linear temporal logic (LTL) to express objectives for reinforcement learning (RL). However, LTL has the downside that it is sensitive to small perturbations in the transition probabilities, which prevents probably approximately correct (PAC) learning without additional assumptions. Time discounting provides a way of removing this sensitivity, while retaining the high expressivity of the logic. We study the use of discounted LTL for policy synthesis in Markov decision processes with unknown transition probabilities, and show how to reduce discounted LTL to discounted-sum reward via a reward machine when all discount factors are identical.
翻訳日:2023-05-31 11:33:23 公開日:2023-05-29
# 少数ショットセグメンテーションのための注意深いプロトタイプ推論

Attentional Prototype Inference for Few-Shot Segmentation ( http://arxiv.org/abs/2105.06668v2 )

ライセンス: Link先を確認
Haoliang Sun, Xiankai Lu, Haochen Wang, Yilong Yin, Xiantong Zhen, Cees G. M. Snoek, and Ling Shao(参考訳) 本稿では,数発のセグメンテーションを提案する。 既存のプロトタイプベースの手法は大きな成功を収めているが、限定された例によって生じる不確実性と曖昧さに苦しめられている。 本研究では,少数ショットセグメンテーションのための確率潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。 我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。 プロトタイプの確率論的モデリングは、限られたデータやクラス内の変化に起因する固有の不確実性を扱うことにより、モデルの一般化能力を高める。 このモデルをさらに強化するため,各問合せ画像のアテンションマップを表すローカル潜在変数を導入し,背景を抑えながら前景オブジェクトへの参照を可能にする。 提案モデルの最適化は変分ベイズ推論問題として定式化され, 償却推論ネットワークによって確立された。 我々は4つのベンチマークについて広範な実験を行い,提案手法は最先端のプロトタイプベース手法よりも,少なくとも競争性が高く,しばしば優れた性能を得る。 また,本手法の有効性を明らかにするため,包括的分析およびアブレーション研究も行った。

This paper aims to address few-shot segmentation. While existing prototype-based methods have achieved considerable success, they suffer from uncertainty and ambiguity caused by limited labeled examples. In this work, we propose attentional prototype inference (API), a probabilistic latent variable framework for few-shot segmentation. We define a global latent variable to represent the prototype of each object category, which we model as a probabilistic distribution. The probabilistic modeling of the prototype enhances the model's generalization ability by handling the inherent uncertainty caused by limited data and intra-class variations of objects. To further enhance the model, we introduce a local latent variable to represent the attention map of each query image, which enables the model to attend to foreground objects while suppressing the background. The optimization of the proposed model is formulated as a variational Bayesian inference problem, which is established by amortized inference networks. We conduct extensive experiments on four benchmarks, where our proposal obtains at least competitive and often better performance than state-of-the-art prototype-based methods. We also provide comprehensive analyses and ablation studies to gain insight into the effectiveness of our method for few-shot segmentation.
翻訳日:2023-05-31 04:59:51 公開日:2023-05-29
# ロバスト性および不確実性校正のための逆ガウス雑音の規則化

Diverse Gaussian Noise Consistency Regularization for Robustness and Uncertainty Calibration ( http://arxiv.org/abs/2104.01231v6 )

ライセンス: Link先を確認
Theodoros Tsiligkaridis, Athanasios Tsiligkaridis(参考訳) 深層ニューラルネットワークは、列車とテスト分布が一致すると高い予測精度を達成する。 しかし実際には、さまざまなタイプの腐敗が発生し、この設定から逸脱し、パフォーマンスが著しく低下する。 予期せぬ領域シフトの存在下での一般化に対処する手法はほとんど提案されていない。 特に、デジタルノイズの破損は画像取得段階で一般的に発生し、現在の方法にとって大きな課題となっている。 本稿では,画像分類器の高精細度化を図りつつ,高い清潔さを維持しつつ,様々な汚職下での堅牢性を向上する多種多様なガウス雑音整合正則化手法を提案する。 局所ロスランドスケープ解析を用いたガウス雑音整合性規則化の挙動をモチベーション化し,理解するための境界を導出する。 提案手法は,複数のベンチマークにおいて,敵対的トレーニングやその他の強力な多様なデータ拡張ベースラインに対する4.2~18.4%のノイズ劣化に対する堅牢性を向上する。 さらに、最先端の多様なデータ拡張と組み合わせることで、一般的な汚職(ウェザー、デジタル、ブラー、ノイズ)に対して、堅牢性と不確実性の校正をそれぞれ3.7%と5.5%改善する。

Deep neural networks achieve high prediction accuracy when the train and test distributions coincide. In practice though, various types of corruptions occur which deviate from this setup and cause severe performance degradations. Few methods have been proposed to address generalization in the presence of unforeseen domain shifts. In particular, digital noise corruptions arise commonly in practice during the image acquisition stage and present a significant challenge for current methods. In this paper, we propose a diverse Gaussian noise consistency regularization method for improving robustness of image classifiers under a variety of corruptions while still maintaining high clean accuracy. We derive bounds to motivate and understand the behavior of our Gaussian noise consistency regularization using a local loss landscape analysis. Our approach improves robustness against unforeseen noise corruptions by 4.2-18.4% over adversarial training and other strong diverse data augmentation baselines across several benchmarks. Furthermore, it improves robustness and uncertainty calibration by 3.7% and 5.5%, respectively, against all common corruptions (weather, digital, blur, noise) when combined with state-of-the-art diverse data augmentations.
翻訳日:2023-05-31 04:59:33 公開日:2023-05-29
# 効率的なコミュニケーションによる多エージェント強化学習の勾配収束境界

The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication ( http://arxiv.org/abs/2103.13026v2 )

ライセンス: Link先を確認
Xing Xu and Rongpeng Li and Zhifeng Zhao and Honggang Zhang(参考訳) 本稿では,連合学習のパラダイムにおける多エージェント協調意思決定のための独立強化学習(IRL)について考察する。 しかし、flはエージェントとリモート中央サーバの間の過度の通信オーバーヘッドを発生させる。 さらに、独立した学習環境の不均一性のため、複数のエージェントが非同期マルコフ決定プロセス(MDP)を実行でき、トレーニングサンプルとモデルの収束性能に影響を与える。 変動対応周期平均化(VPA)法とポリシーベース深部強化学習(DRL)法(PPO)法に加えて,確率勾配勾配(SGD)を指向した2つの高度な最適化手法を提案する。 1)減衰に基づくスキームは,連続的な局所更新の進行とともに,モデルの局所勾配の重みを徐々に減衰させる。 2) エージェントをグラフとして表現することにより、コンセンサスに基づくスキームは、近接エージェント間のモデルの局所勾配を代数的接続の観点から交換する影響を研究する。 また,本論文は,両手法の新たな収束保証を提供し,理論解析とシミュレーション結果を通じて,システムの実用性向上に優れた効果と効率性を示す。

The paper considers independent reinforcement learning (IRL) for multi-agent collaborative decision-making in the paradigm of federated learning (FL). However, FL generates excessive communication overheads between agents and a remote central server, especially when it involves a large number of agents or iterations. Besides, due to the heterogeneity of independent learning environments, multiple agents may undergo asynchronous Markov decision processes (MDPs), which will affect the training samples and the model's convergence performance. On top of the variation-aware periodic averaging (VPA) method and the policy-based deep reinforcement learning (DRL) algorithm (i.e., proximal policy optimization (PPO)), this paper proposes two advanced optimization schemes orienting to stochastic gradient descent (SGD): 1) A decay-based scheme gradually decays the weights of a model's local gradients with the progress of successive local updates, and 2) By representing the agents as a graph, a consensus-based scheme studies the impact of exchanging a model's local gradients among nearby agents from an algebraic connectivity perspective. This paper also provides novel convergence guarantees for both developed schemes, and demonstrates their superior effectiveness and efficiency in improving the system's utility value through theoretical analyses and simulation results.
翻訳日:2023-05-31 04:59:14 公開日:2023-05-29
# 小さな電球で現実の赤外線歩行者検知器を騙す

Fooling thermal infrared pedestrian detectors in real world using small bulbs ( http://arxiv.org/abs/2101.08154v2 )

ライセンス: Link先を確認
Xiaopei Zhu, Xiao Li, Jianmin Li, Zheyao Wang, Xiaolin Hu(参考訳) 赤外線検知システムは、夜間の安全、自律運転、体温検出など多くの分野で重要な役割を果たしている。 パッシブイメージング、温度感度、浸透率というユニークな利点がある。 しかし、システム自体のセキュリティは十分に検討されておらず、システムの適用にリスクが伴う。 本研究では,基板上に小さな電球を配置した物理攻撃方式を提案する。 我々の目標は、赤外線歩行者検出器が現実世界の歩行者を検知できないようにすることです。 この目的に向けて,まず2種類のパッチを用いて,yolov3に基づく赤外線歩行者検出器を攻撃できることを実証した。 デジタル世界では平均精度 (ap) が64.12%減少し、同じ大きさの空板がapを29.69%減少させた。 その後、我々は物理基板を設計・製造し、現実世界でYOLOv3を攻撃した。 記録されたビデオでは、物理基板はターゲット検出器のAPを34.48%低下させ、一方同じ大きさのブランクボードはAPを14.91%低下させた。 アンサンブル攻撃技術により、設計された物理基板は、見えない検出器への転送性に優れた。 また,最初の物理的マルチスペクトル(赤外線および可視光)攻撃も提案した。 組み合わせにより、可視光と赤外線物体検出システムから同時に隠れることに成功した。

Thermal infrared detection systems play an important role in many areas such as night security, autonomous driving, and body temperature detection. They have the unique advantages of passive imaging, temperature sensitivity and penetration. But the security of these systems themselves has not been fully explored, which poses risks in applying these systems. We propose a physical attack method with small bulbs on a board against the state of-the-art pedestrian detectors. Our goal is to make infrared pedestrian detectors unable to detect real-world pedestrians. Towards this goal, we first showed that it is possible to use two kinds of patches to attack the infrared pedestrian detector based on YOLOv3. The average precision (AP) dropped by 64.12% in the digital world, while a blank board with the same size caused the AP to drop by 29.69% only. After that, we designed and manufactured a physical board and successfully attacked YOLOv3 in the real world. In recorded videos, the physical board caused AP of the target detector to drop by 34.48%, while a blank board with the same size caused the AP to drop by 14.91% only. With the ensemble attack techniques, the designed physical board had good transferability to unseen detectors. We also proposed the first physical multispectral (infrared and visible) attack. By using a combination method, we successfully hide from the visible light and infrared object detection systems at the same time.
翻訳日:2023-05-31 04:57:11 公開日:2023-05-29
# 異常の性質と種類について:データの偏差を振り返って

On the Nature and Types of Anomalies: A Review of Deviations in Data ( http://arxiv.org/abs/2007.15634v5 )

ライセンス: Link先を確認
Ralph Foorthuis(参考訳) 異常は何らかの方法で異常なデータセットで発生し、一般的なパターンに適合しない。 異常の概念は一般に不明確であり、曖昧でドメインに依存しないと見なされる。 さらに、この話題に関する約250年の出版にもかかわらず、様々な種類の異常に関する包括的で具体的な概要は発表されていない。 そこで,本研究では,データ異常の理論的・ドメイン非依存型を初めて提示し,異常型とサブタイプについて概観する。 データ型、関係の基数、異常レベル、データ構造、データ分布の5つの次元を用いる。 これらの基本およびデータ中心の次元は、自然に3つの広いグループ、9つの基本型、63のサブタイプの異常をもたらす。 このタイポロジーは、異常検出アルゴリズムの機能的機能の評価を促進し、説明可能なデータサイエンスに貢献し、局所的およびグローバル的異常などの関連トピックに関する洞察を提供する。

Anomalies are occurrences in a dataset that are in some way unusual and do not fit the general patterns. The concept of the anomaly is typically ill-defined and perceived as vague and domain-dependent. Moreover, despite some 250 years of publications on the topic, no comprehensive and concrete overviews of the different types of anomalies have hitherto been published. By means of an extensive literature review this study therefore offers the first theoretically principled and domain-independent typology of data anomalies and presents a full overview of anomaly types and subtypes. To concretely define the concept of the anomaly and its different manifestations, the typology employs five dimensions: data type, cardinality of relationship, anomaly level, data structure, and data distribution. These fundamental and data-centric dimensions naturally yield 3 broad groups, 9 basic types, and 63 subtypes of anomalies. The typology facilitates the evaluation of the functional capabilities of anomaly detection algorithms, contributes to explainable data science, and provides insights into relevant topics such as local versus global anomalies.
翻訳日:2023-05-31 04:56:52 公開日:2023-05-29
# MMD集積2サンプル試験

MMD Aggregated Two-Sample Test ( http://arxiv.org/abs/2110.15073v3 )

ライセンス: Link先を確認
Antonin Schrab and Ilmun Kim and M\'elisande Albert and B\'eatrice Laurent and Benjamin Guedj and Arthur Gretton(参考訳) 本稿では,MMD(Maximum Mean Discrepancy)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。 まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。 このテストは、非漸近的にタイプIエラーの確率を制御する。 したがって、適切なテストレベルを漸近的に保証する以前のMDDテストと異なり、十分に校正されているため、小さなサンプルサイズでも確実に使用することができる。 密度の差がソボレフ球に存在する場合、ソボレフ球の滑らかさパラメータに依存する特定の核を持つmmdテストの最小最適性が証明される。 実際には、このパラメータは未知であり、そのため、この特定のカーネルでの最適mmdテストは使用できない。 この問題を克服するために, MMDAgg と呼ばれるスムーズなパラメータに適応した集約テストを構築した。 テストパワーは、カーネル選択(テストパワーの喪失につながる)や中央値ヒューリスティックのような任意のカーネル選択を必要とせず、使用するカーネルのコレクションに対して最大化される。 MMDAggは相変わらず非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。 我々の保証は特定の種類のカーネルに限定されないが、一次元変換不変特性カーネルの任意の積を保持する。 適応的な帯域幅コレクションを用いたMMDAggのユーザフレンドリなパラメータフリー実装を提供する。 我々は,mmdaggがソボレフスムースネス仮定を満たす合成データに対して,最先端のmmdベースの2つのサンプルテストよりも有意に優れており,実世界の画像データでは,ニューラルネットワークなどのモデルを利用したテストのパワーと密接に一致することを実証する。

We propose two novel nonparametric two-sample kernel tests based on the Maximum Mean Discrepancy (MMD). First, for a fixed kernel, we construct an MMD test using either permutations or a wild bootstrap, two popular numerical procedures to determine the test threshold. We prove that this test controls the probability of type I error non-asymptotically. Hence, it can be used reliably even in settings with small sample sizes as it remains well-calibrated, which differs from previous MMD tests which only guarantee correct test level asymptotically. When the difference in densities lies in a Sobolev ball, we prove minimax optimality of our MMD test with a specific kernel depending on the smoothness parameter of the Sobolev ball. In practice, this parameter is unknown and, hence, the optimal MMD test with this particular kernel cannot be used. To overcome this issue, we construct an aggregated test, called MMDAgg, which is adaptive to the smoothness parameter. The test power is maximised over the collection of kernels used, without requiring held-out data for kernel selection (which results in a loss of test power), or arbitrary kernel choices such as the median heuristic. We prove that MMDAgg still controls the level non-asymptotically, and achieves the minimax rate over Sobolev balls, up to an iterated logarithmic term. Our guarantees are not restricted to a specific type of kernel, but hold for any product of one-dimensional translation invariant characteristic kernels. We provide a user-friendly parameter-free implementation of MMDAgg using an adaptive collection of bandwidths. We demonstrate that MMDAgg significantly outperforms alternative state-of-the-art MMD-based two-sample tests on synthetic data satisfying the Sobolev smoothness assumption, and that, on real-world image data, MMDAgg closely matches the power of tests leveraging the use of models such as neural networks.
翻訳日:2023-05-31 04:49:21 公開日:2023-05-29
# 非繰り返し時間変化システムの機械学習に基づく反復学習制御

Machine learning based iterative learning control for non-repetitive time-varying systems ( http://arxiv.org/abs/2107.00421v2 )

ライセンス: Link先を確認
Yiyang Chen, Wei Jiang and Themistoklis Charalambous(参考訳) 本報告では,反復学習制御(ILC)を用いて,繰り返し時間変化パラメータを持つ時間変化系(TVS)の繰り返し追跡タスクを実現する。 機械学習(ML)に基づく名目モデル更新機構は,ICCの性能を高めるために,現在の試験情報のみを用いて各ICCトライアルで名目モデルを更新する線形回帰手法を用いて,非繰り返しTVSに対して提案される。 ML機構が不確実性をICCの頑健な耐性に保たせることを前提として、ICC更新法が非繰り返しTVSを扱うために提案されている。 また、所望の集約性能を達成するため、MLおよびICCアルゴリズム内でパラメータをチューニングする方法も提供する。 提案手法の堅牢性と信頼性をシミュレーションにより検証した。 現在の最先端技術との比較は、制御精度において優れた制御性能を示す。 本稿では,時間不変システムから非繰り返しTVSへのICC適用を拡大し,ML回帰手法を用いて2つのICC試験の間での非繰り返し時間変動パラメータを推定し,所望の性能を実現するための詳細なパラメータチューニング機構を提案する。

The repetitive tracking task for time-varying systems (TVSs) with non-repetitive time-varying parameters, which is also called non-repetitive TVSs, is realized in this paper using iterative learning control (ILC). A machine learning (ML) based nominal model update mechanism, which utilizes the linear regression technique to update the nominal model at each ILC trial only using the current trial information, is proposed for non-repetitive TVSs in order to enhance the ILC performance. Given that the ML mechanism forces the model uncertainties to remain within the ILC robust tolerance, an ILC update law is proposed to deal with non-repetitive TVSs. How to tune parameters inside ML and ILC algorithms to achieve the desired aggregate performance is also provided. The robustness and reliability of the proposed method are verified by simulations. Comparison with current state-of-the-art demonstrates its superior control performance in terms of controlling precision. This paper broadens ILC applications from time-invariant systems to non-repetitive TVSs, adopts ML regression technique to estimate non-repetitive time-varying parameters between two ILC trials and proposes a detailed parameter tuning mechanism to achieve desired performance, which are the main contributions.
翻訳日:2023-05-31 04:47:20 公開日:2023-05-29
# フィンガープリント生成広告ネットワーク

Fingerprinting Generative Adversarial Networks ( http://arxiv.org/abs/2106.11760v3 )

ライセンス: Link先を確認
Guanlin Li, Guowen Xu, Han Qiu, Shangwei Guo, Run Wang, Jiwei Li, Tianwei Zhang, Rongxing Lu(参考訳) Generative Adversarial Networks (GAN) は様々なアプリケーションシナリオで広く利用されている。 商用のGANの製造には相当な計算資源と人的資源が必要であるため、GANの著作権保護は緊急に必要である。 本稿では,gansの知的財産(ip)保護のための最初の指紋認証方式を提案する。 我々は,従来の指紋認証手法による盗難と堅牢性のボトルネックを突破し,分類モデルをGANに導入した。 具体的には、ターゲットGANと分類器から合成ディープラーニングモデルを革新的に構築する。 そして、この複合モデルから指紋サンプルを生成し、効果的な所有権検証のために分類器に埋め込む。 このスキームは、現代のGANモデルを実質的に保護するためにいくつかの具体的な方法論を刺激する。 理論的解析は、これらの手法がIP保護に必要な異なるセキュリティ要件を満たすことを証明している。 また、我々のソリューションが既存の戦略より優れていることを示す広範な実験も行います。

Generative Adversarial Networks (GANs) have been widely used in various application scenarios. Since the production of a commercial GAN requires substantial computational and human resources, the copyright protection of GANs is urgently needed. In this paper, we present the first fingerprinting scheme for the Intellectual Property (IP) protection of GANs. We break through the stealthiness and robustness bottlenecks suffered by previous fingerprinting methods for classification models being naively transferred to GANs. Specifically, we innovatively construct a composite deep learning model from the target GAN and a classifier. Then we generate fingerprint samples from this composite model, and embed them in the classifier for effective ownership verification. This scheme inspires some concrete methodologies to practically protect the modern GAN models. Theoretical analysis proves that these methods can satisfy different security requirements necessary for IP protection. We also conduct extensive experiments to show that our solutions outperform existing strategies.
翻訳日:2023-05-31 04:46:59 公開日:2023-05-29
# 多クラス分類のためのラベル分布ロバスト損失:一貫性,ロバスト性,適応性

Label Distributionally Robust Losses for Multi-class Classification: Consistency, Robustness and Adaptivity ( http://arxiv.org/abs/2112.14869v2 )

ライセンス: Link先を確認
Dixian Zhu, Yiming Ying and Tianbao Yang(参考訳) 本研究では,分布的ロバスト最適化(dro)の観点から定式化した多クラス分類のためのラベル分散ロバスト(ldr)損失と呼ばれる損失関数の族について検討する。 この観点の利点はいくつかあります。 i) 古典的クロスエントロピー(CE)損失とSVM損失とその変種を説明する統一的なフレームワークを提供する。 (ii)広く採用されているが、よく理解されていない温度スケールのce損失に対応する特殊ファミリーを含む。 (iii)インスタンスレベルでラベル情報の不確実性度に適応することができる。 Our contributions include: (1) we study both consistency and robustness by establishing top-$k$ ($\forall k\geq 1$) consistency of LDR losses for multi-class classification, and a negative result that a top-$1$ consistent and symmetric robust loss cannot achieve top-$k$ consistency simultaneously for all $k\geq 2$; (2) we propose a new adaptive LDR loss that automatically adapts the individualized temperature parameter to the noise degree of class label of each instance; (3) we demonstrate stable and competitive performance for the proposed adaptive LDR loss on 7 benchmark datasets under 6 noisy label and 1 clean settings against 13 loss functions, and on one real-world noisy dataset. コードは \url{https://github.com/Optimization-AI/ICML2023_LDR} でオープンソース化されている。

We study a family of loss functions named label-distributionally robust (LDR) losses for multi-class classification that are formulated from distributionally robust optimization (DRO) perspective, where the uncertainty in the given label information are modeled and captured by taking the worse case of distributional weights. The benefits of this perspective are several fold: (i) it provides a unified framework to explain the classical cross-entropy (CE) loss and SVM loss and their variants, (ii) it includes a special family corresponding to the temperature-scaled CE loss, which is widely adopted but poorly understood; (iii) it allows us to achieve adaptivity to the uncertainty degree of label information at an instance level. Our contributions include: (1) we study both consistency and robustness by establishing top-$k$ ($\forall k\geq 1$) consistency of LDR losses for multi-class classification, and a negative result that a top-$1$ consistent and symmetric robust loss cannot achieve top-$k$ consistency simultaneously for all $k\geq 2$; (2) we propose a new adaptive LDR loss that automatically adapts the individualized temperature parameter to the noise degree of class label of each instance; (3) we demonstrate stable and competitive performance for the proposed adaptive LDR loss on 7 benchmark datasets under 6 noisy label and 1 clean settings against 13 loss functions, and on one real-world noisy dataset. The code is open-sourced at \url{https://github.com/Optimization-AI/ICML2023_LDR}.
翻訳日:2023-05-31 04:38:31 公開日:2023-05-29
# カーネルを用いた複合適合試験

Composite Goodness-of-fit Tests with Kernels ( http://arxiv.org/abs/2111.10275v2 )

ライセンス: Link先を確認
Oscar Key, Arthur Gretton, Fran\c{c}ois-Xavier Briol, Tamara Fernandez(参考訳) モデルの不特定は確率的モデルの実装に重大な課題を生じさせうるため、この問題を直接的に考慮する様々な堅牢な手法の開発につながっている。 しかし、これらのより関連するメソッドが必要かどうかは、モデルが本当に誤った仕様であるかどうかに依存し、この質問に答える一般的な方法が欠如している。 本稿では,そのような方法を提案する。 より正確には、あるパラメトリックな家系の任意の分布からデータが得られるかどうかに関心を持つ、難しい複合テスト問題に対するカーネルベースの仮説テストを提案する。 実験では,最小距離推定器を用いて,最大平均誤差とカーネルのスタイン誤差を推定する。 これらは広く適用可能であり、パラメトリックモデルの密度が正規化定数まで分かる場合や、モデルがシミュレータの形式を取る場合などである。 その結果,適切なテストレベルを維持しつつ,パラメータを推定し,同じデータに対して(データ分割を伴わずに)テストを行うことが可能であることが判明した。 提案手法は, 異常な非パラメトリック密度モデルの有効性の検証や, 生体細胞ネットワークの難易度生成モデルなど, 様々な問題について考察する。

Model misspecification can create significant challenges for the implementation of probabilistic models, and this has led to development of a range of robust methods which directly account for this issue. However, whether these more involved methods are required will depend on whether the model is really misspecified, and there is a lack of generally applicable methods to answer this question. In this paper, we propose one such method. More precisely, we propose kernel-based hypothesis tests for the challenging composite testing problem, where we are interested in whether the data comes from any distribution in some parametric family. Our tests make use of minimum distance estimators based on the maximum mean discrepancy and the kernel Stein discrepancy. They are widely applicable, including whenever the density of the parametric model is known up to normalisation constant, or if the model takes the form of a simulator. As our main result, we show that we are able to estimate the parameter and conduct our test on the same data (without data splitting), while maintaining a correct test level. Our approach is illustrated on a range of problems, including testing for goodness-of-fit of an unnormalised non-parametric density model, and an intractable generative model of a biological cellular network.
翻訳日:2023-05-31 04:36:54 公開日:2023-05-29
# 病理画像分類のための自己蒸留強化マスクオートエンコーダ

Self-distillation Augmented Masked Autoencoders for Histopathological Image Classification ( http://arxiv.org/abs/2203.16983v4 )

ライセンス: Link先を確認
Yang Luo, Zhineng Chen, Shengtian Zhou, Xieping Gao(参考訳) 近年, 自己教師あり学習 (SSL) は病理画像解析に注目が集まっている。 偽陰性問題に悩む対照的な学習、すなわち、意味的に類似した画像が負のサンプルとして選択されるのに対して、生成パラダイムからsslを構築するマスク付きオートエンコーダ(mae)は、おそらく適切な事前学習である。 本稿では,MAEを導入し,病理組織学的画像理解における可視パッチの効果を検証する。 さらに,自己蒸留強化MAEを実現するために,新しいSD-MAEモデルを提案する。 マスク画像パッチの再構成損失に加えて、sd-maeはさらに可視性パッチに自己蒸留損失を課し、エンコーダの浅い層の表現能力を高める。 SD-MAEを病理像分類,細胞分画,物体検出に応用した。 実験により、SD-MAEはこれらのタスクにおける他のSSLメソッドと比較して高い競合性能を示すことが示された。

Self-supervised learning (SSL) has drawn increasing attention in histopathological image analysis in recent years. Compared to contrastive learning which is troubled with the false negative problem, i.e., semantically similar images are selected as negative samples, masked autoencoders (MAE) building SSL from a generative paradigm is probably a more appropriate pre-training. In this paper, we introduce MAE and verify the effect of visible patches for histopathological image understanding. Moreover, a novel SD-MAE model is proposed to enable a self-distillation augmented MAE. Besides the reconstruction loss on masked image patches, SD-MAE further imposes the self-distillation loss on visible patches to enhance the representational capacity of the encoder located shallow layer. We apply SD-MAE to histopathological image classification, cell segmentation and object detection. Experiments demonstrate that SD-MAE shows highly competitive performance when compared with other SSL methods in these tasks.
翻訳日:2023-05-31 04:29:10 公開日:2023-05-29
# Rex: データフリーの残留量子化エラー拡大

REx: Data-Free Residual Quantization Error Expansion ( http://arxiv.org/abs/2203.14645v3 )

ライセンス: Link先を確認
Edouard Yvinec and Arnaud Dapgony and Matthieu Cord and Kevin Bailly(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、推論コストが高い。 この問題は、浮動小数点演算を低ビット幅形式に変換する量子化によって解決できる。 プライバシーの権利に関する懸念が高まる中、私たちはデータフリーの手法に取り組みます。 しかしながら、そのような技術はターゲットデバイスへの適応性の欠如に悩まされ、ハードウェアは通常特定のビット幅しかサポートしていない。 したがって、様々なデバイスに適応するために、量子化法は、各ビット幅とターゲットデバイスに対する速度トレードオフに対して適切な精度を求めるのに十分柔軟である。 これを実現するために,残差誤差展開を利用する量子化法であるRExと,グループ間隔とアンサンブル近似を用いて並列化を改善する。 RExは強力な理論的保証によって支持され、すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー)、ビット幅(int8から3次量子化まで)において優れたパフォーマンスを達成する。

Deep neural networks (DNNs) are ubiquitous in computer vision and natural language processing, but suffer from high inference cost. This problem can be addressed by quantization, which consists in converting floating point operations into a lower bit-width format. With the growing concerns on privacy rights, we focus our efforts on data-free methods. However, such techniques suffer from their lack of adaptability to the target devices, as a hardware typically only support specific bit widths. Thus, to adapt to a variety of devices, a quantization method shall be flexible enough to find good accuracy v.s. speed trade-offs for every bit width and target device. To achieve this, we propose REx, a quantization method that leverages residual error expansion, along with group sparsity and an ensemble approximation for better parallelization. REx is backed off by strong theoretical guarantees and achieves superior performance on every benchmarked application (from vision to NLP tasks), architecture (ConvNets, transformers) and bit-width (from int8 to ternary quantization).
翻訳日:2023-05-31 04:28:35 公開日:2023-05-29
# 画像伝送のための適応情報ボトルネック誘導ジョイントソースおよびチャネル符号化

Adaptive Information Bottleneck Guided Joint Source and Channel Coding for Image Transmission ( http://arxiv.org/abs/2203.06492v2 )

ライセンス: Link先を確認
Lunan Sun, Yang Yang, Mingzhe Chen, Caili Guo, Walid Saad and H. Vincent Poor(参考訳) 画像伝送のためのジョイントソースおよびチャネル符号化(JSCC)は、その堅牢性と高効率性により注目されている。 しかし,既存のディープJSCC研究は,送信情報と受信情報の歪みを最小限に抑えることに集中している。 したがって、送信レートは必要最小値よりもはるかに大きいかもしれない。 本稿では,画像伝送のための適応情報ボトルネック (IB) 誘導ジョイントソースとチャネル符号化 (AIB-JSCC) 手法を提案する。 AIB-JSCCの目的は、画像再構成品質を改善しながら伝送速度を下げることである。 特に,画像伝送のための新しいib目的を提案し,歪みと伝送速度を最小化する。 aib-jsccの損失関数として、提案された目的に対する数学的に扱いやすい下界を導出する。 圧縮と復元の質をトレードオフするため,トレーニング中の歪みに応じて動的に損失関数のハイパーパラメータを動的に調整する適応アルゴリズムを提案する。 実験の結果,AIB-JSCCは送信データ量を大幅に削減し,復元品質と下流タスク精度を向上させることができることがわかった。

Joint source and channel coding (JSCC) for image transmission has attracted increasing attention due to its robustness and high efficiency. However, the existing deep JSCC research mainly focuses on minimizing the distortion between the transmitted and received information under a fixed number of available channels. Therefore, the transmitted rate may be far more than its required minimum value. In this paper, an adaptive information bottleneck (IB) guided joint source and channel coding (AIB-JSCC) method is proposed for image transmission. The goal of AIB-JSCC is to reduce the transmission rate while improving the image reconstruction quality. In particular, a new IB objective for image transmission is proposed so as to minimize the distortion and the transmission rate. A mathematically tractable lower bound on the proposed objective is derived, and then, adopted as the loss function of AIB-JSCC. To trade off compression and reconstruction quality, an adaptive algorithm is proposed to adjust the hyperparameter of the proposed loss function dynamically according to the distortion during the training. Experimental results show that AIB-JSCC can significantly reduce the required amount of transmitted data and improve the reconstruction quality and downstream task accuracy.
翻訳日:2023-05-31 04:27:45 公開日:2023-05-29
# ポストグループフェアランキングのサンプリング

Sampling Ex-Post Group-Fair Rankings ( http://arxiv.org/abs/2203.00887v3 )

ライセンス: Link先を確認
Sruthi Gorantla, Amit Deshpande, Anand Louis(参考訳) ランダム化ランキングは、決定論的ランキングよりも、前者の公正な露出と堅牢性を達成するために、近年の関心事である。 ランダム化されたグループフェアランキングに対する自然な公理のセットを提案し、我々の公理を満たす一意の分布$D$が存在することを証明し、ポストグループフェアランキングにのみ支持される。 我々の問題定式化は、暗黙のバイアス、不完全関連情報、あるいは、関連するスコアやユーティリティ値の代わりに順序付けのみを利用できる場合にも有効です。 上記の分布からランダムグループフェアランキングをサンプリングする2つのアルゴリズムを提案する。 我々の最初の動的プログラミングに基づくアルゴリズムは、群の数である$o(k^2\ell)$でランダムにグループ-フェアランキングをランダムにサンプリングする。 第2のランダムウォークベースアルゴリズムは,全変動距離の$\delta$-close から$d$ までの分布から,グループ-fairランキングを抽出し,与えられた上界と下界に十分なギャップがある場合に,実行時間 $o^*(k^2\ell^2)$ を推定した。 前者は正確なサンプリングを行うが、後者は実世界のデータセットでより高速に動作し、より大きな値が$k$である。 実世界のデータセット上での公平性とランキングユーティリティのベースラインとアルゴリズムが好適に比較できるという実証的な証拠を提示する。

Randomized rankings have been of recent interest to achieve ex-ante fairer exposure and better robustness than deterministic rankings. We propose a set of natural axioms for randomized group-fair rankings and prove that there exists a unique distribution $D$ that satisfies our axioms and is supported only over ex-post group-fair rankings, i.e., rankings that satisfy given lower and upper bounds on group-wise representation in the top-$k$ ranks. Our problem formulation works even when there is implicit bias, incomplete relevance information, or only ordinal ranking is available instead of relevance scores or utility values. We propose two algorithms to sample a random group-fair ranking from the distribution $D$ mentioned above. Our first dynamic programming-based algorithm samples ex-post group-fair rankings uniformly at random in time $O(k^2\ell)$, where $\ell$ is the number of groups. Our second random walk-based algorithm samples ex-post group-fair rankings from a distribution $\delta$-close to $D$ in total variation distance and has expected running time $O^*(k^2\ell^2)$, when there is a sufficient gap between the given upper and lower bounds on the group-wise representation. The former does exact sampling, but the latter runs significantly faster on real-world data sets for larger values of $k$. We give empirical evidence that our algorithms compare favorably against recent baselines for fairness and ranking utility on real-world data sets.
翻訳日:2023-05-31 04:27:26 公開日:2023-05-29
# 正確なテンソルネットワーク状態のチューニングによる位相フラクトン量子相転移

Topological fracton quantum phase transitions by tuning exact tensor network states ( http://arxiv.org/abs/2203.00015v2 )

ライセンス: Link先を確認
Guo-Yi Zhu, Ji-Yao Chen, Peng Ye, Simon Trebst(参考訳) 物質結合フラクトン相はトポロジカル秩序の概念を一般化し、量子多体系における絡み合いの基本的な理解を広げる。 しかし、その解析的あるいは数値的な記述は、正確に解けるモデルを超えても、依然として非常に難しい課題である。 ここでは、原型 X 立方体フラクトンモデルの $\mathbb{Z}_N$ 一般化とその量子位相遷移を、完全トラクタブルな波動関数変形を通じて、異なる位相状態間で研究することができる正確な3次元量子テンソル-ネットワークアプローチを用いる。 我々は、(変形した)量子状態を古典格子ゲージ理論とプラケットクロックモデルの組み合わせに正確にマッピングし、様々な絡み合い順序パラメータを計算するために数値的手法を用いる。 $\mathbb{Z}_N$モデルに対して、(弱)一階フラクトン閉じ込めの族は、$N\to\infty$の極限でランダウ-ギンズバーグ-ウィルソンパラダイムを超える連続相転移に収束する。 また、3次元の共形量子臨界点(臨界磁束ループゆらぎを伴う)の列を発見し、n\to\infty$の極限ではギャップのないフラクトン状態と共存しているように見える。

Gapped fracton phases of matter generalize the concept of topological order and broaden our fundamental understanding of entanglement in quantum many-body systems. However, their analytical or numerical description beyond exactly solvable models remains a formidable challenge. Here we employ an exact 3D quantum tensor-network approach that allows us to study a $\mathbb{Z}_N$ generalization of the prototypical X cube fracton model and its quantum phase transitions between distinct topological states via fully tractable wavefunction deformations. We map the (deformed) quantum states exactly to a combination of a classical lattice gauge theory and a plaquette clock model, and employ numerical techniques to calculate various entanglement order parameters. For the $\mathbb{Z}_N$ model we find a family of (weakly) first-order fracton confinement transitions that in the limit of $N\to\infty$ converge to a continuous phase transition beyond the Landau-Ginzburg-Wilson paradigm. We also discover a line of 3D conformal quantum critical points (with critical magnetic flux loop fluctuations) which, in the $N\to\infty$ limit, appears to coexist with a gapless deconfined fracton state.
翻訳日:2023-05-31 04:26:52 公開日:2023-05-29
# 測地線距離空間における sion のミニマックス定理とリーマン超勾配アルゴリズム

Sion's Minimax Theorem in Geodesic Metric Spaces and a Riemannian Extragradient Algorithm ( http://arxiv.org/abs/2202.06950v2 )

ライセンス: Link先を確認
Peiyuan Zhang, Jingzhao Zhang, Suvrit Sra(参考訳) サドルポイントが存在するか、あるいは非凸非凸問題に近似可能であるかを決めることは、通常難解である。 本稿では, トラクタブルなミニマックス問題の幅広いクラスを理解するための一歩を踏み出した。 具体的には、測地線距離空間上のミニマックス問題を研究し、通常の凸凸凹点問題を広範囲に一般化する。 論文の最初の結果は、シオンのミニマックス定理の測地的距離空間バージョンであり、我々の証明は、有限交叉性のみに依存するため、新しく広くアクセス可能であると信じている。 2つ目の主な結果は、測地的に完備なリーマン多様体への特殊化である: ここでは、滑らかなミニマックス問題に対する一階法の複雑さを考案し解析する。

Deciding whether saddle points exist or are approximable for nonconvex-nonconcave problems is usually intractable. This paper takes a step towards understanding a broad class of nonconvex-nonconcave minimax problems that do remain tractable. Specifically, it studies minimax problems over geodesic metric spaces, which provide a vast generalization of the usual convex-concave saddle point problems. The first main result of the paper is a geodesic metric space version of Sion's minimax theorem; we believe our proof is novel and broadly accessible as it relies on the finite intersection property alone. The second main result is a specialization to geodesically complete Riemannian manifolds: here, we devise and analyze the complexity of first-order methods for smooth minimax problems.
翻訳日:2023-05-31 04:26:29 公開日:2023-05-29
# metalr: 医療画像におけるトランスファー学習の学習率のメタチューニング

MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical Imaging ( http://arxiv.org/abs/2206.01408v2 )

ライセンス: Link先を確認
Yixiong Chen, Li Liu, Jingxian Li, Hua Jiang, Chris Ding, Zongwei Zhou(参考訳) 医用画像解析において、転送学習は、限られた医療データに基づいてよく一般化するディープニューラルネットワーク(DNN)の強力な方法である。 これまでの取り組みは, 肺超音波, 胸部X線, 肝CTなどの領域の領域間隙を埋める事前訓練アルゴリズムの開発に重点を置いてきた。 しかし, モデル微調整は, 課題に医療知識を適応させる上でも重要な役割を担っている。 一般的な微調整方法は、手動で転送可能な層(例えば最後の数層)を選択して更新することである。 本研究では,メタ学習に基づくLRチューナであるMetaLRを提案する。 MetaLRは、異なるレイヤに対する適切なLRをオンラインで学習し、高度に転送可能なレイヤが、医療的な表現能力を忘れて、新しいドメインに積極的に適応するために、転送可能なレイヤを駆動するのを防ぐ。 様々な医学応用に関する大規模な実験により、MetaLRは従来のSOTA(State-of-the-art)ファインチューニング戦略よりも優れていることが示された。 コードはリリースされている。

In medical image analysis, transfer learning is a powerful method for deep neural networks (DNNs) to generalize well on limited medical data. Prior efforts have focused on developing pre-training algorithms on domains such as lung ultrasound, chest X-ray, and liver CT to bridge domain gaps. However, we find that model fine-tuning also plays a crucial role in adapting medical knowledge to target tasks. The common fine-tuning method is manually picking transferable layers (e.g., the last few layers) to update, which is labor-expensive. In this work, we propose a meta-learning-based LR tuner, named MetaLR, to make different layers automatically co-adapt to downstream tasks based on their transferabilities across domains. MetaLR learns appropriate LRs for different layers in an online manner, preventing highly transferable layers from forgetting their medical representation abilities and driving less transferable layers to adapt actively to new domains. Extensive experiments on various medical applications show that MetaLR outperforms previous state-of-the-art (SOTA) fine-tuning strategies. Codes are released.
翻訳日:2023-05-31 04:20:42 公開日:2023-05-29
# 複数環境を用いた観測データ中の隠れた境界検出

Detecting hidden confounding in observational data using multiple environments ( http://arxiv.org/abs/2205.13935v3 )

ライセンス: Link先を確認
Rickard K.A. Karlsson, Jesse H. Krijthe(参考訳) 観測データからの因果推論における一般的な仮定は、隠れた共起がないことである。 しかし、一般にこの仮定を単一のデータセットから検証することは不可能である。 データ生成プロセスの基盤となる独立した因果メカニズムの仮定の下で、異なる環境からの複数の観測データセットを持つ際に、観察されていない共同創設者を検出する方法を示す。 本論では, 仮説に反する事例(退化・依存機構, 忠実度違反)を隠蔽した場合にのみ欠落するテスト可能な条件不依存性の理論を提案する。 さらに、実世界のデータセットに基づくシミュレーション研究と半合成データを用いて、これらの非依存性を検証し、その経験的有限サンプル挙動を研究する手順を提案する。 ほとんどの場合、提案手法は隠れた共起の存在を正しく予測し、特に共起バイアスが大きい場合にはその存在を正しく予測する。

A common assumption in causal inference from observational data is that there is no hidden confounding. Yet it is, in general, impossible to verify this assumption from a single dataset. Under the assumption of independent causal mechanisms underlying the data-generating process, we demonstrate a way to detect unobserved confounders when having multiple observational datasets coming from different environments. We present a theory for testable conditional independencies that are only absent when there is hidden confounding and examine cases where we violate its assumptions: degenerate & dependent mechanisms, and faithfulness violations. Additionally, we propose a procedure to test these independencies and study its empirical finite-sample behavior using simulation studies and semi-synthetic data based on a real-world dataset. In most cases, the proposed procedure correctly predicts the presence of hidden confounding, particularly when the confounding bias is large.
翻訳日:2023-05-31 04:20:19 公開日:2023-05-29
# 嗜好誘発を伴うパーソナライズされたアルゴリズムリアクション

Personalized Algorithmic Recourse with Preference Elicitation ( http://arxiv.org/abs/2205.13743v3 )

ライセンス: Link先を確認
Giovanni De Toni, Paolo Viappiani, Stefano Teso, Bruno Lepri, Andrea Passerini(参考訳) algorithmic recourse (ar) は、ユーザが一度実行したアクションのシーケンスを計算することで、望ましくないマシン決定を覆す問題である。 アクションのシーケンスはユーザが実装するために必要な労力をあまり必要としないのが最重要視されている。 しかし、ARに対するほとんどのアプローチは、アクションがすべてのユーザにとって同じコストであると考えており、そのため特定のユーザに不公平に高価なリコースプランを推奨する可能性がある。 この観察から得られたPEARは、エンドユーザーのニーズに合わせてパーソナライズされたアルゴリズムによるリコースを提供する最初の人道支援手法である。 PEARは、ベイジアン選好引用からの洞察に基づいて、ターゲットユーザに対して選択セットクエリを尋ねることで、アクションのコストを反復的に見積もる。 クエリ自体は、コスト見積とユーザの応答の両方について不確実性を考慮した情報ゲインの原則尺度である選択の期待効用を最大化することによって計算される。 PEARは、Reinforcement LearningエージェントとMonte Carlo Tree Searchを統合して、有望なリコース計画を素早く特定する。 実世界のデータセットに対する実証的な評価は、PEARがいかに高品質なパーソナライズされたリコースをほんの数イテレーションで生成するかを強調します。

Algorithmic Recourse (AR) is the problem of computing a sequence of actions that -- once performed by a user -- overturns an undesirable machine decision. It is paramount that the sequence of actions does not require too much effort for users to implement. Yet, most approaches to AR assume that actions cost the same for all users, and thus may recommend unfairly expensive recourse plans to certain users. Prompted by this observation, we introduce PEAR, the first human-in-the-loop approach capable of providing personalized algorithmic recourse tailored to the needs of any end-user. PEAR builds on insights from Bayesian Preference Elicitation to iteratively refine an estimate of the costs of actions by asking choice set queries to the target user. The queries themselves are computed by maximizing the Expected Utility of Selection, a principled measure of information gain accounting for uncertainty on both the cost estimate and the user's responses. PEAR integrates elicitation into a Reinforcement Learning agent coupled with Monte Carlo Tree Search to quickly identify promising recourse plans. Our empirical evaluation on real-world datasets highlights how PEAR produces high-quality personalized recourse in only a handful of iterations.
翻訳日:2023-05-31 04:20:06 公開日:2023-05-29
# BITE:反復トリガー注入によるテキストバックドア攻撃

BITE: Textual Backdoor Attacks with Iterative Trigger Injection ( http://arxiv.org/abs/2205.12700v3 )

ライセンス: Link先を確認
Jun Yan, Vansh Gupta, Xiang Ren(参考訳) バックドア攻撃はNLPシステムにとって新たな脅威となっている。 有害なトレーニングデータを提供することにより、敵は被害者モデルに"バックドア"を埋め込むことができ、敵の選択のターゲットラベルとして予測される特定のテキストパターン(例えばキーワードを含む)を満たす入力インスタンスを実行できる。 本稿では、ステルス性(すなわち、目立たない)と有効性(すなわち、高い攻撃成功率)の両方を有するバックドア攻撃を設計できることを実証する。 ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するために、トレーニングデータに毒を盛るバックドア攻撃であるbitchを提案する。 これらのトリガーワードは、自然言語レベルの摂動を通じて反復的に識別され、ターゲットラベルインスタンスに注入される。 有毒なトレーニングデータは、被害者モデルにトリガーワードを含む入力に対してターゲットラベルを予測させ、バックドアを形成する。 4つのテキスト分類データセットにおける実験により,提案手法がベースライン手法よりも有意に有効であること,また,信頼できないトレーニングデータの使用に対する警告が高まること,などが示されている。 さらに,提案手法であるdebite(デビット)は,他のバックドア攻撃に対する対処法として,既存の手法よりも優れた防御法である。

Backdoor attacks have become an emerging threat to NLP systems. By providing poisoned training data, the adversary can embed a "backdoor" into the victim model, which allows input instances satisfying certain textual patterns (e.g., containing a keyword) to be predicted as a target label of the adversary's choice. In this paper, we demonstrate that it is possible to design a backdoor attack that is both stealthy (i.e., hard to notice) and effective (i.e., has a high attack success rate). We propose BITE, a backdoor attack that poisons the training data to establish strong correlations between the target label and a set of "trigger words". These trigger words are iteratively identified and injected into the target-label instances through natural word-level perturbations. The poisoned training data instruct the victim model to predict the target label on inputs containing trigger words, forming the backdoor. Experiments on four text classification datasets show that our proposed attack is significantly more effective than baseline methods while maintaining decent stealthiness, raising alarm on the usage of untrusted training data. We further propose a defense method named DeBITE based on potential trigger word removal, which outperforms existing methods in defending against BITE and generalizes well to handling other backdoor attacks.
翻訳日:2023-05-31 04:19:44 公開日:2023-05-29
# qampari: 複数の段落から多くの回答を持つ質問に対するオープンドメイン質問応答ベンチマーク

QAMPARI: An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs ( http://arxiv.org/abs/2205.12665v4 )

ライセンス: Link先を確認
Samuel Joseph Amouyal, Tomer Wolfson, Ohad Rubin, Ori Yoran, Jonathan Herzig, Jonathan Berant(参考訳) オープンドメイン質問応答(ODQA)の既存のベンチマークは、通常、1段落から回答を抽出できる質問に焦点を当てる。 対照的に、「ブルックリン・ネッツによってどの選手がドラフトされたか」のような多くの自然な質問は回答のリストを持っている。 このような質問に答えるには、大きなコーパスで、多くの節から検索し、読み取る必要がある。 本稿では,質問応答がエンティティのリストであるODQAベンチマークであるQAMPARIを紹介する。 私たちはQAMPARIを作りました。 (a)ウィキペディアの知識グラフと表から複数の回答で質問を生成する。 b) ウィキペディアの段落において,回答と証拠とを自動でペアリングし, (c) 質問を手動で言い換えて各回答を検証する。 我々は、検索・読解系からODQAモデルを訓練し、QAMPARIは経路検索と解答生成の両方の観点から困難であり、F1スコアが32.8に達する。 この結果から,単問,複数問,多問など幅広い質問タイプを扱うODQAモデルの開発の必要性が示唆された。

Existing benchmarks for open-domain question answering (ODQA) typically focus on questions whose answers can be extracted from a single paragraph. By contrast, many natural questions, such as "What players were drafted by the Brooklyn Nets?" have a list of answers. Answering such questions requires retrieving and reading from many passages, in a large corpus. We introduce QAMPARI, an ODQA benchmark, where question answers are lists of entities, spread across many paragraphs. We created QAMPARI by (a) generating questions with multiple answers from Wikipedia's knowledge graph and tables, (b) automatically pairing answers with supporting evidence in Wikipedia paragraphs, and (c) manually paraphrasing questions and validating each answer. We train ODQA models from the retrieve-and-read family and find that QAMPARI is challenging in terms of both passage retrieval and answer generation, reaching an F1 score of 32.8 at best. Our results highlight the need for developing ODQA models that handle a broad range of question types, including single and multi-answer questions.
翻訳日:2023-05-31 04:19:03 公開日:2023-05-29
# マスクの背後にあるもの:グラフオートエンコーダのマスク付きグラフモデリングを理解する

What's Behind the Mask: Understanding Masked Graph Modeling for Graph Autoencoders ( http://arxiv.org/abs/2205.10053v2 )

ライセンス: Link先を確認
Jintang Li, Ruofan Wu, Wangbin Sun, Liang Chen, Sheng Tian, Liang Zhu, Changhua Meng, Zibin Zheng, Weiqiang Wang(参考訳) 過去数年間、マスク付きオートエンコーディングと呼ばれる有望な自己教師型学習戦略の出現を目撃してきた。 しかし、グラフオートエンコーダ(GAE)にマスキングがどのように重要かを理論的に理解していない。 本研究では,グラフ構造化データを対象とした自己教師型学習フレームワークMaskGAEを提案する。 標準的なGAEとは異なり、MaskGAEはマスク付きグラフモデリング(MGM)を原則的なプリテキストタスクとして採用している。 MGMがGAEのより良い表現を学べるかどうかを理解するために、我々はこの前提課題の利点を包括的に正当化する理論的証拠と経験的証拠の両方を提供する。 理論的には、GAEとコントラスト学習の密接な関係を確立し、MGMがGAEの自己教師型学習方式を著しく改善することを示す。 実験では,様々なグラフベンチマークを用いて広範囲な実験を行い,リンク予測とノード分類タスクの両方においてマスケエの優位を示す。

The last years have witnessed the emergence of a promising self-supervised learning strategy, referred to as masked autoencoding. However, there is a lack of theoretical understanding of how masking matters on graph autoencoders (GAEs). In this work, we present masked graph autoencoder (MaskGAE), a self-supervised learning framework for graph-structured data. Different from standard GAEs, MaskGAE adopts masked graph modeling (MGM) as a principled pretext task - masking a portion of edges and attempting to reconstruct the missing part with partially visible, unmasked graph structure. To understand whether MGM can help GAEs learn better representations, we provide both theoretical and empirical evidence to comprehensively justify the benefits of this pretext task. Theoretically, we establish close connections between GAEs and contrastive learning, showing that MGM significantly improves the self-supervised learning scheme of GAEs. Empirically, we conduct extensive experiments on a variety of graph benchmarks, demonstrating the superiority of MaskGAE over several state-of-the-arts on both link prediction and node classification tasks.
翻訳日:2023-05-31 04:18:45 公開日:2023-05-29
# 圧縮経験的測度(有限次元)

Compressed Empirical Measures (in finite dimensions) ( http://arxiv.org/abs/2204.08847v2 )

ライセンス: Link先を確認
Steffen Gr\"unew\"alder(参考訳) 有限次元再生カーネルヒルベルト空間(RKHS)の文脈における経験的尺度の圧縮手法について検討する。 この文脈では、経験的測度は自然凸集合の中に含まれており、凸最適化法を用いて近似することができる。 そのようなコアセットがどれほど大きいかを制御する重要な量は、経験的凸集合に含まれる経験的測度の周りにある最大の球の大きさである。 私たちの研究の大部分は、様々な条件下でボールの大きさの高確率下限を導出することに関するものです。 我々は、カーネルリッジ回帰のような具体的な推論問題に圧縮アプローチを適用する技術を開発することで、下界のこの導出を補完する。 無限次元のRKHSの構成は圧縮が貧弱であり、無限次元のRKHSに移動しようとする際に直面する困難を浮き彫りにする。

We study approaches for compressing the empirical measure in the context of finite dimensional reproducing kernel Hilbert spaces (RKHSs).In this context, the empirical measure is contained within a natural convex set and can be approximated using convex optimization methods.Such an approximation gives under certain conditions rise to a coreset of data points. A key quantity that controls how large such a coreset has to be is the size of the largest ball around the empirical measure that is contained within the empirical convex set. The bulk of our work is concerned with deriving high probability lower bounds on the size of such a ball under various conditions. We complement this derivation of the lower bound by developing techniques that allow us to apply the compression approach to concrete inference problems such as kernel ridge regression. We conclude with a construction of an infinite dimensional RKHS for which the compression is poor, highlighting some of the difficulties one faces when trying to move to infinite dimensional RKHSs.
翻訳日:2023-05-31 04:17:47 公開日:2023-05-29
# 量子論における自由落下非普遍性

Free-fall non-universality in quantum theory ( http://arxiv.org/abs/2204.03279v4 )

ライセンス: Link先を確認
Viacheslav A. Emelyanov(参考訳) アインシュタイン同値原理 - 局所ポアンカル\'{e}不変性 - を具体化し、波動関数の拡散が自由落下の普遍性、すなわち量子(テスト)粒子の自由落下軌道が内部特性に依存することを量子論の一般共分散(英語版)(general covariance)として示す。 原子干渉法で測定可能なE\"{o}tv\"{o}sパラメータを用いて、自由落下非均一性の定量的推定を行う。

We show by embodying the Einstein equivalence principle - local Poincar\'{e} invariance - and general covariance in quantum theory that wave-function spreading rules out the universality of free fall, i.e. the free-fall trajectory of a quantum (test) particle depends on its internal properties. We provide a quantitative estimate of the free-fall non-universality in terms of the E\"{o}tv\"{o}s parameter, which turns out to be measurable in atom interferometry.
翻訳日:2023-05-31 04:17:25 公開日:2023-05-29
# 社会5.0への転換におけるオープンデータの役割 : SDG準拠のスマートリビングのためのリソースかツールか?

The role of open data in the transformation to Society 5.0: a resource or a tool for SDG-compliant Smart Living? ( http://arxiv.org/abs/2206.11784v3 )

ライセンス: Link先を確認
Anastasija Nikiforova, Miguel Angel Alor Flores and Miltiadis D. Lytras(参考訳) オープンデータは、多くの経済的、技術的、革新的、社会的利益によって特徴づけられる。 彼らは市のスマートシティへの転換に大きく貢献していると見られている。 これは、社会が社会5.0の境にいるとき、つまり情報社会から超スマートな社会や想像の社会へと移行するときに、さらに大きな意味を持つ。 しかし、オープンデータの専門家から常に聞かれる質問は、 約束の利益を達成するために、満たし満足すべき重要な要素は何か? オープンネスの現在の傾向は、オープンネスの原則がデータだけでなく、研究、教育、ソフトウェア、標準、ハードウェア等によって従わなければならないことを示唆している。 これにより、透明性の向上、不平等の排除、促進、持続可能な開発目標の達成が保証される。 したがって、現在では多くの議題が前提条件として開放性を持っている。 本章は、オープン(政府)データの概念と、その共通の目的を指摘するSociety 5.0を扱い、スマートシティにおけるオープンデータの使用やスマートシティへの都市転換の成功事例を提供し、それらをSociety 5.0の特徴にマッピングする。 我々はこの傾向が「オープンデータ駆動型社会」と呼ばれる新しい形態の社会を発達させると考えている。 この橋はSociety 4.0からSociety 5.0に架けられている。 本章では,人間中心のスマートソサエティ,スマートシティ,スマートリビングの促進におけるオープンネスの役割を明らかにする。

Open data are characterized by a number of economic, technological, innovative and social benefits. They are seen as a significant contributor to the city's transformation into Smart City. This is all the more so when the society is on the border of Society 5.0, i.e., shift from the information society to a super smart society or society of imagination takes place. However, the question constantly asked by open data experts is, what are the key factors to be met and satisfied in order to achieve promised benefits? The current trend of openness suggests that the principle of openness should be followed not only by data but also research, education, software, standard, hardware etc., it should become a philosophy to be followed at different levels, in different domains. This should ensure greater transparency, eliminating inequalities, promoting, and achieving sustainable development goals. Therefore, many agendas now have openness as a prerequisite. This chapter deals with concepts of open (government) data and Society 5.0 pointing to their common objectives, providing some success stories of open data use in smart cities or transformation of cities towards smart cities, mapping them to the features of the Society 5.0. We believe that this trend develops a new form of society, which we refer to as "open data-driven society". It forms a bridge from Society 4.0 to Society 5.0. This Chapter attempts to identify the role of openness in promoting human-centric Smart Society, Smart city, and Smart Living.
翻訳日:2023-05-31 04:10:13 公開日:2023-05-29
# 部分的クライアント参加によるフェデレーション学習のためのアンカーサンプリング

Anchor Sampling for Federated Learning with Partial Client Participation ( http://arxiv.org/abs/2206.05891v2 )

ライセンス: Link先を確認
Feijie Wu, Song Guo, Zhihao Qu, Shiqi He, Ziming Liu, Jing Gao(参考訳) 完全なクライアント参加と比較すると、部分的なクライアント参加は連合学習においてより実用的なシナリオであるが、データの多様性のような連合学習におけるいくつかの課題を増幅する可能性がある。 部分的なクライアント参加における非アクティブなクライアントのアップデートの欠如により、モデル集約が完全なクライアント参加に基づいて集約から逸脱する可能性が高くなる。 個々のクライアントに対する大規模なバッチによるトレーニングは、一般的にデータの多様性に対処するために提案されているが、部分的なクライアント参加による効果は明確ではない。 これらの課題に乗じて,フェデラルクライアント参加のためのフェデラルラーニングフレームワークであるFedAMDを開発することを提案する。 コアとなるアイデアはアンカーサンプリングで、部分的な参加者をアンカーグループとマイナーグループに分離する。 アンカーグループの各クライアントは、大きなバッチを使用して勾配計算を行うローカルブルジーを目標としている。 ブルシーズによってガイドされ、マイナーグループのクライアントは、小さなバッチを使用して複数のほぼ最適のローカルアップデートを実行し、グローバルモデルを更新します。 2つのグループの結果を統合することで、feedamdはトレーニングプロセスを加速し、モデルのパフォーマンスを向上させることができる。 FedAMDは$\epsilon$-approximationによって測定され、最先端の手法と比較して、非凸目的の下での通信ラウンドの少ない$O(1/\epsilon)$収束を達成する。 実世界のデータセットに関する実証的研究は、feedamdの有効性を検証し、提案アルゴリズムの優れていることを示す。

Compared with full client participation, partial client participation is a more practical scenario in federated learning, but it may amplify some challenges in federated learning, such as data heterogeneity. The lack of inactive clients' updates in partial client participation makes it more likely for the model aggregation to deviate from the aggregation based on full client participation. Training with large batches on individual clients is proposed to address data heterogeneity in general, but their effectiveness under partial client participation is not clear. Motivated by these challenges, we propose to develop a novel federated learning framework, referred to as FedAMD, for partial client participation. The core idea is anchor sampling, which separates partial participants into anchor and miner groups. Each client in the anchor group aims at the local bullseye with the gradient computation using a large batch. Guided by the bullseyes, clients in the miner group steer multiple near-optimal local updates using small batches and update the global model. By integrating the results of the two groups, FedAMD is able to accelerate the training process and improve the model performance. Measured by $\epsilon$-approximation and compared to the state-of-the-art methods, FedAMD achieves the convergence by up to $O(1/\epsilon)$ fewer communication rounds under non-convex objectives. Empirical studies on real-world datasets validate the effectiveness of FedAMD and demonstrate the superiority of the proposed algorithm: Not only does it considerably save computation and communication costs, but also the test accuracy significantly improves.
翻訳日:2023-05-31 04:09:04 公開日:2023-05-29
# 確率勾配に基づくサンプリングにおけるCLT構造の利用 : 解析と高速アルゴリズムの改良

Utilising the CLT Structure in Stochastic Gradient based Sampling : Improved Analysis and Faster Algorithms ( http://arxiv.org/abs/2206.03792v4 )

ライセンス: Link先を確認
Aniket Das, Dheeraj Nagaraj and Anant Raj(参考訳) 本稿では,SGLD(Stochastic Gradient Langevin Dynamics)やIPD(Interacting Particle Dynamcs)のためのRBM(Random Batch Method)などのサンプリングアルゴリズムの確率近似について考察する。 確率近似によって生じる雑音は、中央極限定理(CLT)によりほぼガウス的であり、ブラウン運動はまさにガウス的である。 この構造を利用して拡散過程内の確率近似誤差を吸収し、これらのアルゴリズムに対する収束保証を改善する。 SGLDの場合、ターゲット密度が対数ソボレフ不等式を満たすことを前提として、均一な温暖開始を必要としないKL分散の最初の安定収束速度を証明した。 以上の結果から, 先行研究と比較して, 比較的軽度な仮定の下で, 第一次オラクル複雑性が優れていることが示唆された。 また, H\"{o}lder smoothness や Poincare inequality といった,より弱い条件下でのSGLDの保証も証明し, LMC と SGLD の最先端保証とのギャップを埋める。 本解析は, 拡散強度の再スケーリングにより, 確率近似により生じる付加ノイズを補正する共分散補正と呼ばれる新しいアルゴリズムを動機付ける。 最後に,本手法をrbm分析に適用し,最小限の仮定の下で,先行研究(地平線上の指数依存の除去など)における保証を大幅に改善した。

We consider stochastic approximations of sampling algorithms, such as Stochastic Gradient Langevin Dynamics (SGLD) and the Random Batch Method (RBM) for Interacting Particle Dynamcs (IPD). We observe that the noise introduced by the stochastic approximation is nearly Gaussian due to the Central Limit Theorem (CLT) while the driving Brownian motion is exactly Gaussian. We harness this structure to absorb the stochastic approximation error inside the diffusion process, and obtain improved convergence guarantees for these algorithms. For SGLD, we prove the first stable convergence rate in KL divergence without requiring uniform warm start, assuming the target density satisfies a Log-Sobolev Inequality. Our result implies superior first-order oracle complexity compared to prior works, under significantly milder assumptions. We also prove the first guarantees for SGLD under even weaker conditions such as H\"{o}lder smoothness and Poincare Inequality, thus bridging the gap between the state-of-the-art guarantees for LMC and SGLD. Our analysis motivates a new algorithm called covariance correction, which corrects for the additional noise introduced by the stochastic approximation by rescaling the strength of the diffusion. Finally, we apply our techniques to analyze RBM, and significantly improve upon the guarantees in prior works (such as removing exponential dependence on horizon), under minimal assumptions.
翻訳日:2023-05-31 04:08:18 公開日:2023-05-29
# SGDによる深部ニューラルネットワークの一般化誤差境界

Generalization Error Bounds for Deep Neural Networks Trained by SGD ( http://arxiv.org/abs/2206.03299v2 )

ライセンス: Link先を確認
Mingze Wang, Chao Ma(参考訳) 確率勾配降下(sgd)によって訓練された深層ニューラルネットワークの一般化誤差境界は、パラメータノルムに基づく適切なパラメータノルムの動的制御とラデマシェ複雑性推定を組み合わせたものである。 境界はトレーニング軌道に沿った損失に明示的に依存し、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)を含む幅広いネットワークアーキテクチャで動作する。 均一な安定性に基づく境界のようなアルゴリズム依存の一般化推定と比較すると、我々の境界は非凸損失関数の$L$-smoothnessを必要とせず、SGLD(Stochastic Langevin gradient descent)の代わりに直接SGDに適用できる。 数値計算の結果,オプティマイザとネットワークハイパーパラメータの変化に伴い,境界は空白かつ頑健であることが判明した。

Generalization error bounds for deep neural networks trained by stochastic gradient descent (SGD) are derived by combining a dynamical control of an appropriate parameter norm and the Rademacher complexity estimate based on parameter norms. The bounds explicitly depend on the loss along the training trajectory, and work for a wide range of network architectures including multilayer perceptron (MLP) and convolutional neural networks (CNN). Compared with other algorithm-depending generalization estimates such as uniform stability-based bounds, our bounds do not require $L$-smoothness of the nonconvex loss function, and apply directly to SGD instead of Stochastic Langevin gradient descent (SGLD). Numerical results show that our bounds are non-vacuous and robust with the change of optimizer and network hyperparameters.
翻訳日:2023-05-31 04:07:50 公開日:2023-05-29
# 訓練軽度パラメータ化ニューラルネットワークの初期収束と大域収束

Early Stage Convergence and Global Convergence of Training Mildly Parameterized Neural Networks ( http://arxiv.org/abs/2206.02139v3 )

ライセンス: Link先を確認
Mingze Wang, Chao Ma(参考訳) ランダム初期化から始まる軽度パラメータ化ニューラルネットワークのトレーニングにおけるGDとSGDの収束性について検討した。 最も一般的に使われる正方形損失とクロスエントロピー損失を含む、幅広いモデルと損失関数に対して、 ``early stage convergence'' の結果が証明される。 トレーニングの初期段階において、損失はかなりの量減少し、この減少は高速であることを示す。 furthurmore, 指数型損失関数について, トレーニングデータに対するいくつかの仮定の下で, gd のグローバル収束を示す。 極端に過度なパラメータ化に頼る代わりに、我々の研究はニューロンの活性化パターンの顕微鏡分析に基づいており、勾配のより強力な下界の導出に役立つ。 と呼ばれる活性化パターンの結果は、ニューラルネットワークのトレーニングダイナミクスの振る舞いを理解するための直感を構築するのに役立ち、独立した関心を持つかもしれない。

The convergence of GD and SGD when training mildly parameterized neural networks starting from random initialization is studied. For a broad range of models and loss functions, including the most commonly used square loss and cross entropy loss, we prove an ``early stage convergence'' result. We show that the loss is decreased by a significant amount in the early stage of the training, and this decrease is fast. Furthurmore, for exponential type loss functions, and under some assumptions on the training data, we show global convergence of GD. Instead of relying on extreme over-parameterization, our study is based on a microscopic analysis of the activation patterns for the neurons, which helps us derive more powerful lower bounds for the gradient. The results on activation patterns, which we call ``neuron partition'', help build intuitions for understanding the behavior of neural networks' training dynamics, and may be of independent interest.
翻訳日:2023-05-31 04:07:33 公開日:2023-05-29
# 高次元線形学習のためのロバスト手法

Robust Methods for High-Dimensional Linear Learning ( http://arxiv.org/abs/2208.05447v2 )

ライセンス: Link先を確認
Ibrahim Merad and St\'ephane Ga\"iffas(参考訳) 高次元バッチ設定において統計的にロバストで計算効率の良い線形学習法を提案する。 一般学習環境では,損失関数が勾配リプシッツであるか否かに応じて2つのアルゴリズムを用いる。 次に,vanilla sparse,group-sparse,low-rank matrix recoveryなど,いくつかのアプリケーションでフレームワークをインスタンス化する。 これにより、各アプリケーションに対して、重み付き分布と外れ値の存在下で最適に近い推定率に達する効率的で堅牢な学習アルゴリズムが導かれる。 バニラ$sparsityの場合、非ロバストアナログと同等の計算コストで、ヘビーテールと\eta$-coruptionの下で$s\log (d)/n$レートに達することができる。 我々は,論文で提案されている他の手法との比較とともに,理論的な結果を確認する数値実験を行うことにより,オープンソース$\matht{Python}$ライブラリ$\mathtt{linlearn}$でアルゴリズムの効率的な実装を提供する。

We propose statistically robust and computationally efficient linear learning methods in the high-dimensional batch setting, where the number of features $d$ may exceed the sample size $n$. We employ, in a generic learning setting, two algorithms depending on whether the considered loss function is gradient-Lipschitz or not. Then, we instantiate our framework on several applications including vanilla sparse, group-sparse and low-rank matrix recovery. This leads, for each application, to efficient and robust learning algorithms, that reach near-optimal estimation rates under heavy-tailed distributions and the presence of outliers. For vanilla $s$-sparsity, we are able to reach the $s\log (d)/n$ rate under heavy-tails and $\eta$-corruption, at a computational cost comparable to that of non-robust analogs. We provide an efficient implementation of our algorithms in an open-source $\mathtt{Python}$ library called $\mathtt{linlearn}$, by means of which we carry out numerical experiments which confirm our theoretical findings together with a comparison to other recent approaches proposed in the literature.
翻訳日:2023-05-31 03:53:18 公開日:2023-05-29
# 多様体仮説の下での消音拡散モデルの収束

Convergence of denoising diffusion models under the manifold hypothesis ( http://arxiv.org/abs/2208.05314v2 )

ライセンス: Link先を確認
Valentin De Bortoli(参考訳) 雑音拡散モデル(denoising diffusion model)は、画像および音声合成における最先端のパフォーマンスを示す最近の生成モデルである。 そのようなモデルは、目標分布から基準密度(通常ガウス的)へのフォワードノイズ過程の時間反転を近似する。 その強い経験的結果にもかかわらず、そのようなモデルの理論的解析は限定的である。 特に、全ての現在のアプローチは、目標密度がルベーグ測度の密度 w.r.t を持つことを決定的に仮定している。 これは、対象分布が低次元多様体上でサポートされたり、経験的分布によって与えられるような設定はカバーしない。 本稿では,拡散モデルに対する最初の収束結果を提供することにより,このギャップを橋渡しする。 特に,対象データ分布と拡散モデルの生成分布との間には,次数1のワッサーシュタイン距離の定量的な境界がある。

Denoising diffusion models are a recent class of generative models exhibiting state-of-the-art performance in image and audio synthesis. Such models approximate the time-reversal of a forward noising process from a target distribution to a reference density, which is usually Gaussian. Despite their strong empirical results, the theoretical analysis of such models remains limited. In particular, all current approaches crucially assume that the target density admits a density w.r.t. the Lebesgue measure. This does not cover settings where the target distribution is supported on a lower-dimensional manifold or is given by some empirical distribution. In this paper, we bridge this gap by providing the first convergence results for diffusion models in this more general setting. In particular, we provide quantitative bounds on the Wasserstein distance of order one between the target data distribution and the generative distribution of the diffusion model.
翻訳日:2023-05-31 03:52:39 公開日:2023-05-29
# 高ダイナミックレンジイメージングのためのディーププログレッシブ特徴集約ネットワーク

Deep Progressive Feature Aggregation Network for High Dynamic Range Imaging ( http://arxiv.org/abs/2208.02448v2 )

ライセンス: Link先を確認
Jun Xiao, Qian Ye, Tianshan Liu, Cong Zhang, Kin-Man Lam(参考訳) 高ダイナミックレンジイメージング(HDR)は、照明の異なるシーンでよく露出した画像を生成することを目的とした画像処理において重要な課題である。 既存のマルチ露光融合法は目覚ましい結果を得たが、動的シーンで高品質なHDR画像を生成することは依然として困難である。 主な課題は、低ダイナミックレンジ画像と露出領域の歪んだコンテンツの間の物体の動きによって引き起こされるアーティファクトのゴーストである。 本稿では,ダイナミックシーンのhdr画像品質を向上させるための,深層プログレッシブ特徴集約ネットワークを提案する。 対象運動の課題に対処するため,提案手法は暗黙的に高対応特徴を抽出し,それらを粗大に集約してアライメントする。 さらに、離散ウェーブレット変換に基づく密結合ネットワーク構造を採用し、入力特徴を複数の周波数サブバンドに分解し、劣化したコンテンツを適応的に復元することを目的とする。 実験により,提案手法は,他の有望なhdr撮像法と比較して,異なる場面で最先端の性能を実現することができることを示した。 具体的には,本手法により生成されたHDR画像は,よりクリーンで詳細な内容を含み,歪みが少なく,視覚的品質が向上する。

High dynamic range (HDR) imaging is an important task in image processing that aims to generate well-exposed images in scenes with varying illumination. Although existing multi-exposure fusion methods have achieved impressive results, generating high-quality HDR images in dynamic scenes is still difficult. The primary challenges are ghosting artifacts caused by object motion between low dynamic range images and distorted content in under and overexposed regions. In this paper, we propose a deep progressive feature aggregation network for improving HDR imaging quality in dynamic scenes. To address the issues of object motion, our method implicitly samples high-correspondence features and aggregates them in a coarse-to-fine manner for alignment. In addition, our method adopts a densely connected network structure based on the discrete wavelet transform, which aims to decompose the input features into multiple frequency subbands and adaptively restore corrupted contents. Experiments show that our proposed method can achieve state-of-the-art performance under different scenes, compared to other promising HDR imaging methods. Specifically, the HDR images generated by our method contain cleaner and more detailed content, with fewer distortions, leading to better visual quality.
翻訳日:2023-05-31 03:52:25 公開日:2023-05-29
# 多言語トランスフォーマーの大規模多言語語彙特殊化

Massively Multilingual Lexical Specialization of Multilingual Transformers ( http://arxiv.org/abs/2208.01018v3 )

ライセンス: Link先を確認
Tommaso Green and Simone Paolo Ponzetto and Goran Glava\v{s}(参考訳) 事前訓練された言語モデル(PLM)は、主に様々な下流タスクのために微調整できる汎用テキストエンコーダとして機能するが、近年の研究により、高品質な単語表現(静的単語埋め込み)を生成するように再構成し、型レベルの語彙タスクで優れたパフォーマンスが得られることが示されている。 既存の研究は主に、大量の単言語制約を持つ単言語 PLM の語彙的特殊化に焦点を当てているが、本研究では、多言語型および多言語型レベルの語彙的知識の豊富な情報源として、BabelNetを活用することで、大規模な多言語語彙的知識(MMT、mBERT、XLM-R)を大規模に公開する。 具体的には、BabelNetの多言語合成を用いて、50言語にまたがる同義語対(または同義語対)を作成し、MMT(mBERTとXLM-R)を対照的な目的によってガイドされた語彙的特殊化手順に従わせる。 このような多言語語彙の特殊化は、バイリンガル語彙誘導と言語間単語類似性という2つの標準的な言語間語彙タスク、および言語間文検索において大きな利益をもたらすことを示す。 重要な点として,多言語語彙の特殊化が語彙制約のない言語への一般化を可能にすることを示す。 続く一連の制御実験において、特殊化制約の数は、それらが生み出す言語群よりもはるかに大きな役割を果たすことを示した。

While pretrained language models (PLMs) primarily serve as general-purpose text encoders that can be fine-tuned for a wide variety of downstream tasks, recent work has shown that they can also be rewired to produce high-quality word representations (i.e., static word embeddings) and yield good performance in type-level lexical tasks. While existing work primarily focused on the lexical specialization of monolingual PLMs with immense quantities of monolingual constraints, in this work we expose massively multilingual transformers (MMTs, e.g., mBERT or XLM-R) to multilingual lexical knowledge at scale, leveraging BabelNet as the readily available rich source of multilingual and cross-lingual type-level lexical knowledge. Concretely, we use BabelNet's multilingual synsets to create synonym pairs (or synonym-gloss pairs) across 50 languages and then subject the MMTs (mBERT and XLM-R) to a lexical specialization procedure guided by a contrastive objective. We show that such massively multilingual lexical specialization brings substantial gains in two standard cross-lingual lexical tasks, bilingual lexicon induction and cross-lingual word similarity, as well as in cross-lingual sentence retrieval. Crucially, we observe gains for languages unseen in specialization, indicating that multilingual lexical specialization enables generalization to languages with no lexical constraints. In a series of subsequent controlled experiments, we show that the number of specialization constraints plays a much greater role than the set of languages from which they originate.
翻訳日:2023-05-31 03:52:04 公開日:2023-05-29
# 量子特異値変換による古典量子アルゴリズム補間の単純化

Simplifying a classical-quantum algorithm interpolation with quantum singular value transformations ( http://arxiv.org/abs/2207.14810v3 )

ライセンス: Link先を確認
Duarte Magano, Miguel Mur\c{c}a(参考訳) 位相推定(または振幅推定)の問題は二次量子スピードアップを許容する。 Wang, Higgott and Brierley [2019, Phys. Rev. 122 140504] は、量子スピードアップと回路深さの間に連続的なトレードオフが存在することを示した($\alpha$-QPEとして知られるアルゴリズムのファミリーを定義することによって)。 本稿では,量子特異値変換(QSVT)の枠組みにおいて,$\alpha$-QPEのスケーリングが自然かつ簡潔に導出可能であることを示す。 QSVTの観点からは、より多くのコヒーレントなオラクル呼び出しが、位相推定を解くための重要なルーチンである符号関数へのより良い多項式近似に変換される。 符号関数の近似が良くなるほど、符号を正確に決定する必要があるサンプルは少なくなる。 このアイデアにより、$\alpha$-QPEの証明を簡素化し、補間パラメータの新しい解釈を提供し、QSVTが古典量子補間を推論するための有望なフレームワークであることを示す。

The problem of Phase Estimation (or Amplitude Estimation) admits a quadratic quantum speedup. Wang, Higgott and Brierley [2019, Phys. Rev. Lett. 122 140504] have shown that there is a continuous trade-off between quantum speedup and circuit depth (by defining a family of algorithms known as $\alpha$-QPE). In this work, we show that the scaling of $\alpha$-QPE can be naturally and succinctly derived within the framework of Quantum Singular Value Transformation (QSVT). From the QSVT perspective, a greater number of coherent oracle calls translates into a better polynomial approximation to the sign function, which is the key routine for solving Phase Estimation. The better the approximation to the sign function, the fewer samples one needs to determine the sign accurately. With this idea, we simplify the proof of $\alpha$-QPE, while providing a new interpretation of the interpolation parameters, and show that QSVT is a promising framework for reasoning about classical-quantum interpolations.
翻訳日:2023-05-31 03:50:53 公開日:2023-05-29
# ME-GAN: 心疾患にともなう多視点心電図合成のための心電図の学習

ME-GAN: Learning Panoptic Electrocardio Representations for Multi-view ECG Synthesis Conditioned on Heart Diseases ( http://arxiv.org/abs/2207.10670v2 )

ライセンス: Link先を確認
Jintai Chen, Kuanlun Liao, Kun Wei, Haochao Ying, Danny Z. Chen, Jian Wu(参考訳) 心電図(ECG)は、心臓疾患の非侵襲的診断ツールとして広く用いられている。 診断を助けるために多くの研究がECG分析モデル(例えば分類器)を考案した。 上流のタスクとして、ECGデータを合成するための生成モデルを構築し、トレーニングサンプル、プライバシ保護、アノテーションの削減を提供するのに有用である。 しかし、従来の心電図生成法では、多視点データを合成することも、心疾患の状況に対処することもなかった。 本稿では,心疾患を指標とした汎視的心電図表現を実現するme-ganと呼ばれる多視点心電図合成のための新しい疾患対応生成逆ネットワークを提案し,その表現を複数の標準ビューに投影してecg信号を生成する。 心臓疾患の心電図は特定の波形に局所化されることが多いため,適切な場所に病情報を正確に注入する「ミックスアップ正規化」を提案する。 さらに、乱れたECGビューを事前決定順序に戻すためのビュー判別器を提案し、生成器を監督して正しいビュー特性を表すECGを得る。 さらに、合成ECG信号の品質を評価するために、新しい計量rFIDが提示される。 総合的な実験により,ME-GANは多視点ECG信号合成において信頼性の高いモルビッド表現を用いて良好に機能することが確認された。

Electrocardiogram (ECG) is a widely used non-invasive diagnostic tool for heart diseases. Many studies have devised ECG analysis models (e.g., classifiers) to assist diagnosis. As an upstream task, researches have built generative models to synthesize ECG data, which are beneficial to providing training samples, privacy protection, and annotation reduction. However, previous generative methods for ECG often neither synthesized multi-view data, nor dealt with heart disease conditions. In this paper, we propose a novel disease-aware generative adversarial network for multi-view ECG synthesis called ME-GAN, which attains panoptic electrocardio representations conditioned on heart diseases and projects the representations onto multiple standard views to yield ECG signals. Since ECG manifestations of heart diseases are often localized in specific waveforms, we propose a new "mixup normalization" to inject disease information precisely into suitable locations. In addition, we propose a view discriminator to revert disordered ECG views into a pre-determined order, supervising the generator to obtain ECG representing correct view characteristics. Besides, a new metric, rFID, is presented to assess the quality of the synthesized ECG signals. Comprehensive experiments verify that our ME-GAN performs well on multi-view ECG signal synthesis with trusty morbid manifestations.
翻訳日:2023-05-31 03:49:36 公開日:2023-05-29
# 非平滑非凸非凸極小最適化のグローバル収束速度解析

Global Convergence Rate Analysis of Nonsmooth Nonconvex-Nonconcave Minimax Optimization ( http://arxiv.org/abs/2209.10825v2 )

ライセンス: Link先を確認
Jiajin Li, Linglingzhi Zhu and Anthony Man-Cho So(参考訳) nonconvex-nonconcave minimaxの最適化は、過去10年間で広く関心を集めている。 しかし、既存の研究のほとんどは、スムーズな非凸・凹面設定にのみ適用可能な勾配降下度アルゴリズム(GDA)の変種に焦点を当てている。 この制限に対処するため、スムーズな近位線形降下指数(smoothed PLDA)と呼ばれる新しいアルゴリズムを提案する。 具体的には、原始函数が非滑らかな合成構造を持ち、双対函数が指数 $\theta \in [0,1)$ を持つクルディカ-\L{}ojasiewicz (K\L{}) 性質を持つような集合を考える。 提案手法は, 新たに開発した非スムース主項誤りバウンドと2重誤差バウンド特性を主成分とする, 平滑化pldaのための新しい収束解析フレームワークを提案する。 このフレームワークを用いて、平滑化pldaは$\epsilon$-game-stationary pointと$\epsilon$-optimization-stationary pointの両方を$\mathcal{o}(\epsilon^{-2\max\{2\theta,1\}})$イテレーションの興味のある問題から見つけることができる。 さらに、$\theta \in [0,1/2]$のとき、滑らかなPLDAは$\mathcal{O}(\epsilon^{-2})$の最適反復複雑性を達成する。 さらに分析フレームワークの有効性と適用性を示すために、ある最大構造問題は、軽度の仮定の下で指数$\theta=0$のK\L{}特性を持つことを示した。 副産物として,様々な定常性概念間のアルゴリズム非依存な定量的関係を確立する。

Nonconvex-nonconcave minimax optimization has gained widespread interest over the last decade. However, most existing work focuses on variants of gradient descent-ascent (GDA) algorithms, which are only applicable in smooth nonconvex-concave settings. To address this limitation, we propose a novel algorithm named smoothed proximal linear descent-ascent (smoothed PLDA), which can effectively handle a broad range of structured nonsmooth nonconvex-nonconcave minimax problems. Specifically, we consider the setting where the primal function has a nonsmooth composite structure and the dual function possesses the Kurdyka-\L{}ojasiewicz (K\L{}) property with exponent $\theta \in [0,1)$. We introduce a novel convergence analysis framework for smoothed PLDA, the key components of which are our newly developed nonsmooth primal error bound and dual error bound properties. Using this framework, we show that smoothed PLDA can find both $\epsilon$-game-stationary points and $\epsilon$-optimization-stationary points of the problems of interest in $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$ iterations. Furthermore, when $\theta \in [0,1/2]$, smoothed PLDA achieves the optimal iteration complexity of $\mathcal{O}(\epsilon^{-2})$. To further demonstrate the effectiveness and wide applicability of our analysis framework, we show that certain max-structure problem possesses the K\L{} property with exponent $\theta=0$ under mild assumptions. As a by-product, we establish algorithm-independent quantitative relationships among various stationarity concepts, which may be of independent interest.
翻訳日:2023-05-31 03:43:30 公開日:2023-05-29
# Kupczynski の文脈局所因果確率モデルはベルの定理によって制約される

Kupczynski's Contextual Locally Causal Probabilistic Models are constrained by Bell's theorem ( http://arxiv.org/abs/2208.09930v7 )

ライセンス: Link先を確認
Richard D. Gill and Justo Pastor Lambare(参考訳) マリアン・クプシンスキーは一連の論文で、ベルの定理は測定器を記述する文脈的設定依存パラメータを正しく考慮すれば回避できると主張した。 これは事実ではないことを示す。 初期の出現にもかかわらず、クプシンキの文脈的局所因果確率モデルの概念は数学的にはベル局所隠れ変数モデルの特別な場合である。 したがって、たとえ彼が提案した方法で文脈性を考慮するとしても、ベル-CHSHの不等式は導出可能である。 量子力学と局所実在論(クプチンスキーの主張による概念の拡大を含む)は互いに相容れない。 さらなる検査の結果、クプチンスキーは実際に検出の抜け穴に落ちていることがわかった。 2015年以降、ベル・チェシュの不等式に違反する多くの抜け穴のない実験が行われており、そのような実験の他の不完全さにもかかわらず、クプチンスキーの局所実在論への脱出ルートは入手できない。

In a sequence of papers, Marian Kupczynski has argued that Bell's theorem can be circumvented if one takes correct account of contextual setting-dependent parameters describing measuring instruments. We show that this is not true. Despite first appearances, Kupczynksi's concept of a contextual locally causal probabilistic model is mathematically a special case of a Bell local hidden variables model. Thus, even if one takes account of contextuality in the way he suggests, the Bell-CHSH inequality can still be derived. Violation thereof by quantum mechanics cannot be easily explained away: quantum mechanics and local realism (including Kupczynski's claimed enlargement of the concept) are not compatible with one another. Further inspection shows that Kupczynski is actually falling back on the detection loophole. Since 2015, numerous loophole-free experiments have been performed, in which the Bell-CHSH inequality is violated, so despite any other possible imperfections of such experiments, Kupczynski's escape route for local realism is not available
翻訳日:2023-05-31 03:41:10 公開日:2023-05-29
# figo:ganとワンショット学習技術を用いた指紋識別の強化

FIGO: Enhanced Fingerprint Identification Approach Using GAN and One Shot Learning Techniques ( http://arxiv.org/abs/2208.05615v2 )

ライセンス: Link先を確認
Ibrahim Yilmaz and Mahmoud Abouyoussef(参考訳) 指紋証拠は個人識別のための刑事捜査において重要な役割を果たす。 指紋の分類や特徴抽出には様々な技術が提案されているが、指紋の自動識別はまだ初期段階にある。 従来の \textit{Automatic Fingerprint Identification System (AFIS) の性能は、有効な微妙な点の存在に依存し、特徴抽出と識別段階において人間の専門的な支援を必要とする。 このモチベーションに基づいて、生成的対向ネットワークとワンショット学習技術(FIGO)に基づく指紋識別手法を提案する。 我々のソリューションには、指紋強調層と指紋識別層という2つのコンポーネントが含まれている。 まず,低画質の指紋画像を,指紋強調層に直接画素を向けて高レベルの指紋画像に変換するPix2Pixモデルを提案する。 提案アルゴリズムでは,指紋識別モデルの性能が大幅に向上した。 さらに,指紋装置の認識精度を観測することにより,提案したモデルと比較するためのベンチマークとして,Gaborフィルタに基づく既存ソリューションを開発した。 実験の結果,提案したPix2pixモデルは指紋認証のベースラインアプローチよりもサポートが優れていることがわかった。 第2に,指紋識別プロセスにおいて,各指紋を他の指紋と区別するために,ワンショット学習アプローチを用いた完全自動指紋特徴抽出モデルを構築した。 この過程で特徴ベクトルを得るために、共有重みとパラメータを持つ2つの双対畳み込みニューラルネットワーク(CNN)を用いる。 提案手法を用いて,1つのトレーニングサンプルのみから必要な情報を高精度に学習できることを実証した。

Fingerprint evidence plays an important role in a criminal investigation for the identification of individuals. Although various techniques have been proposed for fingerprint classification and feature extraction, automated fingerprint identification of fingerprints is still in its earliest stage. The performance of traditional \textit{Automatic Fingerprint Identification System} (AFIS) depends on the presence of valid minutiae points and still requires human expert assistance in feature extraction and identification stages. Based on this motivation, we propose a Fingerprint Identification approach based on Generative adversarial network and One-shot learning techniques (FIGO). Our solution contains two components: fingerprint enhancement tier and fingerprint identification tier. First, we propose a Pix2Pix model to transform low-quality fingerprint images to a higher level of fingerprint images pixel by pixel directly in the fingerprint enhancement tier. With the proposed enhancement algorithm, the fingerprint identification model's performance is significantly improved. Furthermore, we develop another existing solution based on Gabor filters as a benchmark to compare with the proposed model by observing the fingerprint device's recognition accuracy. Experimental results show that our proposed Pix2pix model has better support than the baseline approach for fingerprint identification. Second, we construct a fully automated fingerprint feature extraction model using a one-shot learning approach to differentiate each fingerprint from the others in the fingerprint identification process. Two twin convolutional neural networks (CNNs) with shared weights and parameters are used to obtain the feature vectors in this process. Using the proposed method, we demonstrate that it is possible to learn necessary information from only one training sample with high accuracy.
翻訳日:2023-05-31 03:40:28 公開日:2023-05-29
# CRISP:Polar Code Familyのためのカリキュラムベースのシーケンスニューラルデコーダ

CRISP: Curriculum based Sequential Neural Decoders for Polar Code Family ( http://arxiv.org/abs/2210.00313v3 )

ライセンス: Link先を確認
S Ashwin Hebbar, Viraj Nadkarni, Ashok Vardhan Makkuva, Suma Bhat, Sewoong Oh, Pramod Viswanath(参考訳) 極性符号は、最近第5世代無線規格(5G)に含まれる信頼できる通信のための最先端の符号として広く使われている。 しかし、短ブロック長領域において効率的かつ信頼性の高い極性デコーダの設計の余地は残っている。 データ駆動型チャネルデコーダの最近の成功に動機づけられ、新しい$\textbf{c}$ur$\textbf{ri}$culumベースの$\textbf{s}$equential neural decoder for $\textbf{p}$olar codes (crisp)を導入する。 我々は,情報理論的な洞察に導かれた原則付きカリキュラムをデザインし,逐次カンセル化(sc)デコーダよりも優れており,polar(32,16)およびpolar(64,22)符号でほぼ最適に近い信頼性が得られることを示す。 提案カリキュラムの選択は,他のカリキュラムと比較することによって示すように,CRISPの精度向上に不可欠である。 より注目すべきは、CRISPは、既存のSCデコーダの信頼性が著しく低いPAC(Polarization-Adjusted-Convolutional)コードに容易に拡張できることである。 我々の知る限り、CRISPはPACコードのための最初のデータ駆動デコーダを構築し、PAC(32,16)コードでほぼ最適性能を得る。

Polar codes are widely used state-of-the-art codes for reliable communication that have recently been included in the 5th generation wireless standards (5G). However, there remains room for the design of polar decoders that are both efficient and reliable in the short blocklength regime. Motivated by recent successes of data-driven channel decoders, we introduce a novel $\textbf{C}$ur$\textbf{RI}$culum based $\textbf{S}$equential neural decoder for $\textbf{P}$olar codes (CRISP). We design a principled curriculum, guided by information-theoretic insights, to train CRISP and show that it outperforms the successive-cancellation (SC) decoder and attains near-optimal reliability performance on the Polar(32,16) and Polar(64,22) codes. The choice of the proposed curriculum is critical in achieving the accuracy gains of CRISP, as we show by comparing against other curricula. More notably, CRISP can be readily extended to Polarization-Adjusted-Convolutional (PAC) codes, where existing SC decoders are significantly less reliable. To the best of our knowledge, CRISP constructs the first data-driven decoder for PAC codes and attains near-optimal performance on the PAC(32,16) code.
翻訳日:2023-05-31 03:33:48 公開日:2023-05-29
# 生成音声言語モデリングのための拡張不変離散表現

Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling ( http://arxiv.org/abs/2209.15483v2 )

ライセンス: Link先を確認
Itai Gat, Felix Kreuk, Tu Anh Nguyen, Ann Lee, Jade Copet, Gabriel Synnaeve, Emmanuel Dupoux, Yossi Adi(参考訳) 生成音声言語モデリングの研究は、テキストの監督を受けることなく生の音声記録を用いて音声言語モデル(LM)を最適化することに焦点を当てている。 このような音声LMは通常、自己教師付きモデルの内部表現の定量化から得られる離散単位を対象とする。 これらのユニットは印象的なモデリング結果を示すが、その堅牢性は広く研究されていない。 本研究は、生成言語モデリングのための離散的な入力表現の堅牢性の向上に焦点を当てる。 まず、これらの表現のロバストさを、音声情報(例えば、タイムストレッチ)を変えない様々な信号の変動に対して計測する方法を正式に定義する。 次に,現状の表現モデルがこのようなバリエーションに対して強固さを欠いていることを実証的に示す。 これを解決するために,生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。 提案手法は,音声信号に一連の信号変換を適用し,反復的擬似ラベル方式を用いてモデルを最適化することに基づく。 提案手法は,符号化とモデリングの指標を考慮した場合,評価基準値を大幅に改善する。 さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。

Generative Spoken Language Modeling research focuses on optimizing speech Language Models (LMs) using raw audio recordings without accessing any textual supervision. Such speech LMs usually operate over discrete units obtained from quantizing internal representations of self-supervised models. Although such units show impressive modeling results, their robustness capabilities have not been extensively investigated. This work focuses on improving the robustness of discrete input representations for generative spoken language modeling. First, we formally define how to measure the robustness of such representations to various signal variations that do not alter the spoken information (e.g., time-stretch). Next, we empirically demonstrate how current state-of-the-art representation models lack robustness to such variations. To overcome this, we propose an effective and efficient method to learn robust discrete speech representation for generative spoken language modeling. The proposed approach is based on applying a set of signal transformations to the speech signal and optimizing the model using an iterative pseudo-labeling scheme. Our method significantly improves over the evaluated baselines when considering encoding and modeling metrics. We additionally evaluate our method on the speech-to-speech translation task, considering Spanish-English and French-English translations, and show the proposed approach outperforms the evaluated baselines.
翻訳日:2023-05-31 03:33:16 公開日:2023-05-29
# 非負のテンソルに対する多体近似

Many-body Approximation for Non-negative Tensors ( http://arxiv.org/abs/2209.15338v2 )

ライセンス: Link先を確認
Kazu Ghalamkari, Mahito Sugiyama, Yoshinobu Kawahara(参考訳) 多体近似と呼ばれる非負のテンソルを分解する別の方法を提案する。 伝統的な分解法は表現の低ランク性を前提としており、大域的な最適化と目標ランクの選択が困難になる。 我々は、テンソルとそのモードが確率分布と確率変数に対応するような、エネルギーに基づくテンソルのモデリングによってこれらの問題を回避する。 我々のモデルは、変数、すなわちモード間の相互作用をランクよりも直感的に調整できることを考慮し、kl分岐最小化の観点からグローバルに最適化することができる。 さらに,モード間の相互作用をテンソルネットワークとして可視化し,多体近似と低ランク近似の非自明な関係を明らかにする。 テンソル完備化と近似におけるアプローチの有効性を示す。

We present an alternative approach to decompose non-negative tensors, called many-body approximation. Traditional decomposition methods assume low-rankness in the representation, resulting in difficulties in global optimization and target rank selection. We avoid these problems by energy-based modeling of tensors, where a tensor and its mode correspond to a probability distribution and a random variable, respectively. Our model can be globally optimized in terms of the KL divergence minimization by taking the interaction between variables, i.e. modes, into account that can be tuned more intuitively than ranks. Furthermore, we visualize interactions between modes as tensor networks and reveal a nontrivial relationship between many-body approximation and low-rank approximation. We demonstrate the effectiveness of our approach in tensor completion and approximation.
翻訳日:2023-05-31 03:32:55 公開日:2023-05-29
# 異種データのクラスタリングのための調整半定プログラム

Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous Data ( http://arxiv.org/abs/2209.15097v2 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang(参考訳) クラスタリングは、広くデプロイされた教師なしの学習ツールである。 モデルベースのクラスタリングは、クラスタの形状が異なる場合、データの不均一性に取り組む柔軟なフレームワークである。 混合分布の確率に基づく推論は、しばしば非凸および高次元の客観的関数を含み、難しい計算と統計上の課題を課す。 古典的期待最大化 (EM) アルゴリズムは, 共分散行列を持つ標準ガウス混合モデル(英語版)の特別な場合においても, 観測データの対数類似度を最小化するサロゲート関数を最大化する, 計算的にスリフティ反復法である。 一方、最近の研究では、半定値プログラミング(SDP)を緩和した$K$-meansのユニークなグローバル解が、標準ガウス混合モデルの下でクラスタラベルを完全に復元するための情報理論的に鋭いしきい値を達成することが示されている。 本稿では,クラスタラベルをモデルパラメータとして統合することで,SDPのアプローチを一般的な設定に拡張し,データ不均一性の存在下での正確な観測可能性を直接最大化する反復的精度調整SDP(iLA-SDP)手法を提案する。 iLA-SDPは、グループ固有のメンバシップ行列へのクラスタ割り当てを持ち上げることで、Centroidsの推定を回避している。 したがって、iLA-SDPはEMよりも初期化に敏感であり、高次元データでは安定である。 我々の数値実験により、iLA-SDPは、$K$-means, SDP, EMアルゴリズムなど、広く使われているクラスタリング法よりも低い誤クラスタリング誤差を実現できることが示された。

Clustering is a widely deployed unsupervised learning tool. Model-based clustering is a flexible framework to tackle data heterogeneity when the clusters have different shapes. Likelihood-based inference for mixture distributions often involves non-convex and high-dimensional objective functions, imposing difficult computational and statistical challenges. The classic expectation-maximization (EM) algorithm is a computationally thrifty iterative method that maximizes a surrogate function minorizing the log-likelihood of observed data in each iteration, which however suffers from bad local maxima even in the special case of the standard Gaussian mixture model with common isotropic covariance matrices. On the other hand, recent studies reveal that the unique global solution of a semidefinite programming (SDP) relaxed $K$-means achieves the information-theoretically sharp threshold for perfectly recovering the cluster labels under the standard Gaussian mixture model. In this paper, we extend the SDP approach to a general setting by integrating cluster labels as model parameters and propose an iterative likelihood adjusted SDP (iLA-SDP) method that directly maximizes the exact observed likelihood in the presence of data heterogeneity. By lifting the cluster assignment to group-specific membership matrices, iLA-SDP avoids centroids estimation -- a key feature that allows exact recovery under well-separateness of centroids without being trapped by their adversarial configurations. Thus iLA-SDP is less sensitive than EM to initialization and more stable on high-dimensional data. Our numeric experiments demonstrate that iLA-SDP can achieve lower mis-clustering errors over several widely used clustering methods including $K$-means, SDP and EM algorithms.
翻訳日:2023-05-31 03:32:45 公開日:2023-05-29
# 化学・生物海洋学における機械学習の応用

Applications of Machine Learning in Chemical and Biological Oceanography ( http://arxiv.org/abs/2209.11557v2 )

ライセンス: Link先を確認
Balamurugan Sadaiappan, Preethiya Balakrishnan, Vishal CR, Neethu T Vijayan, Mahendran Subramanian and Mangesh U Gauns(参考訳) 機械学習(ML)は、意味のある出力を予測したり、大量のデータに基づいて複雑なシステムを分類するコンピュータアルゴリズムを指す。 MLは自然科学、工学、宇宙探査、ゲーム開発など様々な分野に適用されている。 本稿では, 化学・生物海洋学分野における機械学習の利用について概説する。 グローバルな固定窒素濃度、部分二酸化炭素圧、その他の化学的性質の予測において、MLの適用は有望なツールである。 機械学習は生物海洋学の分野でも使われ、様々な画像(顕微鏡、フローCAM、ビデオレコーダー)、分光計、その他の信号処理技術からプランクトン形式を検出する。 さらにMLは、その音響を利用して哺乳類を分類し、絶滅危惧種の哺乳類や魚類を特定の環境で検出した。 最も重要なことは、環境データを用いて、MLは低酸素状態や有害な藻類発生の予測に有効な方法であることが判明した。 さらに、機械学習は、他の研究者にとって有用な様々な種のデータベースを構築するために使用され、新しいアルゴリズムの作成は海洋研究コミュニティが海の化学や生物学をよりよく理解するのに役立ちます。

Machine learning (ML) refers to computer algorithms that predict a meaningful output or categorize complex systems based on a large amount of data. ML is applied in various areas including natural science, engineering, space exploration, and even gaming development. This review focuses on the use of machine learning in the field of chemical and biological oceanography. In the prediction of global fixed nitrogen levels, partial carbon dioxide pressure, and other chemical properties, the application of ML is a promising tool. Machine learning is also utilized in the field of biological oceanography to detect planktonic forms from various images (i.e., microscopy, FlowCAM, and video recorders), spectrometers, and other signal processing techniques. Moreover, ML successfully classified the mammals using their acoustics, detecting endangered mammalian and fish species in a specific environment. Most importantly, using environmental data, the ML proved to be an effective method for predicting hypoxic conditions and harmful algal bloom events, an essential measurement in terms of environmental monitoring. Furthermore, machine learning was used to construct a number of databases for various species that will be useful to other researchers, and the creation of new algorithms will help the marine research community better comprehend the chemistry and biology of the ocean.
翻訳日:2023-05-31 03:31:19 公開日:2023-05-29
# 改良されたドメイン一般化のためのソース内スタイル拡張

Intra-Source Style Augmentation for Improved Domain Generalization ( http://arxiv.org/abs/2210.10175v2 )

ライセンス: Link先を確認
Yumeng Li, Dan Zhang, Margret Keuper, Anna Khoreva(参考訳) ドメインシフトに関する一般化は、自律運転のようなアプリケーションに頻繁に現れるように、ディープラーニングモデルにとって残る大きな課題の1つである。 そこで本研究では,セマンティクスセグメンテーションにおけるドメイン一般化を改善するために,ソース内スタイル拡張 (issa) 手法を提案する。 提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。 モデルはノイズ予測によって意味的レイアウトを保存するイメージを忠実に再構築することを学ぶ。 推定ノイズのランダムマスキングにより,画像のセマンティックレイアウトに影響を与えることなく,グローバルな外観を変化させることができる。 提案したマスク付きノイズエンコーダを用いてトレーニングセットのスタイルと内容の組み合わせをランダムにすることで、ISSAはトレーニングデータの多様性を効果的に向上し、スプリアス相関を低減する。 その結果,異なるデータシフト,すなわち地理的な場所の変化,悪天候,昼夜の運転シーンセマンティックセマンティックセグメンテーションにおいて,最大12.4\%のmIoUの改善が達成された。 ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。 また、他の領域一般化手法、例えば最近の最先端ソリューションであるRobustNetをCityscapesのmIoUをDark Z\"urichに$3\%改善している。

The generalization with respect to domain shifts, as they frequently appear in applications such as autonomous driving, is one of the remaining big challenges for deep learning models. Therefore, we propose an intra-source style augmentation (ISSA) method to improve domain generalization in semantic segmentation. Our method is based on a novel masked noise encoder for StyleGAN2 inversion. The model learns to faithfully reconstruct the image preserving its semantic layout through noise prediction. Random masking of the estimated noise enables the style mixing capability of our model, i.e. it allows to alter the global appearance without affecting the semantic layout of an image. Using the proposed masked noise encoder to randomize style and content combinations in the training set, ISSA effectively increases the diversity of training data and reduces spurious correlation. As a result, we achieve up to $12.4\%$ mIoU improvements on driving-scene semantic segmentation under different types of data shifts, i.e., changing geographic locations, adverse weather conditions, and day to night. ISSA is model-agnostic and straightforwardly applicable with CNNs and Transformers. It is also complementary to other domain generalization techniques, e.g., it improves the recent state-of-the-art solution RobustNet by $3\%$ mIoU in Cityscapes to Dark Z\"urich.
翻訳日:2023-05-31 03:24:53 公開日:2023-05-29
# アノテーションの再考: 言語学習者は貢献できるのか?

Rethinking Annotation: Can Language Learners Contribute? ( http://arxiv.org/abs/2210.06828v2 )

ライセンス: Link先を確認
Haneul Yoo, Rifki Afina Putri, Changyoon Lee, Youngin Lee, So-Yeon Ahn, Dongyeop Kang, Alice Oh(参考訳) 研究者は伝統的に、広く使われているベンチマークデータセットにアノテーションを提供するためにネイティブスピーカーを募集してきた。 しかし、ネイティブ話者を募集する言語は困難であり、それらの言語の学習者がデータに注釈をつけるのに役立つだろう。 本稿では,言語学習者がベンチマークデータセットにアノテーションを貢献できるかどうかを検討する。 慎重に制御されたアノテーション実験では、36人の言語学習者を募集し、2種類の追加リソース(辞書と機械翻訳文)を提供し、言語習熟度を測定するミニテストを行う。 我々は、英語、韓国語、インドネシア語という3つの言語と、感情分析、自然言語推論、エンティティ認識、機械読解の4つのNLPタスクをターゲットにしている。 言語学習者、特に中級または上級の言語習熟度を持つ者は、追加資源の助けを借りてかなり正確なラベルを提供することができる。 さらに,データアノテーションは語彙や文法の観点から学習者の言語能力を向上させることを示す。 私たちの発見の1つの意味は、言語学習者を含むアノテーションタスクを拡張することで、ネイティブ話者の募集が困難である言語のためのベンチマークデータセットを構築する機会を開放できるということです。

Researchers have traditionally recruited native speakers to provide annotations for widely used benchmark datasets. However, there are languages for which recruiting native speakers can be difficult, and it would help to find learners of those languages to annotate the data. In this paper, we investigate whether language learners can contribute annotations to benchmark datasets. In a carefully controlled annotation experiment, we recruit 36 language learners, provide two types of additional resources (dictionaries and machine-translated sentences), and perform mini-tests to measure their language proficiency. We target three languages, English, Korean, and Indonesian, and the four NLP tasks of sentiment analysis, natural language inference, named entity recognition, and machine reading comprehension. We find that language learners, especially those with intermediate or advanced levels of language proficiency, are able to provide fairly accurate labels with the help of additional resources. Moreover, we show that data annotation improves learners' language proficiency in terms of vocabulary and grammar. One implication of our findings is that broadening the annotation task to include language learners can open up the opportunity to build benchmark datasets for languages for which it is difficult to recruit native speakers.
翻訳日:2023-05-31 03:24:03 公開日:2023-05-29
# 光モード間の非局所性検出のための同期ベルプロトコル

Synchronized Bell protocol for detecting non-locality between modes of light ( http://arxiv.org/abs/2210.05341v3 )

ライセンス: Link先を確認
Madhura Ghosh Dastidar, Gniewomir Sarbicki and Vidya Praveen Bhallamudi(参考訳) 本稿では,強いコヒーレント状態によって供給されるマッハ・ゼンダー干渉計によって実装された変位演算子を用いて局所観測可能なベルプロトコルにおける2モード光状態の非局所性検出の可能性について論じる。 ブラウンシュタイン-キャベツ連鎖ベル(bccb)の不等式を最大化するためには,等位相の変位が必要であることを示した。 一方,変位の位相が未知の場合,非局所性は検出できないことを証明した。 したがって、ベル実験は同期機構を備える必要がある。 このようなメカニズムとその結果について論じる。

In the following paper, we discuss a possible detection of non-locality in two-mode light states in the Bell protocol, where the local observables are constructed using displacement operators, implemented by Mach-Zender Interferometers fed by strong coherent states. We report numerical results showing that maximizing the Braunstein-Caves Chained Bell (BCCB) inequalities requires equal phases of displacements. On the other hand, we prove that non-locality cannot be detected if the phases of displacements are unknown. Hence, the Bell experiment has to be equipped with a synchronization mechanism. We discuss such a mechanism and its consequences.
翻訳日:2023-05-31 03:23:44 公開日:2023-05-29
# stasy:スコアベースの表データ合成

STaSy: Score-based Tabular data Synthesis ( http://arxiv.org/abs/2210.04018v4 )

ライセンス: Link先を確認
Jayoung Kim, Chaejeong Lee, Noseong Park(参考訳) タブラルデータ合成は機械学習における長年の研究トピックである。 統計手法から深層生成法まで、過去数十年にわたって様々な方法が提案されてきた。 しかし、実世界の表データの複雑な性質のため、必ずしも成功しなかった。 本稿では,スコアベース表データ合成(stasy)と呼ばれる新しいモデルと,スコアベース生成モデリングのパラダイムに基づく学習戦略を提案する。 スコアベースの生成モデルが生成モデルで多くの問題を解決したという事実にもかかわらず、表データ合成の改善の余地はまだ残っている。 提案したトレーニング戦略には,自己評価学習手法と微調整戦略が組み込まれており,復調スコアマッチングトレーニングを安定化することにより,サンプリング品質と多様性をさらに向上させる。 さらに, 生成的タスクのトリレンマとして, サンプリング品質, 多様性, 時間について, 厳密な実験を行った。 15のベンチマーク表と7のベースラインを用いた実験では,タスク依存評価や多様性の観点から既存手法よりも優れていた。 コードはhttps://github.com/JayoungKim408/STaSyで入手できる。

Tabular data synthesis is a long-standing research topic in machine learning. Many different methods have been proposed over the past decades, ranging from statistical methods to deep generative methods. However, it has not always been successful due to the complicated nature of real-world tabular data. In this paper, we present a new model named Score-based Tabular data Synthesis (STaSy) and its training strategy based on the paradigm of score-based generative modeling. Despite the fact that score-based generative models have resolved many issues in generative models, there still exists room for improvement in tabular data synthesis. Our proposed training strategy includes a self-paced learning technique and a fine-tuning strategy, which further increases the sampling quality and diversity by stabilizing the denoising score matching training. Furthermore, we also conduct rigorous experimental studies in terms of the generative task trilemma: sampling quality, diversity, and time. In our experiments with 15 benchmark tabular datasets and 7 baselines, our method outperforms existing methods in terms of task-dependant evaluations and diversity. Code is available at https://github.com/JayoungKim408/STaSy.
翻訳日:2023-05-31 03:23:31 公開日:2023-05-29
# STSyn: Straggler-Tolerant SynchronizationによるローカルSGDの高速化

STSyn: Speeding Up Local SGD with Straggler-Tolerant Synchronization ( http://arxiv.org/abs/2210.03521v3 )

ライセンス: Link先を確認
Feng Zhu, Jingjing Zhang and Xin Wang(参考訳) 同期的な局所確率勾配降下(ローカルSGD)は、労働者が同じ局所的な更新を完了するのを待つため、一部の労働者がアイドル状態とランダムな遅延に悩まされる。 本稿では,トラグラーを緩和し,通信効率を向上させるため,STSynと呼ばれる新しいローカルSGD戦略を開発した。 重要なのは、すべての労働者が各同期ラウンドで継続的に計算し続け、ストラグラーに関係なく、各労働者の効果的な(完了した)ローカルアップデートをフル活用しながら、最速の労働者をKドル待つことだ。 STSynの性能を評価するため,壁面平均時間,局部平均更新数,1ラウンドあたりアップロード人員数の解析を行った。 STSynの収束は、目的関数が非凸である場合でも厳密に確立される。 実験結果から, ストラグラートトレラント技術を活用し, 作業者ごとの局所的更新を行うことにより, 提案したSTSynの最先端手法に対する優位性を示し, システムパラメータの影響について検討した。 より高速なワーカーを待ち、ワーカー間で異なるローカル更新数で異種同期を可能にすることで、STSynは時間と通信効率の両方で大幅に改善される。

Synchronous local stochastic gradient descent (local SGD) suffers from some workers being idle and random delays due to slow and straggling workers, as it waits for the workers to complete the same amount of local updates. In this paper, to mitigate stragglers and improve communication efficiency, a novel local SGD strategy, named STSyn, is developed. The key point is to wait for the $K$ fastest workers, while keeping all the workers computing continually at each synchronization round, and making full use of any effective (completed) local update of each worker regardless of stragglers. An analysis of the average wall-clock time, average number of local updates and average number of uploading workers per round is provided to gauge the performance of STSyn. The convergence of STSyn is also rigorously established even when the objective function is nonconvex. Experimental results show the superiority of the proposed STSyn against state-of-the-art schemes through utilization of the straggler-tolerant technique and additional effective local updates at each worker, and the influence of system parameters is studied. By waiting for faster workers and allowing heterogeneous synchronization with different numbers of local updates across workers, STSyn provides substantial improvements both in time and communication efficiency.
翻訳日:2023-05-31 03:23:15 公開日:2023-05-29
# マルチタスク微調整による言語間一般化

Crosslingual Generalization through Multitask Finetuning ( http://arxiv.org/abs/2211.01786v2 )

ライセンス: Link先を確認
Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff, Colin Raffel(参考訳) マルチタスク誘導ファインタニング(MTF)は、ゼロショット設定で新しいタスクに一般化するのに役立つことが示されているが、今のところMTFの探索は英語のデータとモデルに焦点を当てている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。 英語のプロンプトを用いた英語タスクにおける大規模多言語言語モデルの微調整により,事前学習コーパスにのみ現れる非英語言語へのタスク一般化が可能となる。 英語による多言語タスクの微調整は、英語および非英語タスクのパフォーマンスをさらに向上させ、様々な最先端のゼロショット結果をもたらす。 また、各データセットの言語に合うように英語から機械翻訳されたプロンプトを用いた多言語タスクの微調整についても検討する。 機械翻訳されたプロンプトのトレーニングは、それぞれの言語で人間が書いたプロンプトのパフォーマンスを向上させる。 驚くべきことに、モデルが意図しない言語でのタスクをゼロショットで一般化できることがわかった。 我々は、モデルがタスクと言語に依存しない高レベルな能力を学習していると推測する。 さらに、英語と機械翻訳のプロンプトを持つ46言語における教師付きデータセットの合成であるxP3を紹介する。 私たちのコード、データセット、モデルはhttps://github.com/bigscience-workshop/xmtf.comから無料で利用できます。

Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and mT5 model families to produce finetuned variants called BLOOMZ and mT0. We find finetuning large multilingual language models on English tasks with English prompts allows for task generalization to non-English languages that appear only in the pretraining corpus. Finetuning on multilingual tasks with English prompts further improves performance on English and non-English tasks leading to various state-of-the-art zero-shot results. We also investigate finetuning on multilingual tasks with prompts that have been machine-translated from English to match the language of each dataset. We find training on these machine-translated prompts leads to better performance on human-written prompts in the respective languages. Surprisingly, we find models are capable of zero-shot generalization to tasks in languages they have never intentionally seen. We conjecture that the models are learning higher-level capabilities that are both task- and language-agnostic. In addition, we introduce xP3, a composite of supervised datasets in 46 languages with English and machine-translated prompts. Our code, datasets and models are freely available at https://github.com/bigscience-workshop/xmtf.
翻訳日:2023-05-31 03:15:37 公開日:2023-05-29
# 適応型視聴覚注意による視覚認識音声キャプション

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention ( http://arxiv.org/abs/2210.16428v3 )

ライセンス: Link先を確認
Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan K{\i}l{\i}\c{c}, Wenwu Wang(参考訳) 音声キャプションは、音声クリップのテキスト記述を生成することを目的としている。 現実世界では、多くの物体が同様の音を出す。 曖昧な音を正確に認識する方法は、音声キャプションの大きな課題である。 本研究では,人間固有のマルチモーダル知覚にインスパイアされた視覚情報を利用した視覚認識音声キャプションを提案する。 具体的には,映像特徴を抽出し,映像特徴を音声キャプションシステムに組み込むために,市販のビジュアルエンコーダを導入する。 さらに,補完的な視聴覚コンテキストをより活用するために,音声と視覚コンテキストを適応的に統合し,潜在空間における冗長な情報を除去する視聴覚注意機構を提案する。 最大の音声キャプションデータセットであるAudioCapsの実験結果から,提案手法が機械翻訳メトリクスの最先端結果を達成することを示す。

Audio captioning aims to generate text descriptions of audio clips. In the real world, many objects produce similar sounds. How to accurately recognize ambiguous sounds is a major challenge for audio captioning. In this work, inspired by inherent human multimodal perception, we propose visually-aware audio captioning, which makes use of visual information to help the description of ambiguous sounding objects. Specifically, we introduce an off-the-shelf visual encoder to extract video features and incorporate the visual features into an audio captioning system. Furthermore, to better exploit complementary audio-visual contexts, we propose an audio-visual attention mechanism that adaptively integrates audio and visual context and removes the redundant information in the latent space. Experimental results on AudioCaps, the largest audio captioning dataset, show that our proposed method achieves state-of-the-art results on machine translation metrics.
翻訳日:2023-05-31 03:14:48 公開日:2023-05-29
# shortest edit path crossover: 進化的ニューラルアーキテクチャ探索における置換問題に対する理論駆動解

Shortest Edit Path Crossover: A Theory-driven Solution to the Permutation Problem in Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2210.14016v4 )

ライセンス: Link先を確認
Xin Qiu, Risto Miikkulainen(参考訳) 人口ベースの検索は、最近、black-box neural architecture search(nas)の強化学習(rl)の代替案として登場した。 理論上は理解されていないものの、実際はよく機能する。 特に、進化的アルゴリズム(eas)のような伝統的な集団ベースの探索手法はクロスオーバー操作から多くのパワーを得られるが、nasではそれらを利用するのは難しい。 伝統的なグラフ表現における遺伝子型と表現型の間のマッピングは多対多であり、標準クロスオーバーの破壊的効果をもたらす。 本稿では,ブラックボックスNASにおける突然変異,クロスオーバー,RLの挙動に関する最初の理論的解析を行い,グラフ空間における最短編集パス(SEP)に基づく新たなクロスオーバー演算子を提案する。 SEPクロスオーバーは理論的には置換問題を克服するために示され、その結果、突然変異、標準クロスオーバー、RLよりも期待された改善が得られる。 さらに、最先端NASベンチマークにおいて、これらの他の手法よりも経験的に優れている。 したがって、SEPクロスオーバーはNASにおける人口ベースの探索を最大限に活用することができ、その基礎となる理論は一般にブラックボックスNAS法の深い理解の基礎となる。

Population-based search has recently emerged as a possible alternative to Reinforcement Learning (RL) for black-box neural architecture search (NAS). It performs well in practice even though it is not theoretically well understood. In particular, whereas traditional population-based search methods such as evolutionary algorithms (EAs) draw much power from crossover operations, it is difficult to take advantage of them in NAS. The main obstacle is believed to be the permutation problem: The mapping between genotype and phenotype in traditional graph representations is many-to-one, leading to a disruptive effect of standard crossover. This paper presents the first theoretical analysis of the behaviors of mutation, crossover and RL in black-box NAS, and proposes a new crossover operator based on the shortest edit path (SEP) in graph space. The SEP crossover is shown theoretically to overcome the permutation problem, and as a result, have a better expected improvement compared to mutation, standard crossover and RL. Further, it empirically outperform these other methods on state-of-the-art NAS benchmarks. The SEP crossover therefore allows taking full advantage of population-based search in NAS, and the underlying theory can serve as a foundation for deeper understanding of black-box NAS methods in general.
翻訳日:2023-05-31 03:13:37 公開日:2023-05-29
# Motif-Backdoor: Motifsによるグラフニューラルネットワークのバックドア攻撃の再考

Motif-Backdoor: Rethinking the Backdoor Attack on Graph Neural Networks via Motifs ( http://arxiv.org/abs/2210.13710v2 )

ライセンス: Link先を確認
Haibin Zheng, Haiyang Xiong, Jinyin Chen, Haonan Ma, Guohan Huang(参考訳) 強力な表現能力を持つグラフニューラルネットワーク(GNN)は、生物学的遺伝子予測やソーシャルレコメンデーションなど、さまざまな領域に広く適用されている。 近年の研究では、GNNがバックドア攻撃に対して脆弱であること、すなわち悪意あるトレーニングサンプルで訓練されたモデルは、パッチされたサンプルによって容易に騙される。 提案された研究の多くは、計算負担の少ないランダムに生成されたサブグラフ(例: erd\H{o}s-r\enyi backdoor)またはより効果的な攻撃を可能にする勾配に基づく生成サブグラフ(例:グラフトロイの木馬攻撃)を使ってバックドア攻撃を起動する。 しかし, これまでの文献では, トリガー構造とバックドア攻撃の影響の解釈は見過ごされている。 グラフにおけるモチーフ、反復および統計的に重要な部分グラフは、豊富な構造情報を含んでいる。 本稿では,モチーフの観点からトリガーを再考し,モチーフバックドアと呼ばれるモチーフベースのバックドア攻撃を提案する。 3つの側面から貢献する。 (i)解釈:モチーフからのトリガ構造の有効性によるバックドア効果の詳細な説明を提供し、トリガが攻撃性能を向上できるようにグラフに現れるサブグラフを使用することなど、いくつかの新しい洞察をもたらす。 (ii)有効性:モチーフバックドアはブラックボックスとディフェンスの両方のシナリオにおいて最先端(sota)攻撃性能に達する。 三 効率性:グラフモチーフ分布に基づいて、Motif-Backdoorは、ターゲットモデルフィードバックやサブグラフモデル生成なしに、有効なトリガ構造を迅速に得ることができる。 広範な実験結果から,モチーフバックドアは5つのベースラインと比較して,3つのポピュラーモデルと4つのパブリックデータセットでsota性能を実現することが示された。

Graph neural network (GNN) with a powerful representation capability has been widely applied to various areas, such as biological gene prediction, social recommendation, etc. Recent works have exposed that GNN is vulnerable to the backdoor attack, i.e., models trained with maliciously crafted training samples are easily fooled by patched samples. Most of the proposed studies launch the backdoor attack using a trigger that either is the randomly generated subgraph (e.g., erd\H{o}s-r\'enyi backdoor) for less computational burden, or the gradient-based generative subgraph (e.g., graph trojaning attack) to enable a more effective attack. However, the interpretation of how is the trigger structure and the effect of the backdoor attack related has been overlooked in the current literature. Motifs, recurrent and statistically significant sub-graphs in graphs, contain rich structure information. In this paper, we are rethinking the trigger from the perspective of motifs, and propose a motif-based backdoor attack, denoted as Motif-Backdoor. It contributes from three aspects. (i) Interpretation: it provides an in-depth explanation for backdoor effectiveness by the validity of the trigger structure from motifs, leading to some novel insights, e.g., using subgraphs that appear less frequently in the graph as the trigger can achieve better attack performance. (ii) Effectiveness: Motif-Backdoor reaches the state-of-the-art (SOTA) attack performance in both black-box and defensive scenarios. (iii) Efficiency: based on the graph motif distribution, Motif-Backdoor can quickly obtain an effective trigger structure without target model feedback or subgraph model generation. Extensive experimental results show that Motif-Backdoor realizes the SOTA performance on three popular models and four public datasets compared with five baselines.
翻訳日:2023-05-31 03:13:16 公開日:2023-05-29
# オンライン非定型制御入門

Introduction to Online Nonstochastic Control ( http://arxiv.org/abs/2211.09619v2 )

ライセンス: Link先を確認
Elad Hazan and Karan Singh(参考訳) 本文は、動的システムの制御における新たなパラダイムと、オンライン非確率的制御と呼ばれる微分可能強化学習を紹介する。 新しいアプローチでは、オンライン凸最適化と凸緩和の手法を適用し、最適かつ堅牢な制御において古典的な設定を保証できる新しい方法を得る。 オンラインの非確率的制御と他のフレームワークの主な違いは目的である。 最適制御、ロバスト制御、および確率的ノイズを仮定する他の制御方法論において、目標はオフラインの最適戦略と同等に実行することである。 オンラインの非確率制御では、コスト関数と仮定力学モデルからの摂動の両方が敵によって選択される。 したがって、最適方針は事前定義されない。 むしろ、ターゲットは、ベンチマークのポリシーのクラスから遠ざかって、最善のポリシーに対する低い後悔を得ることです。 この目的は,オンライン凸最適化の意思決定フレームワークをアルゴリズム手法として用いることを示唆する。 得られた手法は反復的な数学的最適化アルゴリズムに基づいており、有限時間後悔と計算複雑性を保証する。

This text presents an introduction to an emerging paradigm in control of dynamical systems and differentiable reinforcement learning called online nonstochastic control. The new approach applies techniques from online convex optimization and convex relaxations to obtain new methods with provable guarantees for classical settings in optimal and robust control. The primary distinction between online nonstochastic control and other frameworks is the objective. In optimal control, robust control, and other control methodologies that assume stochastic noise, the goal is to perform comparably to an offline optimal strategy. In online nonstochastic control, both the cost functions as well as the perturbations from the assumed dynamical model are chosen by an adversary. Thus the optimal policy is not defined a priori. Rather, the target is to attain low regret against the best policy in hindsight from a benchmark class of policies. This objective suggests the use of the decision making framework of online convex optimization as an algorithmic methodology. The resulting methods are based on iterative mathematical optimization algorithms, and are accompanied by finite-time regret and computational complexity guarantees.
翻訳日:2023-05-31 03:06:25 公開日:2023-05-29
# SSL4EO-S12:地球観測における自己教師付き学習のための大規模マルチモーダル・マルチテンポラルデータセット

SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation ( http://arxiv.org/abs/2211.07044v2 )

ライセンス: Link先を確認
Yi Wang, Nassim Ait Ali Braham, Zhitong Xiong, Chenying Liu, Conrad M Albrecht, Xiao Xiang Zhu(参考訳) 自己教師付き事前学習は、人間のアノテーションなしで表現表現を生成する可能性を秘めている。 地球観測(EO)におけるほとんどの事前トレーニングは、ImageNetまたは中規模のリモートセンシング(RS)データセットに基づいている。 rsデータセットssl4eo-s12 (self-supervised learning for earth observation - sentinel-1/2) を共有し,esa sentinel-1 \& -2衛星ミッションからの大規模,グローバル,マルチモーダル,マルチシーズンの衛星画像コーパスを組み立てる。 EOアプリケーションでは、SSL4EO-S12がMoCo-v2、DINO、MAE、Data2vecといったメソッドの自己教師型事前トレーニングに成功することを示す。 結果モデルによって、下流のパフォーマンスは、教師付き学習の精度測定に近づいたり、超えたりします。 さらに、SSL4EO-S12の事前トレーニングは、既存のデータセットと比較して優れている。 データセット、関連するソースコード、および事前トレーニングされたモデルをhttps://github.com/zhu-xlab/ssl4eo-s12で公開しています。

Self-supervised pre-training bears potential to generate expressive representations without human annotation. Most pre-training in Earth observation (EO) are based on ImageNet or medium-size, labeled remote sensing (RS) datasets. We share an unlabeled RS dataset SSL4EO-S12 (Self-Supervised Learning for Earth Observation - Sentinel-1/2) to assemble a large-scale, global, multimodal, and multi-seasonal corpus of satellite imagery from the ESA Sentinel-1 \& -2 satellite missions. For EO applications we demonstrate SSL4EO-S12 to succeed in self-supervised pre-training for a set of methods: MoCo-v2, DINO, MAE, and data2vec. Resulting models yield downstream performance close to, or surpassing accuracy measures of supervised learning. In addition, pre-training on SSL4EO-S12 excels compared to existing datasets. We make openly available the dataset, related source code, and pre-trained models at https://github.com/zhu-xlab/SSL4EO-S12.
翻訳日:2023-05-31 03:05:42 公開日:2023-05-29
# OverFlow: より優れたTSのためのニューラルトランスデューサの上にフローを置く

OverFlow: Putting flows on top of neural transducers for better TTS ( http://arxiv.org/abs/2211.06892v2 )

ライセンス: Link先を確認
Shivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。 従来の統計音声合成と現代のニューラルTSの最良の特徴を組み合わせることで、データが少なくなり、トレーニングの更新も少なくなり、ニューラルアテンション障害によるジブベリの出力が低下する。 本稿では,音声音響の非ガウス分布を記述するために,ニューラルhmm ttと正規化流れを組み合わせた。 その結果、時間と音響の強力で完全に確率的なモデルとなり、最大限の精度で訓練することができる。 実験により,本提案に基づくシステムは,自然な音声に近い正確な発音と主観的音声品質を生成するのに匹敵する手法よりも少ない更新を必要とすることが分かった。 オーディオサンプルとコードについては、https://shivammehta25.github.io/OverFlow/を参照してください。

Neural HMMs are a type of neural transducer recently proposed for sequence-to-sequence modelling in text-to-speech. They combine the best features of classic statistical speech synthesis and modern neural TTS, requiring less data and fewer training updates, and are less prone to gibberish output caused by neural attention failures. In this paper, we combine neural HMM TTS with normalising flows for describing the highly non-Gaussian distribution of speech acoustics. The result is a powerful, fully probabilistic model of durations and acoustics that can be trained using exact maximum likelihood. Experiments show that a system based on our proposal needs fewer updates than comparable methods to produce accurate pronunciations and a subjective speech quality close to natural speech. Please see https://shivammehta25.github.io/OverFlow/ for audio examples and code.
翻訳日:2023-05-31 03:05:00 公開日:2023-05-29
# gcondnet: 小型高次元表データを用いたニューラルネットワークの改良法

GCondNet: A Novel Method for Improving Neural Networks on Small High-Dimensional Tabular Data ( http://arxiv.org/abs/2211.06302v2 )

ライセンス: Link先を確認
Andrei Margeloiu, Nikola Simidjievski, Pietro Lio, Mateja Jamnik(参考訳) ニューラルネットワークモデルは、しばしば高次元だが小さなサンプルサイズの表層データセットと競合する。 一つの理由は、現在の重み初期化手法が重みの間の独立性を仮定しているためであり、モデルのパラメータを正確に推定するサンプルが不足している場合に問題となる。 このような小さなデータシナリオでは、追加構造を利用することでモデルのトレーニングの安定性とパフォーマンスが向上します。 そこで本稿では,グラフデータに存在する暗黙構造を利用してニューラルネットワークを拡張できるGCondNetを提案する。 我々は、各データ次元のサンプル間のグラフを作成し、グラフニューラルネットワーク(GNN)を用いて、この暗黙構造を抽出し、基礎となる予測MLPネットワークの第1層のパラメータを条件付けする。 多くの小さなグラフを作成することで、gcondnetはデータの高次元を活用し、基礎となる予測ネットワークの性能を向上させる。 我々は,GCondNetが14の標準および最先端の手法より優れている実世界の9つのデータセットに対して,本手法の有効性を実証する。 その結果,GCondNetは頑健であり,任意の小さなサンプルサイズおよび高次元表型学習タスクに適用可能であることがわかった。

Neural network models often struggle with high-dimensional but small sample-size tabular datasets. One reason is that current weight initialisation methods assume independence between weights, which can be problematic when there are insufficient samples to estimate the model's parameters accurately. In such small data scenarios, leveraging additional structures can improve the model's training stability and performance. To address this, we propose GCondNet, a general approach to enhance neural networks by leveraging implicit structures present in tabular data. We create a graph between samples for each data dimension, and utilise Graph Neural Networks (GNNs) for extracting this implicit structure, and for conditioning the parameters of the first layer of an underlying predictor MLP network. By creating many small graphs, GCondNet exploits the data's high-dimensionality, and thus improves the performance of an underlying predictor network. We demonstrate the effectiveness of our method on nine real-world datasets, where GCondNet outperforms 14 standard and state-of-the-art methods. The results show that GCondNet is robust and can be applied to any small sample-size and high-dimensional tabular learning task.
翻訳日:2023-05-31 03:04:45 公開日:2023-05-29
# 連続的感情インテンシティ制御型音声合成のための半教師あり学習

Semi-supervised learning for continuous emotional intensity controllable speech synthesis with disentangled representations ( http://arxiv.org/abs/2211.06160v2 )

ライセンス: Link先を確認
Yoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee(参考訳) 最近のテキスト対音声モデルは、人間の言葉に似た自然な音声を生成するレベルに達している。 しかし、表現力の面ではまだ限界がある。 既存の感情音声合成モデルは、感情的潜在空間におけるスケーリングパラメータを持つ補間特徴を用いた制御性を示している。 しかし,既存のモデルから生じる情緒的潜伏空間は,感情や話者などの特徴が絡み合っているため,連続的な情緒的強度を制御することは困難である。 本稿では,半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。 モデルは音声情報の音素レベルシーケンスから生成された擬似ラベルを用いて中間強度の感情を学習する。 提案モデルから構築した埋め込み空間は、一様格子形状を感情的に満足する。 実験の結果,提案手法は制御性と自然性に優れていた。

Recent text-to-speech models have reached the level of generating natural speech similar to what humans say. But there still have limitations in terms of expressiveness. The existing emotional speech synthesis models have shown controllability using interpolated features with scaling parameters in emotional latent space. However, the emotional latent space generated from the existing models is difficult to control the continuous emotional intensity because of the entanglement of features like emotions, speakers, etc. In this paper, we propose a novel method to control the continuous intensity of emotions using semi-supervised learning. The model learns emotions of intermediate intensity using pseudo-labels generated from phoneme-level sequences of speech information. An embedding space built from the proposed model satisfies the uniform grid geometry with an emotional basis. The experimental results showed that the proposed method was superior in controllability and naturalness.
翻訳日:2023-05-31 03:04:24 公開日:2023-05-29
# 高速SNNトレーニングのためのノイズベース新しい戦略

A noise based novel strategy for faster SNN training ( http://arxiv.org/abs/2211.05453v2 )

ライセンス: Link先を確認
Chunming Jiang, Yilei Zhang(参考訳) スパイキングニューラルネットワーク(SNN)は、消費電力の低さと強力なバイオプロファイザビリティによって注目を集めている。 SNNの最適化は難しい課題である。 人工知能ニューラルネットワーク(ANN)-SNN変換とスパイクベースのバックプロパゲーション(BP)の2つの主要な手法には、それぞれ長所と短所がある。 ANN-to-SNN変換では、ANNの精度を近似するために長い推測時間を必要とするため、SNNの利点は減少する。 スパイクベースのBPでは、高精度SNNのトレーニングは通常、ANNの数十倍の計算資源と時間を消費する。 本稿では,2つの手法の利点を組み合わせた新しいSNNトレーニング手法を提案する。 まず, 単一ステップSNN(T=1)をランダムノイズで近似し, 単一ステップSNN(T=1)を多ステップSNN(T=N)に変換する。 ガウス分布ノイズの導入は変換後の精度を大幅に向上させる。 その結果,高い精度を維持しつつ,snsの学習時間と推論時間を大幅に削減できることがわかった。 従来の2つの手法と比較して、トレーニング時間は65%-75%削減でき、推論速度の100倍以上の速さで達成できる。 また、ノイズで強化されたニューロンモデルにより、より生物学的に楽観的であるとも主張する。

Spiking neural networks (SNNs) are receiving increasing attention due to their low power consumption and strong bio-plausibility. Optimization of SNNs is a challenging task. Two main methods, artificial neural network (ANN)-to-SNN conversion and spike-based backpropagation (BP), both have their advantages and limitations. For ANN-to-SNN conversion, it requires a long inference time to approximate the accuracy of ANN, thus diminishing the benefits of SNN. With spike-based BP, training high-precision SNNs typically consumes dozens of times more computational resources and time than their ANN counterparts. In this paper, we propose a novel SNN training approach that combines the benefits of the two methods. We first train a single-step SNN(T=1) by approximating the neural potential distribution with random noise, then convert the single-step SNN(T=1) to a multi-step SNN(T=N) losslessly. The introduction of Gaussian distributed noise leads to a significant gain in accuracy after conversion. The results show that our method considerably reduces the training and inference times of SNNs while maintaining their high accuracy. Compared to the previous two methods, ours can reduce training time by 65%-75% and achieves more than 100 times faster inference speed. We also argue that the neuron model augmented with noise makes it more bio-plausible.
翻訳日:2023-05-31 03:03:39 公開日:2023-05-29
# lilGym:強化学習による自然言語ビジュアル推論

lilGym: Natural Language Visual Reasoning with Reinforcement Learning ( http://arxiv.org/abs/2211.01994v3 )

ライセンス: Link先を確認
Anne Wu, Kiant\'e Brantley, Noriyuki Kojima and Yoav Artzi(参考訳) 視覚環境における言語条件強化学習のための新しいベンチマークであるlilgymを提案する。 LilGymは2,661の高度に構成された人間の記述された自然言語文に基づいており、対話的な視覚環境を基盤としている。 我々は,全てのステートメントにPythonプログラムをアノテートすることで,可能なすべての状態において正確な報酬計算を行う新しいアプローチを導入する。 各ステートメントは複数の開始状態と報酬関数とペアになって、様々な困難を伴う数千の異なるマルコフ決定プロセスを形成する。 異なるモデルと学習体制でLilGymを実験する。 その結果,既存の手法では非自明な性能が得られるが,LilGymは難解なオープンな問題となることがわかった。 LilGymはhttps://lil.nlp.cornell.edu/lilgym/で入手できる。

We present lilGym, a new benchmark for language-conditioned reinforcement learning in visual environments. lilGym is based on 2,661 highly-compositional human-written natural language statements grounded in an interactive visual environment. We introduce a new approach for exact reward computation in every possible world state by annotating all statements with executable Python programs. Each statement is paired with multiple start states and reward functions to form thousands of distinct Markov Decision Processes of varying difficulty. We experiment with lilGym with different models and learning regimes. Our results and analysis show that while existing methods are able to achieve non-trivial performance, lilGym forms a challenging open problem. lilGym is available at https://lil.nlp.cornell.edu/lilgym/.
翻訳日:2023-05-31 03:03:17 公開日:2023-05-29
# パネルデータの設定等における戦略的意思決定

Strategyproof Decision-Making in Panel Data Settings and Beyond ( http://arxiv.org/abs/2211.14236v3 )

ライセンス: Link先を確認
Keegan Harris, Anish Agarwal, Chara Podimata, Zhiwei Steven Wu(参考訳) パネルデータを用いた意思決定の古典的問題は、意思決定者がうるさくなり、複数の単位(またはエージェント)を繰り返し測定することである。 本稿では,各単位の結果を主が観察し,その後,主がこれらの観測結果を用いて各単位に治療を割り当てる,事前介入期間が存在することを考察する。 この古典的な設定とは異なり、パネルデータを生成するユニットは戦略的であり、例えば、より望ましい介入を受けるために、ユニットは事前介入の結果を変更することができる。 プリンシパルの目標は、戦略的な介入政策、すなわち、その潜在的な戦略にもかかわらず、正しい介入にユニットを割り当てる政策を設計することである。 まず,戦略的介入政策が存在する必要十分条件を特定し,その存在時に簡単な閉じた形で戦略的防御機構を提供する。 その過程で,戦略的多クラス分類における不合理性(不合理性)の証明を行う。 2つの介入がある場合、我々は常に防御機構が存在し、そのようなメカニズムを学習するためのアルゴリズムを提供する。 3以上の介入に対して,各介入の報酬に十分に大きな差がある場合,戦略的防御機構を学習するためのアルゴリズムを提供する。 最後に,18ヶ月にわたって製品販売から収集した実世界のパネルデータを用いて,実証的にモデルを評価する。 提案手法は, モデル不特定性が存在する場合でも, 戦略的相互作用を考慮に入れないベースラインと良好に比較できる。

We consider the classical problem of decision-making using panel data, in which a decision-maker gets noisy, repeated measurements of multiple units (or agents). We consider a setup where there is a pre-intervention period, when the principal observes the outcomes of each unit, after which the principal uses these observations to assign a treatment to each unit. Unlike this classical setting, we permit the units generating the panel data to be strategic, i.e. units may modify their pre-intervention outcomes in order to receive a more desirable intervention. The principal's goal is to design a strategyproof intervention policy, i.e. a policy that assigns units to their correct interventions despite their potential strategizing. We first identify a necessary and sufficient condition under which a strategyproof intervention policy exists, and provide a strategyproof mechanism with a simple closed form when one does exist. Along the way, we prove impossibility results for strategic multiclass classification, which may be of independent interest. When there are two interventions, we establish that there always exists a strategyproof mechanism, and provide an algorithm for learning such a mechanism. For three or more interventions, we provide an algorithm for learning a strategyproof mechanism if there exists a sufficiently large gap in the principal's rewards between different interventions. Finally, we empirically evaluate our model using real-world panel data collected from product sales over 18 months. We find that our methods compare favorably to baselines which do not take strategic interactions into consideration, even in the presence of model misspecification.
翻訳日:2023-05-31 02:56:25 公開日:2023-05-29
# 行列分解による逆共分散行列からの大規模因果構造学習

Learning Large Causal Structures from Inverse Covariance Matrix via Matrix Decomposition ( http://arxiv.org/abs/2211.14221v2 )

ライセンス: Link先を確認
Shuyu Dong, Kento Uemura, Akito Fujii, Shuang Chang, Yusuke Koyanagi, Koji Maruhashi, Mich\`ele Sebag(参考訳) 観測データから因果構造を学ぶことは、変数の数が大きい場合の基本的かつ非常に複雑な問題である。 本稿では,線形構造方程式モデル(SEM)から始め,逆共分散行列から因果構造を学習する方法を検討する。 提案手法は,逆共分散行列の非ゼロパターンを保存する行列分解の型を連続的に最適化することに基づいて, Oracle Inverse Covariance matrix からの分解を$\mathcal{O}$-ICID (for {\it Independence-Preserving} Decomposition) と呼ぶ。 我々は、$\mathcal{O}$-ICIDが、ノイズ分散の知識の下で真の有向非巡回グラフ(DAG)を同定する効率的な方法を提供することを示した。 より弱い事前情報により、提案手法はより洗練された因果発見を行うのに役立つ有向グラフソリューションを与える。 提案手法は,実dagが有界ノード次数を持つ場合の複雑性が低く,実験時の時間効率が最先端アルゴリズムと比較した場合に反映される。

Learning causal structures from observational data is a fundamental yet highly complex problem when the number of variables is large. In this paper, we start from linear structural equation models (SEMs) and investigate ways of learning causal structures from the inverse covariance matrix. The proposed method, called $\mathcal{O}$-ICID (for {\it Independence-preserving} Decomposition from Oracle Inverse Covariance matrix), is based on continuous optimization of a type of matrix decomposition that preserves the nonzero patterns of the inverse covariance matrix. We show that $\mathcal{O}$-ICID provides an efficient way for identifying the true directed acyclic graph (DAG) under the knowledge of noise variances. With weaker prior information, the proposed method gives directed graph solutions that are useful for making more refined causal discovery. The proposed method enjoys a low complexity when the true DAG has bounded node degrees, as reflected by its time efficiency in experiments in comparison with state-of-the-art algorithms.
翻訳日:2023-05-31 02:56:00 公開日:2023-05-29
# Exhaustive Symbolic Regression

Exhaustive Symbolic Regression ( http://arxiv.org/abs/2211.11461v2 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Harry Desmond and Pedro G. Ferreira(参考訳) シンボリック回帰(sr)アルゴリズムは、データを正確かつ高度に解釈可能な方法で適合する解析式を学習しようとする。 従来のSRは2つの根本的な問題に悩まされている。 第一に、これらの手法は空間を確率的に(典型的には遺伝的プログラミングを用いて)探索するので、必ずしも最良の関数は見つからない。 第二に、正確さと単純さを最適にバランスさせる方程式を選択するための基準は可変であり主観的である。 これらの問題に対処するために、我々はExphaustive Symbolic Regression (ESR)を導入し、これは、与えられた演算子の基底セットと指定された最大複雑性を持つ全ての可能な方程式を体系的かつ効率的に検討し、従って真の最適値(パラメータが完全に最適化された場合)とこれらの制約に従属する完全関数ランキングを見つけることが保証される。 これらの選好を一つの目的に組み合わせるための厳密な方法として、最小記述長原理を実装した。 esrのパワーを説明するために、これを宇宙クロノメーターのカタログと超新星のパンテオン+サンプルに適用し、ハッブル速度を赤方偏移の関数として学習し、フリードマン方程式よりも経済的に適合する40ドルの関数(5.2百万トライアル関数のうち)を見つける。 したがって、これらの低赤方偏移データは、宇宙論の標準模型の拡張履歴を一意に好まない。 コードと完全な方程式セットを一般公開します。

Symbolic Regression (SR) algorithms attempt to learn analytic expressions which fit data accurately and in a highly interpretable manner. Conventional SR suffers from two fundamental issues which we address here. First, these methods search the space stochastically (typically using genetic programming) and hence do not necessarily find the best function. Second, the criteria used to select the equation optimally balancing accuracy with simplicity have been variable and subjective. To address these issues we introduce Exhaustive Symbolic Regression (ESR), which systematically and efficiently considers all possible equations -- made with a given basis set of operators and up to a specified maximum complexity -- and is therefore guaranteed to find the true optimum (if parameters are perfectly optimised) and a complete function ranking subject to these constraints. We implement the minimum description length principle as a rigorous method for combining these preferences into a single objective. To illustrate the power of ESR we apply it to a catalogue of cosmic chronometers and the Pantheon+ sample of supernovae to learn the Hubble rate as a function of redshift, finding $\sim$40 functions (out of 5.2 million trial functions) that fit the data more economically than the Friedmann equation. These low-redshift data therefore do not uniquely prefer the expansion history of the standard model of cosmology. We make our code and full equation sets publicly available.
翻訳日:2023-05-31 02:54:04 公開日:2023-05-29
# アクティベーション・プロンプトを用いたニューラルマシン翻訳における制御スタイル

Controlling Styles in Neural Machine Translation with Activation Prompt ( http://arxiv.org/abs/2212.08909v2 )

ライセンス: Link先を確認
Yifan Wang, Zewei Sun, Shanbo Cheng, Weiguo Zheng, Mingxuan Wang(参考訳) ニューラルマシン翻訳(nmt)のスタイル制御は,ユーザエクスペリエンス向上に不可欠であるため,多くの注目を集めている。 このトピックに関する初期の研究は、典型的には形式性のレベルを規制することに集中し、この分野でいくつかの進歩を達成する。 しかし、2つの大きな課題に遭遇した。 1つ目はスタイル評価の難しさです。 このスタイルは、豊富な情報を提供する語彙、構文、その他の様々な側面を含んでいる。 それにもかかわらず、形式のみが徹底的に調査されている。 第2の課題は、特に新しいスタイルが必要な場合、インクリメンタルな調整への過度な依存である。 両課題に対処するため,本稿では,新しいベンチマークとアプローチを提案する。 マルチウェイスタイライゼーション機械翻訳(msmt)ベンチマークが導入され、4つの言語ドメインにまたがる多様なスタイルのカテゴリが組み込まれている。 そこで本研究では,スタイリングした単言語コーパスからプロンプトを抽出し,追加の微調整を必要としないスタイルアクティベーションプロンプト(StyleAP)を提案する。 実験により、StyleAPは翻訳のスタイルを効果的に制御し、優れたパフォーマンスを実現することができた。

Controlling styles in neural machine translation (NMT) has attracted wide attention, as it is crucial for enhancing user experience. Earlier studies on this topic typically concentrate on regulating the level of formality and achieve some progress in this area. However, they still encounter two major challenges. The first is the difficulty in style evaluation. The style comprises various aspects such as lexis, syntax, and others that provide abundant information. Nevertheless, only formality has been thoroughly investigated. The second challenge involves excessive dependence on incremental adjustments, particularly when new styles are necessary. To address both challenges, this paper presents a new benchmark and approach. A multiway stylized machine translation (MSMT) benchmark is introduced, incorporating diverse categories of styles across four linguistic domains. Then, we propose a method named style activation prompt (StyleAP) by retrieving prompts from stylized monolingual corpus, which does not require extra fine-tuning. Experiments show that StyleAP could effectively control the style of translation and achieve remarkable performance.
翻訳日:2023-05-31 02:46:56 公開日:2023-05-29
# テンソル分解によるグラフニューラルネットワークの効率的な関係認識近傍集約

Efficient Relation-aware Neighborhood Aggregation in Graph Neural Networks via Tensor Decomposition ( http://arxiv.org/abs/2212.05581v3 )

ライセンス: Link先を確認
Peyman Baghershahi, Reshad Hosseini, Hadi Moradi(参考訳) 多くのグラフニューラルネットワーク(GNN)が知識グラフ埋め込み(KGE)のために提案されている。 しかし、これらの手法の多くは関係情報の重要性を無視し、非効率な実体情報と組み合わせ、表現力の低下につながっている。 本稿では,関係グラフ畳み込みネットワーク(R-GCN)の集約関数にテンソル分解を組み込んだ一般知識グラフエンコーダを提案する。 本モデルでは,マルチタスク学習の恩恵を受けるために関係型によって定義される低ランクテンソルの射影行列を用いて近傍のエンティティを変換し,表現的関係認識表現を生成する。 さらに、CP分解を用いたコアテンソルの低ランク推定を行い、モデルを圧縮・正規化する。 コントラスト学習にインスパイアされたトレーニング手法を用いて,大規模グラフ上での1-N法のトレーニング制限を緩和する。 我々は,FB15k-237およびWN18RRにおいて,比較的低次元の埋め込みによる良好な競争結果を得た。

Many Graph Neural Networks (GNNs) are proposed for Knowledge Graph Embedding (KGE). However, lots of these methods neglect the importance of the information of relations and combine it with the information of entities inefficiently, leading to low expressiveness. To address this issue, we introduce a general knowledge graph encoder incorporating tensor decomposition in the aggregation function of Relational Graph Convolutional Network (R-GCN). In our model, neighbor entities are transformed using projection matrices of a low-rank tensor which are defined by relation types to benefit from multi-task learning and produce expressive relation-aware representations. Besides, we propose a low-rank estimation of the core tensor using CP decomposition to compress and regularize our model. We use a training method inspired by contrastive learning, which relieves the training limitation of the 1-N method on huge graphs. We achieve favorably competitive results on FB15k-237 and WN18RR with embeddings in comparably lower dimensions.
翻訳日:2023-05-31 02:46:39 公開日:2023-05-29
# Ensemble Multi-Quantiles:不確実性量子化のための適応フレキシブル分布予測

Ensemble Multi-Quantiles: Adaptively Flexible Distribution Prediction for Uncertainty Quantification ( http://arxiv.org/abs/2211.14545v3 )

ライセンス: Link先を確認
Xing Yan, Yonghua Su, Wenxuan Ma(参考訳) 本稿では,機械学習における不確実性を定量化するための分布予測手法を提案する。 これは回帰タスクに$\mathbb{p}(\mathbf{y}|\mathbf{x}=x)$の適応的柔軟な分布予測を組み込んでいる。 区間 $(0,1)$ を広げる確率レベルのこの条件分布の分位数は、直観性と解釈可能性を備えた加法モデルによって促進される。 構造整合性と$\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$の柔軟性の間の適応的バランスを求めるが、ガウスの仮定は実データに対する柔軟性の欠如と高度に柔軟なアプローチ(例えば、分布構造なしでは分位子を別々に推定するなど)が必然的に欠点を持ち、良い一般化には至らない。 EMQと呼ばれるこのアンサンブル方式は完全にデータ駆動であり、ガウスから徐々に離れ、ブーピングにおける最適条件分布を発見することができる。 UCIデータセットからの大規模な回帰タスクでは、最近の不確実な定量化手法と比較して、EMQが最先端のパフォーマンスを達成することを示す。 可視化の結果は、このようなアンサンブルモデルの必要性とメリットをさらに示している。

We propose a novel, succinct, and effective approach for distribution prediction to quantify uncertainty in machine learning. It incorporates adaptively flexible distribution prediction of $\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$ in regression tasks. This conditional distribution's quantiles of probability levels spreading the interval $(0,1)$ are boosted by additive models which are designed by us with intuitions and interpretability. We seek an adaptive balance between the structural integrity and the flexibility for $\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$, while Gaussian assumption results in a lack of flexibility for real data and highly flexible approaches (e.g., estimating the quantiles separately without a distribution structure) inevitably have drawbacks and may not lead to good generalization. This ensemble multi-quantiles approach called EMQ proposed by us is totally data-driven, and can gradually depart from Gaussian and discover the optimal conditional distribution in the boosting. On extensive regression tasks from UCI datasets, we show that EMQ achieves state-of-the-art performance comparing to many recent uncertainty quantification methods. Visualization results further illustrate the necessity and the merits of such an ensemble model.
翻訳日:2023-05-31 02:44:23 公開日:2023-05-29
# Lego-MT:多言語機械翻訳における分離可能なモデルを目指して

Lego-MT: Towards Detachable Models in Massively Multilingual Machine Translation ( http://arxiv.org/abs/2212.10551v2 )

ライセンス: Link先を確認
Fei Yuan, Yinquan Lu, WenHao Zhu, Lingpeng Kong, Lei Li, Yu Qiao, Jingjing Xu(参考訳) 多言語ニューラルマシン翻訳(MNMT)は、多くの言語方向の統一モデルを構築することを目的としている。 MNMTの既存のモノリシックモデルは、言語間のパラメータ干渉と大規模モデルの非効率的な推論という2つの課題に直面する。 本稿では,従来のマルチウェイ構造を再検討し,各言語(あるいは言語群)をプラグ・アンド・プレイのトレーニングと推論をサポートする個々のブランチに割り当てることで,分離可能なモデルを開発する。 統一空間における全ての言語に対する学習表現の必要性に対処するために,我々は,効果的な分離可能なモデルであるLego-MTを構築した,新しい効率的なトレーニングレシピを提案する。 公平な比較のために,OPUSからデータを収集し,433言語と1.3B並列データを対象とした翻訳ベンチマークを構築した。 実験の結果、1.2BパラメータのLego-MTでは平均3.2spBLEUが得られた。 さらに12BパラメータでM2M-100を上回ります。 提案されたトレーニングレシピは、従来のマルチウェイトレーニングメソッドよりも28.2$\times$のスピードアップを提供する。 詳細はhttps://github.com/cone-mt/lego-mt}を参照。 }

Multilingual neural machine translation (MNMT) aims to build a unified model for many language directions. Existing monolithic models for MNMT encounter two challenges: parameter interference among languages and inefficient inference for large models. In this paper, we revisit the classic multi-way structures and develop a detachable model by assigning each language (or group of languages) to an individual branch that supports plug-and-play training and inference. To address the needs of learning representations for all languages in a unified space, we propose a novel efficient training recipe, upon which we build an effective detachable model, Lego-MT. For a fair comparison, we collect data from OPUS and build a translation benchmark covering 433 languages and 1.3B parallel data. Experiments show that Lego-MT with 1.2B parameters brings an average gain of 3.2 spBLEU. It even outperforms M2M-100 with 12B parameters. The proposed training recipe brings a 28.2$\times$ speedup over the conventional multi-way training method.\footnote{ \url{https://github.com/CONE-MT/Lego-MT}.}
翻訳日:2023-05-31 02:36:33 公開日:2023-05-29
# スケールにまたがる言語モデルの訓練軌跡

Training Trajectories of Language Models Across Scales ( http://arxiv.org/abs/2212.09803v2 )

ライセンス: Link先を確認
Mengzhou Xia, Mikel Artetxe, Chunting Zhou, Xi Victoria Lin, Ramakanth Pasunuru, Danqi Chen, Luke Zettlemoyer, Ves Stoyanov(参考訳) 言語モデルのスケールアップは前例のないパフォーマンス向上につながったが、モデルが大きくなるにつれてトレーニングのダイナミクスがどのように変化するかはほとんど分かっていない。 異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか? 本稿では,様々なサイズのオプティモデル(zhang et al.,2022)の中間トレーニングチェックポイントを125mから175bのパラメータで分析し,次の予測,シーケンスレベル生成,ダウンストリームタスクについて検討した。 私たちはそれを見つけ 1) 所定の難易度及びモデルサイズに依存しない場合において、同様の訓練トークンのサブセットは、損失の最も顕著な減少を示し、残りは停滞又は二重発振を示す。 2) 訓練の早い段階で,すべてのモデルは,幻覚を含む文法的配列の難易度を低下させ,この準最適分布で小さなモデルが停止し,より大きなモデルが最終的にこれらの配列を低い確率で割り当てることを学ぶ。 3) パープレキシティは,BIG-Benchの74種類の複数選択タスクにおいて,コンテキスト内学習性能の強い予測因子であり,モデルサイズに依存しない。 これらの結果から,パープレキシティはモデルサイズやトレーニング計算よりもモデル行動の予測性が高いことが示された。

Scaling up language models has led to unprecedented performance gains, but little is understood about how the training dynamics change as models get larger. How do language models of different sizes learn during pre-training? Why do larger language models demonstrate more desirable behaviors? In this paper, we analyze the intermediate training checkpoints of differently sized OPT models (Zhang et al.,2022)--from 125M to 175B parameters--on next-token prediction, sequence-level generation, and downstream tasks. We find that 1) at a given perplexity and independent of model sizes, a similar subset of training tokens see the most significant reduction in loss, with the rest stagnating or showing double-descent behavior; 2) early in training, all models learn to reduce the perplexity of grammatical sequences that contain hallucinations, with small models halting at this suboptimal distribution and larger ones eventually learning to assign these sequences lower probabilities; 3) perplexity is a strong predictor of in-context learning performance on 74 multiple-choice tasks from BIG-Bench, and this holds independent of the model size. Together, these results show that perplexity is more predictive of model behaviors than model size or training computation.
翻訳日:2023-05-31 02:34:45 公開日:2023-05-29
# 言語モデルのプロンプトによる推論:調査

Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v4 )

ライセンス: Link先を確認
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。 本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。 比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。 また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。 リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。

Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically).
翻訳日:2023-05-31 02:34:20 公開日:2023-05-29
# pal: パーソナライズされた感情支援会話生成

PAL: Persona-Augmented Emotional Support Conversation Generation ( http://arxiv.org/abs/2212.09235v2 )

ライセンス: Link先を確認
Jiale Cheng, Sahand Sabour, Hao Sun, Zhuang Chen, Minlie Huang(参考訳) メンタルヘルス支援のための人的資源が不足しているため、サポートのために会話エージェントを採用する必要性が高まっている。 近年,感情支援における対話モデルの有効性が実証されている。 先行研究により,希望者のペルソナが効果的な支援にとって重要な要因であることが示されたので,支援のための対話モデルにおいて,その情報モデリングの利点があるか検討した。 本稿では,経験的分析により,ペルソナが感情支援に重要な影響を与えていることを確認する。 そこで本研究では,探索者のペルソナを動的に推論・モデル化する枠組みを提案する。 まず,会話履歴から検索者のペルソナを推測するモデルを訓練する。 そこで我々は,ペルソナ情報を活用するモデルであるPALを提案し,戦略に基づく制御可能な生成手法とともに,パーソナライズされた感情支援を提供する。 自動的および手動的な評価は、PALが最先端の結果を達成し、調査されたベンチマークのベースラインを上回っていることを示す。 私たちのコードとデータはhttps://github.com/chengjl19/palで公開されている。

Due to the lack of human resources for mental health support, there is an increasing demand for employing conversational agents for support. Recent work has demonstrated the effectiveness of dialogue models in providing emotional support. As previous studies have demonstrated that seekers' persona is an important factor for effective support, we investigate whether there are benefits to modeling such information in dialogue models for support. In this paper, our empirical analysis verifies that persona has an important impact on emotional support. Therefore, we propose a framework for dynamically inferring and modeling seekers' persona. We first train a model for inferring the seeker's persona from the conversation history. Accordingly, we propose PAL, a model that leverages persona information and, in conjunction with our strategy-based controllable generation method, provides personalized emotional support. Automatic and manual evaluations demonstrate that PAL achieves state-of-the-art results, outperforming the baselines on the studied benchmark. Our code and data are publicly available at https://github.com/chengjl19/PAL.
翻訳日:2023-05-31 02:33:53 公開日:2023-05-29
# 完全鍵のないワンタイムユニバーサルハッシュ量子デジタル署名

One-Time Universal Hashing Quantum Digital Signatures without Perfect Keys ( http://arxiv.org/abs/2301.01132v3 )

ライセンス: Link先を確認
Bing-Hong Li, Yuan-Mei Xie, Xiao-Yu Cao, Chen-Long Li, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子デジタルシグネチャ(QDS)は、量子法則により3つのリモートパーティ間で相関ビット列を生成し、非監査、認証、メッセージの整合性を保証する。 近年,量子非対称暗号化とユニバーサルハッシュ関数を利用した1回のユニバーサルハッシュqdsフレームワークが提案されており,長いメッセージのハッシュ値に直接署名することで署名率を大幅に向上させ,無条件のセキュリティを保証する。 しかし、量子鍵分布と同様に、このフレームワークは、厄介な行列演算を導入するプライバシ増幅を行い、大量の計算リソースを消費し、遅延を引き起こし、障害確率を増加させることで、完全な秘密性を持つ鍵を使用する。 本稿では,プライベート通信とは異なり,情報漏洩の少ない不完全な量子鍵を,セキュリティを損なうことなくディジタル署名や認証に使用できることを証明し,従来のシングルビット方式と比較して,メガビットメッセージ署名の署名率を8桁改善できることを示す。 本研究は,データ後処理の遅延を著しく低減し,任意の量子鍵生成プロトコルと互換性がある。 シミュレーションでは、2光子ツインフィールド鍵生成プロトコルを例として、QDSをシグナとレシーバ間の繊維距離650kmで実現することができる。 この研究は、量子鍵の暗号的応用と不完全な機密性を提供し、将来の量子ネットワークにおけるデジタルシグネチャの実践的かつアジャイルな実装の道を開く。

Quantum digital signatures (QDS), generating correlated bit strings among three remote parties for signatures through quantum law, can guarantee non-repudiation, authenticity, and integrity of messages. Recently, one-time universal hashing QDS framework, exploiting the quantum asymmetric encryption and universal hash functions, has been proposed to significantly improve the signature rate and ensure unconditional security by directly signing the hash value of long messages. However, similar to quantum key distribution, this framework utilizes keys with perfect secrecy by performing privacy amplification that introduces cumbersome matrix operations, thereby consuming large computational resources, causing delays and increasing failure probability. Here, we prove that, different from private communication, imperfect quantum keys with limited information leakage can be used for digital signatures and authentication without compromising the security while having eight orders of magnitude improvement on signature rate for signing a megabit message compared with conventional single-bit schemes. This study significantly reduces the delay for data postprocessing and is compatible with any quantum key generation protocols. In our simulation, taking two-photon twin-field key generation protocol as an example, QDS can be practically implemented over a fiber distance of 650 km between the signer and receiver. For the first time, this study offers a cryptographic application of quantum keys with imperfect secrecy and paves a way for the practical and agile implementation of digital signatures in a future quantum network.
翻訳日:2023-05-31 02:27:52 公開日:2023-05-29
# LAMBADA:自然言語の自動推論のための後方チェイン

LAMBADA: Backward Chaining for Automated Reasoning in Natural Language ( http://arxiv.org/abs/2212.13894v2 )

ライセンス: Link先を確認
Mehran Kazemi, Najoung Kim, Deepti Bhatia, Xin Xu, Deepak Ramachandran(参考訳) 言語モデル(LM)とChain-of-ThoughtやSelection-Inferenceといった手法を用いることで、自然言語による自動推論の進歩が目覚ましい。 これらの手法は、公理から結論までの前方方向の証明を探索し、これは探索空間の組合せ的爆発に悩まされ、より長い推論の連鎖を必要とする問題に対する高い失敗率となる。 古典的自動推論文学は、逆向きの推論(すなわち、意図された結論から支持公理まで)は証明探究においてはるかに効率的であることを示した。 この直感をLM設定にインポートし、推論を4つのサブモジュールに分解するLAMBADAと呼ばれる後方チェインアルゴリズムを開発した。 これらのサブモジュールは単に数発のLM推論によって実装される。 LAMBADAは、特に深層かつ正確な証明連鎖を必要とする場合において、挑戦的な論理的推論データセットに対する最先端の推論手法よりも精度が向上することを示す。

Remarkable progress has been made on automated reasoning with natural text, by using Language Models (LMs) and methods such as Chain-of-Thought and Selection-Inference. These techniques search for proofs in the forward direction from axioms to the conclusion, which suffers from a combinatorial explosion of the search space, and thus high failure rates for problems requiring longer chains of reasoning. The classical automated reasoning literature has shown that reasoning in the backward direction (i.e. from the intended conclusion to supporting axioms) is significantly more efficient at proof-finding. Importing this intuition into the LM setting, we develop a Backward Chaining algorithm, called LAMBADA, that decomposes reasoning into four sub-modules. These sub-modules are simply implemented by few-shot prompted LM inference. We show that LAMBADA achieves sizable accuracy boosts over state-of-the-art forward reasoning methods on challenging logical reasoning datasets, particularly when deep and accurate proof chains are required.
翻訳日:2023-05-31 02:27:08 公開日:2023-05-29
# 2重平滑化gda:制約付き非凸非凸ミニマックス最適化のための大域収束アルゴリズム

Doubly Smoothed GDA: Global Convergent Algorithm for Constrained Nonconvex-Nonconcave Minimax Optimization ( http://arxiv.org/abs/2212.12978v3 )

ライセンス: Link先を確認
Taoli Zheng, Linglingzhi Zhu, Anthony Man-Cho So, Jose Blanchet, Jiajin Li(参考訳) nonconvex-nonconcave minimaxの最適化は、機械学習の幅広い応用により、過去10年間、大きな注目を集めてきた。 残念なことに、ほとんどの既存のアルゴリズムはグローバル収束を保証できず、制限サイクルに苦しむことさえできない。 この問題に対処するために,2重平滑化勾配降下昇降法(dsgda)と呼ばれる,プライマルとデュアルの更新を自然にバランスさせる新しい単一ループアルゴリズムを提案する。 提案したDSGDAは、Forsaken、Bilinearly-coupled minimax、Sixth-order polynomial、PolarGameなど、様々な難解な非凸非凸例の極限サイクルを除去することができる。 さらに、指数 $\theta\in(0,1)$ (resp.convex primal/concave dual function) を持つ一方のKurtyka-\L{}ojasiewicz条件の下で、DSGDA は $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$ (resp.convex primal/concave dual function) の反復複雑性を持つゲーム定常点を見つけることができる。 o (\epsilon^{-4})$) である。 これらは、非凸凹や非凸凹のミニマックス問題を解くシングルループアルゴリズムや、より限定的な一方的なポリアック-\L{}ojasiewicz条件を満たす問題に対する最良の結果と一致する。 本研究は,非凸非凸,非凸凸および凸非凸ミニマックス問題を解決するための単純で統一された単一ループアルゴリズムを初めて持つことを実証する。

Nonconvex-nonconcave minimax optimization has received intense attention over the last decade due to its broad applications in machine learning. Unfortunately, most existing algorithms cannot be guaranteed to converge globally and even suffer from limit cycles. To address this issue, we propose a novel single-loop algorithm called doubly smoothed gradient descent ascent method (DSGDA), which naturally balances the primal and dual updates. The proposed DSGDA can get rid of limit cycles in various challenging nonconvex-nonconcave examples in the literature, including Forsaken, Bilinearly-coupled minimax, Sixth-order polynomial, and PolarGame. We further show that under an one-sided Kurdyka-\L{}ojasiewicz condition with exponent $\theta\in(0,1)$ (resp. convex primal/concave dual function), DSGDA can find a game-stationary point with an iteration complexity of $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$ (resp. $\mathcal{O}(\epsilon^{-4})$). These match the best results for single-loop algorithms that solve nonconvex-concave or convex-nonconcave minimax problems, or problems satisfying the rather restrictive one-sided Polyak-\L{}ojasiewicz condition. Our work demonstrates, for the first time, the possibility of having a simple and unified single-loop algorithm for solving nonconvex-nonconcave, nonconvex-concave, and convex-nonconcave minimax problems.
翻訳日:2023-05-31 02:26:50 公開日:2023-05-29
# ボルツマン密度間の補間学習

Learning Interpolations between Boltzmann Densities ( http://arxiv.org/abs/2301.07388v4 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 本研究では, サンプルの有無ではなく, エネルギー関数の存在下で使用可能な連続正規化フローのトレーニング目標を提案する。 目的エネルギー$f_1$と一般化されたガウス$f_0(x) = ||x/\sigma||_p^p$のエネルギー関数の間の所定あるいは学習した補間$f_t$に依存する。 エネルギー関数の補間はボルツマン密度$p_t \propto e^{-f_t}$の補間を誘導し、密度のファミリー$p_t$に沿ってサンプルを輸送する時間依存ベクトル場$V_t$を求める。 このPDEを満たすために、$V_t$と$f_t$の間でサンプルを転送する条件をPDEに変換することができ、$V_t$と$f_t$を最適化する。 提案した学習目標とガウス混合物の逆KL偏差と量子力学粒子のボルツマン密度を二重ポテンシャルで比較した。

We introduce a training objective for continuous normalizing flows that can be used in the absence of samples but in the presence of an energy function. Our method relies on either a prescribed or a learnt interpolation $f_t$ of energy functions between the target energy $f_1$ and the energy function of a generalized Gaussian $f_0(x) = ||x/\sigma||_p^p$. The interpolation of energy functions induces an interpolation of Boltzmann densities $p_t \propto e^{-f_t}$ and we aim to find a time-dependent vector field $V_t$ that transports samples along the family $p_t$ of densities. The condition of transporting samples along the family $p_t$ can be translated to a PDE between $V_t$ and $f_t$ and we optimize $V_t$ and $f_t$ to satisfy this PDE. We experimentally compare the proposed training objective to the reverse KL-divergence on Gaussian mixtures and on the Boltzmann density of a quantum mechanical particle in a double-well potential.
翻訳日:2023-05-31 02:16:36 公開日:2023-05-29
# 量子カオス指標としての時間外相関子の相対的漸近振動

Relative asymptotic oscillations of the out-of-time-ordered correlator as a quantum chaos indicator ( http://arxiv.org/abs/2301.02456v3 )

ライセンス: Link先を確認
Jakub Novotn\'y, Pavel Str\'ansk\'y(参考訳) 詳細な数値研究により、時間外整列コリレータの標準偏差-平均比の漸近値がシステムの量子カオス性の尺度として有効であることが判明した。 自由度が2つの有限サイズの完全連結量子系、すなわち代数的u(3)モデルを採用し、相関子の相対振動と、系の古典的極限における位相空間体積のカオス的部分の比との明確な対応を示す。 また、相対振動がシステムサイズとどのようにスケールするかを示し、スケーリング指数が堅牢なカオス指標としても機能することを示す。

A detailed numerical study reveals that the asymptotic values of the standard deviation-to-mean ratio of the out-of-time-ordered correlator can be successfully used as a measure of the quantum chaoticity of the system. We employ a finite-size fully connected quantum system with two degrees of freedom, namely the algebraic u(3) model, and demonstrate a clear correspondence between the relative oscillations of the correlators and the ratio of the chaotic part of the volume of phase space in the classical limit of the system. We also show how the relative oscillations scale with the system size and conjecture that the scaling exponent can also serve as a robust chaos indicator.
翻訳日:2023-05-31 02:14:07 公開日:2023-05-29
# 深層強化学習における探索のための自己報酬の自動生成

Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2301.10886v2 )

ライセンス: Link先を確認
Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng(参考訳) 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。 より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。 さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。 我々は、MiniGrid、Procgen、DeepMind Control Suiteといった様々なタスクでAIRSをテストする。 拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。

We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects shaping function from a predefined set based on the estimated task return in real-time, providing reliable exploration incentives and alleviating the biased objective problem. Moreover, we develop an intrinsic reward toolkit to provide efficient and reliable implementations of diverse intrinsic reward approaches. We test AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite. Extensive simulation demonstrates that AIRS can outperform the benchmarking schemes and achieve superior performance with simple architecture.
翻訳日:2023-05-31 02:07:28 公開日:2023-05-29
# GyroFlow+:ジャイロスコープによる教師なし深部ホログラフィーと光フロー学習

GyroFlow+: Gyroscope-Guided Unsupervised Deep Homography and Optical Flow Learning ( http://arxiv.org/abs/2301.10018v2 )

ライセンス: Link先を確認
Haipeng Li and Kunming Luo and Bing Zeng and Shuaicheng Liu(参考訳) 既存のホモグラフィと光学フロー法は、明るさや勾配定数などの基本的な仮定が壊れているため、霧、雨、夜、雪などの困難な場面では誤りである。 本稿では,ジャイロスコープをホモグラフィと光フロー学習に融合させる教師なし学習手法を提案する。 具体的には、まずジャイロスコープの読みをジャイロフィールドと呼ばれる動き場に変換する。 第2に,ジャイロ場から抽出した背景運動と光流を融合させる自己誘導核融合モジュール(SGF)を設計し,移動の詳細に集中するようネットワークを誘導する。 一方,ジャイロ場とsgfの中間結果を組み合わせてホモグラフィを生成するホモグラフィデコーダモジュール(hd)を提案する。 私たちの知る限りでは、これはジャイロスコープデータと画像コンテンツを融合して、ディープホモグラフィとオプティカルフロー学習の両方を行う、初めてのディープラーニングフレームワークです。 提案手法を検証するために,規則的かつ困難な場面をカバーする新しいデータセットを提案する。 実験により,本手法は,通常シーンと挑戦シーンの両方において,最先端の手法よりも優れていた。

Existing homography and optical flow methods are erroneous in challenging scenes, such as fog, rain, night, and snow because the basic assumptions such as brightness and gradient constancy are broken. To address this issue, we present an unsupervised learning approach that fuses gyroscope into homography and optical flow learning. Specifically, we first convert gyroscope readings into motion fields named gyro field. Second, we design a self-guided fusion module (SGF) to fuse the background motion extracted from the gyro field with the optical flow and guide the network to focus on motion details. Meanwhile, we propose a homography decoder module (HD) to combine gyro field and intermediate results of SGF to produce the homography. To the best of our knowledge, this is the first deep learning framework that fuses gyroscope data and image content for both deep homography and optical flow learning. To validate our method, we propose a new dataset that covers regular and challenging scenes. Experiments show that our method outperforms the state-of-the-art methods in both regular and challenging scenes.
翻訳日:2023-05-31 02:06:29 公開日:2023-05-29
# ベクトル量子化モデルを用いた階層的模倣学習

Hierarchical Imitation Learning with Vector Quantized Models ( http://arxiv.org/abs/2301.12962v2 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Joni Pajarinen, Alexander Ilin(参考訳) 複数の抽象レベルでアクションを計画できるため、インテリジェントエージェントは複雑なタスクを効果的に解決できる。 しかし、デモから低レベルの計画モデルと高レベルの計画モデルを学ぶことは、特に高次元入力では困難であることが証明されている。 この問題に対処するため,本稿では,国家と選択されたサブゴールが与える低レベル行動の予測可能性と,報酬の規模を関連付けることにより,専門家軌道におけるサブゴールの同定に強化学習を用いることを提案する。 同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。 実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。 計画する能力のため、我々のアルゴリズムはトレーニングセットのそれよりも良い軌道を見つけることができる。

The ability to plan actions on multiple levels of abstraction enables intelligent agents to solve complex tasks effectively. However, learning the models for both low and high-level planning from demonstrations has proven challenging, especially with higher-dimensional inputs. To address this issue, we propose to use reinforcement learning to identify subgoals in expert trajectories by associating the magnitude of the rewards with the predictability of low-level actions given the state and the chosen subgoal. We build a vector-quantized generative model for the identified subgoals to perform subgoal-level planning. In experiments, the algorithm excels at solving complex, long-horizon decision-making problems outperforming state-of-the-art. Because of its ability to plan, our algorithm can find better trajectories than the ones in the training set
翻訳日:2023-05-31 01:57:32 公開日:2023-05-29
# 神経最適輸送による極値領域翻訳

Extremal Domain Translation with Neural Optimal Transport ( http://arxiv.org/abs/2301.12874v2 )

ライセンス: Link先を確認
Milena Gazdieva, Alexander Korotin, Daniil Selikhanovych, Evgeny Burnaev(参考訳) 本稿では、与えられた類似性関数の対であるドメインw.r.t.の間の理論的に最良の未ペア翻訳の数学的形式化である極端輸送(ET)を提案する。 近年のニューラル・オプティカル・トランスポート(OT)の進歩に触発されて,部分的なOTマップの限界としてETマップを近似するスケーラブルなアルゴリズムを提案する。 おもちゃの例や画像から画像への変換タスクでアルゴリズムをテストする。

We propose the extremal transport (ET) which is a mathematical formalization of the theoretically best possible unpaired translation between a pair of domains w.r.t. the given similarity function. Inspired by the recent advances in neural optimal transport (OT), we propose a scalable algorithm to approximate ET maps as a limit of partial OT maps. We test our algorithm on toy examples and on the unpaired image-to-image translation task.
翻訳日:2023-05-31 01:57:20 公開日:2023-05-29
# red teaming chatgpt via jailbreaking: バイアス、ロバスト性、信頼性、毒性

Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity ( http://arxiv.org/abs/2301.12867v4 )

ライセンス: Link先を確認
Terry Yue Zhuo, Yujin Huang, Chunyang Chen and Zhenchang Xing(参考訳) 自然言語処理(nlp)における近年のブレークスルーは、コヒーレントテキストの合成と理解を開放的な方法で可能にし、理論アルゴリズムを実用的な用途に翻訳した。 大きな言語モデル(LLM)は、要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えている。 しかしながら、LCMは社会的偏見と毒性を示し、無責任な結果の倫理的・社会的危険を生じさせる可能性がある。 したがって、説明責任 LLM の大規模ベンチマークを開発する必要がある。 先進的llmにおける倫理的困難の存在は、いくつかの実証研究によって明らかにされているが、現在のllm使用のリスクや有害な行動に関する体系的な検証やユーザー調査は少ない。 倫理的LLMの構築に責任を負うために、我々はOpenAIのChatGPT\footnote{この論文では、ChatGPTは12月15日にリリースされたバージョンを指して「red teaming」と呼ばれる定性的研究手法を実践する。 近年のLLMにおける倫理的危険の実践的特徴をよりよく理解する。 ChatGPTを4つの観点から総合的に分析する。 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{toxicity} である。 提案する視点に従って,複数のサンプルデータセット上でChatGPTを実証的にベンチマークする。 私たちは、多くの倫理的リスクは既存のベンチマークでは対処できないことを見出し、追加のケーススタディを通じてそれらを説明する。 さらに,ChatGPTのAI倫理と調和行動,今後の課題,そして責任あるLCMに対する実践的設計の考察について考察した。 LLMの応用において機械がもたらす倫理的危険を決定・緩和するための今後の取り組みに光を当てることができると考えている。

Recent breakthroughs in natural language processing (NLP) have permitted the synthesis and comprehension of coherent text in an open-ended way, therefore translating the theoretical algorithms into practical applications. The large language models (LLMs) have significantly impacted businesses such as report summarization software and copywriters. Observations indicate, however, that LLMs may exhibit social prejudice and toxicity, posing ethical and societal dangers of consequences resulting from irresponsibility. Large-scale benchmarks for accountable LLMs should consequently be developed. Although several empirical investigations reveal the existence of a few ethical difficulties in advanced LLMs, there is little systematic examination and user study of the risks and harmful behaviors of current LLM usage. To further educate future efforts on constructing ethical LLMs responsibly, we perform a qualitative research method called ``red teaming'' on OpenAI's ChatGPT\footnote{In this paper, ChatGPT refers to the version released on Dec 15th.} to better understand the practical features of ethical dangers in recent LLMs. We analyze ChatGPT comprehensively from four perspectives: 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{Toxicity}. In accordance with our stated viewpoints, we empirically benchmark ChatGPT on multiple sample datasets. We find that a significant number of ethical risks cannot be addressed by existing benchmarks, and hence illustrate them via additional case studies. In addition, we examine the implications of our findings on AI ethics and harmal behaviors of ChatGPT, as well as future problems and practical design considerations for responsible LLMs. We believe that our findings may give light on future efforts to determine and mitigate the ethical hazards posed by machines in LLM applications.
翻訳日:2023-05-31 01:57:14 公開日:2023-05-29
# ランダム分解は高次元ベイズ最適化に必要なすべてか?

Are Random Decompositions all we need in High Dimensional Bayesian Optimisation? ( http://arxiv.org/abs/2301.12844v2 )

ライセンス: Link先を確認
Juliusz Ziomek, Haitham Bou-Ammar(参考訳) 高価なブラックボックス関数の学習分解は、ベイズ最適化(BO)を高次元問題に拡張することを約束する。 しかし、これらの手法の成功はブラックボックスを正確に表現する適切な分解を見つけることに依存する。 先行研究はデータに基づいてこれらの分解を学習する一方で,本論文ではデータ非依存分解サンプリングルールについて検討する。 探索空間全体にわたって保持されない局所的な分解に対して,データ駆動型分解学習者が容易に誤解されることが判明した。 そして, 木をベースとした無作為な分解サンプリングは, 分解によって提供されるブラックボックスとサロゲート間の最大情報ゲインと機能的ミスマッチを効果的に除去する理論的保証を示す。 これらの結果は、(ほぼ)プラグ・アンド・プレイの実装が容易なランダム分解上信頼結合アルゴリズム(RDUCB)の開発を動機付け、驚くべきことに、包括的なベンチマークの以前の状態と比較して、大きな経験的利益をもたらす。 また,本手法をHEBOと統合することにより,モデルコンポーネントのプラグアンドプレイ性を確認し,ベイズマルクの高次元タスクにおける実用性の向上を示した。

Learning decompositions of expensive-to-evaluate black-box functions promises to scale Bayesian optimisation (BO) to high-dimensional problems. However, the success of these techniques depends on finding proper decompositions that accurately represent the black-box. While previous works learn those decompositions based on data, we investigate data-independent decomposition sampling rules in this paper. We find that data-driven learners of decompositions can be easily misled towards local decompositions that do not hold globally across the search space. Then, we formally show that a random tree-based decomposition sampler exhibits favourable theoretical guarantees that effectively trade off maximal information gain and functional mismatch between the actual black-box and its surrogate as provided by the decomposition. Those results motivate the development of the random decomposition upper-confidence bound algorithm (RDUCB) that is straightforward to implement - (almost) plug-and-play - and, surprisingly, yields significant empirical gains compared to the previous state-of-the-art on a comprehensive set of benchmarks. We also confirm the plug-and-play nature of our modelling component by integrating our method with HEBO, showing improved practical gains in the highest dimensional tasks from Bayesmark.
翻訳日:2023-05-31 01:56:43 公開日:2023-05-29
# 潜在スペクトルモデルを用いた高次元PDEの解法

Solving High-Dimensional PDEs with Latent Spectral Models ( http://arxiv.org/abs/2301.12664v3 )

ライセンス: Link先を確認
Haixu Wu, Tengge Hu, Huakun Luo, Jianmin Wang, Mingsheng Long(参考訳) ディープモデルは偏微分方程式(PDE)の解法において顕著な進歩を遂げた。 膨れ上がるパラダイムは、ニューラル演算子を学習してPDEの入出力マッピングを近似することである。 従来のディープモデルは、マルチスケールアーキテクチャや様々なオペレーターの設計を探索してきたが、それらは座標空間における演算子全体の学習に限られていた。 現実の物理科学問題において、pdes は高次元座標空間への離散化に依存する数値解法を持つ複素結合方程式であり、これは単一の作用素によって正確に近似することも、次元の呪いによって効率的に学習することもできない。 我々は,高次元PDEの効率的かつ高精度な解法に向けた潜在スペクトルモデル(LSM)を提案する。 座標空間を超えて、LSMは注意に基づく階層的射影ネットワークを可能にし、高次元データを線形時間でコンパクトな潜在空間に還元する。 数値解析において古典スペクトル法に着想を得て,複数の基底演算子を学習することで複雑な入力出力マッピングを近似し,収束と近似の理論的保証を良好に享受する潜在空間のPDEを解くニューラルネットワークスペクトルブロックを設計した。 実験的に、LSMは一貫した最先端を実現し、固体物理学と流体物理学の両方をカバーする7つのベンチマークで平均11.5%の相対的な利得を得る。 コードはhttps://github.com/thuml/Latent-Spectral-Modelsで入手できる。

Deep models have achieved impressive progress in solving partial differential equations (PDEs). A burgeoning paradigm is learning neural operators to approximate the input-output mappings of PDEs. While previous deep models have explored the multiscale architectures and various operator designs, they are limited to learning the operators as a whole in the coordinate space. In real physical science problems, PDEs are complex coupled equations with numerical solvers relying on discretization into high-dimensional coordinate space, which cannot be precisely approximated by a single operator nor efficiently learned due to the curse of dimensionality. We present Latent Spectral Models (LSM) toward an efficient and precise solver for high-dimensional PDEs. Going beyond the coordinate space, LSM enables an attention-based hierarchical projection network to reduce the high-dimensional data into a compact latent space in linear time. Inspired by classical spectral methods in numerical analysis, we design a neural spectral block to solve PDEs in the latent space that approximates complex input-output mappings via learning multiple basis operators, enjoying nice theoretical guarantees for convergence and approximation. Experimentally, LSM achieves consistent state-of-the-art and yields a relative gain of 11.5% averaged on seven benchmarks covering both solid and fluid physics. Code is available at https://github.com/thuml/Latent-Spectral-Models.
翻訳日:2023-05-31 01:56:24 公開日:2023-05-29
# 少数ショットの分類をもう一度見てみよう

A Closer Look at Few-shot Classification Again ( http://arxiv.org/abs/2301.12246v3 )

ライセンス: Link先を確認
Xu Luo, Hao Wu, Ji Zhang, Lianli Gao, Jing Xu, Jingkuan Song(参考訳) 少数ショット分類は、比較的大きなデータセットでモデルが学習されるトレーニングフェーズと、学習されたモデルをラベル付きサンプルが限定された未認識のタスクに適応する適応フェーズからなる。 本稿では,学習アルゴリズムと適応アルゴリズムが完全に絡み合っていることを実証的に証明し,各フェーズごとに個別にアルゴリズム解析と設計を行うことを可能にする。 相別メタ分析では,視覚表現学習や転帰学習といった他分野との関わりや数発の分類の重要側面をよりよく理解する上で,いくつかの興味深い洞察が得られている。 この論文で明らかになった洞察と研究の課題が、今後の研究を関連する方向に促すことを願っている。 コードと事前学習されたモデル(pytorch)はhttps://github.com/frankluox/closerlookagainfewshot.comから入手できる。

Few-shot classification consists of a training phase where a model is learned on a relatively large dataset and an adaptation phase where the learned model is adapted to previously-unseen tasks with limited labeled samples. In this paper, we empirically prove that the training algorithm and the adaptation algorithm can be completely disentangled, which allows algorithm analysis and design to be done individually for each phase. Our meta-analysis for each phase reveals several interesting insights that may help better understand key aspects of few-shot classification and connections with other fields such as visual representation learning and transfer learning. We hope the insights and research challenges revealed in this paper can inspire future work in related directions. Code and pre-trained models (in PyTorch) are available at https://github.com/Frankluox/CloserLookAgainFewShot.
翻訳日:2023-05-31 01:55:30 公開日:2023-05-29
# 6G O-RANにおけるネットワーク支援インテリジェントトラフィックステアリング:多層最適化フレームワーク

Network-Aided Intelligent Traffic Steering in 6G O-RAN: A Multi-Layer Optimization Framework ( http://arxiv.org/abs/2302.02711v2 )

ライセンス: Link先を確認
Van-Dinh Nguyen, Thang X. Vu, Nhan Thanh Nguyen, Dinh C. Nguyen, Markku Juntti, Nguyen Cong Luong, Dinh Thai Hoang, Diep N. Nguyen and Symeon Chatzinotas(参考訳) 6Gネットワークのためのインテリジェントでプログラム可能なマルチベンダ無線アクセスネットワーク(RAN)を実現するために、オープンRAN(O-RAN)の標準化と開発に多大な努力が払われている。 しかし、これまでのところ、RAN関数の制御と最適化におけるO-RANの適用性は広く研究されていない。 本稿では,O-RANにおけるインテリジェントなトラフィックステアリングアプリケーションを実現するために,フロースプリット分布,渋滞制御,スケジューリング(JFCS)を協調的に最適化する。 ネットワークユーティリティの最大化と確率的最適化のツールを組み合わせて、高速収束、長期のユーティリティ最適化、および最先端およびベースライン実行アプローチと比較して大幅な遅延削減を提供する多層最適化フレームワークを提案する。 私たちの主な貢献は3倍です。 一 適切な無線ユニットに効率的にかつ適応的にトラフィックを誘導する新しいJFCSフレームワークを提案する。 二 強化学習法、内的近似法、二断面探索法に基づく低複雑度アルゴリズムを開発し、異なる時間スケールでjfcs問題を効果的に解く。 三 厳密な理論性能の結果を分析して、遅延とユーティリティ最適化のトレードオフを改善するためのスケーリング要因が存在することを示す。 この作業における洞察は、コントロールと柔軟性が強化された完全に自動化されたネットワークへの扉を開くことになる。 提案手法の有効性を, 収束速度, 長期有効性, 遅延低減の観点から示すため, 数値実験を行った。

To enable an intelligent, programmable and multi-vendor radio access network (RAN) for 6G networks, considerable efforts have been made in standardization and development of open RAN (O-RAN). So far, however, the applicability of O-RAN in controlling and optimizing RAN functions has not been widely investigated. In this paper, we jointly optimize the flow-split distribution, congestion control and scheduling (JFCS) to enable an intelligent traffic steering application in O-RAN. Combining tools from network utility maximization and stochastic optimization, we introduce a multi-layer optimization framework that provides fast convergence, long-term utility-optimality and significant delay reduction compared to the state-of-the-art and baseline RAN approaches. Our main contributions are three-fold: i) we propose the novel JFCS framework to efficiently and adaptively direct traffic to appropriate radio units; ii) we develop low-complexity algorithms based on the reinforcement learning, inner approximation and bisection search methods to effectively solve the JFCS problem in different time scales; and iii) the rigorous theoretical performance results are analyzed to show that there exists a scaling factor to improve the tradeoff between delay and utility-optimization. Collectively, the insights in this work will open the door towards fully automated networks with enhanced control and flexibility. Numerical results are provided to demonstrate the effectiveness of the proposed algorithms in terms of the convergence rate, long-term utility-optimality and delay reduction.
翻訳日:2023-05-31 01:51:15 公開日:2023-05-29
# 識別と生成的分類の再考:理論と含意

Revisiting Discriminative vs. Generative Classifiers: Theory and Implications ( http://arxiv.org/abs/2302.02334v2 )

ライセンス: Link先を確認
Chenyu Zheng, Guoqiang Wu, Fan Bao, Yue Cao, Chongxuan Li, Jun Zhu(参考訳) 大規模ラベル付きまたはラベルなしのデータ転送で事前訓練された大規模なディープモデルは、下流のタスクによく適合する。 線形評価は事前訓練されたモデルのパラメータを凍結し、線形分類器を個別に訓練する。 しかし, 既定ロジスティック回帰を除いて, 線形評価における分類器の研究はほとんど行われていない。 ナイーブベイズの統計的効率に触発された本論文は、差別的対生成的分類器に関する古典的トピックを再考する。 理論的には、分析におけるゼロワン損失の代わりに代理損失を考慮し、バイナリケースからマルチクラスケースへの古典的な結果を一般化する。 穏やかな仮定の下では、マルチクラスのネーブベイズはその漸近誤差にアプローチするために$O(\log n)$サンプルを必要とする一方で、対応するマルチクラスのロジスティック回帰には$O(n)$サンプルが必要である。 それを確立するために、マルチクラス $\mathcal{H}$-consistency bound framework と、独立した関心を持つロジスティック損失の明示的な境界を示す。 ガウシアン混合物のシミュレーション結果は,我々の理論的知見を裏付けるものである。 様々な事前訓練されたディープビジョンモデルの実験は、データの数が増加するにつれて、ナイーブベイズは常に速く収束することを示している。 さらに、ベイズは数発のケースで約束を示し、事前訓練された教師付きモデルで「2つのレジーム」現象を観察する。 私たちのコードはhttps://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiersで利用可能です。

A large-scale deep model pre-trained on massive labeled or unlabeled data transfers well to downstream tasks. Linear evaluation freezes parameters in the pre-trained model and trains a linear classifier separately, which is efficient and attractive for transfer. However, little work has investigated the classifier in linear evaluation except for the default logistic regression. Inspired by the statistical efficiency of naive Bayes, the paper revisits the classical topic on discriminative vs. generative classifiers. Theoretically, the paper considers the surrogate loss instead of the zero-one loss in analyses and generalizes the classical results from binary cases to multiclass ones. We show that, under mild assumptions, multiclass naive Bayes requires $O(\log n)$ samples to approach its asymptotic error while the corresponding multiclass logistic regression requires $O(n)$ samples, where $n$ is the feature dimension. To establish it, we present a multiclass $\mathcal{H}$-consistency bound framework and an explicit bound for logistic loss, which are of independent interests. Simulation results on a mixture of Gaussian validate our theoretical findings. Experiments on various pre-trained deep vision models show that naive Bayes consistently converges faster as the number of data increases. Besides, naive Bayes shows promise in few-shot cases and we observe the "two regimes" phenomenon in pre-trained supervised models. Our code is available at https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers.
翻訳日:2023-05-31 01:50:51 公開日:2023-05-29
# SanskritShala: 教育とアノテーションのためのWebベースのインタフェースを備えたニューラルサンスクリットNLPツールキット

SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes ( http://arxiv.org/abs/2302.09527v2 )

ライセンス: Link先を確認
Jivnesh Sandhan, Anshul Agarwal, Laxmidhar Behera, Tushar Sandhan and Pawan Goyal(参考訳) サンスクリット自然言語処理(nlp)ツールキットsanskritshala(サンスクリット学派)を用いて,単語のセグメンテーション,形態的タグ付け,係り受け解析,複合型識別など,いくつかのタスクの計算言語解析を容易にする。 現在、我々のシステムはあらゆるタスクのベンチマークデータセットに最先端のパフォーマンスを報告しています。 SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。 簡単に使えるインタラクティブなデータアノテーション機能で構築されており、アノテータがミスを犯したときのシステムの予測を修正できる。 ツールキットに含まれる4つのモジュールのソースコード、サンスクリットコーパスで訓練された7つのワード埋め込みモデル、および単語類似性、関連性、分類、アナロジー予測などのアノテーション付きデータセットを公開し、単語埋め込みの固有の特性を評価する。 われわれが知る限り、これはWebベースのインターフェースと多数のNLPモジュールを備えた、最初のニューラルベースのNLPツールキットである。 サンスクリットと協力する意思のある人々は、教育的および注釈的な目的に役に立つと確信している。 SanskritShala は以下の https://cnerg.iitkgp.ac.in/sanskritshala で利用可能である。 私たちのプラットフォームのデモビデオは、https://youtu.be/x0x31y9k0mw4で閲覧できます。

We present a neural Sanskrit Natural Language Processing (NLP) toolkit named SanskritShala (a school of Sanskrit) to facilitate computational linguistic analyses for several tasks such as word segmentation, morphological tagging, dependency parsing, and compound type identification. Our systems currently report state-of-the-art performance on available benchmark datasets for all tasks. SanskritShala is deployed as a web-based application, which allows a user to get real-time analysis for the given input. It is built with easy-to-use interactive data annotation features that allow annotators to correct the system predictions when it makes mistakes. We publicly release the source codes of the 4 modules included in the toolkit, 7 word embedding models that have been trained on publicly available Sanskrit corpora and multiple annotated datasets such as word similarity, relatedness, categorization, analogy prediction to assess intrinsic properties of word embeddings. So far as we know, this is the first neural-based Sanskrit NLP toolkit that has a web-based interface and a number of NLP modules. We are sure that the people who are willing to work with Sanskrit will find it useful for pedagogical and annotative purposes. SanskritShala is available at: https://cnerg.iitkgp.ac.in/sanskritshala. The demo video of our platform can be accessed at: https://youtu.be/x0X31Y9k0mw4.
翻訳日:2023-05-31 01:38:49 公開日:2023-05-29
# 幾何学的クリフォード代数ネットワーク

Geometric Clifford Algebra Networks ( http://arxiv.org/abs/2302.06594v2 )

ライセンス: Link先を確認
David Ruhe, Jayesh K. Gupta, Steven de Keninck, Max Welling, Johannes Brandstetter(参考訳) 本稿では,動的システムのモデリングのためのGeometric Clifford Algebra Networks (GCANs)を提案する。 GCANは幾何学(クリフォード)代数を用いた対称性群変換に基づいている。 我々はまず、$\mathrm{Pin}(p,q,r)$群の要素としてエンコードされた等メトリーを基盤とする現代(平面ベース)幾何代数のクインテッセンスを概観する。 次に、あらかじめ特定されたグループアクションを用いてオブジェクト変換を線形に結合するグループアクション層の概念を提案する。 新しいアクティベーションと正規化スキームとともに、これらのレイヤは、勾配降下によって洗練された調整可能な$\textit{geometric templates}$として機能する。 理論上の利点は、3次元剛体変換のモデル化と大規模流体力学シミュレーションに強く反映され、従来の方法よりも大幅に性能が向上した。

We propose Geometric Clifford Algebra Networks (GCANs) for modeling dynamical systems. GCANs are based on symmetry group transformations using geometric (Clifford) algebras. We first review the quintessence of modern (plane-based) geometric algebra, which builds on isometries encoded as elements of the $\mathrm{Pin}(p,q,r)$ group. We then propose the concept of group action layers, which linearly combine object transformations using pre-specified group actions. Together with a new activation and normalization scheme, these layers serve as adjustable $\textit{geometric templates}$ that can be refined via gradient descent. Theoretical advantages are strongly reflected in the modeling of three-dimensional rigid body transformations as well as large-scale fluid dynamics simulations, showing significantly improved performance over traditional methods.
翻訳日:2023-05-31 01:37:10 公開日:2023-05-29
# フリンジ投影プロファイロメトリーにおける自己制御位相解離

Self-supervised phase unwrapping in fringe projection profilometry ( http://arxiv.org/abs/2302.06381v2 )

ライセンス: Link先を確認
Xiaomin Gao, Wanzhong Song, Chunqian Tan, Junzhe Lei(参考訳) 高速かつ高精度な3次元形状測定は、FPP (fringe projection profilometry) において常に目標となっている。 二周波時相解離法(DF-TPU)はこの目的を達成するための重要な技術の一つである。 しかしながら、既存のdf-tpuアプローチの高周波パターンの周期数は、通常避けられない位相誤差によって制限され、測定精度の限界となる。 シングルカメラFPPの深層学習に基づく位相解放法は通常、トレーニングのためにラベル付きデータを必要とする。 本稿では,単一カメラ用FPPシステムの自己監督型位相解放手法を提案する。 訓練されたネットワークは、64周期の1フェーズマップから絶対縁順を検索し、深さ精度でDF-TPUアプローチをオーバーパフォーマンスすることができる。 実験により, 提案手法が実際の動きのぼやけ, 孤立物体, 低反射率, 位相不連続の場面で有効であることを示す。

Fast-speed and high-accuracy three-dimensional (3D) shape measurement has been the goal all along in fringe projection profilometry (FPP). The dual-frequency temporal phase unwrapping method (DF-TPU) is one of the prominent technologies to achieve this goal. However, the period number of the high-frequency pattern of existing DF-TPU approaches is usually limited by the inevitable phase errors, setting a limit to measurement accuracy. Deep-learning-based phase unwrapping methods for single-camera FPP usually require labeled data for training. In this letter, a novel self-supervised phase unwrapping method for single-camera FPP systems is proposed. The trained network can retrieve the absolute fringe order from one phase map of 64-period and overperform DF-TPU approaches in terms of depth accuracy. Experimental results demonstrate the validation of the proposed method on real scenes of motion blur, isolated objects, low reflectivity, and phase discontinuity.
翻訳日:2023-05-31 01:36:56 公開日:2023-05-29
# 分散学習におけるプライバシ-ロバストネス-有効性三補題について

On the Privacy-Robustness-Utility Trilemma in Distributed Learning ( http://arxiv.org/abs/2302.04787v2 )

ライセンス: Link先を確認
Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, John Stephan(参考訳) 機密性の高いパブリックドメインアプリケーションにおける分散機械学習(ML)の普及は、データプライバシを保護しつつ、障害や敵の動作に対して堅牢なアルゴリズムを要求する。 プライバシとロバスト性は分散MLでは独立して研究されているが、その合成はあまり理解されていない。 本稿では,一部の敵マシンに対してロバスト性を確保するアルゴリズムや,他の好奇心をそそるエンティティに対して,正直なマシンのデータに対する差分プライバシ(DP)を初めて厳密に分析する。 私たちの分析は、プライバシ、堅牢性、ユーティリティの基本的なトレードオフを示しています。 下限を証明するために,分散dpとロバスト性制約の下で平均推定を行う場合を考察し,一方通行限界の集中的推定への還元を考案する。 我々は,高次元ロバストアグリゲーションルールを用いて,新しい分散MLアルゴリズムを提案することにより,マッチング上界を証明した。 後者は、(敵の労働者とDPによる)誤差の次元への依存を補正するが、データの統計的性質には依存しない。

The ubiquity of distributed machine learning (ML) in sensitive public domain applications calls for algorithms that protect data privacy, while being robust to faults and adversarial behaviors. Although privacy and robustness have been extensively studied independently in distributed ML, their synthesis remains poorly understood. We present the first tight analysis of the error incurred by any algorithm ensuring robustness against a fraction of adversarial machines, as well as differential privacy (DP) for honest machines' data against any other curious entity. Our analysis exhibits a fundamental trade-off between privacy, robustness, and utility. To prove our lower bound, we consider the case of mean estimation, subject to distributed DP and robustness constraints, and devise reductions to centralized estimation of one-way marginals. We prove our matching upper bound by presenting a new distributed ML algorithm using a high-dimensional robust aggregation rule. The latter amortizes the dependence on the dimension in the error (caused by adversarial workers and DP), while being agnostic to the statistical properties of the data.
翻訳日:2023-05-31 01:36:43 公開日:2023-05-29
# ファウンデーションモデルのためのブラックボックス対応プロンプト

Black Box Adversarial Prompting for Foundation Models ( http://arxiv.org/abs/2302.04237v2 )

ライセンス: Link先を確認
Natalie Maus, Patrick Chao, Eric Wong, Jacob Gardner(参考訳) プロンプティングインタフェースにより、ユーザーは視覚と言語の両方で生成モデルの出力を迅速に調整できる。 しかし、プロンプトの小さな変更や設計上の選択は、出力に大きな違いをもたらす可能性がある。 本研究では,非構造化画像とテキスト生成のための逆プロンプトを生成するブラックボックスフレームワークを開発する。 これらのプロンプトはスタンドアロンでもよいし、良心的なプロンプトでもよいが、特定のオブジェクトの画像の生成や高いパープレキシティテキストの生成など、特定の振る舞いを生成プロセスに誘導する。

Prompting interfaces allow users to quickly adjust the output of generative models in both vision and language. However, small changes and design choices in the prompt can lead to significant differences in the output. In this work, we develop a black-box framework for generating adversarial prompts for unstructured image and text generation. These prompts, which can be standalone or prepended to benign prompts, induce specific behaviors into the generative process, such as generating images of a particular object or generating high perplexity text.
翻訳日:2023-05-31 01:36:22 公開日:2023-05-29
# Rover: 汎用トランスファー学習によるオンラインSpark SQLチューニングサービス

Rover: An online Spark SQL tuning service via generalized transfer learning ( http://arxiv.org/abs/2302.04046v2 )

ライセンス: Link先を確認
Yu Shen, Xinyuyang Ren, Yupeng Lu, Huaijun Jiang, Huanyong Xu, Di Peng, Yang Li, Wentao Zhang, Bin Cui(参考訳) Sparkのような分散データ分析エンジンは、業界で大量のデータを処理する一般的な選択肢である。 しかし、Spark SQLのパフォーマンスは、実行中のワークロードによって最適なものが異なる設定の選択に大きく依存する。 Spark SQLチューニングの代替として、Bayesian Optimization(BO)は、十分な予算が与えられたほぼ最適設定を見つける人気フレームワークであるが、再最適化の問題に悩まされており、実運用では実用的ではない。 チューニングプロセスを加速するために転写学習を適用する場合、ドメイン固有の2つの課題に気づく。 1) これまでの作業はチューニング履歴の転送に重点を置いていたが,Sparkの技術者による専門家の知識はチューニングのパフォーマンス向上に大きな可能性を持っている。 2) 履歴タスクを慎重に利用し, 異種タスクを使用することで生産性能が低下する。 本稿では,産業ワークロードの効率的かつ安全な検索を行うオンラインSpark SQLチューニングサービスであるRoverを紹介する。 この課題に対処するために,専門家支援ベイズ最適化や制御履歴転送など,外部知識に基づくチューニング性能を向上させるために,一般化した転送学習を提案する。 公開ベンチマークと実世界のタスクに関する実験は、ローバーが競合ベースラインよりも優れていることを示している。 特にローバーは、1k実世界のspark sqlタスクのメモリコストの50.1%を20回のイテレーションで節約し、その76.2%が60%以上のメモリ削減を達成している。

Distributed data analytic engines like Spark are common choices to process massive data in industry. However, the performance of Spark SQL highly depends on the choice of configurations, where the optimal ones vary with the executed workloads. Among various alternatives for Spark SQL tuning, Bayesian optimization (BO) is a popular framework that finds near-optimal configurations given sufficient budget, but it suffers from the re-optimization issue and is not practical in real production. When applying transfer learning to accelerate the tuning process, we notice two domain-specific challenges: 1) most previous work focus on transferring tuning history, while expert knowledge from Spark engineers is of great potential to improve the tuning performance but is not well studied so far; 2) history tasks should be carefully utilized, where using dissimilar ones lead to a deteriorated performance in production. In this paper, we present Rover, a deployed online Spark SQL tuning service for efficient and safe search on industrial workloads. To address the challenges, we propose generalized transfer learning to boost the tuning performance based on external knowledge, including expert-assisted Bayesian optimization and controlled history transfer. Experiments on public benchmarks and real-world tasks show the superiority of Rover over competitive baselines. Notably, Rover saves an average of 50.1% of the memory cost on 12k real-world Spark SQL tasks in 20 iterations, among which 76.2% of the tasks achieve a significant memory reduction of over 60%.
翻訳日:2023-05-31 01:36:13 公開日:2023-05-29
# 都市間ネットワークにおける非同期計測デバイス非依存量子鍵分布の利点

Advantages of Asynchronous Measurement-Device-Independent Quantum Key Distribution in Intercity Networks ( http://arxiv.org/abs/2302.14349v2 )

ライセンス: Link先を確認
Yuan-Mei Xie, Jun-Lin Bai, Yu-Shuo Lu, Chen-Xun Weng, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 非同期MDI-QKD (Mode-pairing MDI-QKD) と呼ばれる新しい測定デバイス非依存量子鍵分布(MDI-QKD)は、同様のリピータライクなレートロススケーリングを提供するが、革新的なポスト測定ペアリング技術を利用して単純な技術実装の利点を生かしている。 本稿では,デコイ状態非同期MDI-QKDの実用的側面の評価を行う。 そこで本研究では,非対称チャネルとマルチユーザネットワークの影響を解析し,デコイ状態計算の最適手法について検討する。 シミュレーションの結果,MDI-QKDは実環境下では50kmから480kmの範囲で他のQKDプロトコルと比較して,MDIセキュリティの鍵レートが最も高いことがわかった。 ファイバ距離は50 kmと100 kmで、それぞれ6.02 Mbpsと2.29 Mbpsであり、リアルタイムのワンタイムパッドビデオ暗号化を容易にするのに十分である。 その結果,都市間ネットワークにおける非同期MDI-QKDの実験的実装は,実用的かつ効率的であることが示唆された。

The new variant of measurement-device-independent quantum key distribution (MDI-QKD), called asynchronous MDI-QKD or mode-pairing MDI-QKD, offers similar repeater-like rate-loss scaling but has the advantage of simple technology implementation by exploiting an innovative post-measurement pairing technique. We herein present an evaluation of the practical aspects of decoy-state asynchronous MDI-QKD. To determine its effectiveness, we analyze the optimal method of decoy-state calculation and examine the impact of asymmetrical channels and multi-user networks. Our simulations show that, under realistic conditions, aynchronous MDI-QKD can furnish the highest key rate with MDI security as compared to other QKD protocols over distances ranging from 50 km to 480 km. At fiber distances of 50 km and 100 km, the key rates attain 6.02 Mbps and 2.29 Mbps respectively, which are sufficient to facilitate real-time one-time-pad video encryption. Our findings indicate that experimental implementation of asynchronous MDI-QKD in intercity networks can be both practical and efficient.
翻訳日:2023-05-31 01:30:26 公開日:2023-05-29
# 自己監督型マルチアーマバンドを用いた光カーテンのアクティブ速度推定

Active Velocity Estimation using Light Curtains via Self-Supervised Multi-Armed Bandits ( http://arxiv.org/abs/2302.12597v3 )

ライセンス: Link先を確認
Siddharth Ancha, Gaurav Pathak, Ji Zhang, Srinivasa Narasimhan, David Held(参考訳) 安全かつ自律的な環境での移動には、ロボットは障害物の位置と動きを正確に推定する必要がある。 従来の3dセンサーを使わずに、より安価で高速で高解像度な代替品、プログラマブルなライトカーテンの使用を探求しています。 光カーテンは、ユーザーが選択した表面に沿ってのみ感知するコントロール可能な深度センサーである。 粒子フィルタと占有格子に基づく確率的手法を適用し,光カーテンによる部分的測定を用いてシーン内の3d点の位置と速度を明示的に推定する。 中心的な課題は、このタスクを正確に行うために、ライトカーテンをどこに配置するかを決めることである。 情報ゲインを最大化し,予測対象位置の検証を行い,複数のカーテン配置戦略を提案する。 次に,これらの戦略をオンライン学習フレームワークを用いて組み合わせる。 将来的な光カーテン配置を用いて電流速度推定の精度を評価する新しい自己教師付報酬関数を提案する。 私たちは、複数腕のbanditフレームワークを使用して、固定されたポリシーを上回って、リアルタイムに配置ポリシーを切り替えます。 ローカライズ,マッピング,パスプランニング,障害物回避といった下流タスクに,ライトカーテンから位置と速度を推定するフルスタックナビゲーションシステムを開発した。 この作業は、複雑でダイナミックな環境を正確に、効率的に、意図的に知覚し、ナビゲートするための制御可能な光カーテンへの道を開きます。 プロジェクトwebサイト: https://siddancha.github.io/projects/active-velocity-estimation/

To navigate in an environment safely and autonomously, robots must accurately estimate where obstacles are and how they move. Instead of using expensive traditional 3D sensors, we explore the use of a much cheaper, faster, and higher resolution alternative: programmable light curtains. Light curtains are a controllable depth sensor that sense only along a surface that the user selects. We adapt a probabilistic method based on particle filters and occupancy grids to explicitly estimate the position and velocity of 3D points in the scene using partial measurements made by light curtains. The central challenge is to decide where to place the light curtain to accurately perform this task. We propose multiple curtain placement strategies guided by maximizing information gain and verifying predicted object locations. Then, we combine these strategies using an online learning framework. We propose a novel self-supervised reward function that evaluates the accuracy of current velocity estimates using future light curtain placements. We use a multi-armed bandit framework to intelligently switch between placement policies in real time, outperforming fixed policies. We develop a full-stack navigation system that uses position and velocity estimates from light curtains for downstream tasks such as localization, mapping, path-planning, and obstacle avoidance. This work paves the way for controllable light curtains to accurately, efficiently, and purposefully perceive and navigate complex and dynamic environments. Project website: https://siddancha.github.io/projects/active-velocity-estimation/
翻訳日:2023-05-31 01:28:45 公開日:2023-05-29
# モデルロバスト性向上のための新しいノイズ注入型トレーニングスキーム

A Novel Noise Injection-based Training Scheme for Better Model Robustness ( http://arxiv.org/abs/2302.10802v2 )

ライセンス: Link先を確認
Zeliang Zhang, Jinyang Jiang, Minjie Chen, Zhiyuan Wang, Yijie Peng, Zhaofei Yu(参考訳) ノイズインジェクションに基づく手法は, 従来の研究において, 人工ニューラルネットワークの堅牢性を向上できることが示されている。 本研究では,モデルロバスト性向上のための新しいノイズ注入方式を提案する。 具体的には,まず,確率的勾配降下訓練において,シナプス重みと雑音レベルの両方について勾配を推定する確率比法を考案する。 そして,バニラノイズ注入に基づく学習手法の近似を設計し,メモリ削減と計算効率の向上を図る。 次に,提案手法をスパイキングニューラルネットワークに適用し,mnistおよびファッションmnistデータセットの分類精度とロバスト性を評価する。 実験結果から,本手法は従来の勾配学習法と比較して,対向的強靭性よりも性能が向上し,元の精度も若干向上していることがわかった。

Noise injection-based method has been shown to be able to improve the robustness of artificial neural networks in previous work. In this work, we propose a novel noise injection-based training scheme for better model robustness. Specifically, we first develop a likelihood ratio method to estimate the gradient with respect to both synaptic weights and noise levels for stochastic gradient descent training. Then, we design an approximation for the vanilla noise injection-based training method to reduce memory and improve computational efficiency. Next, we apply our proposed scheme to spiking neural networks and evaluate the performance of classification accuracy and robustness on MNIST and Fashion-MNIST datasets. Experiment results show that our proposed method achieves a much better performance on adversarial robustness and slightly better performance on original accuracy, compared with the conventional gradient-based training method.
翻訳日:2023-05-31 01:27:48 公開日:2023-05-29
# 準ヒューリスティック条件付きニューラルネットワークによるスカイマーミオン準安定状態の抽出

Metaheuristic conditional neural network for harvesting skyrmionic metastable states ( http://arxiv.org/abs/2303.02876v2 )

ライセンス: Link先を確認
Qichen Xu, I. P. Miranda, Manuel Pereiro, Filipp N. Rybakov, Danny Thonig, Erik Sj\"oqvist, Pavel Bessarab, Anders Bergman, Olle Eriksson, Pawel Herman, Anna Delin(参考訳) 高剛性のポテンシャルエネルギー表面における物理的に興味深い準安定状態を特定することを目的としたメタヒューリスティックな条件付きニューラルネットワーク方式を提案する。 この方法がどのように機能するかを実証するために、密度汎関数理論から計算されたパラメータに基づいて古典的原子論的スピンハミルトニアンを用いてモデル化したpd/fe/ir(111)系において、スピンテクスチャを1から13$(アンチスカイマーイオンが$q<0$)の範囲で位相電荷$q$で同定し、解析する。 スピンテクスチャの収穫を容易にするため,新たに開発されたSegment Anything Model (SAM) を利用する。 さらに, 有限温度スピン力学シミュレーションを用いて, 3$から6$までのスピンテクスチャを解析した。 約20,Kの温度では,200\,ps以上の寿命が予測され,これらのテクスチャが崩壊すると,新しいトポロジカルスピンテクスチャが形成される。 また、スピンテクスチャの相対安定性は、トポロジカル電荷に線形に依存するが、各トポロジカル電荷について最も安定な反スケミオンを比較するときのみである。 一般に、スピンテクスチャにおける穴の数(すなわち、構造内の閉じた領域の壁を定義する非自己交差曲線)は、安定性の重要な予測因子である -- 穴が増えるほど、そのテクスチャは不安定になる。ここで示されるような、複雑な準安定な空力テクスチャの体系的同定とキャラクタリゼーションのための手法は、トポロジカルなスピントロニクスの分野の発展に非常に関係している。

We present a metaheuristic conditional neural-network-based method aimed at identifying physically interesting metastable states in a potential energy surface of high rugosity. To demonstrate how this method works, we identify and analyze spin textures with topological charge $Q$ ranging from 1 to $-13$ (where antiskyrmions have $Q<0$) in the Pd/Fe/Ir(111) system, which we model using a classical atomistic spin Hamiltonian based on parameters computed from density functional theory. To facilitate the harvest of relevant spin textures, we make use of the newly developed Segment Anything Model (SAM). Spin textures with $Q$ ranging from $-3$ to $-6$ are further analyzed using finite-temperature spin-dynamics simulations. We observe that for temperatures up to around 20\,K, lifetimes longer than 200\,ps are predicted, and that when these textures decay, new topological spin textures are formed. We also find that the relative stability of the spin textures depend linearly on the topological charge, but only when comparing the most stable antiskyrmions for each topological charge. In general, the number of holes (i.e., non-self-intersecting curves that define closed domain walls in the structure) in the spin texture is an important predictor of stability -- the more holes, the less stable is the texture. Methods for systematic identification and characterization of complex metastable skyrmionic textures -- such as the one demonstrated here -- are highly relevant for advancements in the field of topological spintronics.
翻訳日:2023-05-31 01:17:37 公開日:2023-05-29
# 効率的でロバストな検証を許容するノークローニングとノーハイディングの簡単な定式化

A simple formulation of no-cloning and no-hiding that admits efficient and robust verification ( http://arxiv.org/abs/2303.02662v2 )

ライセンス: Link先を確認
Matthew Girling, Cristina Cirstoiu, David Jennings(参考訳) 不整合性は古典理論とは切り離す量子理論の特徴であり、未知の量子状態のクローンができないことは最も基本的な例の1つである。 ノンハイディング定理は、ブラックホール情報パラドックスの文脈で発生する同様の例であり、ノンクローニングと双対であると見なすことができる。 ここでは、これらの量子理論の基本的特徴のどちらも、効率的な検証が可能であり、状態の準備と測定で生じる誤りに対して堅牢である単一の形式で定式化する。 我々は、量子論において量子チャネルのコヒーレンスを捉える平均的なメリットであるユニタリティの概念を、一般的な物理理論にまで拡張する。 次に、その理論における互換性のあるチャネルに対するユニタリティの許容値に対応する互換ユニタリティペア(cup)集合の概念を導入する。 我々は、CUP集合が物理理論の単純な「フィンガープリント」を構成することを示し、不整合性はそれらを通して研究可能であることを示す。 量子論の非閉/ブロードキャスト定理と非隠れ定理の両方をエンコードする量子CUP集合に関する情報分散制約を導出する。 次に、量子カップ集合を効率的に推定し、最も単純なインスタンスのibmqを用いてシミュレーションを行うランダム化ベンチマークプロトコルを開発した。 最後に、カップ集合と量子ノーゴー定理がベンチマーク量子デバイスに付加的な情報を提供する方法について議論する。

Incompatibility is a feature of quantum theory that sets it apart from classical theory, and the inability to clone an unknown quantum state is one of the most fundamental instances. The no-hiding theorem is another such instance that arises in the context of the black-hole information paradox, and can be viewed as being dual to no-cloning. Here, we formulate both of these fundamental features of quantum theory in a single form that is amenable to efficient verification, and that is robust to errors arising in state preparation and measurements. We extend the notion of unitarity - an average figure of merit that for quantum theory captures the coherence of a quantum channel - to general physical theories. Then, we introduce the notion of compatible unitarity pair (CUP) sets, that correspond to the allowed values of unitarities for compatible channels in the theory. We show that a CUP-set constitutes a simple 'fingerprint' of a physical theory, and that incompatibility can be studied through them. We derive information-disturbance constraints on quantum CUP-sets that encode both the no-cloning/broadcasting and no-hiding theorems of quantum theory. We then develop randomised benchmarking protocols that efficiently estimate quantum CUP-sets and provide simulations using IBMQ of the simplest instance. Finally, we discuss ways in which CUP-sets and quantum no-go theorems could provide additional information to benchmark quantum devices.
翻訳日:2023-05-31 01:16:46 公開日:2023-05-29
# ソフトアクタ-クリティックが収束する点

The Point to Which Soft Actor-Critic Converges ( http://arxiv.org/abs/2303.01240v4 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) soft actor-critic は soft q-learning の後継である。 最大エントロピーの枠組みの下で生活したが、それらの関係はいまだに不明である。 本稿では,その極限において,それらが同じ解に収束することを証明する。 これは、最適化を難解なものからより簡単な方法に翻訳するので、魅力的です。 同じ正当化はkl発散のような他の正規化にも適用できる。

Soft actor-critic is a successful successor over soft Q-learning. While lived under maximum entropy framework, their relationship is still unclear. In this paper, we prove that in the limit they converge to the same solution. This is appealing since it translates the optimization from an arduous to an easier way. The same justification can also be applied to other regularizers such as KL divergence.
翻訳日:2023-05-31 01:16:19 公開日:2023-05-29
# chatgpt4pcgコンペティション:science birdsのキャラクターライクなレベル生成

ChatGPT4PCG Competition: Character-like Level Generation for Science Birds ( http://arxiv.org/abs/2303.15662v2 )

ライセンス: Link先を確認
Pittawat Taveekitworachai, Febri Abdullah, Mury F. Dewantoro, Ruck Thawonmas, Julian Togelius, Jochen Renz(参考訳) 本稿では2023年のIEEE Conference on GamesでChatGPT4PCGコンペティションを開催する。 このコンペティションの目的は、参加者がChatGPTの効果的なプロンプトを作成することであり、高い安定性とキャラクタライクな品質でScience Birdsレベルを創出することである。 ChatGPTはOpenAIが開発した会話エージェントである。 Science Birdsは、Angry Birdsのようなレベルを設計することはゲーム内重力による簡単な作業ではなく、安定性によってレベルの品質が決定されるため、競争プラットフォームとして選択される。 競争への参入障壁を低くするため、我々はこの課題を大文字化英字文字の生成に限定する。 また、すべての文字を生成するために使用するプロンプトは1つだけです。 ここで、生成されたレベルの品質は、与えられた文字の安定性と類似性によって決定される。 参加者に参照のためのサンプルプロンプトが提供される。 実験により, 本試料のいくつかの改良版が, レベル安定性と類似性に及ぼす影響を, 複数のキャラクタで試験することによって検証した。 私たちの知る限り、ChatGPT4PCGはこの種のコンペティションとしては初めてであり、手続き的コンテンツ生成における迅速なエンジニアリングに対する熱意を刺激することを期待しています。

This paper presents the first ChatGPT4PCG Competition at the 2023 IEEE Conference on Games. The objective of this competition is for participants to create effective prompts for ChatGPT--enabling it to generate Science Birds levels with high stability and character-like qualities--fully using their creativity as well as prompt engineering skills. ChatGPT is a conversational agent developed by OpenAI. Science Birds is selected as the competition platform because designing an Angry Birds-like level is not a trivial task due to the in-game gravity; the quality of the levels is determined by their stability. To lower the entry barrier to the competition, we limit the task to the generation of capitalized English alphabetical characters. We also allow only a single prompt to be used for generating all the characters. Here, the quality of the generated levels is determined by their stability and similarity to the given characters. A sample prompt is provided to participants for their reference. An experiment is conducted to determine the effectiveness of several modified versions of this sample prompt on level stability and similarity by testing them on several characters. To the best of our knowledge, we believe that ChatGPT4PCG is the first competition of its kind and hope to inspire enthusiasm for prompt engineering in procedural content generation.
翻訳日:2023-05-31 01:11:05 公開日:2023-05-29
# 知識誘導関係グラフに基づく中国の青銅器の多粒度考古学年代

Multi-Granularity Archaeological Dating of Chinese Bronze Dings Based on a Knowledge-Guided Relation Graph ( http://arxiv.org/abs/2303.15266v2 )

ライセンス: Link先を確認
Rixin Zhou, Jiafu Wei, Qian Zhang, Ruihua Qi, Xi Yang, Chuntao Li(参考訳) 青銅器の考古学的年代測定は、古代中国史研究において重要な役割を担っている。 現在の考古学は、青銅年代測定を行うための訓練された専門家に依存している。 そこで本研究では,高度な深層学習技術と考古学的知識を統合するための学習に基づくアプローチを提案する。 これを実現するために,我々はまず,既存のきめ細かなデータセットよりもリッチな属性情報を含む青銅板の大規模画像データセットを収集した。 第2に,マルチヘッド分類器と知識誘導関係グラフを導入し,属性とding時代との関係を推定する。 第3に, 既存手法との比較実験を行い, その結果から, デート方式が最先端の性能を達成できることを示す。 我々のデータと応用ネットワークは、他の学際的な専門分野に関連するきめ細かな分類研究を充実させることを望んでいる。 使用するデータセットとソースコードは補足資料に含まれており、匿名ポリシーにより提出後に公開されます。 ソースコードとデータは、https://github.com/zhourixin/bronze-dingで入手できる。

The archaeological dating of bronze dings has played a critical role in the study of ancient Chinese history. Current archaeology depends on trained experts to carry out bronze dating, which is time-consuming and labor-intensive. For such dating, in this study, we propose a learning-based approach to integrate advanced deep learning techniques and archaeological knowledge. To achieve this, we first collect a large-scale image dataset of bronze dings, which contains richer attribute information than other existing fine-grained datasets. Second, we introduce a multihead classifier and a knowledge-guided relation graph to mine the relationship between attributes and the ding era. Third, we conduct comparison experiments with various existing methods, the results of which show that our dating method achieves a state-of-the-art performance. We hope that our data and applied networks will enrich fine-grained classification research relevant to other interdisciplinary areas of expertise. The dataset and source code used are included in our supplementary materials, and will be open after submission owing to the anonymity policy. Source codes and data are available at: https://github.com/zhourixin/bronze-Ding.
翻訳日:2023-05-31 01:10:43 公開日:2023-05-29
# 一般化誤差予測スコアリング関数の有効性について

On the Efficacy of Generalization Error Prediction Scoring Functions ( http://arxiv.org/abs/2303.13589v2 )

ライセンス: Link先を確認
Puja Trivedi, Danai Koutra, Jayaraman J. Thiagarajan(参考訳) 一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的とする。 しかしながら、GEPは異なるメカニズム(例えば、回帰器、しきい値関数、キャリブレーションデータセットなど)を使用して、そのような誤差推定を導出し、特定のスコアリング関数の利点を難読化することができる。 そこで本研究では,人気のあるスコアリング機能(信頼度,局所多様体滑らか性,モデル合意)のメカニズム選択によらず,厳密に検討する。 複雑なメカニズムが欠如している場合、分散シフトや腐敗の下で誤差を推定する場合、最先端の信頼度と滑らかさに基づくスコアは単純なモデル・アグリーメントスコアを上回らないことが分かる。 さらに,トレーニングデータの漏洩(ラベルノイズ,測定ノイズ,アンダーサンプリングなど)が現実的環境では,モデル・アグリーメントスコアが引き続き良好に機能し,アンサンブルの多様性が性能向上に重要であることが分かった。 最後に,スコアリング関数の限界をよりよく理解するために,単純さのバイアスや,単純だが不安定な特徴に依存するディープニューラルネットワークがgep性能に悪影響を及ぼすことを実証する。 全体として,一般的なスコアリング機能の有効性を現実的な設定で慎重に検討し,その限界をより理解する上で役立ちます。

Generalization error predictors (GEPs) aim to predict model performance on unseen distributions by deriving dataset-level error estimates from sample-level scores. However, GEPs often utilize disparate mechanisms (e.g., regressors, thresholding functions, calibration datasets, etc), to derive such error estimates, which can obfuscate the benefits of a particular scoring function. Therefore, in this work, we rigorously study the effectiveness of popular scoring functions (confidence, local manifold smoothness, model agreement), independent of mechanism choice. We find, absent complex mechanisms, that state-of-the-art confidence- and smoothness- based scores fail to outperform simple model-agreement scores when estimating error under distribution shifts and corruptions. Furthermore, on realistic settings where the training data has been compromised (e.g., label noise, measurement noise, undersampling), we find that model-agreement scores continue to perform well and that ensemble diversity is important for improving its performance. Finally, to better understand the limitations of scoring functions, we demonstrate that simplicity bias, or the propensity of deep neural networks to rely upon simple but brittle features, can adversely affect GEP performance. Overall, our work carefully studies the effectiveness of popular scoring functions in realistic settings and helps to better understand their limitations.
翻訳日:2023-05-31 01:10:27 公開日:2023-05-29
# モデル予測制御政策近似のための改良データ拡張方式

An Improved Data Augmentation Scheme for Model Predictive Control Policy Approximation ( http://arxiv.org/abs/2303.05607v2 )

ライセンス: Link先を確認
Dinesh Krishnamoorthy(参考訳) 本稿では,mpc政策近似のためのデータ生成の問題について考察する。 専門家による実証から近似的なMPCポリシーを学習するには、可能な状態空間にわたってサンプリングされる最適な状態-作用ペアからなる大きなデータセットが必要である。 しかし、効率的にトレーニングサンプルを生成するという重要な課題は広く研究されていない。 近年,パラメトリックセンシティビティを利用して単一のオフラインmpc計算から複数のサンプルを安価に生成する,mpcポリシー近似のための感度に基づくデータ拡張フレームワークが提案されている。 不定値サンプルで設定したトレーニングデータセットの増大に伴う誤差は,データ拡張に使用するサンプルの周囲の面積に比例して増大した。 本研究を基礎として,ユーザ定義の精度を強制する予測者補正ステップに基づく改良データ拡張スキームを提示し,データ拡張に用いる近傍のサイズに依存しない拡張サンプルの誤差境界を示す。

This paper considers the problem of data generation for MPC policy approximation. Learning an approximate MPC policy from expert demonstrations requires a large data set consisting of optimal state-action pairs, sampled across the feasible state space. Yet, the key challenge of efficiently generating the training samples has not been studied widely. Recently, a sensitivity-based data augmentation framework for MPC policy approximation was proposed, where the parametric sensitivities are exploited to cheaply generate several additional samples from a single offline MPC computation. The error due to augmenting the training data set with inexact samples was shown to increase with the size of the neighborhood around each sample used for data augmentation. Building upon this work, this letter paper presents an improved data augmentation scheme based on predictor-corrector steps that enforces a user-defined level of accuracy, and shows that the error bound of the augmented samples are independent of the size of the neighborhood used for data augmentation.
翻訳日:2023-05-31 01:07:50 公開日:2023-05-29
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v5 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Yuan Liyin, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-05-31 00:59:56 公開日:2023-05-29
# SketchFFusion:拡散モデルによるスケッチ誘導画像編集

SketchFFusion: Sketch-guided image editing with diffusion model ( http://arxiv.org/abs/2304.03174v2 )

ライセンス: Link先を確認
Weihang Mao, Bo Han, Zihao Wang(参考訳) スケッチ誘導画像編集は、未編集領域の本来の状態を維持しつつ、ユーザが提供するスケッチ情報に基づいて画像の局所的な微調整を実現することを目的としている。 人間のスケッチを取得するコストが高いため、以前の作品はスケッチの代わりにエッジマップに依存していたが、スケッチはより豊かな構造情報を持っている。 本稿では,画像の主輪郭を保存し,ユーザによる実際のスケッチスタイルに忠実なスケッチ生成手法を提案する。 同時に、現在の画像編集手法では、画像歪み、トレーニングコスト、スケッチの細かい詳細の損失といった課題に直面することが多い。 これらの制約に対処するため,スケッチ構造ベクトルに基づく条件拡散モデル(SketchFFusion)を提案する。 モデルの生成性能を評価し,既存の手法より優れていることを示す。

Sketch-guided image editing aims to achieve local fine-tuning of the image based on the sketch information provided by the user, while maintaining the original status of the unedited areas. Due to the high cost of acquiring human sketches, previous works mostly relied on edge maps as a substitute for sketches, but sketches possess more rich structural information. In this paper, we propose a sketch generation scheme that can preserve the main contours of an image and closely adhere to the actual sketch style drawn by the user. Simultaneously, current image editing methods often face challenges such as image distortion, training cost, and loss of fine details in the sketch. To address these limitations, We propose a conditional diffusion model (SketchFFusion) based on the sketch structure vector. We evaluate the generative performance of our model and demonstrate that it outperforms existing methods.
翻訳日:2023-05-31 00:59:18 公開日:2023-05-29
# リダイレクトウォーキングによるフル没入型マルチユーザーバーチャルリアリティの予測コンテキスト認識

Predictive Context-Awareness for Full-Immersive Multiuser Virtual Reality with Redirected Walking ( http://arxiv.org/abs/2303.17907v4 )

ライセンス: Link先を確認
Filip Lemic, Jakob Struye, Thomas Van Onsem, Jeroen Famaey, Xavier Costa Perez(参考訳) 仮想現実(VR)技術の進歩は、没入性の向上、マルチユーザバーチャルエクスペリエンス(VE)のサポート、ユーザがVE内で自由に動きながら、リダイレクトウォーキング(RDW)を通じて専門のVRセットアップに制限されることを可能にすることに焦点を当てている。 極端なデータレートとレイテンシの要件を満たすため、将来のVRシステムは、ビームフォーミングとビームステアリングによる送信と受信の両方で高い指向性通信を利用するミリ波(mmWave)周波数で動作する無線ネットワークインフラストラクチャをサポートする必要がある。 本稿では,送信機と受信機側のビームフォーミングとビームステアリングを最適化するための予測文脈認識手法を提案する。 リダイレクトウォーキング(rdw)によるマルチユーザvrセットアップにおけるユーザの短期的横動きを予測することにより、送信側ビームフォーミングとビームステアリングを、ユーザの方向の視線(los)「トラッキング」により最適化することができる。 同時に、範囲の柔軟性向上のために、受信側ビームフォーミングに短期方向移動の予測を利用することができる。 これら2つのコンテキスト情報インスタンスの予測における2つのオープン問題を対象としています。 一 RDWによるマルチユーザーVR設定における横動きの予測及び 二 方位運動予測器の訓練のための合成頭部回転データセットの作成 実験の結果,long short-term memory (lstm) ネットワークは側方運動の予測に有望な精度を発揮でき,vesによる文脈認識はこの精度をさらに向上させることがわかった。 さらに, 配向データ生成のためのTimeGANに基づく手法により, 実験により得られたデータと密に一致した合成サンプルを作成できることを示す。

The advancement of Virtual Reality (VR) technology is focused on improving its immersiveness, supporting multiuser Virtual Experiences (VEs), and enabling users to move freely within their VEs while remaining confined to specialized VR setups through Redirected Walking (RDW). To meet their extreme data-rate and latency requirements, future VR systems will require supporting wireless networking infrastructures operating in millimeter Wave (mmWave) frequencies that leverage highly directional communication in both transmission and reception through beamforming and beamsteering. We propose the use of predictive context-awareness to optimize transmitter and receiver-side beamforming and beamsteering. By predicting users' short-term lateral movements in multiuser VR setups with Redirected Walking (RDW), transmitter-side beamforming and beamsteering can be optimized through Line-of-Sight (LoS) "tracking" in the users' directions. At the same time, predictions of short-term orientational movements can be utilized for receiver-side beamforming for coverage flexibility enhancements. We target two open problems in predicting these two context information instances: i) predicting lateral movements in multiuser VR settings with RDW, and ii) generating synthetic head rotation datasets for training orientational movements predictors. Our experimental results demonstrate that Long Short-Term Memory (LSTM) networks feature promising accuracy in predicting lateral movements, and context-awareness stemming from VEs further enhances this accuracy. Additionally, we show that a TimeGAN-based approach for orientational data generation can create synthetic samples that closely match experimentally obtained ones.
翻訳日:2023-05-31 00:58:41 公開日:2023-05-29
# 抽象要約におけるChatGPT応答の評価と検出

Evaluating and Detecting ChatGPT's Responses on Abstractive Summarization ( http://arxiv.org/abs/2303.17650v2 )

ライセンス: Link先を確認
Mayank Soni and Vincent Wade(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおける印象的なパフォーマンスのために大きな注目を集めています。 OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたもので、ヒューマンライクなテキスト生成機能のために、少数の人々によって破壊的技術と呼ばれている。 インターネット上の多くの逸話的な例はチャットgptの強みと弱みを評価しているが、体系的な研究は少ない。 本稿では,ChatGPTの体系的な研究の体系化に寄与するため,自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。 chatgpt生成の要約を検出する自動テキスト分類器も構築した。 テキスト分類アルゴリズムは実要約と生成要約を区別できるが,人間は実要約とchatgptで生成された要約を区別できないことがわかった。

Large Language Models (LLMs) have gathered significant attention due to their impressive performance on a variety of tasks. ChatGPT, developed by OpenAI, is a recent addition to the family of language models and is being called a disruptive technology by a few, owing to its human-like text-generation capabilities. Although, many anecdotal examples across the internet have evaluated ChatGPT's strength and weakness, only a few systematic research studies exist. To contribute to the body of literature of systematic research on ChatGPT, we evaluate the performance of ChatGPT on Abstractive Summarization by the means of automated metrics and blinded human reviewers. We also build automatic text classifiers to detect ChatGPT generated summaries. We found that while text classification algorithms can distinguish between real and generated summaries, humans are unable to distinguish between real summaries and those produced by ChatGPT.
翻訳日:2023-05-31 00:58:11 公開日:2023-05-29
# HARFLOW3D:FPGAデバイス上でのHARのためのレイテンシ指向3D-CNN加速器ツールフロー

HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices ( http://arxiv.org/abs/2303.17218v6 )

ライセンス: Link先を確認
Petros Toupas, Alexander Montgomerie-Corcoran, Christos-Savvas Bouganis, Dimitrios Tzovaras(参考訳) 人間行動認識タスク(HAR)では、3D畳み込みニューラルネットワークが極めて有効であることが証明され、最先端の結果が得られた。 本研究では,そのモデル固有の特性とターゲットFPGAデバイスの特徴を考慮し,そのようなモデルをFPGAにマッピングするための,新たなストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGA特性の記述を入力として、計算のレイテンシを最小化する設計を生成する。 ツールフローは、いくつかの部分で構成されています。 一 三次元CNNパーサー 二 性能及び資源モデル 三 生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム 四 3Dモデルに適した資源対応最適化エンジン v)FPGAの合成可能なコードへの自動マッピング。 幅広いモデルやデバイスをサポートするツールフローの能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通じて示されている。 さらに、ツールフローはFPGAにマップされていない3D CNNモデルの高性能な結果をもたらし、この分野におけるFPGAベースのシステムの可能性を示している。 全体として、harflow3dは、最先端のハンドチューニングアプローチと比較して、競争力のあるレイテンシを提供する能力を示しており、既存の作業に比べて最大5$\times$のパフォーマンスを実現している。

For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model's inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works.
翻訳日:2023-05-31 00:57:57 公開日:2023-05-29
# 安定化器近似III:最大カット

Stabilizer Approximation III: Maximum Cut ( http://arxiv.org/abs/2303.17215v3 )

ライセンス: Link先を確認
Chuixiong Wu, Jianan Wang, Fen Zuo(参考訳) 最大カット問題に対して安定化器の定式化を適用し,新しいグリーディな建設ヒューリスティックを得る。 エッジコントラクションと異なるエッジコントラクションアプローチのエレガントな合成であることが分かりました。 最大カット問題とイジングモデルの関係を利用して、ヒューリスティックの近似比が少なくとも1/2$であることが容易に分かる。 さらに, 数値計算の結果から, 約100頂点のグラフに対して, ヒューリスティックは極めて優れた性能を示すことがわかった。

We apply the stabilizer formalism to the Maximum Cut problem, and obtain a new greedy construction heuristic. It turns out to be an elegant synthesis of the edge-contraction and differencing edge-contraction approaches. Utilizing the relation between the Maximum Cut problem and the Ising model, the approximation ratio of the heuristic is easily found to be at least $1/2$. Moreover, numerical results show that the heuristic has very nice performance for graphs with about 100 vertices.
翻訳日:2023-05-31 00:57:36 公開日:2023-05-29
# 大規模言語モデルにおけるアライメントの基本限界

Fundamental Limitations of Alignment in Large Language Models ( http://arxiv.org/abs/2304.11082v2 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Oshri Avnery, Yoav Levine, Amnon Shashua(参考訳) 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。 これは通常、望ましい振る舞いを高め、望ましくない振る舞い、すなわちアライメントと呼ばれるプロセスを抑制する方法でモデルを調整することによって達成される。 本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。 重要なことに、モデルによって提示される確率が有限である任意の挙動に対して、この挙動を出力するためにモデルをトリガーできるプロンプトが存在し、プロンプトの長さが増加する確率が増加する。 これは、望ましくない振る舞いを弱めるが完全に取り除かないアライメントプロセスは、敵対的な攻撃に対して安全ではないことを意味する。 さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,望ましくない行動に刺激される傾向があることを示唆している。 さらに、BEBフレームワークにはペルソナの概念が含まれており、モデルが特定のペルソナとして振る舞うように促すことで、一般的にはモデルによって提示される可能性が極めて低い振る舞いを前面に持ち込むことができる。 この理論結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。 この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムを考案する必要が生じた。

An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback increase the LLM's proneness to being prompted into the undesired behaviors. Moreover, we include the notion of personas in our BEB framework, and find that behaviors which are generally very unlikely to be exhibited by the model can be brought to the front by prompting the model to behave as specific persona. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary "chatGPT jailbreaks", where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.
翻訳日:2023-05-31 00:51:37 公開日:2023-05-29
# 自然言語によるプログラミングの学習

Learning to Program with Natural Language ( http://arxiv.org/abs/2304.10464v3 )

ライセンス: Link先を確認
Yiduo Guo, Yaobo Liang, Chenfei Wu, Wenshan Wu, Dongyan Zhao, Nan Duan(参考訳) 大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示しており、人工知能の実現への期待が高まっている。 複雑なタスクを完了するには、まずタスクのためのプログラムが必要で、次にllmsに特定のソリューションを生成するためにプログラムに従うように依頼します。 タスク手順を記述するための新しいプログラミング言語として自然言語を使うことを提案し,人間とllmの両方で容易に理解できるようにする。 llmは自然言語プログラムを直接生成することができるが、これらのプログラムは事実エラーや不完全なステップを含む可能性がある。 そこで我々は,LLMに対して,まず複雑なタスクのトレーニングデータセットに基づいて自然言語プログラムを学習するよう依頼する学習 to Program(\text{LP})法を提案し,次に学習プログラムを用いて推論をガイドする。 5つの異なる推論型(8つのデータセット)の推論タスクに関する実験は、我々のアプローチの有効性を実証している。 さらに,本解析実験により,学習プログラムを他のLLMの指導に利用することで,その性能向上が図られ,新たな伝達学習パラダイムが明らかとなった。

Large Language Models (LLMs) have shown remarkable performance in various basic natural language tasks, which raises hope for achieving Artificial General Intelligence. For completing the complex task, we still need a program for the task first and then ask LLMs to follow the program to generate the specific solution. We propose using natural language as a new programming language to describe task procedures, making them easily understandable to both humans and LLMs. ~The LLM is capable of directly generating natural language programs, but these programs may still contain factual errors or incomplete steps. Therefore, we further propose the Learning to Program (\text{LP}) method to ask LLMs themselves to learn the natural language program based on the training dataset of the complex task first and then use the learned program to guide the inference. Our experiments on the reasoning tasks of five different reasoning types (8 datasets) demonstrate the effectiveness of our approach. Further, our analysis experiment shows that the learned program can be directly used to guide another LLM to improve its performance, which reveals a new transfer learning paradigm.
翻訳日:2023-05-31 00:50:07 公開日:2023-05-29
# 行動制約付きロボット制御のためのアクタ-クリティック深層強化学習アルゴリズムのベンチマーク

Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for Robotics Control with Action Constraints ( http://arxiv.org/abs/2304.08743v2 )

ライセンス: Link先を確認
Kazumi Kasaura, Shuwa Miura, Tadashi Kozuno, Ryo Yonetani, Kenta Hoshino, Yohei Hosoe(参考訳) 本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。 行動制約付きRLでは、学習システムによって取られた各アクションは、一定の制約に従わなければならない。 これらの制約は、実世界のシステムにおけるアクションの実行可能性と安全性を確保するために不可欠である。 複数の動作制約型を含む複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。 我々の評価は、直感的なベースラインアプローチの有効性を含む驚くべき洞察を、この分野における最初の深い視点を提供する。 ベンチマーク問題と関連するコードはgithub.com/omron-sinicx/action-constrained-rl-benchmarkでさらなる研究と開発のために公開されている。

This study presents a benchmark for evaluating action-constrained reinforcement learning (RL) algorithms. In action-constrained RL, each action taken by the learning system must comply with certain constraints. These constraints are crucial for ensuring the feasibility and safety of actions in real-world systems. We evaluate existing algorithms and their novel variants across multiple robotics control environments, encompassing multiple action constraint types. Our evaluation provides the first in-depth perspective of the field, revealing surprising insights, including the effectiveness of a straightforward baseline approach. The benchmark problems and associated code utilized in our experiments are made available online at github.com/omron-sinicx/action-constrained-RL-benchmark for further research and development.
翻訳日:2023-05-31 00:49:16 公開日:2023-05-29
# 微分方程式問題に対するプロンプトを用いたインコンテキスト演算子学習

In-Context Operator Learning with Prompts for Differential Equation Problems ( http://arxiv.org/abs/2304.07993v2 )

ライセンス: Link先を確認
Liu Yang, Siting Liu, Tingwei Meng, Stanley J. Osher(参考訳) 本稿では,In-Context Operator Networks (ICON) と呼ばれるニューラルネットワークに基づく新しいアプローチを提案する。 既存の方法は、ニューラルネットワークを使用して特定の方程式解や特定の演算子を近似することに限定され、異なる方程式を持つ新しい問題に切り替える際には、再訓練を必要とする。 オペレータ学習者として単一のニューラルネットワークをトレーニングすることで、新たな問題に対するニューラルネットワークの再トレーニング(微調整でさえも)を排除するだけでなく、オペレータ間で共有される共通性を活用することで、新しいオペレータの学習にはプロンプトのデモがほんの数回必要となる。 数値計算の結果,一般微分方程式(ODE)の前方・逆問題,偏微分方程式(PDE),平均場制御(MFC)問題など,多種多様な微分方程式問題に対する数発の演算子としてのニューラルネットワーク能力を示し,学習能力を訓練分布を超えた演算子に一般化できることを示した。

This paper introduces a new neural-network-based approach, namely In-Context Operator Networks (ICON), to simultaneously learn operators from the prompted data and apply it to new questions during the inference stage, without any weight update. Existing methods are limited to using a neural network to approximate a specific equation solution or a specific operator, requiring retraining when switching to a new problem with different equations. By training a single neural network as an operator learner, we can not only get rid of retraining (even fine-tuning) the neural network for new problems, but also leverage the commonalities shared across operators so that only a few demos in the prompt are needed when learning a new operator. Our numerical results show the neural network's capability as a few-shot operator learner for a diversified type of differential equation problems, including forward and inverse problems of ordinary differential equations (ODEs), partial differential equations (PDEs), and mean-field control (MFC) problems, and also show that it can generalize its learning capability to operators beyond the training distribution.
翻訳日:2023-05-31 00:48:36 公開日:2023-05-29
# 多クラス分類における対人訓練の解の存在について

On the existence of solutions to adversarial training in multiclass classification ( http://arxiv.org/abs/2305.00075v2 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Matt Jacobs, Jakwang Kim(参考訳) 本研究では,非依存型分類器設定におけるデータ摂動に対する頑健な分類器の構築を目的とした,多クラス分類における対角的学習問題の3つのモデルについて検討する。 本稿では,各モデルにおけるボレル測定可能なロバスト分類器の存在を証明し,従来の研究で著者が導入した最適輸送との接続を拡大し,マルチクラス設定における対人訓練と総変分正則化の新たな接続を開発することにより,対人訓練問題の統一的な視点を提供する。 結果のまとめとして、二項分類設定において、ボレル可測解の存在を証明し、特徴空間の拡大された普遍的な$\sigma$-algebraの中に、ロバストな分類器が存在することが知られている対数学習の文献における結果を改善する。

We study three models of the problem of adversarial training in multiclass classification designed to construct robust classifiers against adversarial perturbations of data in the agnostic-classifier setting. We prove the existence of Borel measurable robust classifiers in each model and provide a unified perspective of the adversarial training problem, expanding the connections with optimal transport initiated by the authors in previous work and developing new connections between adversarial training in the multiclass setting and total variation regularization. As a corollary of our results, we prove the existence of Borel measurable solutions to the agnostic adversarial training problem in the binary classification setting, a result that improves results in the literature of adversarial training, where robust classifiers were only known to exist within the enlarged universal $\sigma$-algebra of the feature space.
翻訳日:2023-05-31 00:41:05 公開日:2023-05-29
# IconShop: 自動回帰変換器を用いたテキストガイドベクトルアイコン合成

IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers ( http://arxiv.org/abs/2304.14400v3 )

ライセンス: Link先を確認
Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao(参考訳) Scalable Vector Graphics (SVG)は、対話性とアニメーションの優れたサポートを提供する人気のあるベクトル画像フォーマットである。 その魅力的な特徴にもかかわらず、SVG文法の理解やプロの編集ソフトに慣れるために必要な学習曲線が急激なため、ユーザにとってカスタムSVGコンテンツの作成は困難である。 近年のテキスト対画像生成の進歩は、テキスト対画像生成モデルと画像ベクトル化を組み合わせた画像ベース手法(例:テキスト ->ラスター画像 ->ベクターグラフィックス)と、事前学習された大規模言語モデルによる言語ベース手法(例:テキスト ->ベクターグラフィックススクリプト)のどちらでもベクターグラフィックス合成を探求するきっかけとなった。 しかし、これらの手法は、生成品質、多様性、柔軟性の限界に悩まされている。 本稿では,自動回帰変換器を用いたテキスト誘導ベクトルアイコン合成法であるIconShopを紹介する。 このアプローチの成功の鍵は、SVGパス(およびガイダンスとしてのテキスト記述)をユニークなデオード可能なトークンシーケンスにシーケンシャル化し、トークン化することです。 これにより、自動回帰変換器のシーケンス学習能力をフル活用し、無条件およびテキスト条件のアイコン合成を可能にする。 テキスト記述を伴う大規模ベクトルアイコンデータセット上で次のトークンを予測するための標準的なトレーニングを通じて、提案したIconShopは、既存の画像ベースおよび言語ベースの方法よりも定量的かつ定性的に優れたアイコン合成能力を示す。 一方,世代多様性の劇的な改善は,客観的な一意性と新規性尺度によって検証される。 さらに,アイコン編集,アイコン補間,アイコンセマンティクスの組み合わせ,アイコンデザインの自動表示など,複数の新しいアイコン合成タスクを備えたアイコンショップの柔軟性を示す。

Scalable Vector Graphics (SVG) is a popular vector image format that offers good support for interactivity and animation. Despite its appealing characteristics, creating custom SVG content can be challenging for users due to the steep learning curve required to understand SVG grammars or get familiar with professional editing software. Recent advancements in text-to-image generation have inspired researchers to explore vector graphics synthesis using either image-based methods (i.e., text -> raster image -> vector graphics) combining text-to-image generation models with image vectorization, or language-based methods (i.e., text -> vector graphics script) through pretrained large language models. However, these methods still suffer from limitations in terms of generation quality, diversity, and flexibility. In this paper, we introduce IconShop, a text-guided vector icon synthesis method using autoregressive transformers. The key to success of our approach is to sequentialize and tokenize SVG paths (and textual descriptions as guidance) into a uniquely decodable token sequence. With that, we are able to fully exploit the sequence learning power of autoregressive transformers, while enabling both unconditional and text-conditioned icon synthesis. Through standard training to predict the next token on a large-scale vector icon dataset accompanied by textural descriptions, the proposed IconShop consistently exhibits better icon synthesis capability than existing image-based and language-based methods both quantitatively and qualitatively. Meanwhile, we observe a dramatic improvement in generation diversity, which is validated by the objective Uniqueness and Novelty measures. More importantly, we demonstrate the flexibility of IconShop with multiple novel icon synthesis tasks, including icon editing, icon interpolation, icon semantic combination, and icon design auto-suggestion.
翻訳日:2023-05-31 00:40:48 公開日:2023-05-29
# リモートセンシング時系列用軽量予習変圧器

Lightweight, Pre-trained Transformers for Remote Sensing Timeseries ( http://arxiv.org/abs/2304.14065v2 )

ライセンス: Link先を確認
Gabriel Tseng, Ivan Zvonkov, Mirali Purohit, David Rolnick, Hannah Kerner(参考訳) リモートセンシングデータを解析する機械学習アルゴリズムには、社会的に関係のある幅広い応用があるが、これらのアルゴリズムを訓練するのに使われるラベルは、取得が困難または不可能である。 この課題は、ラベル付きデータセットが小さい地理的領域やアプリケーション領域での機械学習の使用を解き放つことを目的とした、リモートセンシングデータの自己教師あり学習の研究を促した。 リモートセンシングデータに対する現在の自己教師付き学習アプローチは、自然画像に適用された技術から大きなインスピレーションを得ている。 しかし、リモートセンシングデータには、自然画像との重要な違いがある。例えば、時間次元は多くのタスクに重要であり、多くの補完センサーからデータが収集される。 リモートセンシングデータに特化して設計したモデルと自己教師型トレーニング技術により,より小型かつ高性能なモデルが得られることを示す。 本稿では,リモートセンシング画素時系列データに基づくトランスモデルであるPretrained Remote Sensing Transformer(Presto)を紹介する。 Prestoは世界中に分散したリモートセンシングタスクに優れ、はるかに大きなモデルより優れている。 Prestoは、転送学習や単純なモデルの機能抽出に使用することができ、大規模に効率的にデプロイできる。

Machine learning algorithms for parsing remote sensing data have a wide range of societally relevant applications, but labels used to train these algorithms can be difficult or impossible to acquire. This challenge has spurred research into self-supervised learning for remote sensing data aiming to unlock the use of machine learning in geographies or application domains where labelled datasets are small. Current self-supervised learning approaches for remote sensing data draw significant inspiration from techniques applied to natural images. However, remote sensing data has important differences from natural images -- for example, the temporal dimension is critical for many tasks and data is collected from many complementary sensors. We show that designing models and self-supervised training techniques specifically for remote sensing data results in both smaller and more performant models. We introduce the Pretrained Remote Sensing Transformer (Presto), a transformer-based model pre-trained on remote sensing pixel-timeseries data. Presto excels at a wide variety of globally distributed remote sensing tasks and outperforms much larger models. Presto can be used for transfer learning or as a feature extractor for simple models, enabling efficient deployment at scale.
翻訳日:2023-05-31 00:39:33 公開日:2023-05-29
# 命令調整llmと潜在拡散モデルを用いたテキスト音声生成

Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model ( http://arxiv.org/abs/2304.13731v2 )

ライセンス: Link先を確認
Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria(参考訳) 近年の大規模言語モデル(LLM)の大規模化により、命令やチェーン・オブ・シンクベースの微調整など、多くの自然言語処理(NLP)タスクにおいてゼロ・ショットのパフォーマンスが大幅に向上した多くの興味深い特性が実現されている。 このような成功に触発されて、テキスト・トゥ・オーディオ(TTA)生成のためのテキストエンコーダとして、このような命令付きLLM Flan-T5を採用しました。 TTAの以前の作業では、ジョイントテキストオーディオエンコーダを事前訓練するか、T5のような命令なしモデルを使用していた。 その結果、我々の潜在拡散モデル(LDM)ベースのアプローチであるTANGOは、ほとんどのメトリクスにおいて最先端のAudioLDMよりも優れており、63倍のデータセットでLDMをトレーニングし、テキストエンコーダを凍結し続けるにもかかわらず、AudioCapsテストセットでそれと同等である。 この改善は、トレーニングセットの強化にオーディオプレッシャーレベルベースのサウンドミキシングが採用されていることによるものでもあり得る。

The immense scale of the recent large language models (LLM) allows many interesting properties, such as, instruction- and chain-of-thought-based fine-tuning, that has significantly improved zero- and few-shot performance in many natural language processing (NLP) tasks. Inspired by such successes, we adopt such an instruction-tuned LLM Flan-T5 as the text encoder for text-to-audio (TTA) generation -- a task where the goal is to generate an audio from its textual description. The prior works on TTA either pre-trained a joint text-audio encoder or used a non-instruction-tuned model, such as, T5. Consequently, our latent diffusion model (LDM)-based approach TANGO outperforms the state-of-the-art AudioLDM on most metrics and stays comparable on the rest on AudioCaps test set, despite training the LDM on a 63 times smaller dataset and keeping the text encoder frozen. This improvement might also be attributed to the adoption of audio pressure level-based sound mixing for training set augmentation, whereas the prior methods take a random mix.
翻訳日:2023-05-31 00:39:17 公開日:2023-05-29
# 交互局所列挙(TnALE):低評価によるテンソルネットワーク構造探索の解法

Alternating Local Enumeration (TnALE): Solving Tensor Network Structure Search with Fewer Evaluations ( http://arxiv.org/abs/2304.12875v3 )

ライセンス: Link先を確認
Chao Li, Junhua Zeng, Chunmei Li, Cesar Caiafa, Qibin Zhao(参考訳) テンソルネットワーク(TN)は機械学習の強力なフレームワークであるが、TN構造探索(TN-SS)として知られる優れたTNモデルを選択することは困難で計算集約的なタスクである。 TNLS~\cite{li2022permutation} の最近のアプローチは、このタスクに対して有望な結果を示したが、その計算効率はまだ不満足であり、目的関数の評価が多すぎる。 本稿では,TNLSと比較して,各構造関連変数を局所列挙によって交互に更新するアルゴリズムであるTnALEを提案する。 TNLS と TnALE の降下ステップを理論的に検討し、両アルゴリズムが各近傍で目的の十分な減算が \emph{reached} であれば、定数まで線形収束を達成できることを証明した。 また、TNLS と TnALE の評価効率も比較し、TNLS では \emph{reaching} に対して $\Omega(2^N)$ 評価が要求されるのに対し、理想的には $O(N^2R)$ 評価は TnALE では十分であり、$N$ はテンソル次数を表し、$R$ は近隣の 'emph{``low-rankness'' を反映する。 実験の結果、TnALEは最先端のアルゴリズムよりもはるかに少ない評価で、実用的に優れたTNランクと置換を見出すことができた。

Tensor network (TN) is a powerful framework in machine learning, but selecting a good TN model, known as TN structure search (TN-SS), is a challenging and computationally intensive task. The recent approach TNLS~\cite{li2022permutation} showed promising results for this task, however, its computational efficiency is still unaffordable, requiring too many evaluations of the objective function. We propose TnALE, a new algorithm that updates each structure-related variable alternately by local enumeration, \emph{greatly} reducing the number of evaluations compared to TNLS. We theoretically investigate the descent steps for TNLS and TnALE, proving that both algorithms can achieve linear convergence up to a constant if a sufficient reduction of the objective is \emph{reached} in each neighborhood. We also compare the evaluation efficiency of TNLS and TnALE, revealing that $\Omega(2^N)$ evaluations are typically required in TNLS for \emph{reaching} the objective reduction in the neighborhood, while ideally $O(N^2R)$ evaluations are sufficient in TnALE, where $N$ denotes the tensor order and $R$ reflects the \emph{``low-rankness''} of the neighborhood. Experimental results verify that TnALE can find practically good TN-ranks and permutations with vastly fewer evaluations than the state-of-the-art algorithms.
翻訳日:2023-05-31 00:38:33 公開日:2023-05-29
# 量子スケージング誘起点ギャップトポロジーと皮膚効果

Quantum-Squeezing-Induced Point-Gap Topology and Skin Effect ( http://arxiv.org/abs/2304.12201v2 )

ライセンス: Link先を確認
Liang-Liang Wan, Xin-You L\"u(参考訳) 理論的には1次元(1D)二次ボゾン系 (QBS) において, スクイーズにより誘導される点ギャップ位相と, 対称性で保護された$\mathbb{Z}_2$スキン効果を同時に予測する。 時間反転対称性によって保護されるようなトポロジーは、新しい $\mathbb{z}_2$ 不変量(量子スピンホール絶縁体に似ている)と関連付けられ、$\mathbb{z}_2$ 皮膚効果の発生を完全に特徴付けることができる。 ゼロエネルギーに焦点をあてると、位相図におけるこのスキン効果のパラメータレジームは、単に {\displaystyle {\it real-gap and point-gap coexisted topological phase} に対応する。 さらに、この位相は、定常的なパワースペクトル密度を検出することで実験的に観測できる。 我々の研究は、量子スクイージングの導入による非ブロッホ位相物理学の強化に基礎的関心を持ち、$\mathbb{z}_2$スキン効果に基づく対称性保護センサの工学への応用の可能性を持っている。

We theoretically predict the squeezing-induced point-gap topology together with a {\it symmetry-protected $\mathbb{Z}_2$ skin effect} in a one-dimensional (1D) quadratic-bosonic system (QBS). Protected by a time-reversal symmetry, such a topology is associated with a novel $\mathbb{Z}_2$ invariant (similar to quantum spin-Hall insulators), which is fully capable of characterizing the occurrence of $\mathbb{Z}_2$ skin effect. Focusing on zero energy, the parameter regime of this skin effect in the phase diagram just corresponds to a {\it real-gap and point-gap coexisted topological phase}. Moreover, this phase associated with the {\it symmetry-protected $\mathbb{Z}_2$ skin effect} is experimentally observable by detecting the steady-state power spectral density. Our work is of fundamental interest in enriching non-Bloch topological physics by introducing quantum squeezing, and has potential applications for the engineering of symmetry-protected sensors based on the $\mathbb{Z}_2$ skin effect.
翻訳日:2023-05-31 00:38:01 公開日:2023-05-29
# 平均シフトの収束解析

Convergence Analysis of Mean Shift ( http://arxiv.org/abs/2305.08463v2 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka(参考訳) 平均シフト(MS)アルゴリズムは、カーネル密度推定(KDE)のモードを求める。 本研究では,MSアルゴリズムが生成するモード推定シーケンスの収束保証と,比較的穏やかな条件下での収束率の評価について,この不等式に関する議論の助けを借りて提案する。 解析的カーネルとエパネチニコフカーネルを対象とする既存カーネルを拡張した本研究では,KDEに基づくモード推定の漸近的統計的効率の観点から,非負のカーネル間で最適な双重カーネルをカバーすることが重要である。

The mean shift (MS) algorithm seeks a mode of the kernel density estimate (KDE). This study presents a convergence guarantee of the mode estimate sequence generated by the MS algorithm and an evaluation of the convergence rate, under fairly mild conditions, with the help of the argument concerning the {\L}ojasiewicz inequality. Our findings, which extend existing ones covering analytic kernels and the Epanechnikov kernel, are significant in that they cover the biweight kernel that is optimal among non-negative kernels in terms of the asymptotic statistical efficiency for the KDE-based mode estimation.
翻訳日:2023-05-31 00:21:39 公開日:2023-05-29
# 勾配降下の局所収束-生成逆ネットワークの訓練

Local Convergence of Gradient Descent-Ascent for Training Generative Adversarial Networks ( http://arxiv.org/abs/2305.08277v2 )

ライセンス: Link先を確認
Evan Becker, Parthe Pandit, Sundeep Rangan, Alyson K. Fletcher(参考訳) generative adversarial networks (gans) は複雑な高次元データの生成モデルを訓練するための一般的な定式化である。 GANをトレーニングする標準的な方法は、極小最適化問題に対する勾配降下度(GDA)手順を含む。 この手順は、力学の非線形性のため、一般には解析が難しい。 カーネルベースの判別器を用いてGANを訓練するためのGDAの局所力学について検討する。 この収束解析は、[becker et al. 2022] から仮定された \textit{isolated points} モデルの下で gda 反復を記述する非線形力学系の線形化に基づいている。 本研究では,カーネル識別器の学習率,正規化,帯域幅がgdaの局所収束率に及ぼす影響について検討した。 重要なことは、システムがいつ収束するか、振動するか、分岐するかを示す相転移を示す。 また,クレームを検証する数値シミュレーションも提供する。

Generative Adversarial Networks (GANs) are a popular formulation to train generative models for complex high dimensional data. The standard method for training GANs involves a gradient descent-ascent (GDA) procedure on a minimax optimization problem. This procedure is hard to analyze in general due to the nonlinear nature of the dynamics. We study the local dynamics of GDA for training a GAN with a kernel-based discriminator. This convergence analysis is based on a linearization of a non-linear dynamical system that describes the GDA iterations, under an \textit{isolated points model} assumption from [Becker et al. 2022]. Our analysis brings out the effect of the learning rates, regularization, and the bandwidth of the kernel discriminator, on the local convergence rate of GDA. Importantly, we show phase transitions that indicate when the system converges, oscillates, or diverges. We also provide numerical simulations that verify our claims.
翻訳日:2023-05-31 00:21:03 公開日:2023-05-29
# 確率的プーリングを用いた証明可能なマルチインスタンス深層auc最大化

Provable Multi-instance Deep AUC Maximization with Stochastic Pooling ( http://arxiv.org/abs/2305.08040v3 )

ライセンス: Link先を確認
Dixian Zhu, Bokun Wang, Zhi Chen, Yaxing Wang, Milan Sonka, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,1つのクラスラベルをインスタンスの袋に割り当てるマルチインスタンス学習 (mil) に対する深層auc最大化 (dam) の新たな応用について検討する。 milの標準的なプーリングメソッドが要求する、バックプロパゲーションのための {gpu} メモリにバッグサイズがロードするには大きすぎる、という文脈で、無視されているが無視できない計算上の課題に対処します。 この課題に対処するために,多レベル構成関数としてプールド予測上の損失関数を定式化することにより,確率最適化の精神における分散還元確率プール法を提案する。 確率的合成最適化と非凸 min-max 最適化の手法を合成することにより,確率的スムーズドマックスプーリングや確率的アテンションベースプールを用いた統一的かつ証明可能なMIDAM (MIDAM) アルゴリズムを提案し,各バッグのいくつかのインスタンスをサンプリングし,確率的勾配推定器を計算し,モデルパラメータを更新する。 我々は,提案したMIDAMアルゴリズムと最先端DAMアルゴリズムとの類似の収束率を確立する。 従来のMILデータセットと医療データセットに関する広範な実験は、MIDAMアルゴリズムの優位性を実証している。

This paper considers a novel application of deep AUC maximization (DAM) for multi-instance learning (MIL), in which a single class label is assigned to a bag of instances (e.g., multiple 2D slices of a CT scan for a patient). We address a neglected yet non-negligible computational challenge of MIL in the context of DAM, i.e., bag size is too large to be loaded into {GPU} memory for backpropagation, which is required by the standard pooling methods of MIL. To tackle this challenge, we propose variance-reduced stochastic pooling methods in the spirit of stochastic optimization by formulating the loss function over the pooled prediction as a multi-level compositional function. By synthesizing techniques from stochastic compositional optimization and non-convex min-max optimization, we propose a unified and provable muli-instance DAM (MIDAM) algorithm with stochastic smoothed-max pooling or stochastic attention-based pooling, which only samples a few instances for each bag to compute a stochastic gradient estimator and to update the model parameter. We establish a similar convergence rate of the proposed MIDAM algorithm as the state-of-the-art DAM algorithms. Our extensive experiments on conventional MIL datasets and medical datasets demonstrate the superiority of our MIDAM algorithm.
翻訳日:2023-05-31 00:20:50 公開日:2023-05-29
# 絡み合いの定義のカテゴリー理論的メタ分析

A Category-theoretical Meta-analysis of Definitions of Disentanglement ( http://arxiv.org/abs/2305.06886v2 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama(参考訳) データの変化の要因を識別することは、機械学習の基本的な概念であり、様々な研究者によって様々な方法で研究されてきた。 多くの経験的研究にもかかわらず、解離の定義的性質と異なる定義が相互にどのように関連しているかを十分に理解するためには、より理論的研究が必要である。 本稿では, カテゴリー理論を統一的かつ厳密な枠組みとして用いることにより, 既存の異方性定義のメタ分析を行う。 我々は,デカルト積とモノイド積の概念が不連続の核となるべきであることを示唆する。 中心となる概念では 類似点と重要な違いを示します (i)機能 (ii)同変写像。 (iii)関係、及び (iv)確率写像。 全体として、我々のメタアナリシスは、乱れとその様々な定式化に対する理解を深め、研究者が異なる定義をナビゲートし、特定の文脈に最適なものを選択するのに役立つ。

Disentangling the factors of variation in data is a fundamental concept in machine learning and has been studied in various ways by different researchers, leading to a multitude of definitions. Despite the numerous empirical studies, more theoretical research is needed to fully understand the defining properties of disentanglement and how different definitions relate to each other. This paper presents a meta-analysis of existing definitions of disentanglement, using category theory as a unifying and rigorous framework. We propose that the concepts of the cartesian and monoidal products should serve as the core of disentanglement. With these core concepts, we show the similarities and crucial differences in dealing with (i) functions, (ii) equivariant maps, (iii) relations, and (iv) stochastic maps. Overall, our meta-analysis deepens our understanding of disentanglement and its various formulations and can help researchers navigate different definitions and choose the most appropriate one for their specific context.
翻訳日:2023-05-31 00:20:06 公開日:2023-05-29
# 自律型GIS:次世代AI搭載GIS

Autonomous GIS: the next-generation AI-powered GIS ( http://arxiv.org/abs/2305.06453v4 )

ライセンス: Link先を確認
Zhenlong Li, Huan Ning(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の自然言語を強く理解し、推論、創造的記述、コード生成、翻訳、情報検索など様々な分野で研究され、応用されてきた。 推論コアとしてllmを採用することで,自然言語理解,推論,コーディングにおけるllmの一般的な能力を活用した自律型地理情報システム(gis)として,自動空間データ収集,解析,可視化による空間問題に対処する。 自律的なGISは、自己生成、自己組織化、自己検証、自己実行、自己成長の5つの目標を達成する必要があると考えています。 我々は,Python 環境で GPT-4 API を用いた LLM-Geo というプロトタイプシステムを開発した。 あらゆるケーススタディにおいて、LLM-Geoは、集計された数、グラフ、マップを含む正確な結果を返すことができ、手作業の時間を大幅に短縮することができた。 LLM-Geoはまだ初期段階にあり、ロギングやコードテストといった重要なモジュールがいくつか欠けているが、次世代AI搭載GISへの潜在的な道筋を示している。 我々は,GIScienceコミュニティに対して,自律型GISの研究・開発により多くの努力を払って,空間分析をより容易に,より早く,よりアクセスしやすいものにすることを提唱する。

Large Language Models (LLMs), such as ChatGPT, demonstrate a strong understanding of human natural language and have been explored and applied in various fields, including reasoning, creative writing, code generation, translation, and information retrieval. By adopting LLM as the reasoning core, we introduce Autonomous GIS as an AI-powered geographic information system (GIS) that leverages the LLM's general abilities in natural language understanding, reasoning, and coding for addressing spatial problems with automatic spatial data collection, analysis, and visualization. We envision that autonomous GIS will need to achieve five autonomous goals: self-generating, self-organizing, self-verifying, self-executing, and self-growing. We developed a prototype system called LLM-Geo using the GPT-4 API in a Python environment, demonstrating what an autonomous GIS looks like and how it delivers expected results without human intervention using three case studies. For all case studies, LLM-Geo was able to return accurate results, including aggregated numbers, graphs, and maps, significantly reducing manual operation time. Although still in its infancy and lacking several important modules such as logging and code testing, LLM-Geo demonstrates a potential path toward the next-generation AI-powered GIS. We advocate for the GIScience community to dedicate more effort to the research and development of autonomous GIS, making spatial analysis easier, faster, and more accessible to a broader audience.
翻訳日:2023-05-31 00:19:28 公開日:2023-05-29
# PMC-VQA: 医用視覚質問応答のための視覚指導チューニング

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering ( http://arxiv.org/abs/2305.10415v5 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では, 医用視覚質問応答(medvqa)の問題に焦点をあて, 臨床関連情報を含む医用画像の効率的な解釈に不可欠である。 まず、人間と機械の相互作用を自然に追従する生成タスクとしてMedVQAの問題を再構成し、トレーニング済み視覚エンコーダからの視覚情報を大きな言語モデルに整合させることにより、医用視覚理解のための生成モデルを提案する。 第2に,さまざまな形態や疾患をカバーする227kのvqa対の149k画像を含む,pmc-vqaという,大規模医療用視覚的質問応答データセットを構築するためのスケーラブルなパイプラインを構築した。 第3に、提案したモデルを PMC-VQA 上で事前トレーニングし、VQA-RAD や SLAKE といった複数の公開ベンチマークで微調整し、既存の作業よりも大きなマージンで性能を向上させる。 さらに,手作業による検証を行うテストセットを提案する。

In this paper, we focus on the problem of Medical Visual Question Answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction, we propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. Secondly, we establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. Thirdly, we pre-train our proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD and SLAKE, outperforming existing work by a large margin. Additionally, we propose a test set that has undergone manual verification, which is significantly more challenging, even the best models struggle to solve.
翻訳日:2023-05-31 00:13:03 公開日:2023-05-29
# ConvXAI:人間とAIの科学的記述を支援するための会話による異種AI説明の提供

ConvXAI: Delivering Heterogeneous AI Explanations via Conversations to Support Human-AI Scientific Writing ( http://arxiv.org/abs/2305.09770v2 )

ライセンス: Link先を確認
Hua Shen, Chieh-Yang Huang, Tongshuang Wu, Ting-Hao 'Kenneth' Huang(参考訳) 様々なAI説明法(XAI)がAIシステムを理解するために提案されているが、最先端のXAI法が人間にとって実用的に有用であるか否かは相容れない。 XAI法の有用性を高めるために,XAI法の現状クォーを用いて,多様な実世界のユーザニーズと動的ユーザニーズのギャップを明らかにする。 以前の研究では、複数のXAIメソッドを共通のXAIインターフェース(例えば、対話型またはGUIベースのXAIシステム)に統合することで、これらのギャップを緩和することを想定していたが、これらのシステムが実際にユーザのニーズを満たすように設計されるべきかどうかを調査する作業が不足している。 本研究では,複数のXAIタイプを組み込んだ会話型XAIシステムであるConvXAIについて述べる。 特に,実践的ユーザニーズ(すなわち形式的学習に基づく4つの原則)をConvXAI設計に革新的に組み込んで実用性を向上させる。 さらに、ドメイン固有言語(DSL)を設計し、本質的な会話型XAIモジュールを実装し、一般化のための会話型共通XAI APIをリリースする。 21名のユーザを対象にした2つの内的調査の結果,ConvXAIは人間の理解と文章の質の向上,生産性と文質の面での筆記プロセスの改善に有用であることが示唆された。 最後に、本研究は、有用なXAIの設計空間に関する洞察を提供し、実際に実証的な証拠を持つ人間のXAI利用パターンを明らかにし、将来の有用なXAI作業の機会を明らかにする。

While various AI explanation (XAI) methods have been proposed to interpret AI systems, whether the state-of-the-art XAI methods are practically useful for humans remains inconsistent findings. To improve the usefulness of XAI methods, a line of studies identifies the gaps between the diverse and dynamic real-world user needs with the status quo of XAI methods. Although prior studies envision mitigating these gaps by integrating multiple XAI methods into the universal XAI interfaces (e.g., conversational or GUI-based XAI systems), there is a lack of work investigating how these systems should be designed to meet practical user needs. In this study, we present ConvXAI, a conversational XAI system that incorporates multiple XAI types, and empowers users to request a variety of XAI questions via a universal XAI dialogue interface. Particularly, we innovatively embed practical user needs (i.e., four principles grounding on the formative study) into ConvXAI design to improve practical usefulness. Further, we design the domain-specific language (DSL) to implement the essential conversational XAI modules and release the core conversational universal XAI API for generalization. The findings from two within-subjects studies with 21 users show that ConvXAI is more useful for humans in perceiving the understanding and writing improvement, and improving the writing process in terms of productivity and sentence quality. Finally, this work contributes insight into the design space of useful XAI, reveals humans' XAI usage patterns with empirical evidence in practice, and identifies opportunities for future useful XAI work.
翻訳日:2023-05-31 00:11:58 公開日:2023-05-29
# 脳波信号からの微妙な依存関係抽出のための時間遅延多機能相関解析

Time delay multi-feature correlation analysis to extract subtle dependencies from EEG signals ( http://arxiv.org/abs/2305.09478v2 )

ライセンス: Link先を確認
Jarek Duda(参考訳) 脳波(EEG)信号は、非常に複雑な脳活動の結果である。 この隠れた力学のいくつかの詳細は、例えば結合分布$\rho_{\Delta t}$のような様々な時間遅延によってシフトした電極対の信号を通してアクセスすることができる(lag $\Delta t$)。 標準的なアプローチでは、ピアソン相関(あるいは相互情報)のような単一のジョイント分布の評価を監視しており、これは比較的興味を示さない結果となり、通常はゼロ遅延とほぼ対称な遅延のピークがある。 対照的に、そのような複雑な信号は、複数の種類の統計的依存関係で構成されているかもしれない。 具体的には、そのようなジョイント分布を多項式としてモデル化し、すべてのラグ依存性を別々に推定し、pca次元の低減により支配的なジョイント密度歪み方向が$f_v$を求める。 このようにして、いくつかの遅延依存機能が得られる: $a_i(\delta t)$ 既知の貢献の独立した支配的統計依存性: $\rho_{\delta t}(y,z)\approx \sum_{i=1}^r a_i(\delta t)\, f_{v_i}(y,z)$。 このような特徴はピアソンの相関を補完し、例えば情報伝達の方向に関連する非対称性、特性遅延を示唆するエクストリーム、周期性を示す発振挙動などの隠れた複雑な振る舞いを抽出する。 このような多機能関節密度解析へのグランガー因果性の拡張についても論じられており、例えば2つの別々の因果性波を示唆している。 この初期の論文は初期の基礎研究であるが、将来は皮質の隠れたダイナミクスの理解、てんかんのような病理の診断、正確な電極位置の決定、脳-コンピューターインターフェイスの構築などに役立つかもしれない。

Electroencephalography (EEG) signals are resultants of extremely complex brain activity. Some details of this hidden dynamics might be accessible through e.g. joint distributions $\rho_{\Delta t}$ of signals of pairs of electrodes shifted by various time delays (lag $\Delta t$). A standard approach is monitoring a single evaluation of such joint distributions, like Pearson correlation (or mutual information), which turns out relatively uninteresting - as expected, there is usually a small peak for zero delay and nearly symmetric drop with delay. In contrast, such a complex signal might be composed of multiple types of statistical dependencies - this article proposes approach to automatically decompose and extract them. Specifically, we model such joint distributions as polynomials, estimated separately for all considered lag dependencies, then with PCA dimensionality reduction we find the dominant joint density distortion directions $f_v$. This way we get a few lag dependent features $a_i(\Delta t)$ describing separate dominating statistical dependencies of known contributions: $\rho_{\Delta t}(y,z)\approx \sum_{i=1}^r a_i(\Delta t)\, f_{v_i}(y,z)$. Such features complement Pearson correlation, extracting hidden more complex behavior, e.g. with asymmetry which might be related with direction of information transfer, extrema suggesting characteristic delays, or oscillatory behavior suggesting some periodicity. There is also discussed extension of Granger causality to such multi-feature joint density analysis, suggesting e.g. two separate causality waves. While this early article is initial fundamental research, in future it might help e.g. with understanding of cortex hidden dynamics, diagnosis of pathologies like epilepsy, determination of precise electrode position, or building brain-computer interface.
翻訳日:2023-05-31 00:11:28 公開日:2023-05-29
# 文脈的フレーズ予測ネットワークを用いた文脈的エンドツーエンド音声認識

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network ( http://arxiv.org/abs/2305.12493v2 )

ライセンス: Link先を確認
Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie(参考訳) 近年,音声認識技術において文脈情報が重要な役割を担い,エンドツーエンド音声認識モデルに組み込むことが注目されている。 しかし、従来のディープバイアス法はバイアスタスクの明示的な監督を欠いていた。 本研究では,注意に基づくディープバイアス手法のための文脈句予測ネットワークを提案する。 このネットワークは文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算して文脈モデルのトレーニングを支援する。 提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。 librispeechコーパスの実験では,提案モデルがベースラインモデルよりも12.1%向上し,文脈句のwerは相対的に40.5%減少することが示された。 さらに,コンテキスト句フィルタリング戦略を適用することで,バイアスリストが大きい場合に,war劣化を効果的に排除する。

Contextual information plays a crucial role in speech recognition technologies and incorporating it into the end-to-end speech recognition models has drawn immense interest recently. However, previous deep bias methods lacked explicit supervision for bias tasks. In this study, we introduce a contextual phrase prediction network for an attention-based deep bias method. This network predicts context phrases in utterances using contextual embeddings and calculates bias loss to assist in the training of the contextualized model. Our method achieved a significant word error rate (WER) reduction across various end-to-end speech recognition models. Experiments on the LibriSpeech corpus show that our proposed model obtains a 12.1% relative WER improvement over the baseline model, and the WER of the context phrases decreases relatively by 40.5%. Moreover, by applying a context phrase filtering strategy, we also effectively eliminate the WER degradation when using a larger biasing list.
翻訳日:2023-05-31 00:02:18 公開日:2023-05-29
# ReLUネットワークの多相最適化ダイナミクスとリッチ非線形挙動の理解

Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks ( http://arxiv.org/abs/2305.12467v2 )

ライセンス: Link先を確認
Mingze Wang, Chao Ma(参考訳) ReLUニューラルネットワークのトレーニングプロセスはしばしば複雑な非線形現象を示す。 モデルの非線形性と損失の非凸性は理論解析に重大な課題をもたらす。 したがって、ニューラルネットワークの最適化力学に関するこれまでの理論研究は、局所解析(訓練終了など)や近似線形モデル(ニューラル・タンジェント・カーネルなど)に重点を置いていた。 本研究では, 線形分離可能なデータに基づいて, グラディエントフローにより学習した2層ReLUネットワークの学習過程を理論的に解析する。 この特定の環境では、ランダム初期化から最終収束までの最適化過程全体を解析する。 研究した比較的単純なモデルとデータにもかかわらず、学習プロセス全体とは4つの異なるフェーズがあることがわかりました。 特定の非線形挙動は、初期凝縮、サドル・トゥ・プラトー力学、プラトーエスケープ、活性化パターンの変化、複雑さの増加による学習など、理論的に正確に識別・捕獲することができる。

The training process of ReLU neural networks often exhibits complicated nonlinear phenomena. The nonlinearity of models and non-convexity of loss pose significant challenges for theoretical analysis. Therefore, most previous theoretical works on the optimization dynamics of neural networks focus either on local analysis (like the end of training) or approximate linear models (like Neural Tangent Kernel). In this work, we conduct a complete theoretical characterization of the training process of a two-layer ReLU network trained by Gradient Flow on a linearly separable data. In this specific setting, our analysis captures the whole optimization process starting from random initialization to final convergence. Despite the relatively simple model and data that we studied, we reveal four different phases from the whole training process showing a general simplifying-to-complicating learning trend. Specific nonlinear behaviors can also be precisely identified and captured theoretically, such as initial condensation, saddle-to-plateau dynamics, plateau escape, changes of activation patterns, learning with increasing complexity, etc.
翻訳日:2023-05-31 00:02:05 公開日:2023-05-29
# Chupa: 2次元拡散確率モデルを用いた3Dクローンヒトの皮膚形状推定

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.11870v2 )

ライセンス: Link先を確認
Byungjun Kim, Patrick Kwon, Kwangho Lee, Myunggi Lee, Sookwan Han, Daesik Kim, Hanbyul Joo(参考訳) 拡散モデルを用いてリアルな人間のデジタルアバターを生成する3D生成パイプラインを提案する。 人間の身元、ポーズ、そして確率的詳細が多種多様であるため、3dのメッシュの生成は難しい問題となっている。 そこで本研究では,この問題を2次元正規地図生成と正規地図に基づく3次元再構成に分解する。 具体的には、まず、ポーズ条件拡散モデルを用いて、服を着た人間の正面と後方の現実的な正規写像を同時に生成する。 3D再構成では,従来のSMPL-Xメッシュを,メッシュ最適化による通常のマップに従って詳細な3Dメッシュに変換する。 高周波の詳細をさらに高めるため,身体領域と顔面領域の拡散サンプリング方式を提案し,現実的なデジタルアバターの創出を奨励する。 また,最近のテキストから画像への拡散モデルをシームレスに組み込んで,テキストベースの個人識別制御をサポートする。 われわれの方法であるChupaは、知覚品質とアイデンティティの多様性を向上したリアルな3D衣服を作成できる。

We propose a 3D generation pipeline that uses diffusion models to generate realistic human digital avatars. Due to the wide variety of human identities, poses, and stochastic details, the generation of 3D human meshes has been a challenging problem. To address this, we decompose the problem into 2D normal map generation and normal map-based 3D reconstruction. Specifically, we first simultaneously generate realistic normal maps for the front and backside of a clothed human, dubbed dual normal maps, using a pose-conditional diffusion model. For 3D reconstruction, we ``carve'' the prior SMPL-X mesh to a detailed 3D mesh according to the normal maps through mesh optimization. To further enhance the high-frequency details, we present a diffusion resampling scheme on both body and facial regions, thus encouraging the generation of realistic digital avatars. We also seamlessly incorporate a recent text-to-image diffusion model to support text-based human identity control. Our method, namely, Chupa, is capable of generating realistic 3D clothed humans with better perceptual quality and identity variety.
翻訳日:2023-05-31 00:00:20 公開日:2023-05-29
# NCHO:人間と物体のニューラル3次元合成のための教師なし学習

NCHO: Unsupervised Learning for Neural 3D Composition of Humans and Objects ( http://arxiv.org/abs/2305.14345v2 )

ライセンス: Link先を確認
Taeksoo Kim, Shunsuke Saito, Hanbyul Joo(参考訳) 深層生成モデルは、最近3Dデジタル人間を合成するために拡張されている。 しかし、従来のアプローチでは衣服やアクセサリーの構成性を考慮せずに、衣料人間を単一の幾何学の塊として扱う。 その結果、個々のアイテムは自然に新しいアイデンティティに分解できず、生成する3Dアバターの表現性と制御性が制限される。 合成データを利用してこの問題に対処する手法もいくつかあるが、ドメインギャップのため、人間と物体の相互作用は本物ではなく、多種多様なオブジェクトに対して手動のアセット生成が困難である。 本稿では,現実世界の3dスキャンから人間と物体(バックパック,コート,スカーフなど)の合成生成モデルを学ぶための新しい枠組みを提案する。 我々の構成モデルは,人間と物体の空間的関係を意識した相互作用認識であり,物理的接触による相互形状変化は完全に組み込まれている。 鍵となる課題は、人間と物体が接触しているため、3Dスキャンは1つにまとめられることだ。 手動アノテーションなしでそれらを分解するために、オブジェクトの有無に関わらず、1人の3dスキャンの2セットを活用することを提案する。 私たちのアプローチは、オブジェクトを分解し、自然に生成的な人間モデルに教師なしの方法で戻すことを学びます。 実験では,対象対象を1つにまとめるだけでよいが,多様なポーズにおける対象の自然な構成と,トレーニングデータでは見当たらない複数の対象の合成を可能とし,モデルの強力な一般化を実証する。 https://taeksuu.github.io/ncho/

Deep generative models have been recently extended to synthesizing 3D digital humans. However, previous approaches treat clothed humans as a single chunk of geometry without considering the compositionality of clothing and accessories. As a result, individual items cannot be naturally composed into novel identities, leading to limited expressiveness and controllability of generative 3D avatars. While several methods attempt to address this by leveraging synthetic data, the interaction between humans and objects is not authentic due to the domain gap, and manual asset creation is difficult to scale for a wide variety of objects. In this work, we present a novel framework for learning a compositional generative model of humans and objects (backpacks, coats, scarves, and more) from real-world 3D scans. Our compositional model is interaction-aware, meaning the spatial relationship between humans and objects, and the mutual shape change by physical contact is fully incorporated. The key challenge is that, since humans and objects are in contact, their 3D scans are merged into a single piece. To decompose them without manual annotations, we propose to leverage two sets of 3D scans of a single person with and without objects. Our approach learns to decompose objects and naturally compose them back into a generative human model in an unsupervised manner. Despite our simple setup requiring only the capture of a single subject with objects, our experiments demonstrate the strong generalization of our model by enabling the natural composition of objects to diverse identities in various poses and the composition of multiple objects, which is unseen in training data. https://taeksuu.github.io/ncho/
翻訳日:2023-05-30 23:42:32 公開日:2023-05-29
# LoReTTaを用いた過渡・多モード変圧器の訓練

Training Transitive and Commutative Multimodal Transformers with LoReTTa ( http://arxiv.org/abs/2305.14243v2 )

ライセンス: Link先を確認
Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Fabian J. Theis, Tingying Peng, Eldad Klaiman(参考訳) 2組のモダリティa,b,b,cのマルチモーダルデータセットの収集は,実際には困難である。 A、B、Cの3つのアライメントを持つデータセットを取得することは、さらに難しい。 例えば、一部の公衆医療データセットは、ある患者のための遺伝子配列と顕微鏡画像のみを持ち、別の患者のための遺伝配列と放射線画像のみを持っている。 これにより、すべてのモダリティを大規模なトレーニング済みニューラルネットワークに統合し、結合することが困難になる。 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。 我々の自己監督型フレームワークは、因果マスクモデルと可換性と推移性の規則を組み合わせて、異なるモダリティの内および間を移行する。 したがって、A -> C と A -> B -> C の関係をモデル化することができる。 解離結合(A, B) と (B, C) のみを含むデータセットが与えられた場合、LoReTTa で事前訓練された変換器は、予期せぬペア(A, C) と三重項(A, B, C)を含む任意のモダリティ結合を推論時に処理できることを示す。 我々は,音声,視覚,言語を含むMNISTから派生したマルチモーダルデータセットと,TCGAからmRNA,miRNA,RPPAのサンプルを含む実世界の医療データセットについて検討した。 従来のプレトレーニング法と比較して,自己回帰型生成タスクでは最大100ポイントのパープレキシティが低下し,プレトレーニングフェーズではそれまで認識されていなかったモダリティペアの分類精度が最大15%向上した。

Collecting a multimodal dataset with two paired modalities A and B or B and C is difficult in practice. Obtaining a dataset with three aligned modalities A, B, and C is even more challenging. For example, some public medical datasets have only genetic sequences and microscopic images for one patient, and only genetic sequences and radiological images for another - but no dataset includes both microscopic and radiological images for the same patient. This makes it difficult to integrate and combine all modalities into a large pre-trained neural network. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework combines causal masked modeling with the rules of commutativity and transitivity to transition within and between different modalities. Thus, it can model the relation A -> C with A -> B -> C. Given a dataset containing only the disjoint combinations (A, B) and (B, C), we show that a transformer pre-trained with LoReTTa can handle any modality combination at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We evaluate our approach on a multimodal dataset derived from MNIST containing speech, vision, and language, as well as a real-world medical dataset containing mRNA, miRNA, and RPPA samples from TCGA. Compared to traditional pre-training methods, we observe up to a 100-point reduction in perplexity for autoregressive generation tasks and up to a 15% improvement in classification accuracy for previously unseen modality pairs during the pre-training phase.
翻訳日:2023-05-30 23:42:06 公開日:2023-05-29
# 分布認識公平性テスト生成

Distribution-aware Fairness Test Generation ( http://arxiv.org/abs/2305.13935v2 )

ライセンス: Link先を確認
Sai Sathiesh Rajan, Ezekiel Soremekun, Yves Le Traon, Sudipta Chattopadhyay(参考訳) 本研究は,画像認識ソフトウェアにおけるグループフェアネスの検証方法について述べる。 画像分類器におけるクラスレベルのフェアネス違反を,アウト・オブ・ディストリビューション(OOD)テストとセマンティック保存画像の相乗的組み合わせにより体系的に公開する分布認識フェアネステスト手法(DistroFair)を提案する。 DistroFairは、画像の集合内のオブジェクトの分布(例えば、番号/向き)を自動的に学習する。 次に、オブジェクトの削除、オブジェクト挿入、オブジェクト回転という3つのセマンティック保存されたイメージ変異を使用して、画像内のオブジェクトを体系的にOODに変形する。 2つの有名なデータセット(CityScapesとMS-COCO)と3つの主要な商用画像認識ソフトウェア(Amazon Rekognition、Google Cloud Vision、Azure Computer Vision)を使用してDistroFairを評価する。 その結果、DistroFairが生成した画像の約21%は、基底真理または変成オラクルを用いてクラスレベルのフェアネス違反を明らかにしている。 DistroFairは2つのベースライン、すなわち2つのベースラインよりも2.3倍有効である。 (a)分布(ID)内でのみ画像を生成することに焦点を当てたアプローチ (b)原画像データセットのみを用いた公平性解析。 さらに、DistroFairは効率的で、平均して1時間に460枚の画像を生成する。 最後に,DistroFair が生成した実画像 30 と実画像 30 を用いて,81 人の被験者によるユーザスタディによるアプローチの意味的妥当性を評価する。 その結果、DistroFairが生成した画像は現実世界の画像の80%がリアルであることが判明した。

This work addresses how to validate group fairness in image recognition software. We propose a distribution-aware fairness testing approach (called DistroFair) that systematically exposes class-level fairness violations in image classifiers via a synergistic combination of out-of-distribution (OOD) testing and semantic-preserving image mutation. DistroFair automatically learns the distribution (e.g., number/orientation) of objects in a set of images. Then it systematically mutates objects in the images to become OOD using three semantic-preserving image mutations -- object deletion, object insertion and object rotation. We evaluate DistroFair using two well-known datasets (CityScapes and MS-COCO) and three major, commercial image recognition software (namely, Amazon Rekognition, Google Cloud Vision and Azure Computer Vision). Results show that about 21% of images generated by DistroFair reveal class-level fairness violations using either ground truth or metamorphic oracles. DistroFair is up to 2.3x more effective than two main baselines, i.e., (a) an approach which focuses on generating images only within the distribution (ID) and (b) fairness analysis using only the original image dataset. We further observed that DistroFair is efficient, it generates 460 images per hour, on average. Finally, we evaluate the semantic validity of our approach via a user study with 81 participants, using 30 real images and 30 corresponding mutated images generated by DistroFair. We found that images generated by DistroFair are 80% as realistic as real-world images.
翻訳日:2023-05-30 23:40:32 公開日:2023-05-29
# 実用相符号化サイドチャネルセキュア量子キー分布

Practical Phase-Coding Side-Channel-Secure Quantum Key Distribution ( http://arxiv.org/abs/2305.13861v2 )

ライセンス: Link先を確認
Yang-Guang Shan, Zhen-Qiang Yin, Shuang Wang, Wei Chen, De-Yong He, Guang-Can Guo, Zheng-Fu Han(参考訳) あらゆる種類のデバイスループホールは、実用的なセキュアな量子鍵分布(QKD)に大きな障害をもたらす。 本稿では,従来のサイドチャネルセキュアプロトコル(Physical Review Applied 12, 054034 (2019)]にヒントを得て,位相符号化サイドチャネルセキュアプロトコル(PC-SCS)と呼ばれる新しいQKDプロトコルを提案する。 このプロトコルは、ソース部のすべての非相関側チャネルおよび測定側のすべての抜け穴に免疫することができる。 新しいプロトコルのコヒーレント攻撃に対する有限鍵セキュリティ解析が与えられる。 提案プロトコルは2つの位相の変調のみを必要とするため、完全な真空状態を作成することの難しさを回避できる。 数値シミュレーションにより,pc-scsプロトコルにより実用的伝送距離300kmを実現することができた。

All kinds of device loopholes give rise to a great obstacle to practical secure quantum key distribution (QKD). In this article, inspired by the original side-channel-secure protocol [Physical Review Applied 12, 054034 (2019)], a new QKD protocol called phase-coding side-channel-secure (PC-SCS) protocol is proposed. This protocol can be immune to all uncorrelated side channels of the source part and all loopholes of the measurement side. A finite-key security analysis against coherent attack of the new protocol is given. The proposed protocol only requires modulation of two phases, which can avoid the challenge of preparing perfect vacuum states. Numerical simulation shows that a practical transmission distance of 300 km can be realized by the PC-SCS protocol.
翻訳日:2023-05-30 23:39:39 公開日:2023-05-29
# interformer: 音声自動認識のための対話型局所的・グローバル特徴融合

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition ( http://arxiv.org/abs/2305.16342v2 )

ライセンス: Link先を確認
Zhi-Hao Lai, Tian-Hao Zhang, Qi Liu, Xinyuan Qian, Li-Fang Wei, Song-Lu Chen, Feng Chen, Xu-Cheng Yin(参考訳) 局所的特徴とグローバル特徴の両方が自動音声認識(asr)に必須である。 最近の多くの手法では、ローカル機能とグローバル機能を組み合わせるだけでasrのパフォーマンスがさらに向上できることが証明されている。 しかし、これらの手法は局所的特徴とグローバル的特徴の相互作用にはあまり注意を払わず、それらのシリーズアーキテクチャは局所的特徴とグローバル的関係を反映するために厳密である。 本稿では,asrの表現性を改善するために,インタラクティブな局所的・グローバル的特徴融合のためのinterformerを提案する。 具体的には,コンボリューションブロックと変圧器ブロックを並列設計で組み合わせる。 さらに,局所的特徴とグローバル的特徴の相互作用と融合を実装するために,双方向特徴相互作用モジュール (BFIM) と選択的融合モジュール (SFM) を提案する。 公開asrデータセットに関する広範な実験は,提案するinterformerの有効性と,他のtransformerおよびconformerモデルよりも優れた性能を示している。

The local and global features are both essential for automatic speech recognition (ASR). Many recent methods have verified that simply combining local and global features can further promote ASR performance. However, these methods pay less attention to the interaction of local and global features, and their series architectures are rigid to reflect local and global relationships. To address these issues, this paper proposes InterFormer for interactive local and global features fusion to learn a better representation for ASR. Specifically, we combine the convolution block with the transformer block in a parallel design. Besides, we propose a bidirectional feature interaction module (BFIM) and a selective fusion module (SFM) to implement the interaction and fusion of local and global features, respectively. Extensive experiments on public ASR datasets demonstrate the effectiveness of our proposed InterFormer and its superior performance over the other Transformer and Conformer models.
翻訳日:2023-05-30 23:33:25 公開日:2023-05-29
# ゴール指向タスクで普遍的に現れる逆正方形レヴィウォーク

Inverse square Levy walk emerging universally in goal-oriented tasks ( http://arxiv.org/abs/2305.15559v2 )

ライセンス: Link先を確認
Shuji Shinohara, Daiki Morita, Nobuhito Manome, Ryota Hayashi, Toru Moriyama, Hiroshi Okamoto, Pegio-Yukio Gunji, and Ung-il Chung(参考訳) ステップ長の発生頻度がパワーロー分布に従うレヴィウォークは,様々なレベルの生物の移動行動で観察できる。 電力指数が2に近いレヴィウォークが観察されており、その理由は不明である。 本研究では,逆正方形歩行(コーシー歩行)を普遍的に生成し,コーシー歩行が現れる条件を同定するモデルを提案する。 コーシーウォーキングがゴール指向のタスクで普遍的に現れることを実証する。 ゴールが明確である場合、「ゴール指向」という用語を使うが、これは異なる方法で達成でき、一意的に決定できない。 エージェントが2次元空間における確率分布から生成されたデータを観測し,その確率分布の中央座標を逐次推定するシミュレーションを行った。 エージェントは、データ生成分布の仮説として確率分布のモデルを有し、データポイントが観測される度にモデルを変更することにより、観測されたデータの発生確率を増大させることができる。 これを実現するためには、モデルの中心座標を観測されたデータに近づけなければならない。 しかし、二次元空間の場合、中心の補正方向に任意性が生じ、このタスクはゴール指向である。 x方向とy方向の修正量をランダムに割り当てる戦略と、移動を最小限に抑えるように割り当てを決定する戦略の2つの事例を分析した。 その結果、ランダムな戦略が使われると、コーシーウォークが現れることがわかった。 最小限の戦略を使用すると、ブラウンウォークが現れる。 運動量を最小限に抑える制約の存在や欠如は、ブラウンとレヴィの歩行の違いを引き起こす要因であるかもしれない。

The Levy walk in which the frequency of occurrence of step lengths follows a power-law distribution, can be observed in the migratory behavior of organisms at various levels. Levy walks with power exponents close to 2 are observed, and the reasons are unclear. This study aims to propose a model that universally generates inverse square Levy walks (called Cauchy walks) and to identify the conditions under which Cauchy walks appear. We demonstrate that Cauchy walks emerge universally in goal-oriented tasks. We use the term "goal-oriented" when the goal is clear, but this can be achieved in different ways, which cannot be uniquely determined. We performed a simulation in which an agent observed the data generated from a probability distribution in a two-dimensional space and successively estimated the central coordinates of that probability distribution. The agent has a model of probability distribution as a hypothesis for data-generating distribution and can modify the model such that each time a data point is observed, thereby increasing the estimated probability of occurrence of the observed data. To achieve this, the center coordinates of the model must be moved closer to those of the observed data. However, in the case of a two-dimensional space, arbitrariness arises in the direction of correction of the center; this task is goal oriented. We analyze two cases: a strategy that allocates the amount of modification randomly in the x- and y-directions, and a strategy that determines allocation such that movement is minimized. The results reveal that when a random strategy is used, the Cauchy walk appears. When the minimum strategy is used, the Brownian walk appears. The presence or absence of the constraint of minimizing the amount of movement may be a factor that causes the difference between Brownian and Levy walks.
翻訳日:2023-05-30 23:33:08 公開日:2023-05-29
# 自然言語から検証画像生成への視覚属性の伝達

Transferring Visual Attributes from Natural Language to Verified Image Generation ( http://arxiv.org/abs/2305.15026v2 )

ライセンス: Link先を確認
Rodrigo Valerio, Joao Bordalo, Michal Yarom, Yonatan Bitton, Idan Szpektor, Joao Magalhaes(参考訳) text to image generation methods (t2i) は、アートやその他の創造的なアーティファクトの生成に広く使われている。 視覚幻覚は創造性が評価されるシナリオにおいて肯定的な要因となりうるが、そのような人工物は、生成した画像が明示的な視覚要素なしで複雑な自然言語でグラウンドドする必要がある場合にはあまり適していない。 本稿では,非視覚情報を含むt2i法や正確な生成に知識を必要とするテキスト要素の限界をしばしば破る自然複合言語の存在下で,t2i法の一貫性を強化することを提案する。 これらの現象に対処するために,自然なプロンプトを視覚的プロンプトに変換する自然言語・検証画像生成手法 (NL2VI) を提案する。 T2Iモデルは視覚的プロンプトのための画像を生成し、VQAアルゴリズムで検証する。 実験的に、自然なプロンプトと画像生成を一致させることで、生成した画像の一貫性を11%向上させることができる。 さらに、改善は料理やdiyタスクのような困難な領域に一般化され、生成された画像の正確さがアクションを説明する上で重要である。

Text to image generation methods (T2I) are widely popular in generating art and other creative artifacts. While visual hallucinations can be a positive factor in scenarios where creativity is appreciated, such artifacts are poorly suited for cases where the generated image needs to be grounded in complex natural language without explicit visual elements. In this paper, we propose to strengthen the consistency property of T2I methods in the presence of natural complex language, which often breaks the limits of T2I methods by including non-visual information, and textual elements that require knowledge for accurate generation. To address these phenomena, we propose a Natural Language to Verified Image generation approach (NL2VI) that converts a natural prompt into a visual prompt, which is more suitable for image generation. A T2I model then generates an image for the visual prompt, which is then verified with VQA algorithms. Experimentally, aligning natural prompts with image generation can improve the consistency of the generated images by up to 11% over the state of the art. Moreover, improvements can generalize to challenging domains like cooking and DIY tasks, where the correctness of the generated image is crucial to illustrate actions.
翻訳日:2023-05-30 23:31:04 公開日:2023-05-29
# MT-SLVR:トランスフォーメーション(変数)表現のためのマルチタスク自己教師付き学習

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations ( http://arxiv.org/abs/2305.17191v1 )

ライセンス: Link先を確認
Calum Heggan, Tim Hospedales, Sam Budgett, Mehrdad Yaghoobi(参考訳) 対照的な自己教師付き学習は、大きなラベルのないデータセットから高品質な表現を作り出す能力で注目を集めている。 これらの強力な機能がダウンストリームタスクをデータ効率で学習可能にする主な理由は、拡張不変性を提供するためである。 しかし、好まれる不変量や種類は知られておらず、下流のタスクによって異なる。 そこで本稿では,パラメータ効率のよいマルチタスク型自己教師型フレームワーク(MT-SLVR)を提案する。 当社のマルチタスク表現は,ダウンストリームタスクの多様なメリットを享受する,強力で柔軟な機能を提供します。 我々は,様々な音声領域から抽出したマイナショット分類タスクのアプローチを評価し,それらすべてに対する分類性能の向上を実証する。

Contrastive self-supervised learning has gained attention for its ability to create high-quality representations from large unlabelled data sets. A key reason that these powerful features enable data-efficient learning of downstream tasks is that they provide augmentation invariance, which is often a useful inductive bias. However, the amount and type of invariances preferred is not known apriori, and varies across different downstream tasks. We therefore propose a multi-task self-supervised framework (MT-SLVR) that learns both variant and invariant features in a parameter-efficient manner. Our multi-task representation provides a strong and flexible feature that benefits diverse downstream tasks. We evaluate our approach on few-shot classification tasks drawn from a variety of audio domains and demonstrate improved classification performance on all of them
翻訳日:2023-05-30 21:33:43 公開日:2023-05-29
# spac-net:ポーズ推定の強化を目的とした合成ポーズ認識動物制御ネット

SPAC-Net: Synthetic Pose-aware Animal ControlNet for Enhanced Pose Estimation ( http://arxiv.org/abs/2305.17845v1 )

ライセンス: Link先を確認
Le Jiang and Sarah Ostadabbas(参考訳) 動物のポーズ推定は研究の重要領域となっているが、注釈付きデータの不足は正確なモデルを開発する上で大きな課題である。 合成データは有望な代替手段として登場したが、しばしば実際のデータとドメインの相違を示す。 この問題を解決するためにスタイル転送アルゴリズムが提案されているが、空間的対応が不十分でラベル情報が失われる。 本研究では,従来提案されていた合成動物データ生成(pasyn)パイプラインに制御ネットを組み込む合成ポーズ認識動物制御ネット(spac-net)という新しい手法を提案する。 可変オートエンコーダ(vae)ベースのデータ生成パイプラインが生成する可算なポーズデータから、コントロールネットのホリスティックネストエッジ検出(hed)境界タスクモデルへの入力として活用し、実データに近いポーズラベルを用いた合成データを生成し、実データを必要としない高精度ポーズ推定ネットワークのトレーニングを可能にする。 さらに、動物と背景のHED境界を別々に検出し、生成したデータの精度と安定性を向上させるBi-ControlNet構造を提案する。 SPAC-Netパイプラインを用いて合成ゼブラ画像とサイ画像を生成し、AP10K実データセット上でテストし、他の方法で生成された実画像や合成データよりも優れた性能を示す。 本研究は,動物のポーズ推定における限定的な注釈データの課題を克服するための合成データの可能性を示す。

Animal pose estimation has become a crucial area of research, but the scarcity of annotated data is a significant challenge in developing accurate models. Synthetic data has emerged as a promising alternative, but it frequently exhibits domain discrepancies with real data. Style transfer algorithms have been proposed to address this issue, but they suffer from insufficient spatial correspondence, leading to the loss of label information. In this work, we present a new approach called Synthetic Pose-aware Animal ControlNet (SPAC-Net), which incorporates ControlNet into the previously proposed Prior-Aware Synthetic animal data generation (PASyn) pipeline. We leverage the plausible pose data generated by the Variational Auto-Encoder (VAE)-based data generation pipeline as input for the ControlNet Holistically-nested Edge Detection (HED) boundary task model to generate synthetic data with pose labels that are closer to real data, making it possible to train a high-precision pose estimation network without the need for real data. In addition, we propose the Bi-ControlNet structure to separately detect the HED boundary of animals and backgrounds, improving the precision and stability of the generated data. Using the SPAC-Net pipeline, we generate synthetic zebra and rhino images and test them on the AP10K real dataset, demonstrating superior performance compared to using only real images or synthetic data generated by other methods. Our work demonstrates the potential for synthetic data to overcome the challenge of limited annotated data in animal pose estimation.
翻訳日:2023-05-30 16:29:54 公開日:2023-05-29
# rl + model-based control: オンデマンド最適制御を用いた多目的歩行学習

RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion ( http://arxiv.org/abs/2305.17842v1 )

ライセンス: Link先を確認
Dongho Kang, Jin Cheng, Miguel Zamora, Fatemeh Zargarbashi, Stelian Coros(参考訳) 本文は,モデルベース最適制御と強化学習(RL)を統合した動的で頑健な足歩行のための多目的制御法を提案する。 本手法では,有限ホライゾン最適制御問題の解法を用いて,オンデマンドで発生する参照動作を模倣するrlポリシーを訓練する。 この統合によってポリシーは、模倣する動きを生成する人間の専門知識を活用できると同時に、より複雑なダイナミクスモデルを必要とするより複雑なシナリオに一般化することができる。 本手法は,シミュレーションおよびハードウェア実験において,多様な四脚歩行パターンを生成し,予期せぬ外乱に対する安定性を維持することができる制御ポリシーをうまく学習する。 さらに,過度の報酬整形やハイパーパラメータチューニングを必要とせず,不均一な地形上のより複雑なロコモーションタスクへの適応性を示す。

This letter presents a versatile control method for dynamic and robust legged locomotion that integrates model-based optimal control with reinforcement learning (RL). Our approach involves training an RL policy to imitate reference motions generated on-demand through solving a finite-horizon optimal control problem. This integration enables the policy to leverage human expertise in generating motions to imitate while also allowing it to generalize to more complex scenarios that require a more complex dynamics model. Our method successfully learns control policies capable of generating diverse quadrupedal gait patterns and maintaining stability against unexpected external perturbations in both simulation and hardware experiments. Furthermore, we demonstrate the adaptability of our method to more complex locomotion tasks on uneven terrain without the need for excessive reward shaping or hyperparameter tuning.
翻訳日:2023-05-30 16:29:26 公開日:2023-05-29
# naturalfinger: 生成型adversarial networkによる自然指紋生成

NaturalFinger: Generating Natural Fingerprint with Generative Adversarial Networks ( http://arxiv.org/abs/2305.17868v1 )

ライセンス: Link先を確認
Kang Yang, Kunhao Lai(参考訳) 深層ニューラルネットワーク(DNN)モデルは、大量のリソース(ラベル付きデータ)を必要とするため、モデルの所有者にとって重要な資産となっている。 そのため、モデル抽出や違法再配布に対して、モデル所有者の知的財産権(IP)を保護するために多くの指紋認証方式が提案されている。 しかし、従来のスキームでは、敵の例や騒々しい画像など、不自然なイメージを指紋として採用しており、相手が容易に認識し、拒否することができる。 本稿では,GAN(Generative Adversarial Network)を用いた自然な指紋を生成するNaturalFingerを提案する。 さらに、提案したNaturalFingerは、決定境界よりも、より堅牢な決定差領域を指紋化する。 ganの応用により,より不可避なサンプルを生成できるだけでなく,決定境界を探索するために制約のないサンプルを生成できるようになり,指紋法の有効性を実証するために,敵対的トレーニングと2つのモデル抽出攻撃を含む4つのモデル修正攻撃に対するアプローチを評価した。 実験の結果,FingerBenchデータセット(154モデル)のARUC値は0.91であり,最適ベースライン(MetaV)が17倍を超えることがわかった。

Deep neural network (DNN) models have become a critical asset of the model owner as training them requires a large amount of resource (i.e. labeled data). Therefore, many fingerprinting schemes have been proposed to safeguard the intellectual property (IP) of the model owner against model extraction and illegal redistribution. However, previous schemes adopt unnatural images as the fingerprint, such as adversarial examples and noisy images, which can be easily perceived and rejected by the adversary. In this paper, we propose NaturalFinger which generates natural fingerprint with generative adversarial networks (GANs). Besides, our proposed NaturalFinger fingerprints the decision difference areas rather than the decision boundary, which is more robust. The application of GAN not only allows us to generate more imperceptible samples, but also enables us to generate unrestricted samples to explore the decision boundary.To demonstrate the effectiveness of our fingerprint approach, we evaluate our approach against four model modification attacks including adversarial training and two model extraction attacks. Experiments show that our approach achieves 0.91 ARUC value on the FingerBench dataset (154 models), exceeding the optimal baseline (MetaV) over 17\%.
翻訳日:2023-05-30 16:19:53 公開日:2023-05-29
# 中国伝統医学勧告のための相互作用知識グラフの系列条件

Sequential Condition Evolved Interaction Knowledge Graph for Traditional Chinese Medicine Recommendation ( http://arxiv.org/abs/2305.17866v1 )

ライセンス: Link先を確認
Jingjin Liu, Hankz Hankui Zhuo, Kebing Jin, Jiamin Yuan, Zhimin Yang, Zhengan Yao(参考訳) 伝統的な中国医学(tcm)は、様々な病気の治療に天然のハーブを利用する豊富な歴史を持っている。 実際には、TCMの診断と治療は高度にパーソナライズされ、有機的に包括的であり、患者の状態と症状を時間とともに包括的に考慮する必要がある。 しかし、既存のTCM推奨アプローチは、患者の状態の変化を見落とし、症状と処方薬の間の潜在的なパターンのみを探索する。 本稿では,患者が複数回訪問する際の状態のダイナミクスを考慮し,そのモデルを逐次処方薬製造問題として扱うフレームワークであるSCEIKG(Sequential Condition Evolved Interaction Knowledge Graph)を提案する。 また, 異なるハーブ間の相互作用と患者の状態を考慮して, 推薦の正確性を高めるために, 対話知識グラフを組み込んだ。 実世界のデータセットを用いた実験結果から,提案手法は既存のTCM推奨手法より優れ,最先端性能が達成されていることが示された。

Traditional Chinese Medicine (TCM) has a rich history of utilizing natural herbs to treat a diversity of illnesses. In practice, TCM diagnosis and treatment are highly personalized and organically holistic, requiring comprehensive consideration of the patient's state and symptoms over time. However, existing TCM recommendation approaches overlook the changes in patient status and only explore potential patterns between symptoms and prescriptions. In this paper, we propose a novel Sequential Condition Evolved Interaction Knowledge Graph (SCEIKG), a framework that treats the model as a sequential prescription-making problem by considering the dynamics of the patient's condition across multiple visits. In addition, we incorporate an interaction knowledge graph to enhance the accuracy of recommendations by considering the interactions between different herbs and the patient's condition. Experimental results on a real-world dataset demonstrate that our approach outperforms existing TCM recommendation methods, achieving state-of-the-art performance.
翻訳日:2023-05-30 16:19:31 公開日:2023-05-29
# GridFormer:逆気象条件における画像復元のためのグリッド構造を有する残差変換器

GridFormer: Residual Dense Transformer with Grid Structure for Image Restoration in Adverse Weather Conditions ( http://arxiv.org/abs/2305.17863v1 )

ライセンス: Link先を確認
Tao Wang, Kaihao Zhang, Ziqian Shao, Wenhan Luo, Bjorn Stenger, Tong Lu, Tae-Kyun Kim, Wei Liu, Hongdong Li(参考訳) 悪天候下での画像復元はコンピュータビジョンでは難しい課題である。 本稿では, 気象条件下の画像復元のバックボーンとして機能する, gridformer と呼ばれる新しいトランスフォーマフレームワークを提案する。 GridFormerは高密度トランスブロックを使ってグリッド構造を設計し、2つのコア設計を導入している。 まず、トランス層に強化されたアテンション機構を使用する。 この機構は、サンプリング装置のステージと、効率を向上させるためのコンパクトな自己アテンションと、ローカル情報を強化するローカルエンハンスメントステージとを含む。 次に,最後のGridFormer層として高密度変圧器ブロック(RDTB)を導入する。 この設計により、前と現在の両方のローカル特徴から効果的な特徴を学習するネットワークの能力はさらに向上する。 GridFormerフレームワークは、画像のデライニング、デライジング、デライジング、デライジング、デライジング、マルチウェザー修復を含む、悪天候条件下での5つのさまざまなイメージ復元タスクに対して、最先端の結果を達成する。 ソースコードと事前訓練されたモデルがリリースされる。

Image restoration in adverse weather conditions is a difficult task in computer vision. In this paper, we propose a novel transformer-based framework called GridFormer which serves as a backbone for image restoration under adverse weather conditions. GridFormer is designed in a grid structure using a residual dense transformer block, and it introduces two core designs. First, it uses an enhanced attention mechanism in the transformer layer. The mechanism includes stages of the sampler and compact self-attention to improve efficiency, and a local enhancement stage to strengthen local information. Second, we introduce a residual dense transformer block (RDTB) as the final GridFormer layer. This design further improves the network's ability to learn effective features from both preceding and current local features. The GridFormer framework achieves state-of-the-art results on five diverse image restoration tasks in adverse weather conditions, including image deraining, dehazing, deraining & dehazing, desnowing, and multi-weather restoration. The source code and pre-trained models will be released.
翻訳日:2023-05-30 16:19:12 公開日:2023-05-29
# 弱教師付き時間行動定位のための提案型マルチインスタンス学習

Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2305.17861v1 )

ライセンス: Link先を確認
Huan Ren, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang(参考訳) 弱い教師付き時間的行動局所化は、訓練中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオにおける行動のローカライズと認識を目的としている。 インスタンスレベルのアノテーションがなければ、既存のほとんどのメソッドは、ビデオのラベルによってセグメントの予測が管理されるSegmentベースのMultiple Instance Learning(S-MIL)フレームワークに従っている。 しかし、トレーニング中にセグメントレベルスコアを取得する目的は、テスト中に提案レベルスコアを取得する目標と一致しないため、準最適結果が得られる。 この問題に対処するため,我々は3つの重要な設計を含むトレーニング段階とテスト段階の両方において,候補の提案を直接分類する,提案ベースの複数インスタンス学習(p-mil)フレームワークを提案する。 1)周囲のコントラスト情報を考慮して識別的短命な提案を抑えるための周囲のコントラスト特徴抽出モジュール 2)完全性偽ラベルの指導による低品質提案を阻害する完全性評価モジュール 3)RGBとFLOWの相補性を利用して、堅牢な検出を実現するインスタンスレベルの整合性損失。 THUMOS14とActivityNetの2つのベンチマークによる大規模な実験結果から,本手法の優れた性能が示された。

Weakly-supervised temporal action localization aims to localize and recognize actions in untrimmed videos with only video-level category labels during training. Without instance-level annotations, most existing methods follow the Segment-based Multiple Instance Learning (S-MIL) framework, where the predictions of segments are supervised by the labels of videos. However, the objective for acquiring segment-level scores during training is not consistent with the target for acquiring proposal-level scores during testing, leading to suboptimal results. To deal with this problem, we propose a novel Proposal-based Multiple Instance Learning (P-MIL) framework that directly classifies the candidate proposals in both the training and testing stages, which includes three key designs: 1) a surrounding contrastive feature extraction module to suppress the discriminative short proposals by considering the surrounding contrastive information, 2) a proposal completeness evaluation module to inhibit the low-quality proposals with the guidance of the completeness pseudo labels, and 3) an instance-level rank consistency loss to achieve robust detection by leveraging the complementarity of RGB and FLOW modalities. Extensive experimental results on two challenging benchmarks including THUMOS14 and ActivityNet demonstrate the superior performance of our method.
翻訳日:2023-05-30 16:18:51 公開日:2023-05-29
# FastMESH:ヘキサゴナルメッシュを用いたニューラルレンダリングによる高速表面再構成

FastMESH: Fast Surface Reconstruction by Hexagonal Mesh-based Neural Rendering ( http://arxiv.org/abs/2305.17858v1 )

ライセンス: Link先を確認
Yisu Zhang, Jianke Zhu and Lixiang Lin(参考訳) マルチビュー再構成の有望な結果にもかかわらず、最近のニューラルレンダリングベースの手法、例えば暗黙的表面レンダリング (idr) やボリュームレンダリング (neus) は、トレーニングの計算負荷を増大させるだけでなく、幾何学的および外観の分離も困難である。 暗黙的な表現やハッシュ符号化よりも高速なトレーニング速度を達成したが、明示的なvoxelベースの方法は、回復面において劣る結果を得る。 これらの課題に対処するため,我々は,レイとメッシュの交点でのみサンプルを行うfastmeshという,効果的なメッシュベースのニューラルネットワークレンダリング手法を提案する。 空間彫刻により初期メッシュを効率よく抽出する粗粒間スキームを導入する。 さらに,低レベルの位置符号化のみをニューラルネットワークのレンダリングに係わる頂点の2次微分を制約することにより,表面の正則性を保つための六角形メッシュモデルを提案する。 本手法は,再構成と新規ビュー合成の両方において最先端の結果が得られることを示す。 さらに,暗黙的表現に基づく手法と比較して,学習時の10倍の加速度を求める。

Despite the promising results of multi-view reconstruction, the recent neural rendering-based methods, such as implicit surface rendering (IDR) and volume rendering (NeuS), not only incur a heavy computational burden on training but also have the difficulties in disentangling the geometric and appearance. Although having achieved faster training speed than implicit representation and hash coding, the explicit voxel-based method obtains the inferior results on recovering surface. To address these challenges, we propose an effective mesh-based neural rendering approach, named FastMESH, which only samples at the intersection of ray and mesh. A coarse-to-fine scheme is introduced to efficiently extract the initial mesh by space carving. More importantly, we suggest a hexagonal mesh model to preserve surface regularity by constraining the second-order derivatives of vertices, where only low level of positional encoding is engaged for neural rendering. The experiments demonstrate that our approach achieves the state-of-the-art results on both reconstruction and novel view synthesis. Besides, we obtain 10-fold acceleration on training comparing to the implicit representation-based methods.
翻訳日:2023-05-30 16:18:28 公開日:2023-05-29
# Vec2Gloss: Wordnet glossを用いた文脈化ベクトルを用いた定義モデリング

Vec2Gloss: definition modeling leveraging contextualized vectors with Wordnet gloss ( http://arxiv.org/abs/2305.17855v1 )

ライセンス: Link先を確認
Yu-Hsiang Tseng, Mao-Chang Ku, Wei-Ling Chen, Yu-Lin Chang, Shu-Kai Hsieh(参考訳) コンテキスト化された埋め込みは、複数のNLPタスクにおいて強力なツールであることが証明されている。 それでも、語彙意味論の解釈可能性や能力に関する課題は残っている。 本稿では,単語の可読な定義を生成することを目的とした定義モデリングの課題について,高次元意味ベクトルの評価や理解を行うための経路を提案する。 本稿では,対象単語の文脈的埋め込みから光沢を生成する「Vec2Gloss」モデルを提案する。 本研究で得られた光沢は,中国語単語ネットの体系的な光沢パターンによって実現されている。 生成したテキストをグロスとトークンレベルで解析するために使用される、意味と文脈の依存関係を測定するために、2つの依存関係インデックスを考案する。 提案した「Vec2Gloss」モデルにより,文脈的埋め込みの語彙・意味的応用への新たな視点が開かれることを示す。

Contextualized embeddings are proven to be powerful tools in multiple NLP tasks. Nonetheless, challenges regarding their interpretability and capability to represent lexical semantics still remain. In this paper, we propose that the task of definition modeling, which aims to generate the human-readable definition of the word, provides a route to evaluate or understand the high dimensional semantic vectors. We propose a `Vec2Gloss' model, which produces the gloss from the target word's contextualized embeddings. The generated glosses of this study are made possible by the systematic gloss patterns provided by Chinese Wordnet. We devise two dependency indices to measure the semantic and contextual dependency, which are used to analyze the generated texts in gloss and token levels. Our results indicate that the proposed `Vec2Gloss' model opens a new perspective to the lexical-semantic applications of contextualized embeddings.
翻訳日:2023-05-30 16:18:06 公開日:2023-05-29
# E-NER:信頼できるエンティティ認識のための情報深層学習

E-NER: Evidential Deep Learning for Trustworthy Named Entity Recognition ( http://arxiv.org/abs/2305.17854v1 )

ライセンス: Link先を確認
Zhen Zhang, Mengting Hu, Shiwan Zhao, Minlie Huang, Haotian Wang, Lemao Liu, Zhirui Zhang, Zhe Liu and Bingzhe Wu(参考訳) ほとんどの名前付きエンティティ認識(NER)システムは、オープン環境におけるNERシステムの信頼性に重要なモデル不確実性を定量化する必要性を無視して、モデル性能の改善に焦点を当てている。 Evidential Deep Learning (EDL)は、最近、分類タスクの予測不確実性を明示的にモデル化するための有望なソリューションとして提案されている。 しかしながら、EDLをNERアプリケーションに直接適用することは、スパースエンティティとNERタスクにおけるOOV/OODエンティティという2つの課題に直面している。 これらの課題に対処するために、従来のEDLに2つの不確実性誘導損失項を導入し、一連の不確実性誘導訓練戦略を導入することにより、E-NERという信頼できるNERフレームワークを提案する。 実験により、E-NERは複数のNERパラダイムに適用でき、正確な不確実性推定が得られることが示された。 さらに, 最先端のベースラインと比較して, 提案手法によりoov/ood検出性能が向上し, oovエンティティの一般化能力も向上した。

Most named entity recognition (NER) systems focus on improving model performance, ignoring the need to quantify model uncertainty, which is critical to the reliability of NER systems in open environments. Evidential deep learning (EDL) has recently been proposed as a promising solution to explicitly model predictive uncertainty for classification tasks. However, directly applying EDL to NER applications faces two challenges, i.e., the problems of sparse entities and OOV/OOD entities in NER tasks. To address these challenges, we propose a trustworthy NER framework named E-NER by introducing two uncertainty-guided loss terms to the conventional EDL, along with a series of uncertainty-guided training strategies. Experiments show that E-NER can be applied to multiple NER paradigms to obtain accurate uncertainty estimation. Furthermore, compared to state-of-the-art baselines, the proposed method achieves a better OOV/OOD detection performance and better generalization ability on OOV entities.
翻訳日:2023-05-30 16:17:50 公開日:2023-05-29
# 低レイテンシイベント処理のための階層型ニューラルメモリネットワーク

Hierarchical Neural Memory Network for Low Latency Event Processing ( http://arxiv.org/abs/2305.17852v1 )

ライセンス: Link先を確認
Ryuhei Hamaguchi, Yasutaka Furukawa, Masaki Onishi, Ken Sakurada(参考訳) 本稿では,イベントベース高密度予測タスクのための低レイテンシニューラルネットワークアーキテクチャを提案する。 従来のアーキテクチャは、時間的特性に関わらず、シーン全体のコンテンツを一定速度でエンコードする。 その代わりに、提案するネットワークは、その移動速度に応じて適切な時間スケールでコンテンツを符号化する。 我々は,異なるレートで動作するスタック型潜在メモリを用いて,時間階層を構築することでこれを実現する。 低レイテンシイベントの蒸気が与えられると、マルチレベルメモリは、高速なメモリモジュールから遅いメモリモジュールへ情報を伝達することで、動的から静的なシーンの内容を取り出す。 アーキテクチャは、従来のアーキテクチャの冗長性を減少させるだけでなく、長期的な依存関係も活用する。 さらに、注意に基づくイベント表現は、スパースイベントストリームをメモリセルに効率的にエンコードする。 本研究では,提案手法が既存の精度とレイテンシの手法を上回り,効果的な事象と画像の融合能力を示す3つの事象ベースの密集した予測タスクを広範囲に評価する。 コードはhttps://hamarh.github.io/hmnet/で入手できる。

This paper proposes a low latency neural network architecture for event-based dense prediction tasks. Conventional architectures encode entire scene contents at a fixed rate regardless of their temporal characteristics. Instead, the proposed network encodes contents at a proper temporal scale depending on its movement speed. We achieve this by constructing temporal hierarchy using stacked latent memories that operate at different rates. Given low latency event steams, the multi-level memories gradually extract dynamic to static scene contents by propagating information from the fast to the slow memory modules. The architecture not only reduces the redundancy of conventional architectures but also exploits long-term dependencies. Furthermore, an attention-based event representation efficiently encodes sparse event streams into the memory cells. We conduct extensive evaluations on three event-based dense prediction tasks, where the proposed approach outperforms the existing methods on accuracy and latency, while demonstrating effective event and image fusion capabilities. The code is available at https://hamarh.github.io/hmnet/
翻訳日:2023-05-30 16:17:31 公開日:2023-05-29
# 低温フォトニクスのための剛性低損失光ファイバーカプラ

A rigid, low-loss fiber-optic coupler for cryogenic photonics ( http://arxiv.org/abs/2305.17851v1 )

ライセンス: Link先を確認
Mengdi Zhao and Kejie Fang(参考訳) 量子光物質結合系と量子トランスデューサの最近の進歩は、低温光学測定の必要性を強調している。 本研究では, 極低温における遠隔波長光の結合効率50%以上を有する, メカニカルリグイド光ファイバカプラを提案する。 本手法は, 低温環境下での機械的振動に対するアライメントのない高感度フォトニックデバイス測定を可能にする。

Recent developments in quantum light-matter coupled systems and quantum transducers have highlighted the need for cryogenic optical measurements. In this study, we present a mechanically-rigid fiber-optic coupler with a coupling efficiency of over 50% for telecom wavelength light at cryogenic temperatures. Our method enables sensitive photonic device measurements that are alignment-free and immune to mechanical vibrations in cryogenic setups.
翻訳日:2023-05-30 16:17:16 公開日:2023-05-29
# 名前付きエンティティ認識モデルと音素類似度推定に基づくエンハーモニック単語のリトレーニングフリーカスタマイズasr

Retraining-free Customized ASR for Enharmonic Words Based on a Named-Entity-Aware Model and Phoneme Similarity Estimation ( http://arxiv.org/abs/2305.17846v1 )

ライセンス: Link先を確認
Yui Sudo, Kazuya Hata, Kazuhiro Nakadai(参考訳) エンド・ツー・エンドの自動音声認識(E2E-ASR)は、性能向上の可能性を秘めているが、特に対処すべき課題は、同じ発音と異なる綴りを持つ名前付きエンティティ(NE)を扱うのが困難であることだ。 これは、同じ発音だが漢字の異なる日本人の姓で起こることが多い。 このような NE 単語は重要なキーワードである傾向があるため、ASR は誤認識した場合、容易にユーザ信頼を失う。 そこで本研究では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。 実験の結果,提案手法は,従来のE2E-ASRモデルと比較して,ターゲットNEとして個人名を選択する場合,平均で目標NE文字誤り率を35.7%向上させることがわかった。

End-to-end automatic speech recognition (E2E-ASR) has the potential to improve performance, but a specific issue that needs to be addressed is the difficulty it has in handling enharmonic words: named entities (NEs) with the same pronunciation and part of speech that are spelled differently. This often occurs with Japanese personal names that have the same pronunciation but different Kanji characters. Since such NE words tend to be important keywords, ASR easily loses user trust if it misrecognizes them. To solve these problems, this paper proposes a novel retraining-free customized method for E2E-ASRs based on a named-entity-aware E2E-ASR model and phoneme similarity estimation. Experimental results show that the proposed method improves the target NE character error rate by 35.7% on average relative to the conventional E2E-ASR model when selecting personal names as a target NE.
翻訳日:2023-05-30 16:17:12 公開日:2023-05-29
# ai言語病理学者の台頭: スライド画像分類における二段階学習の検討

The Rise of AI Language Pathologists: Exploring Two-level Prompt Learning for Few-shot Weakly-supervised Whole Slide Image Classification ( http://arxiv.org/abs/2305.17891v1 )

ライセンス: Link先を確認
Linhao Qu, Xiaoyuan Luo, Kexue Fu, Manning Wang, Zhijian Song(参考訳) 本稿では,FSWCと表記される病的全スライド画像(WSI)分類における弱教師あり学習の概念を紹介する。 大規模言語モデルであるGPT-4の即時学習と活用に基づく解を提案する。 WSIはサイズが大きすぎて処理用のパッチに分割する必要があるため、WSI分類は一般的に多重インスタンス学習(MIL)問題としてアプローチされる。 この文脈では、各wsiはバッグと見なされ、得られたパッチはインスタンスとして扱われる。 FSWCの目的は、バッグとインスタンスの両方を限られた数のラベル付きバッグで分類することである。 従来の数発の学習問題とは異なり、FSWCはMILフレームワーク内のバッグラベルが弱いため、さらなる課題を提起している。 下流部における視覚言語モデル(v-lモデル)の最近の成果から着想を得て,言語先行知識を取り入れ,病理学に適した2段階のプロンプトラーニングミルフレームワークを提案する。 具体的には、CLIPを利用して各パッチのインスタンス機能を抽出し、これらのインスタンス機能をバッグ機能に集約するプロンプト誘導プーリング戦略を導入します。 その後,少数のラベル付きバッグを用いて,バッグの特徴に基づく数発のプロンプト学習を行う。 提案手法では,GPT-4を質問応答モードで活用し,インスタンスレベルとバッグレベルの両方で言語事前知識を取得し,インスタンスレベルとバッグレベルの言語プロンプトに統合する。 さらに、言語プロンプトの学習可能なコンポーネントは、利用可能な数少ないラベル付きデータを使用してトレーニングされる。 乳がん,肺癌,頸部癌を含む3つのWSIデータセットについて広範な実験を行い,バッグおよび事例分類における提案手法の顕著な性能を示した。 すべてのコードは公開アクセス可能である。

This paper introduces the novel concept of few-shot weakly supervised learning for pathology Whole Slide Image (WSI) classification, denoted as FSWC. A solution is proposed based on prompt learning and the utilization of a large language model, GPT-4. Since a WSI is too large and needs to be divided into patches for processing, WSI classification is commonly approached as a Multiple Instance Learning (MIL) problem. In this context, each WSI is considered a bag, and the obtained patches are treated as instances. The objective of FSWC is to classify both bags and instances with only a limited number of labeled bags. Unlike conventional few-shot learning problems, FSWC poses additional challenges due to its weak bag labels within the MIL framework. Drawing inspiration from the recent achievements of vision-language models (V-L models) in downstream few-shot classification tasks, we propose a two-level prompt learning MIL framework tailored for pathology, incorporating language prior knowledge. Specifically, we leverage CLIP to extract instance features for each patch, and introduce a prompt-guided pooling strategy to aggregate these instance features into a bag feature. Subsequently, we employ a small number of labeled bags to facilitate few-shot prompt learning based on the bag features. Our approach incorporates the utilization of GPT-4 in a question-and-answer mode to obtain language prior knowledge at both the instance and bag levels, which are then integrated into the instance and bag level language prompts. Additionally, a learnable component of the language prompts is trained using the available few-shot labeled data. We conduct extensive experiments on three real WSI datasets encompassing breast cancer, lung cancer, and cervical cancer, demonstrating the notable performance of the proposed method in bag and instance classification. All codes will be made publicly accessible.
翻訳日:2023-05-30 16:09:44 公開日:2023-05-29
# 固体量子系における欠陥の包括的同定法

Comprehensive scheme for identifying defects in solid-state quantum systems ( http://arxiv.org/abs/2305.17889v1 )

ライセンス: Link先を確認
Chanaprom Cholsuk, Sujin Suwanna, Tobias Vogl(参考訳) 固体量子エミッタは、光学量子技術に必要なコンポーネントの1つである。 理想的には、エミッタは量子ネットワーク内の他のコンポーネントと効率的に結合するための波長互換を持つべきである。 したがって、特定のエミッターにつながる蛍光欠陥を理解することが不可欠である。 本研究では,密度汎関数理論(dft)を用いて2次元材料窒化ホウ素中の量子エミッタの完全な光学的指紋の計算を行う。 これらのエミッターは非常に興味深いが、その多くはまだ同定されていない。 その結果、ゼロフォノン線エネルギーなどの単一光学特性を比較するのではなく、理論シミュレーションと実験を比較する際に複数の特性を用いるべきであることが示唆された。 これにより、電子構造全体を予測し、量子エミッタを設計・調整することができる。 さらに、本手法を適用し、Al$_{\text{N}}$とP$_{\text{N}}$V$_{\text{B}}$の欠陥の例を通して、特定の量子アプリケーションでエミッターを使用するための適合性を予測する。 そこで我々は,dft計算を組み合わせて固体結晶中の量子エミッタを同定し,ミスアサインのリスクを低減し,光学量子システムの設計と調整を行う。 これにより、将来のハイブリッド量子ネットワークにおける普遍的な固体量子エミッタシステムの分類と生成のレシピとなる。

A solid-state quantum emitter is one of the indispensable components for optical quantum technologies. Ideally, an emitter should have a compatible wavelength for efficient coupling to other components in a quantum network. It is therefore essential to understand fluorescent defects that lead to specific emitters. In this work, we employ density functional theory (DFT) to demonstrate the calculation of the complete optical fingerprints of quantum emitters in the two-dimensional material hexagonal boron nitride. These emitters are of great interest, yet many of them are still to be identified. Our results suggest that instead of comparing a single optical property, such as the commonly used zero-phonon line energy, multiple properties should be used when comparing theoretical simulations to the experiment. This way, the entire electronic structure can be predicted and quantum emitters can be designed and tailored. Moreover, we apply this approach to predict the suitability for using the emitters in specific quantum applications, demonstrating through the examples of the Al$_{\text{N}}$ and P$_{\text{N}}$V$_{\text{B}}$ defects. We therefore combine and apply DFT calculations to identify quantum emitters in solid-state crystals with a lower risk of misassignments as well as a way to design and tailor optical quantum systems. This consequently serves as a recipe for classification and the generation of universal solid-state quantum emitter systems in future hybrid quantum networks.
翻訳日:2023-05-30 16:09:13 公開日:2023-05-29
# LLM-QAT:大規模言語モデルのためのデータフリー量子化学習

LLM-QAT: Data-Free Quantization Aware Training for Large Language Models ( http://arxiv.org/abs/2305.17888v1 )

ライセンス: Link先を確認
Zechun Liu, Barlas Oguz, Changsheng Zhao, Ernie Chang, Pierre Stock, Yashar Mehdad, Yangyang Shi, Raghuraman Krishnamoorthi, Vikas Chandra(参考訳) 学習後量子化法は大規模言語モデル (LLM) に適用され、8ビットまで性能が良いことが示されている。 これらの手法は低ビット精度で分解し,LLM(LLM-QAT)の量子化対応トレーニングを検証し,量子化レベルをさらに推し進める。 そこで,本研究では,事前学習モデルが生成する世代を活用し,元の出力分布を良好に保ち,トレーニングデータとは無関係に任意の生成モデルを定量化できるデータフリー蒸留法を提案する。 重み付けとアクティベーションの定量化に加えて,スループット向上に重要なKVキャッシュの定量化や,現在のモデルサイズでの長いシーケンス依存性のサポートも行います。 我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。 特に低ビット設定では、トレーニングフリーメソッドに対する大幅な改善が観察される。

Several post-training quantization methods have been applied to large language models (LLMs), and have been shown to perform well down to 8-bits. We find that these methods break down at lower bit precision, and investigate quantization aware training for LLMs (LLM-QAT) to push quantization levels even further. We propose a data-free distillation method that leverages generations produced by the pre-trained model, which better preserves the original output distribution and allows quantizing any generative model independent of its training data, similar to post-training quantization methods. In addition to quantizing weights and activations, we also quantize the KV cache, which is critical for increasing throughput and support long sequence dependencies at current model sizes. We experiment with LLaMA models of sizes 7B, 13B, and 30B, at quantization levels down to 4-bits. We observe large improvements over training-free methods, especially in the low-bit settings.
翻訳日:2023-05-30 16:08:54 公開日:2023-05-29
# マルチエージェント深層強化学習に基づくオンオフサッカー選手の行動評価

Action valuation of on- and off-ball soccer players based on multi-agent deep reinforcement learning ( http://arxiv.org/abs/2305.17886v1 )

ライセンス: Link先を確認
Hiroshi Nakahara, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii(参考訳) サッカーなどの侵略的なスポーツの分析は、ゲーム状況が時間と空間で連続的に変化し、複数のエージェントが個別にゲーム状況を認識して決定するので、困難である。 深層強化学習を用いた以前の研究は、しばしばチームが単一のエージェントであるとみなし、各個別のイベントでボールを保持しているチームや選手を評価してきた。 その後、ボールから遠く離れたプレイヤーを含む複数のプレイヤーのアクションを時空間的に連続した状態空間で評価することが難しかった。 本稿では,マルチエージェント深層強化学習に基づく1つの総合的な枠組みにおいて,オン・オフのサッカー選手に対して可能なアクションを評価する手法を提案する。 我々は、Googleリサーチフットボールを模倣し、強化学習における行動に教師あり学習を活用する連続状態空間における離散的なアクション空間を考える。 実験では,従来の指標,季節目標,ゲーム評価との関係を専門家によって分析し,提案手法の有効性を示した。 本手法は,チームワークやスカウト,ファンエンゲージメントに欠かせない,識別やラベル付けが難しいゲーム全体を通じて,複数のプレイヤーの継続的な動きを評価する。

Analysis of invasive sports such as soccer is challenging because the game situation changes continuously in time and space, and multiple agents individually recognize the game situation and make decisions. Previous studies using deep reinforcement learning have often considered teams as a single agent and valued the teams and players who hold the ball in each discrete event. Then it was challenging to value the actions of multiple players, including players far from the ball, in a spatiotemporally continuous state space. In this paper, we propose a method of valuing possible actions for on- and off-ball soccer players in a single holistic framework based on multi-agent deep reinforcement learning. We consider a discrete action space in a continuous state space that mimics that of Google research football and leverages supervised learning for actions in reinforcement learning. In the experiment, we analyzed the relationships with conventional indicators, season goals, and game ratings by experts, and showed the effectiveness of the proposed method. Our approach can assess how multiple players move continuously throughout the game, which is difficult to be discretized or labeled but vital for teamwork, scouting, and fan engagement.
翻訳日:2023-05-30 16:08:37 公開日:2023-05-29
# 部分微分方程式のスケッチによる粒子とテンソルネットワークの組合せ

Combining Particle and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v1 )

ライセンス: Link先を確認
Yian Chen, Yuehaw Khoo(参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。 提案手法は,最近提案するテンソルトレインスケッチ手法を用いて,新しい解をテンソルネットワークとして更新し,再評価するために粒子シミュレーションを併用した包括的解法を提供する。 本手法は, 粒子がテンソルネットワークを起点と仮定して粒子数制御を行うための代替手法としても解釈できる。 ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を実証する。

In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach offers a comprehensive solution methodology, wherein we employ a combination of particle simulations to update the solution and re-estimations of the new solution as a tensor-network using a recently proposed tensor train sketching technique. Our method can also be interpreted as an alternative approach for performing particle number control by assuming the particles originate from an underlying tensor network. We demonstrate the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo.
翻訳日:2023-05-30 16:08:19 公開日:2023-05-29
# 可逆的深層ニューラルネットワーク透かし:浮動小数点重みのマッチング

Reversible Deep Neural Network Watermarking:Matching the Floating-point Weights ( http://arxiv.org/abs/2305.17879v1 )

ライセンス: Link先を確認
Junren Qin, Fan Yang, Jiarui Deng and Shanxiang Lyu(参考訳) 静的ディープニューラルネットワーク(DNN)透かしは、不可逆的な方法でDNNモデルの重みに透かしを埋め込むが、これは透かしモデルに恒久的なダメージを与え、整合性認証の要件を満たすことができない。 これらの理由から、DNNの著作権保護のため、RDH(Reversible Data hidden)の方が魅力的に思える。 本稿では,非可逆量子化指数変調(QIM)を改善したRDHに基づく静的DNN透かし手法を提案する。 DNNの浮動小数点重みを目標とし、RDH法の考え方は、スケールした量子化誤差をカバーオブジェクトに追加することである。 2つのスキームは、DNNの完全性保護と正当性認証を実現するように設計されている。 トレーニング損失と分類精度のシミュレーションは,ヒストグラムシフト法(HS)よりも提案手法の優れた実現可能性,有効性,適応性を正当化する。

Static deep neural network (DNN) watermarking embeds watermarks into the weights of DNN model by irreversible methods, but this will cause permanent damage to watermarked model and can not meet the requirements of integrity authentication. For these reasons, reversible data hiding (RDH) seems more attractive for the copyright protection of DNNs. This paper proposes a novel RDH-based static DNN watermarking method by improving the non-reversible quantization index modulation (QIM). Targeting the floating-point weights of DNNs, the idea of our RDH method is to add a scaled quantization error back to the cover object. Two schemes are designed to realize the integrity protection and legitimate authentication of DNNs. Simulation results on training loss and classification accuracy justify the superior feasibility, effectiveness and adaptability of the proposed method over histogram shifting (HS).
翻訳日:2023-05-30 16:08:05 公開日:2023-05-29
# Ask an Expert: 目標指向対話モデルにおける戦略的推論を改善するために言語モデルを活用する

Ask an Expert: Leveraging Language Models to Improve Strategic Reasoning in Goal-Oriented Dialogue Models ( http://arxiv.org/abs/2305.17878v1 )

ライセンス: Link先を確認
Qiang Zhang, Jason Naradowsky, Yusuke Miyao(参考訳) 既存の対話モデルは、トレーニングデータによく表現されていないシナリオに遭遇し、結果として、不自然、不適切、あるいは不健康な応答を生成する。 我々は、モデルが各ターンで相談できる「専門家」にアクセスしてトレーニングされる「専門家としてのリスク」フレームワークを提案する。 アドバイスは専門家との構造化された対話を通じて提供され、コンテキストと対話履歴が与えられた場合、モデルを選択的に利用(または無視)するために最適化される。 この作業では、専門家はLLMの形式を取ります。 この枠組みを、専門家の会話の構造を、現場の実践者に教えられた推論戦略を反映した事前に特定されたプロンプトによって概説する精神保健支援領域において評価する。 Ask an Expert"を利用するブレンダーボットモデルは、対話モデル自体よりも少ないパラメータを含む、すべての専門家サイズの品質改善を示している。 私たちの最良のモデルは、ベースラインよりも$\sim 10\%$の改善を提供し、"エンゲージメント"と"ヘルプフルネス"のメトリクスで人間レベルのスコアに近づいています。

Existing dialogue models may encounter scenarios which are not well-represented in the training data, and as a result generate responses that are unnatural, inappropriate, or unhelpful. We propose the "Ask an Expert" framework in which the model is trained with access to an "expert" which it can consult at each turn. Advice is solicited via a structured dialogue with the expert, and the model is optimized to selectively utilize (or ignore) it given the context and dialogue history. In this work the expert takes the form of an LLM. We evaluate this framework in a mental health support domain, where the structure of the expert conversation is outlined by pre-specified prompts which reflect a reasoning strategy taught to practitioners in the field. Blenderbot models utilizing "Ask an Expert" show quality improvements across all expert sizes, including those with fewer parameters than the dialogue model itself. Our best model provides a $\sim 10\%$ improvement over baselines, approaching human-level scores on "engingingness" and "helpfulness" metrics.
翻訳日:2023-05-30 16:07:48 公開日:2023-05-29
# プロセス安全性のディジタル分割:ヒューマン・aiコラボレーションの定量的リスク分析

The Digital Divide in Process Safety: Quantitative Risk Analysis of Human-AI Collaboration ( http://arxiv.org/abs/2305.17873v1 )

ライセンス: Link先を確認
He Wen(参考訳) デジタル技術は、プロセス産業におけるデジタルトランスフォーメーションを劇的に加速させ、新しい産業応用を促進し、生産システムを改良し、運用効率を高めた。 対照的に、人間と人工知能(AI)の課題とギャップはますます顕著になってきている。 この研究は以下の疑問に対処しようと試みている。 i)プロセス安全性の文脈におけるAIとは何か? (ii)プロセス安全性におけるAIと人間の違いは何か。 (iii)aiと人間はプロセスセーフティにどのように協力するのか? (4)人間とAIのコラボレーションにおける課題とギャップは何か。 (v)プロセス安全性における人間とAIの協調のリスクの定量化 ブレインストーミングと文献レビューに基づく質的リスク分析,および保護層分析 (lopa) とベイズネットワーク (bn) に基づく定量的リスク分析を用いて探索とモデル化を行った。 人間の信頼性の重要性は、通常AIの信頼性を高めるためにではなく、デジタル時代において強調されなければならない。

Digital technologies have dramatically accelerated the digital transformation in process industries, boosted new industrial applications, upgraded the production system, and enhanced operational efficiency. In contrast, the challenges and gaps between human and artificial intelligence (AI) have become more and more prominent, whereas the digital divide in process safety is aggregating. The study attempts to address the following questions: (i)What is AI in the process safety context? (ii)What is the difference between AI and humans in process safety? (iii)How do AI and humans collaborate in process safety? (iv)What are the challenges and gaps in human-AI collaboration? (v)How to quantify the risk of human-AI collaboration in process safety? Qualitative risk analysis based on brainstorming and literature review, and quantitative risk analysis based on layer of protection analysis (LOPA) and Bayesian network (BN), were applied to explore and model. The importance of human reliability should be stressed in the digital age, not usually to increase the reliability of AI, and human-centered AI design in process safety needs to be propagated.
翻訳日:2023-05-30 16:07:28 公開日:2023-05-29
# 粒状体におけるユニバーサルメカニカルポリコンピューティング

Universal Mechanical Polycomputation in Granular Matter ( http://arxiv.org/abs/2305.17872v1 )

ライセンス: Link先を確認
Atoosa Parsa, Sven Witthaus, Nidhi Pashine, Corey S. O'Hern, Rebecca Kramer-Bottiglio, Josh Bongard(参考訳) 従来型コンピューティングデバイスは、シリコンベースのエレクトロニクスに敵対する環境で動作したり、従来の電子機器では不可能な方法で計算できるため、ますます関心を集めている。 機械式コンピュータは、情報処理が構成要素と環境の相互作用から生じる物質的特性であり、そのような種類のデバイスである。 この情報処理は様々な物理基板に現れ、そのうちの1つは粒状物である。 粒状アセンブリでは、振動を情報付加モードとして扱うことができる。 これは"polycomputing"(多量計算)を実現するために利用することができる:材料は、その中の1つの粒子が、量子効果に関連付けることなく、異なる周波数で複数の論理演算の結果を同時に報告できるように進化することができる。 ここでは、2つの異なる周波数で1つの粒が2つの異なるNANDゲートとして同時に作用する材料の発展を示す。 NANDゲートは論理的な操作を構築できるため、興味がある。 さらに、それらは非線形であり、汎用的で計算に富んだ機械計算機へのステップを示す。 ポリ計算は各進化した材料に分散することが判明し、材料の堅牢性が示唆された。 材料科学の最近の進歩により、これらの材料のハードウェア化は、最終的に従来のコンピュータの計算密度に挑戦する装置を提供するかもしれない。

Unconventional computing devices are increasingly of interest as they can operate in environments hostile to silicon-based electronics, or compute in ways that traditional electronics cannot. Mechanical computers, wherein information processing is a material property emerging from the interaction of components with the environment, are one such class of devices. This information processing can be manifested in various physical substrates, one of which is granular matter. In a granular assembly, vibration can be treated as the information-bearing mode. This can be exploited to realize "polycomputing": materials can be evolved such that a single grain within them can report the result of multiple logical operations simultaneously at different frequencies, without recourse to quantum effects. Here, we demonstrate the evolution of a material in which one grain acts simultaneously as two different NAND gates at two different frequencies. NAND gates are of interest as any logical operations can be built from them. Moreover, they are nonlinear thus demonstrating a step toward general-purpose, computationally dense mechanical computers. Polycomputation was found to be distributed across each evolved material, suggesting the material's robustness. With recent advances in material sciences, hardware realization of these materials may eventually provide devices that challenge the computational density of traditional computers.
翻訳日:2023-05-30 16:07:11 公開日:2023-05-29
# propnet : CTスキャンによる胃腫瘍の3次元切開への2次元アノテーションの応用

propnet: Propagating 2D Annotation to 3D Segmentation for Gastric Tumors on CT Scans ( http://arxiv.org/abs/2305.17871v1 )

ライセンス: Link先を確認
Zifan Chen, Jiazheng Li, Jie Zhao, Yiting Liu, Hongfeng Li, Bin Dong, Lei Tang, Li Zhang(参考訳) ※背景:** 胃癌の3D CT スキャンの正確なセグメンテーションは診断と治療に重要である。 課題は、不規則な形状、ぼやけた腫瘍の境界、既存の方法の非効率性にある。 *目的:**] 3d腫瘍の分節化の課題に対処するために,人間誘導知識とユニークなモジュールを用いたモデルを導入するための研究を行った。 **methods:*** 私たちは2dアノテーションから3d空間全体に放射線科医の知識を伝播するpropnetフレームワークを開発しました。 このモデルは、粗いセグメンテーションのプロポーティングステージと、改良されたセグメンテーションの精製ステージと、性能向上のための双方向ブランチと効率向上のためのアップダウン戦略からなる。 **結果:** 98件の患者スキャンと30件のバリデーションにより,手作業によるアノテーション(約0.803)との相当な一致を実現し,効率を向上する。 パフォーマンスは異なるシナリオと様々な放射線学者のアノテーション(0.785から0.803まで)に匹敵する。 さらに, 進行胃癌42例を対象に, 予後予測性能の改善(C-インデックス0.620 vs. 0.576)を行った。 *結論:*本モデルでは, 精度の高い腫瘍セグメンテーションを効率よく, 安定的に生成し, 予後を向上し, 高スループット画像読取作業量を削減する。 このモデルは胃腫瘍の定量的解析を加速し、下流タスク性能を向上させる。

**Background:** Accurate 3D CT scan segmentation of gastric tumors is pivotal for diagnosis and treatment. The challenges lie in the irregular shapes, blurred boundaries of tumors, and the inefficiency of existing methods. **Purpose:** We conducted a study to introduce a model, utilizing human-guided knowledge and unique modules, to address the challenges of 3D tumor segmentation. **Methods:** We developed the PropNet framework, propagating radiologists' knowledge from 2D annotations to the entire 3D space. This model consists of a proposing stage for coarse segmentation and a refining stage for improved segmentation, using two-way branches for enhanced performance and an up-down strategy for efficiency. **Results:** With 98 patient scans for training and 30 for validation, our method achieves a significant agreement with manual annotation (Dice of 0.803) and improves efficiency. The performance is comparable in different scenarios and with various radiologists' annotations (Dice between 0.785 and 0.803). Moreover, the model shows improved prognostic prediction performance (C-index of 0.620 vs. 0.576) on an independent validation set of 42 patients with advanced gastric cancer. **Conclusions:** Our model generates accurate tumor segmentation efficiently and stably, improving prognostic performance and reducing high-throughput image reading workload. This model can accelerate the quantitative analysis of gastric tumors and enhance downstream task performance.
翻訳日:2023-05-30 16:06:52 公開日:2023-05-29
# VCVW-3D: 3Dアノテーション付き仮想建設車両と労働者データセット

VCVW-3D: A Virtual Construction Vehicles and Workers Dataset with 3D Annotations ( http://arxiv.org/abs/2305.17927v1 )

ライセンス: Link先を確認
Yuexiong Ding, Xiaowei Luo(参考訳) 現在、建設中のオブジェクト検出アプリケーションは、ほぼ純粋な2Dデータ(画像とアノテーションはどちらも2Dベース)に基づいており、2D情報のみを必要とするいくつかのシナリオにしか適用できない。 しかし、ほとんどの先進的なアプリケーションは、通常AIエージェントが3D空間情報を知覚する必要があるため、建設における現在のコンピュータビジョン(CV)のさらなる発展が制限される。 構築オブジェクト検出のための3Dアノテートデータセットの欠如により、状況は悪化する。 そこで本研究では,VCVW-3Dという3Dアノテーションを用いた仮想データセットを作成し,公開する。 VCVW-3Dデータセットの特徴は、マルチシーン、マルチカテゴリ、マルチランダムネス、マルチビューポイント、マルチアノテーション、両眼視である。 典型的な2Dおよびモノラルな3Dオブジェクト検出モデルが訓練され、VCVW-3Dデータセットで評価され、その後の研究のベンチマークが提供される。 VCVW-3Dは、データ構築のコストを削減し、プロトタイプ開発と宇宙認識アプリケーションの探索を行い、特に3DアプリケーションにおけるCVの開発を促進することで、経済的利益と実用上の意義をもたらすことが期待されている。

Currently, object detection applications in construction are almost based on pure 2D data (both image and annotation are 2D-based), resulting in the developed artificial intelligence (AI) applications only applicable to some scenarios that only require 2D information. However, most advanced applications usually require AI agents to perceive 3D spatial information, which limits the further development of the current computer vision (CV) in construction. The lack of 3D annotated datasets for construction object detection worsens the situation. Therefore, this study creates and releases a virtual dataset with 3D annotations named VCVW-3D, which covers 15 construction scenes and involves ten categories of construction vehicles and workers. The VCVW-3D dataset is characterized by multi-scene, multi-category, multi-randomness, multi-viewpoint, multi-annotation, and binocular vision. Several typical 2D and monocular 3D object detection models are then trained and evaluated on the VCVW-3D dataset to provide a benchmark for subsequent research. The VCVW-3D is expected to bring considerable economic benefits and practical significance by reducing the costs of data construction, prototype development, and exploration of space-awareness applications, thus promoting the development of CV in construction, especially those of 3D applications.
翻訳日:2023-05-30 16:01:13 公開日:2023-05-29
# 大規模言語モデルは公平な評価対象ではない

Large Language Models are not Fair Evaluators ( http://arxiv.org/abs/2305.17926v1 )

ライセンス: Link先を確認
Peiyi Wang and Lei Li and Liang Chen and Dawei Zhu and Binghuai Lin and Yunbo Cao and Qi Liu and Tianyu Liu and Zhifang Sui(参考訳) 大規模言語モデル-(llms)、例えばgpt-4をレフェリーとして採用する評価パラダイムにおいて、候補モデルによって生成された応答の質を評価するための体系的バイアスを明らかにする。 候補回答の品質ランキングは、文脈における出現順序を単に変更するだけで容易にハックできる。 この操作により、評価結果をスキューし、一方のモデルが他方よりもかなり優れているように見え、例えば、vicunaは66以上のテストクエリでChatGPTを破ることができる。 この問題に対処するため,我々は単純で効果的なキャリブレーション戦略を2つ提案する。 1) 評価を割り当てる前に,評価器モデルが複数の詳細な証拠を生成させる必要がある複数の証拠校正 2) 最終的なスコアを決定するために、様々な順序で結果を集計する平衡位置校正。 広範な実験により,評価バイアスを軽減し,人間の判断と密接な一致が得られた。 より堅牢な大規模言語モデル比較の今後の研究を容易にするため,論文のテクニックを人間のアノテーションとともに,使いやすいツールキット \emph{FairEval} に統合する。 \footnote{\url{https://github.com/i-Eval/FairEval}}

We uncover a systematic bias in the evaluation paradigm of adopting large language models~(LLMs), e.g., GPT-4, as a referee to score the quality of responses generated by candidate models. We find that the quality ranking of candidate responses can be easily hacked by simply altering their order of appearance in the context. This manipulation allows us to skew the evaluation result, making one model appear considerably superior to the other, e.g., vicuna could beat ChatGPT on 66 over 80 tested queries. To address this issue, we propose two simple yet effective calibration strategies: 1) Multiple Evidence Calibration, which requires the evaluator model to generate multiple detailed pieces of evidence before assigning ratings; 2) Balanced Position Calibration, which aggregates results across various orders to determine the final score. Extensive experiments demonstrate that our approach successfully mitigates evaluation bias, resulting in closer alignment with human judgments. To facilitate future research on more robust large language model comparison, we integrate the techniques in the paper into an easy-to-use toolkit \emph{FairEval}, along with the human annotations.\footnote{\url{https://github.com/i-Eval/FairEval}}
翻訳日:2023-05-30 16:00:51 公開日:2023-05-29
# 移動データを用いた多モード移動パターンの移動時変化:ヘルシンキにおけるVappuの祝賀

Identifying shifts in multi-modal travel patterns during special events using mobile data: Celebrating Vappu in Helsinki ( http://arxiv.org/abs/2305.17925v1 )

ライセンス: Link先を確認
Zhiren Huang and Charalampos Sipetas and Alonso Espinosa Mireles de Villafranca and Tri Quach(参考訳) 大都市での特別イベントは市の活力と経済成長に大きく貢献するが、移動パターンの変化により交通システムに課題を同時に課す。 本研究では,helsinki public transport mobile アプリケーションと bluetooth ビーコンから収集したユニークな包括的なデータセットを利用して,モビリティパターンに光を当てることを目的としている。 従来,携帯電話の記録に頼っていたり,シングルトラフィックモードに注目する手法では,旅行行動の複雑さを十分に把握できなかった。 ヘルシンキ大都市圏では,大規模な集まりや野外活動が特徴の祝日であるvappu festivities(5月1日)に焦点を当てている。 2022年5月の典型的な非作業日におけるマルチモーダルモビリティパターンの検討と比較を行った。 このケーススタディを通じて、人々はプライベートカーよりも公共交通機関を好む傾向にあり、イベントに参加するためにより長い距離を歩く準備ができていることが分かりました。 本研究は,大規模イベントにおける交通の理解と管理に包括的マルチモーダルデータを利用することの価値を強調した。

Large urban special events significantly contribute to a city's vibrancy and economic growth but concurrently impose challenges on transportation systems due to alterations in mobility patterns. This study aims to shed light on mobility patterns by utilizing a unique, comprehensive dataset collected from the Helsinki public transport mobile application and Bluetooth beacons. Earlier methods, relying on mobile phone records or focusing on single traffic modes, do not fully grasp the intricacies of travel behavior during such events. We focus on the Vappu festivities (May 1st) in the Helsinki Metropolitan Area, a national holiday characterized by mass gatherings and outdoor activities. We examine and compare multi-modal mobility patterns during the event with those during typical non-working days in May 2022. Through this case study, we find that people tend to favor public transport over private cars and are prepared to walk longer distances to participate in the event. The study underscores the value of using comprehensive multi-modal data to better understand and manage transportation during large-scale events.
翻訳日:2023-05-30 16:00:30 公開日:2023-05-29
# 高速神経放射場再構成のためのボリューム特徴レンダリング

Volume Feature Rendering for Fast Neural Radiance Field Reconstruction ( http://arxiv.org/abs/2305.17916v1 )

ライセンス: Link先を確認
Kang Han, Wei Xiang and Lu Yu(参考訳) ニューラルレイディアンス場(NeRF)は、異なる位置と視点から撮影された多視点画像から現実的な新しいビューを合成することができる。 NeRFのレンダリングパイプラインでは、ニューラルネットワークはシーンを独立して表現したり、期待される色や密度のポイントのクエリ可能な特徴ベクトルを変換するために使用される。 占有グリッドまたは提案ネットワークにおける幾何学的ガイドの支援により、標準的なボリュームレンダリングフレームワークでは、ニューラルネットワーク評価の数は数百から数十に削減できる。 ニューラルネットワークの評価結果から得られた色をレンダリングする代わりに,クエリした特徴ベクトルをまず線で描画し,次にニューラルネットワークによって特徴ベクトルを最終画素色に変換する。 この標準ボリュームレンダリングフレームワークの根本的な変更は、1つのニューラルネットワーク評価だけでピクセルを描画できるため、多数のニューラルネットワーク評価に起因するレンダリングフレームワークの計算複雑性を大幅に低下させる。 その結果、比較可能なほど大きなニューラルネットワークを使用して、同じトレーニングとレンダリング時間コストを維持しながら、より良いレンダリング品質を実現できます。 本モデルでは, 合成データセットと実世界のデータセットのレンダリング品質を, 数分のトレーニング時間で達成する。

Neural radiance fields (NeRFs) are able to synthesize realistic novel views from multi-view images captured from distinct positions and perspectives. In NeRF's rendering pipeline, neural networks are used to represent a scene independently or transform queried learnable feature vector of a point to the expected color or density. With the aid of geometry guides either in occupancy grids or proposal networks, the number of neural network evaluations can be reduced from hundreds to dozens in the standard volume rendering framework. Instead of rendering yielded color after neural network evaluation, we propose to render the queried feature vectors of a ray first and then transform the rendered feature vector to the final pixel color by a neural network. This fundamental change to the standard volume rendering framework requires only one single neural network evaluation to render a pixel, which substantially lowers the high computational complexity of the rendering framework attributed to a large number of neural network evaluations. Consequently, we can use a comparably larger neural network to achieve a better rendering quality while maintaining the same training and rendering time costs. Our model achieves the state-of-the-art rendering quality on both synthetic and real-world datasets while requiring a training time of several minutes.
翻訳日:2023-05-30 16:00:10 公開日:2023-05-29
# TotalDefMeme: シンガポールのトータルディフェンスに関するマルチ属性ミームデータセット

TotalDefMeme: A Multi-Attribute Meme dataset on Total Defence in Singapore ( http://arxiv.org/abs/2305.17911v1 )

ライセンス: Link先を確認
Nirmalendu Prakash, Ming Shan Hee and Roy Ka-Wei Lee(参考訳) トータル・ディフェンス(Total Defense)は、軍事防衛と民間防衛の概念を組み合わせた防衛政策である。 いくつかの国では防衛政策として全防衛を採っているが、その効果を調査する研究はほとんどない。 ソーシャルメディアの急速な普及とデジタル化に伴い、多くの社会研究は、デジタルメディアまたは伝統的な形態による特別にキュレートされたアンケートやアンケートを通じて、政策の有効性を調査することに焦点が当てられている。 しかし、そのような参照は、対象とする政策や関心のイニシアチブに関する根底にある感情を真に反映していないかもしれない。 フォーラムのトピックスレッドの開始やソーシャルメディアでのミームの共有など,コミュニケーションメディアを使って感情を表現する傾向が強い。 本研究はシンガポールを事例として,シンガポールの防衛政策に対する世論を捉えた大規模マルチモーダル・マルチアトリビュートミームデータセットであるtotaldefmemeを提案することで,この研究のギャップを解決することを目的とする。 トータルディフェンスポリシーの社会情報学と公共政策分析のサポートに加えて、TotalDefMemeはアスペクトベースのスタンス分類やマルチモーダル・ミームクラスタリングといった、下流のマルチモーダル・機械学習タスクもサポートできる。 我々はTotalDefMemeのベースライン機械学習実験を行い、その技術的妥当性を評価し、データセットをベースラインとして将来的な学際研究の方向性と応用シナリオを示す。

Total Defence is a defence policy combining and extending the concept of military defence and civil defence. While several countries have adopted total defence as their defence policy, very few studies have investigated its effectiveness. With the rapid proliferation of social media and digitalisation, many social studies have been focused on investigating policy effectiveness through specially curated surveys and questionnaires either through digital media or traditional forms. However, such references may not truly reflect the underlying sentiments about the target policies or initiatives of interest. People are more likely to express their sentiment using communication mediums such as starting topic thread on forums or sharing memes on social media. Using Singapore as a case reference, this study aims to address this research gap by proposing TotalDefMeme, a large-scale multi-modal and multi-attribute meme dataset that captures public sentiments toward Singapore's Total Defence policy. Besides supporting social informatics and public policy analysis of the Total Defence policy, TotalDefMeme can also support many downstream multi-modal machine learning tasks, such as aspect-based stance classification and multi-modal meme clustering. We perform baseline machine learning experiments on TotalDefMeme and evaluate its technical validity, and present possible future interdisciplinary research directions and application scenarios using the dataset as a baseline.
翻訳日:2023-05-30 15:59:50 公開日:2023-05-29
# AI Audit: 毎日のAIシステムに振り返るカードゲーム

AI Audit: A Card Game to Reflect on Everyday AI Systems ( http://arxiv.org/abs/2305.17910v1 )

ライセンス: Link先を確認
Safinah Ali, Vishesh Kumar, Cynthia Breazeal(参考訳) K-12AIリテラシーの重要な要素は、AIシステムの倫理的および社会的意味について学習者に教育することである。 AI倫理リテラシーにおけるこれまでの研究は、学習者がAIシステムの倫理的意味を反映し、責任あるAIを開発するためのカリキュラムと教室のアクティビティを開発してきた。 ゲームベースの学習手法をAIリテラシーに適用する作業はほとんどない。 ゲームは複雑なSTEM概念を子供たちに教えるための説得力のあるメディアとして知られている。 そこで我々は,AIスタートアップの創始者として,AIを活用した新技術を開発した中高生を対象とした,競争力のあるカードゲーム「AI Audit」を開発した。 プレイヤーは、テクノロジーの潜在的な害を受けた他のプレイヤーに挑戦したり、これらの害を和らげる機能によって自分たちのビジネスを守ることができる。 倫理的に発達したゲームメカニクス報酬システムや、潜在的な害を和らげるためのステップを踏むゲームメカニック報酬システム。 本稿では,ゲームデザイン,教室展開のための教師資源,早期プレイテスト結果について述べる。 K-12教室におけるAIリテラシー教育ツールとしてのゲームの利用に関する考察について考察する。

An essential element of K-12 AI literacy is educating learners about the ethical and societal implications of AI systems. Previous work in AI ethics literacy have developed curriculum and classroom activities that engage learners in reflecting on the ethical implications of AI systems and developing responsible AI. There is little work in using game-based learning methods in AI literacy. Games are known to be compelling media to teach children about complex STEM concepts. In this work, we developed a competitive card game for middle and high school students called "AI Audit" where they play as AI start-up founders building novel AI-powered technology. Players can challenge other players with potential harms of their technology or defend their own businesses by features that mitigate these harms. The game mechanics reward systems that are ethically developed or that take steps to mitigate potential harms. In this paper, we present the game design, teacher resources for classroom deployment and early playtesting results. We discuss our reflections about using games as teaching tools for AI literacy in K-12 classrooms.
翻訳日:2023-05-30 15:59:25 公開日:2023-05-29
# 合成コーパスとキュレートコーパスを用いたバイトレベルの文法的誤り訂正

Byte-Level Grammatical Error Correction Using Synthetic and Curated Corpora ( http://arxiv.org/abs/2305.17906v1 )

ライセンス: Link先を確認
Svanhv\'it Lilja Ing\'olfsd\'ottir, P\'etur Orri Ragnarsson, Haukur P\'all J\'onsson, Haukur Barri S\'imonarson, Vilhj\'almur {\TH}orsteinsson, V\'esteinn Sn{\ae}bjarnarson(参考訳) 文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字の型、綴り、句読点、文法的問題を訂正する作業である。 シーケンスからシーケンスへのタスクとしてこの問題にアプローチし、共通のサブワード単位語彙とバイトレベルのエンコーディングの使用を比較した。 初期合成トレーニングデータはエラー生成パイプラインを使用して作成され、2つのサブワードレベルのモデルと1つのバイトレベルのモデルの微調整に使用される。 モデルはさらに、子供、大学生、ディプレクシック、第二言語ライターによるテキストを含む手修正エラーコーパスに微調整され、異なるエラータイプや起源に対して評価される。 バイトレベルのモデルは、単純な綴り誤りだけでなく、より複雑な意味論、スタイリスティック、文法的な問題に対しても、サブワードアプローチよりも高い補正品質を実現する。 特に、合成コーパスの初期トレーニングと、比較的小さな実世界のエラーコーパスの微調整は、バイトレベルのモデルが一般的に発生するエラーの幅広い範囲を修正するのに役立つ。 私たちの実験はアイスランド語で行われていますが、他の類似言語、特に形態学的に豊かな言語に当てはまるべきです。

Grammatical error correction (GEC) is the task of correcting typos, spelling, punctuation and grammatical issues in text. Approaching the problem as a sequence-to-sequence task, we compare the use of a common subword unit vocabulary and byte-level encoding. Initial synthetic training data is created using an error-generating pipeline, and used for finetuning two subword-level models and one byte-level model. Models are then finetuned further on hand-corrected error corpora, including texts written by children, university students, dyslexic and second-language writers, and evaluated over different error types and origins. We show that a byte-level model enables higher correction quality than a subword approach, not only for simple spelling errors, but also for more complex semantic, stylistic and grammatical issues. In particular, initial training on synthetic corpora followed by finetuning on a relatively small parallel corpus of real-world errors helps the byte-level model correct a wide range of commonly occurring errors. Our experiments are run for the Icelandic language but should hold for other similar languages, particularly morphologically rich ones.
翻訳日:2023-05-30 15:59:07 公開日:2023-05-29
# 密結合型クロスモーダル・プロンプト学習

Deeply Coupled Cross-Modal Prompt Learning ( http://arxiv.org/abs/2305.17903v1 )

ライセンス: Link先を確認
Xuejing Liu, Wei Tang, Jinghui Lu, Rui Zhao, Zhaojun Guo and Fei Tan(参考訳) マルチモーダル基礎モデル(例えばCLIP)の最近の進歩はゼロショットの一般化に優れている。 近年,基礎モデルから下流タスクへの知識伝達に関わるプロンプトチューニングが注目されている。 しかし、モーダル間学習における既存のプロンプトチューニング手法は、言語分岐のみに焦点を当てるか、浅いメカニズムで視覚-言語相互作用を学ぶ。 この文脈では、CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。 DCPは、視覚と言語間の相互作用をCMPA(Cross-Modal Prompt Attention)機構で柔軟に調整し、適切に接続されたマルチヘッドアテンションモジュールを通じて各表現の相互交換を可能にする。 そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトに対する堅牢性も分析する。 徹底した実験的分析は、非常に数ショットの一般化と、十分に実行されたDCPの説得力のあるドメイン適応能力を示す。 コードは \href{https://github.com/GingL/CMPA}{https://github.com/GingL/CMPA} で見ることができる。

Recent advancements in multimodal foundation models (e.g., CLIP) have excelled in zero-shot generalization. Prompt tuning involved in the knowledge transfer from foundation models to downstream tasks has gained significant attention recently. Existing prompt-tuning methods in cross-modal learning, however, either solely focus on language branch, or learn vision-language interaction in a shallow mechanism. In this context, we propose a Deeply coupled Cross-modal Prompt learning (DCP) method based on CLIP. DCP flexibly accommodates the interplay between vision and language with a Cross-Modal Prompt Attention (CMPA) mechanism, which enables the mutual exchange of respective representation through a well-connected multi-head attention module progressively and strongly. We then conduct comprehensive few-shot learning experiments on 11 image classification datasets and analyze the robustness to domain shift as well. Thorough experimental analysis evidently demonstrates the superb few-shot generalization and compelling domain adaption capacity of a well-executed DCP. The code can be found at \href{https://github.com/GingL/CMPA}{https://github.com/GingL/CMPA}.
翻訳日:2023-05-30 15:58:47 公開日:2023-05-29
# MRI超解像のためのスパースグラフアテンション機構に基づく畳み込みニューラルネットワーク

Convolutional neural network based on sparse graph attention mechanism for MRI super-resolution ( http://arxiv.org/abs/2305.17898v1 )

ライセンス: Link先を確認
Xin Hua, Zhijiang Du, Hongjian Yu, Jixin Maa(参考訳) 磁気共鳴画像(mri)は解剖学的構造の表示と正確な診断の補助に有用である。 深層学習技術を用いた医用画像スーパーレゾリューション(sr)再構成は病変解析を強化し,診断効率と精度の向上を支援する。 しかし、既存のディープラーニングベースのSR手法は主に畳み込みニューラルネットワーク(CNN)に依存しており、これらモデルの表現能力を本質的に制限しているため、異なる画像特徴間の潜在的な関係を見つけることは困難である。 この制限を克服するために,複数の畳み込み演算子を用いた画像特徴抽出モジュール(mco)を用いたa-ネットワークを提案する。 抽出された特徴は、複数の機能横断抽出モジュール(MSC)を通してチャネル間特徴相互作用を通じて重要な特徴をハイライトし、その後の特徴学習を可能にする。 注目に基づくスパースグラフニューラルネットワークモジュールは、画素特徴間の関係を確立するために組み込まれ、隣接する画素が満たすべき特徴を決定する上で最も大きな影響を与えることを学ぶ。 モデルの有効性を評価するために,複数のデータから生成されたデータに対して異なるモデルを用いて実験を行った。

Magnetic resonance imaging (MRI) is a valuable clinical tool for displaying anatomical structures and aiding in accurate diagnosis. Medical image super-resolution (SR) reconstruction using deep learning techniques can enhance lesion analysis and assist doctors in improving diagnostic efficiency and accuracy. However, existing deep learning-based SR methods predominantly rely on convolutional neural networks (CNNs), which inherently limit the expressive capabilities of these models and therefore make it challenging to discover potential relationships between different image features. To overcome this limitation, we propose an A-network that utilizes multiple convolution operator feature extraction modules (MCO) for extracting image features using multiple convolution operators. These extracted features are passed through multiple sets of cross-feature extraction modules (MSC) to highlight key features through inter-channel feature interactions, enabling subsequent feature learning. An attention-based sparse graph neural network module is incorporated to establish relationships between pixel features, learning which adjacent pixels have the greatest impact on determining the features to be filled. To evaluate our model's effectiveness, we conducted experiments using different models on data generated from multiple datasets with different degradation multiples, and the experimental results show that our method is a significant improvement over the current state-of-the-art methods.
翻訳日:2023-05-30 15:58:28 公開日:2023-05-29
# Resup: 表情認識のための信頼性ラベルノイズ抑圧

ReSup: Reliable Label Noise Suppression for Facial Expression Recognition ( http://arxiv.org/abs/2305.17895v1 )

ライセンス: Link先を確認
Xiang Zhang, Yan Lu, Huan Yan, Jingyang Huang, Yusheng Ji and Yu Gu(参考訳) 表情認識タスク(fer)のあいまいで主観的な特性のため、ferデータセットにはラベルノイズが広く存在している。 この問題に対し、トレーニング段階では、現在のfer法は、入力画像のラベルがノイズであるか否かを直接予測し、トレーニング中のノイズデータの寄与を減らすことを目的としている。 しかし、このような手法は、そのようなノイズデータ決定操作の信頼性の低いものであると論じる。 これにより、誤ったアバウンドされたクリーンデータが十分に活用されず、モデル学習プロセスに支障をきたすノイズデータを誤って保持する。 本稿では,より信頼性の高いノイズラベル抑制法であるresup(reliable label noise suppression for fer)を提案する。 まず、ノイズを直接予測する代わりに、予測と目標との相違に応じてノイズとクリーンラベルの分布を同時にモデル化してノイズデータを決定する。 特に、最適分布モデリングを達成するために、resupは全てのサンプルの類似性分布をモデル化する。 ノイズ決定結果の信頼性をさらに高めるため、ReSupは2つのネットワークを用いてノイズ抑圧を実現する。 具体的には、ReSupは2つのネットワークが同じミスをする可能性が低いという特性を利用し、2つのネットワークが決定を交換し、高い合意で決定を信頼する傾向がある。 3つの一般的なベンチマーク実験により,提案手法はferPlus becnmarksにおいて,最先端ノイズラベルFER法を3.01%上回る性能を示した。 コード: https://github.com/purpleleaves007/ferdenoise

Because of the ambiguous and subjective property of the facial expression recognition (FER) task, the label noise is widely existing in the FER dataset. For this problem, in the training phase, current FER methods often directly predict whether the label of the input image is noised or not, aiming to reduce the contribution of the noised data in training. However, we argue that this kind of method suffers from the low reliability of such noise data decision operation. It makes that some mistakenly abounded clean data are not utilized sufficiently and some mistakenly kept noised data disturbing the model learning process. In this paper, we propose a more reliable noise-label suppression method called ReSup (Reliable label noise Suppression for FER). First, instead of directly predicting noised or not, ReSup makes the noise data decision by modeling the distribution of noise and clean labels simultaneously according to the disagreement between the prediction and the target. Specifically, to achieve optimal distribution modeling, ReSup models the similarity distribution of all samples. To further enhance the reliability of our noise decision results, ReSup uses two networks to jointly achieve noise suppression. Specifically, ReSup utilize the property that two networks are less likely to make the same mistakes, making two networks swap decisions and tending to trust decisions with high agreement. Extensive experiments on three popular benchmarks show that the proposed method significantly outperforms state-of-the-art noisy label FER methods by 3.01% on FERPlus becnmarks. Code: https://github.com/purpleleaves007/FERDenoise
翻訳日:2023-05-30 15:58:05 公開日:2023-05-29
# 量子アニーリングによる合成開口レーダ画像分割

Synthetic Aperture Radar Image Segmentation with Quantum Annealing ( http://arxiv.org/abs/2305.17954v1 )

ライセンス: Link先を確認
Timothe Presles, Cyrille Enderli, Gilles Burel and El Houssain Baghious(参考訳) 画像処理において、イメージセグメンテーション(英: image segmentation)とは、デジタル画像を複数の画像セグメントに分割するプロセスである。 最先端の手法の中で、マルコフランダムフィールド(MRF)はピクセル間の依存関係をモデル化し、関連するコスト関数を最小化してセグメンテーションを実現できる。 現在、MDFとしてモデル化された画像の最適部分集合を見つけることはNPハードであるようである。 本稿では,量子コンピューティングの指数関数的スケーラビリティを利用して,合成開口レーダ画像のセグメンテーションを高速化することを目的とする。 そこで本研究では,セグメントの最適集合を得るためのハイブリッド量子アニーリング古典最適化期待最大化アルゴリズムを提案する。 適切な定式化を提案した後、D-Wave量子コンピュータにおける我々のアプローチの性能とスケーラビリティについて論じる。 また,Adiabatic 量子計算の限界とポテンシャルを啓蒙する最適計算パラメータの簡単な研究を行い,組合せ最適化問題の大規模解法を提案する。

In image processing, image segmentation is the process of partitioning a digital image into multiple image segment. Among state-of-the-art methods, Markov Random Fields (MRF) can be used to model dependencies between pixels, and achieve a segmentation by minimizing an associated cost function. Currently, finding the optimal set of segments for a given image modeled as a MRF appears to be NP-hard. In this paper, we aim to take advantage of the exponential scalability of quantum computing to speed up the segmentation of Synthetic Aperture Radar images. For that purpose, we propose an hybrid quantum annealing classical optimization Expectation Maximization algorithm to obtain optimal sets of segments. After proposing suitable formulations, we discuss the performances and the scalability of our approach on the D-Wave quantum computer. We also propose a short study of optimal computation parameters to enlighten the limits and potential of the adiabatic quantum computation to solve large instances of combinatorial optimization problems.
翻訳日:2023-05-30 15:50:31 公開日:2023-05-29
# ContrastNER:Few-shot NERのためのコントラストベースのプロンプトチューニング

ContrastNER: Contrastive-based Prompt Tuning for Few-shot NER ( http://arxiv.org/abs/2305.17951v1 )

ライセンス: Link先を確認
Amirhossein Layegh, Amir H. Payberah, Ahmet Soylu, Dumitru Roman, Mihhail Matskin(参考訳) プロンプトベースの言語モデルは、名前付きエンティティ認識(ner)タスクを含む多くのアプリケーションで奨励的な結果を生み出した。 NERは文内のエンティティを特定し、それらの型を提供することを目的としている。 しかしながら、ほとんどの利用可能なNERアプローチの強い性能は、離散的なプロンプトの設計と、モデル予測出力を複雑な作業であるエンティティカテゴリにマッピングする動詞化器に大きく依存している。 これらの課題に対処するために,我々は,プロンプトにおいて離散トークンと連続トークンの両方を使用し,コントラスト学習アプローチを用いて連続的なプロンプトを学び,エンティティタイプを予測する,プロンプトベースのnerフレームワークであるconsertnerを提案する。 実験結果から,ContrastNERは,高リソース環境での最先端NER手法の競合性能と,低リソース環境での最先端NERモデルよりも優れた性能を,手作業によるプロンプトエンジニアリングや言語化設計を必要とせずに得ることを示した。

Prompt-based language models have produced encouraging results in numerous applications, including Named Entity Recognition (NER) tasks. NER aims to identify entities in a sentence and provide their types. However, the strong performance of most available NER approaches is heavily dependent on the design of discrete prompts and a verbalizer to map the model-predicted outputs to entity categories, which are complicated undertakings. To address these challenges, we present ContrastNER, a prompt-based NER framework that employs both discrete and continuous tokens in prompts and uses a contrastive learning approach to learn the continuous prompts and forecast entity types. The experimental results demonstrate that ContrastNER obtains competitive performance to the state-of-the-art NER methods in high-resource settings and outperforms the state-of-the-art models in low-resource circumstances without requiring extensive manual prompt engineering and verbalizer design.
翻訳日:2023-05-30 15:50:16 公開日:2023-05-29
# 自動運転車の安全性:モデルベース対AIベースのアプローチに関する調査

Safety of autonomous vehicles: A survey on Model-based vs. AI-based approaches ( http://arxiv.org/abs/2305.17941v1 )

ライセンス: Link先を確認
Dimia Iberraken and Lounis Adouane(参考訳) 自動運転車(AV)の進歩は、特に動的で予測不可能な環境や状況において、AV操縦の絶対的な安全性を優先する重要な必要性を強調している。 この目的は、あらゆる交通状況/条件のユニークさによってさらに困難になる。 非常に制約のある複雑な構成に対処するには、AVは信頼性とリアルタイムのリスクアセスメント・マネジメント戦略(RAMS)を備えた適切な制御アーキテクチャが必要である。 これらのターゲットRAMは、ナビゲーションのリスクを大幅に減らす必要がある。 しかし、安全保証の欠如は、対処すべき重要な課題の1つであり、我々の道路により広範なavを導入する野望を極端に制限し、avsの使用を非常に限られたユースケースに制限する。 そこで本論文は,自動車の安全保証の重要課題に着目しつつ,自動運転車に関する研究に焦点をあてるものである。 本研究の目的は,これらのアーキテクチャを構成する安全評価と意思決定システムを中心に,AVの全体制御アーキテクチャを定義する手法と概念について検討することである。 さらに、このレビュープロセスを通じて、モデルベースの手法またはAIベースのアプローチを使用する研究を強調することを意図している。 これは、各方法論の長所と短所を強調し、モデルベースとAIアプローチを組み合わせた包括的なマルチモーダル設計を提案する研究を調査しながら実施される。 本稿では,安全検証技術と安全フレームワークの標準化・一般化というavsの安全性を保証する手法に関する議論を終える。

The growing advancements in Autonomous Vehicles (AVs) have emphasized the critical need to prioritize the absolute safety of AV maneuvers, especially in dynamic and unpredictable environments or situations. This objective becomes even more challenging due to the uniqueness of every traffic situation/condition. To cope with all these very constrained and complex configurations, AVs must have appropriate control architectures with reliable and real-time Risk Assessment and Management Strategies (RAMS). These targeted RAMS must lead to reduce drastically the navigation risks. However, the lack of safety guarantees proves, which is one of the key challenges to be addressed, limit drastically the ambition to introduce more broadly AVs on our roads and restrict the use of AVs to very limited use cases. Therefore, the focus and the ambition of this paper is to survey research on autonomous vehicles while focusing on the important topic of safety guarantee of AVs. For this purpose, it is proposed to review research on relevant methods and concepts defining an overall control architecture for AVs, with an emphasis on the safety assessment and decision-making systems composing these architectures. Moreover, it is intended through this reviewing process to highlight researches that use either model-based methods or AI-based approaches. This is performed while emphasizing the strengths and weaknesses of each methodology and investigating the research that proposes a comprehensive multi-modal design that combines model-based and AI approaches. This paper ends with discussions on the methods used to guarantee the safety of AVs namely: safety verification techniques and the standardization/generalization of safety frameworks.
翻訳日:2023-05-30 15:49:49 公開日:2023-05-29
# 合成ゼロショット学習における条件属性の学習

Learning Conditional Attributes for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.17940v1 )

ライセンス: Link先を確認
Qingsheng Wang, Lingqiao Liu, Chenchen Jing, Hao Chen, Guoqiang Liang, Peng Wang, Chunhua Shen(参考訳) 合成ゼロショット学習(CZSL)は、属性オブジェクトの組み合わせのような学習概念に基づいて、新しい合成概念を認識するためのモデルを訓練することを目的としている。 例えば、 ``wet apple" と ``wet cat" の属性 ``wet" は異なる。 本研究では,属性が認識対象と入力画像上で条件付けされていることを解析し,属性ハイパーラーナと属性ベースラーナを含む属性学習フレームワークによって組込みされた学習条件属性を探索する。 条件付き属性を符号化することにより、一般化のための柔軟な属性埋め込みを生成することができる。 より挑戦的なC-GQAデータセットを含むCZSLベンチマークの実験は、他の最先端のアプローチよりも優れたパフォーマンスを示し、学習条件属性の重要性を検証する。 コードはhttps://github.com/wqshmzh/CANet-CZSLで入手できる。

Compositional Zero-Shot Learning (CZSL) aims to train models to recognize novel compositional concepts based on learned concepts such as attribute-object combinations. One of the challenges is to model attributes interacted with different objects, e.g., the attribute ``wet" in ``wet apple" and ``wet cat" is different. As a solution, we provide analysis and argue that attributes are conditioned on the recognized object and input image and explore learning conditional attribute embeddings by a proposed attribute learning framework containing an attribute hyper learner and an attribute base learner. By encoding conditional attributes, our model enables to generate flexible attribute embeddings for generalization from seen to unseen compositions. Experiments on CZSL benchmarks, including the more challenging C-GQA dataset, demonstrate better performances compared with other state-of-the-art approaches and validate the importance of learning conditional attributes. Code is available at https://github.com/wqshmzh/CANet-CZSL
翻訳日:2023-05-30 15:49:25 公開日:2023-05-29
# スケルトンベース行動認識のためのグラフ畳み込みニューラルネットワークのロバスト性に関するフーリエ解析

Fourier Analysis on Robustness of Graph Convolutional Neural Networks for Skeleton-based Action Recognition ( http://arxiv.org/abs/2305.17939v1 )

ライセンス: Link先を確認
Nariki Tanaka, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) フーリエ解析を用いて、骨格に基づく行動認識のためのグラフ畳み込みニューラルネットワーク(GCN)の堅牢性と脆弱性について検討する。 我々は,グラフフーリエ変換 (GFT) と離散フーリエ変換 (DFT) の組み合わせであるジョイントフーリエ変換 (JFT) を採用し,敵対的攻撃や共通の腐敗に対して,敵対的に訓練されたGCNの堅牢性を検討する。 NTU RGB+Dデータセットによる実験結果から,畳み込みニューラルネットワークに基づく画像分類において通常発生する,敵対的攻撃と低周波摂動の堅牢性トレードオフは導入されないことが明らかとなった。 この知見は, 敵意攻撃に対するロバスト性を高めるための実践的アプローチであり, スケルトンベース行動認識における共通の腐敗を示唆する。 さらに,Fourierアプローチでは,骨格部閉塞症に対する脆弱性を説明できないことが判明した。 これらの知見はGCNの堅牢性に対する理解を深め、骨格に基づく行動認識のためのより堅牢な学習手法の開発を導く可能性がある。

Using Fourier analysis, we explore the robustness and vulnerability of graph convolutional neural networks (GCNs) for skeleton-based action recognition. We adopt a joint Fourier transform (JFT), a combination of the graph Fourier transform (GFT) and the discrete Fourier transform (DFT), to examine the robustness of adversarially-trained GCNs against adversarial attacks and common corruptions. Experimental results with the NTU RGB+D dataset reveal that adversarial training does not introduce a robustness trade-off between adversarial attacks and low-frequency perturbations, which typically occurs during image classification based on convolutional neural networks. This finding indicates that adversarial training is a practical approach to enhancing robustness against adversarial attacks and common corruptions in skeleton-based action recognition. Furthermore, we find that the Fourier approach cannot explain vulnerability against skeletal part occlusion corruption, which highlights its limitations. These findings extend our understanding of the robustness of GCNs, potentially guiding the development of more robust learning methods for skeleton-based action recognition.
翻訳日:2023-05-30 15:49:07 公開日:2023-05-29
# 医用画像のセグメンテーションにおける注意機構 : アンケート調査

Attention Mechanisms in Medical Image Segmentation: A Survey ( http://arxiv.org/abs/2305.17937v1 )

ライセンス: Link先を確認
Yutong Xie, Bing Yang, Qingbiao Guan, Jianpeng Zhang, Qi Wu, Yong Xia(参考訳) 医用画像分割はコンピュータ支援診断において重要な役割を担っている。 重要な部分と関係のない部分とを区別する注意機構は、医用画像分割作業に広く用いられている。 本稿では,注意機構の基本原理とその医用画像分割への応用を体系的に検討する。 まず,注意機構と定式化の基本概念について概説する。 次に,医療画像分割に関する300以上の論文を調査し,その注意機構,非トランスフォーマー注意,トランスフォーマー注意の2つのグループに分類した。 それぞれのグループにおいて,現在の文献研究,すなわちメカニズムの原理(使用方法),実装方法(使用方法),アプリケーションタスク(使用方法)に基づいて,注意機構を3つの側面から深く分析した。 また、異なるタスクに対するアプリケーションの利点と制限を徹底的に分析しました。 最後に,この分野における研究の現状と問題点を概説し,タスクの特異性,堅牢性,標準評価など,今後の課題について論じる。 本レビューは,従来型およびトランスフォーマー型アテンション手法の全般的な研究状況を明らかにするとともに,その後の研究への明確な参考を提供し,医用画像のセグメンテーションだけでなく,他の画像分析シナリオにおいても,より高度なアテンション研究を促すことを期待する。

Medical image segmentation plays an important role in computer-aided diagnosis. Attention mechanisms that distinguish important parts from irrelevant parts have been widely used in medical image segmentation tasks. This paper systematically reviews the basic principles of attention mechanisms and their applications in medical image segmentation. First, we review the basic concepts of attention mechanism and formulation. Second, we surveyed over 300 articles related to medical image segmentation, and divided them into two groups based on their attention mechanisms, non-Transformer attention and Transformer attention. In each group, we deeply analyze the attention mechanisms from three aspects based on the current literature work, i.e., the principle of the mechanism (what to use), implementation methods (how to use), and application tasks (where to use). We also thoroughly analyzed the advantages and limitations of their applications to different tasks. Finally, we summarize the current state of research and shortcomings in the field, and discuss the potential challenges in the future, including task specificity, robustness, standard evaluation, etc. We hope that this review can showcase the overall research context of traditional and Transformer attention methods, provide a clear reference for subsequent research, and inspire more advanced attention research, not only in medical image segmentation, but also in other image analysis scenarios.
翻訳日:2023-05-30 15:48:46 公開日:2023-05-29
# 3次元モデルに基づくゼロショットポス推定パイプライン

3D Model-based Zero-Shot Pose Estimation Pipeline ( http://arxiv.org/abs/2305.17934v1 )

ライセンス: Link先を確認
Jianqiu Chen, Mingshan Sun, Tianpeng Bao, Rui Zhao, Liwei Wu, Zhenyu He(参考訳) 既存の学習ベースのポーズ推定手法の多くは、訓練データセットに存在するオブジェクトのポーズのみを推定できる非ゼロショットシナリオ向けに開発されている。 この設定は、トレーニングフェーズにおける未確認オブジェクトの適用性を制限する。 本稿では,物体の3次元モデルを手掛かりとして利用する全ゼロショットポーズ推定パイプラインを提案する。 具体的には、3次元モデルに基づくゼロショットインスタンスセグメンテーションとゼロショットポーズ推定器からなる2ステップパイプラインを設計する。 最初のステップでは、見えないオブジェクトの複雑なプロパティを処理できるテキスト記述の代わりに、3dモデルに基づいてゼロショットインスタンスセグメンテーションを実行する新しい方法があります。 第2段階として,階層的幾何構造マッチング機構を用いて,現在のレンダリングベース手法の10倍高速なゼロショットポーズ推定を行う。 BOPチャレンジにおける7つのコアデータセットの大規模な実験結果から,提案手法はゼロショット・オブ・ザ・アート法よりも高速で計算コストが低い。

Most existing learning-based pose estimation methods are typically developed for non-zero-shot scenarios, where they can only estimate the poses of objects present in the training dataset. This setting restricts their applicability to unseen objects in the training phase. In this paper, we introduce a fully zero-shot pose estimation pipeline that leverages the 3D models of objects as clues. Specifically, we design a two-step pipeline consisting of 3D model-based zero-shot instance segmentation and a zero-shot pose estimator. For the first step, there is a novel way to perform zero-shot instance segmentation based on the 3D models instead of text descriptions, which can handle complex properties of unseen objects. For the second step, we utilize a hierarchical geometric structure matching mechanism to perform zero-shot pose estimation which is 10 times faster than the current render-based method. Extensive experimental results on the seven core datasets on the BOP challenge show that the proposed method outperforms the zero-shot state-of-the-art method with higher speed and lower computation cost.
翻訳日:2023-05-30 15:48:24 公開日:2023-05-29
# camodiffusion:条件拡散モデルによるカモフラージュ物体検出

CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models ( http://arxiv.org/abs/2305.17932v1 )

ライセンス: Link先を確認
Zhongxi Chen, Ke Sun, Xianming Lin, Rongrong Ji(参考訳) カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。 既存のCOD法は主にセマンティックセグメンテーションを採用しており、これは過度に信頼できない誤った予測に悩まされている。 本稿では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。 カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルを用いてマスクの雑音を反復的に低減する。 拡散の確率的サンプリングプロセスにより,マスク分布から可能な複数の予測をサンプリングすることができ,過信点推定の問題を回避することができる。 さらに,ロバストな予測を生成するための革新的アンサンブル手法,特にcodタスクのための効率的なトレーニングのための適応型前方拡散法など,専門的な学習戦略を開発した。 3つのCODデータセットに対する大規模な実験は、既存の最先端手法、特に最も困難なCOD10Kデータセットと比較して、我々のモデルの性能が優れていることを証明している。

Camouflaged Object Detection (COD) is a challenging task in computer vision due to the high similarity between camouflaged objects and their surroundings. Existing COD methods primarily employ semantic segmentation, which suffers from overconfident incorrect predictions. In this paper, we propose a new paradigm that treats COD as a conditional mask-generation task leveraging diffusion models. Our method, dubbed CamoDiffusion, employs the denoising process of diffusion models to iteratively reduce the noise of the mask. Due to the stochastic sampling process of diffusion, our model is capable of sampling multiple possible predictions from the mask distribution, avoiding the problem of overconfident point estimation. Moreover, we develop specialized learning strategies that include an innovative ensemble approach for generating robust predictions and tailored forward diffusion methods for efficient training, specifically for the COD task. Extensive experiments on three COD datasets attest the superior performance of our model compared to existing state-of-the-art methods, particularly on the most challenging COD10K dataset, where our approach achieves 0.019 in terms of MAE.
翻訳日:2023-05-30 15:48:09 公開日:2023-05-29
# 建設現場での人間・機械衝突警報のための単眼2次元カメラによる近接監視

Monocular 2D Camera-based Proximity Monitoring for Human-Machine Collision Warning on Construction Sites ( http://arxiv.org/abs/2305.17931v1 )

ライセンス: Link先を確認
Yuexiong Ding, Xiaowei Luo(参考訳) 機械事故は建設現場の被害の主な原因の1つである。 人間と機械の衝突を避けるために労働者の近さを監視することは、建設安全管理に大きな関心を呼んでいる。 既存の手法は、厳重でコストがかかりすぎて広範囲に適用できないか、正確な監視のための空間認識が欠けている。 そこで本研究では,2次元画像から空間情報を知覚する単眼的3次元物体検出モデルと,近接を危険,潜在的に危険,懸念,安全の4つのカテゴリとして識別する後処理分類モジュールを統合した,一般の2次元カメラのみを用いた近接監視手法を提案する。 3Dアノテーション付き22000の画像を含む仮想データセットを構築し、システムの開発と評価を容易にするために公開する。 実験の結果、トレーニングされた3dオブジェクト検出モデルは20m以内で75%のゆるいapを達成した。 さらに、実装されたシステムは、リアルタイムかつカメラキャリア非依存で、異なるサイズのマシンの特定の設定下で、およそ50メートル以内に0.8のf1を達成している。 本研究では,2次元カメラのみを用いた近接監視の可能性と実現可能性を明らかにし,人間と機械の衝突を早期に警告する新たな有望かつ経済的方法を提供する。

Accident of struck-by machines is one of the leading causes of casualties on construction sites. Monitoring workers' proximities to avoid human-machine collisions has aroused great concern in construction safety management. Existing methods are either too laborious and costly to apply extensively, or lacking spatial perception for accurate monitoring. Therefore, this study proposes a novel framework for proximity monitoring using only an ordinary 2D camera to realize real-time human-machine collision warning, which is designed to integrate a monocular 3D object detection model to perceive spatial information from 2D images and a post-processing classification module to identify the proximity as four predefined categories: Dangerous, Potentially Dangerous, Concerned, and Safe. A virtual dataset containing 22000 images with 3D annotations is constructed and publicly released to facilitate the system development and evaluation. Experimental results show that the trained 3D object detection model achieves 75% loose AP within 20 meters. Besides, the implemented system is real-time and camera carrier-independent, achieving an F1 of roughly 0.8 within 50 meters under specified settings for machines of different sizes. This study preliminarily reveals the potential and feasibility of proximity monitoring using only a 2D camera, providing a new promising and economical way for early warning of human-machine collisions.
翻訳日:2023-05-30 15:47:51 公開日:2023-05-29
# Factored-NeuS: 表面の再構成、イルミネーション、多分グロッシーな物体の材料

Factored-NeuS: Reconstructing Surfaces, Illumination, and Materials of Possibly Glossy Objects ( http://arxiv.org/abs/2305.17929v1 )

ライセンス: Link先を確認
Yue Fan, Ivan Skorokhodov, Oleg Voynov, Savva Ignatyev, Evgeny Burnaev, Peter Wonka, Yiqun Wang(参考訳) 本研究では,多視点画像からシーンの表面,材質,照明を復元する手法を開発した。 以前の作業とは対照的に、追加のデータは不要で、光沢のあるオブジェクトや明るい照明を扱うことができる。 プログレッシブな逆レンダリングアプローチであり、3つのステージから構成される。 まず,光反射に対する新たな規則化戦略により,シーンの放射率と符号付き距離関数(SDF)を再構成する。 提案手法では,ディフュージョン色とスペキュラー色の両方を考慮に入れ,複雑な視野依存の照明効果を表面再構成に利用することができる。 次に、学習可能なマッピング関数を用いて、学習したSDFおよび放射場から光可視性と間接照明を蒸留する。 第3に,球状ガウスで表現される直接光の比を特異な方法で推定する手法を設計し,その材料を再構成し,シーンの直接照明を行う。 提案手法は, 表面, 材料, 照明の回収において, 余分なデータに頼ることなく, 現状よりも優れていることを示す。

We develop a method that recovers the surface, materials, and illumination of a scene from its posed multi-view images. In contrast to prior work, it does not require any additional data and can handle glossy objects or bright lighting. It is a progressive inverse rendering approach, which consists of three stages. First, we reconstruct the scene radiance and signed distance function (SDF) with our novel regularization strategy for specular reflections. Our approach considers both the diffuse and specular colors, which allows for handling complex view-dependent lighting effects for surface reconstruction. Second, we distill light visibility and indirect illumination from the learned SDF and radiance field using learnable mapping functions. Third, we design a method for estimating the ratio of incoming direct light represented via Spherical Gaussians reflected in a specular manner and then reconstruct the materials and direct illumination of the scene. Experimental results demonstrate that the proposed method outperforms the current state-of-the-art in recovering surfaces, materials, and lighting without relying on any additional data.
翻訳日:2023-05-30 15:47:27 公開日:2023-05-29
# minOffense: 安定したルール、概念、トランジビティ、遅延のためのアグリメント間憎悪用語

minOffense: Inter-Agreement Hate Terms for Stable Rules, Concepts, Transitivities, and Lattices ( http://arxiv.org/abs/2305.17984v1 )

ライセンス: Link先を確認
Animesh Chaturvedi and Rajesh Sharma(参考訳) ソーシャルメディア上でのヘイトスピーチの普及により,ヘイトスピーチ分類は重要な問題となっている。 Hate Terms list (HTs-lists) と Hate Speech data (HS-data) のセットでは、ヘイト用語がヘイトスピーチ分類に最も貢献するかを理解することは困難である。 本稿では,Hate Terms (HTs) 間の関係を定量的に測定し,質的に可視化する2つの手法を提案する。 まず,既存のHTsリストからSevere Hate Terms List(Severe HTs-list)を作成し,ヘイトスピーチの分類手法を提案する。 目的を達成するため,HTの重症度を測定するために3つの指標(ヘイトフルネス,相対性度,攻撃性)を提案した。 これらの指標は、ヘイトスピーチ分類に対する個人のヘイト用語の貢献を説明する、インターアグリメントHTsリストの作成を支援する。 次に、提案しきい値であるminOffense(minOffense)の上のHTsのOffensiveness測定値を用いて、新しいSevere HTsリストを生成する。 提案手法の評価には,3つのヘイトスピーチデータセットと6つのヘイトワードリストを用いた。 提案手法はベースラインに比べて0.845から0.923に改善した。 第2に,各HTの安定Hate Rule (SHR) マイニングを提案し,最小安定性 (minStab) を付与した。 SHRマイニングは、しばしばHTを共起して安定なHate Rules and Conceptsを形成する。 これらの規則と概念は、HTによって形成されるトランジビティと格子のグラフを可視化するために使用される。

Hate speech classification has become an important problem due to the spread of hate speech on social media platforms. For a given set of Hate Terms lists (HTs-lists) and Hate Speech data (HS-data), it is challenging to understand which hate term contributes the most for hate speech classification. This paper contributes two approaches to quantitatively measure and qualitatively visualise the relationship between co-occurring Hate Terms (HTs). Firstly, we propose an approach for the classification of hate-speech by producing a Severe Hate Terms list (Severe HTs-list) from existing HTs-lists. To achieve our goal, we proposed three metrics (Hatefulness, Relativeness, and Offensiveness) to measure the severity of HTs. These metrics assist to create an Inter-agreement HTs-list, which explains the contribution of an individual hate term toward hate speech classification. Then, we used the Offensiveness metric values of HTs above a proposed threshold minimum Offense (minOffense) to generate a new Severe HTs-list. To evaluate our approach, we used three hate speech datasets and six hate terms lists. Our approach shown an improvement from 0.845 to 0.923 (best) as compared to the baseline. Secondly, we also proposed Stable Hate Rule (SHR) mining to provide ordered co-occurrence of various HTs with minimum Stability (minStab). The SHR mining detects frequently co-occurring HTs to form Stable Hate Rules and Concepts. These rules and concepts are used to visualise the graphs of Transitivities and Lattices formed by HTs.
翻訳日:2023-05-30 15:41:28 公開日:2023-05-29
# 超伝導ナノワイヤ単光子検出器用Al鏡の成長条件の最適化

Optimizing the growth conditions of Al mirrors for superconducting nanowire single-photon detectors ( http://arxiv.org/abs/2305.17980v1 )

ライセンス: Link先を確認
R. Flaschmann, C. Schmid, L. Zugliani, S. Strohauer, F. Wietschorke, S. Grotowski, B. Jonas, M. M\"uller, M. Althammer, R. Gross, J.J. Finley, K. M\"uller(参考訳) 薄膜(200nm以下)スパッタアルミニウム(al)薄膜の成長条件について検討した。 これらのコーティングは、航空宇宙産業の高度な製造プロセスや量子デバイスのためのナノ構造など、様々な用途に必要である。 粗度の低い高品質フィルムを得るには, 堆積過程の精密な最適化が必要である。 この目的のために, 沈着速度, 温度, パワーなどの様々なスパッタリングパラメータを調整し, 1nm未満の根平均正方形(rms)粗さと高い反射率を有する50nm薄膜を作製した。 最後に,アルミニウムミラーと二酸化ケイ素誘電体スペーサからなる多層ヘテロ構造に集積した超伝導単光子検出器を実現することにより,堆積膜の品質を確認した。 本手法により,780nmにおける検出効率を40%から70%に向上させた。

We investigate the growth conditions for thin (less than 200 nm) sputtered aluminum (Al) films. These coatings are needed for various applications, e.g. for advanced manufacturing processes in the aerospace industry or for nanostructures for quantum devices. Obtaining high-quality films, with low roughness, requires precise optimization of the deposition process. To this end, we tune various sputtering parameters such as the deposition rate, temperature, and power, which enables 50 nm thin films with a root mean square (RMS) roughness of less than 1 nm and high reflectivity. Finally, we confirm the high quality of the deposited films by realizing superconducting single-photon detectors integrated into multi-layer heterostructures consisting of an aluminum mirror and a silicon dioxide dielectric spacer. We achieve an improvement in detection efficiency at 780 nm from 40 % to 70 % by this integration approach.
翻訳日:2023-05-30 15:40:55 公開日:2023-05-29
# Quafu-Qcover: クラウドベースの量子コンピュータにおける組合せ最適化問題

Quafu-Qcover: Explore Combinatorial Optimization Problems on Cloud-based Quantum Computers ( http://arxiv.org/abs/2305.17979v1 )

ライセンス: Link先を確認
BAQIS Quafu Group(参考訳) 量子シミュレータとハードウェアバックエンドの両方をサポートする組合せ最適化問題用に設計された,クラウドベースのオープンソースソフトウェアパッケージであるquafu-qcoverを提案する。 Quafu-Qcoverは、Quantum Approximate Optimization Algorithm (QAOA)を使用して組合せ最適化問題を解決するための標準化された完全なワークフローを提供する。 これにより、元の問題を二次二分最適化(qubo)モデルと対応するイジングモデルとして自動的にモデル化することができ、さらに重みグラフに変換できる。 Qcoverのコアはグラフ分解に基づく古典的アルゴリズムに依存しており、浅いQAOA回路の最適パラメータをより効率的に得ることができる。 Quafu-Qcoverには、QAOA回路をQuafuクラウド量子コンピュータ上で実行可能な物理量子回路に変換する特別なコンパイラが含まれている。 汎用コンパイラと比較して,回路深度は短く,速度性能も向上した。 Qcoverコンパイラは、超伝導量子デバイスのキャリブレーションデータに基づいて、量子ビット結合サブ構造のライブラリをリアルタイムで構築することができ、そのタスクがより忠実な物理量子ビット上で実行されることを保証する。 Quafu-Qcoverは,タスクIDを用いて任意の時間に量子コンピュータサンプリング結果情報を検索し,非同期処理を可能にする。 さらに、結果の前処理と可視化のためのモジュールが含まれており、組合せ最適化問題に対するソリューションを直感的に表示することができる。 quafu-qcoverがquafuクラウド量子コンピュータ上でのアプリケーションの問題を探求するためのガイドとなることを願っている。

We present Quafu-Qcover, an open-source cloud-based software package designed for combinatorial optimization problems that support both quantum simulators and hardware backends. Quafu-Qcover provides a standardized and complete workflow for solving combinatorial optimization problems using the Quantum Approximate Optimization Algorithm (QAOA). It enables the automatic modeling of the original problem as a quadratic unconstrained binary optimization (QUBO) model and corresponding Ising model, which can be further transformed into a weight graph. The core of Qcover relies on a graph decomposition-based classical algorithm, which enables obtaining the optimal parameters for the shallow QAOA circuit more efficiently. Quafu-Qcover includes a specialized compiler that translates QAOA circuits into physical quantum circuits capable of execution on Quafu cloud quantum computers. Compared to a general-purpose compiler, ours generates shorter circuit depths while also possessing better speed performance. The Qcover compiler can establish a library of qubits coupling substructures in real time based on the updated calibration data of the superconducting quantum devices, ensuring that the task is executed on physical qubits with higher fidelity. The Quafu-Qcover allows us to retrieve quantum computer sampling result information at any time using task ID, enabling asynchronous processing. Besides, it includes modules for result preprocessing and visualization, allowing for an intuitive display of the solution to combinatorial optimization problems. We hope that Quafu-Qcover can serve as a guiding example for how to explore application problems on the Quafu cloud quantum computers
翻訳日:2023-05-30 15:40:42 公開日:2023-05-29
# 量子状態のトライ確率演算と畳み込み

Tristochastic operations and convolutions of quantum states ( http://arxiv.org/abs/2305.17978v1 )

ライセンス: Link先を確認
Rafa{\l} Bistro\'n, Wojciech \'Smia{\l}ek and Karol \.Zyczkowski(参考訳) 偶然の実験に対応する2つの確率ベクトルの畳み込みの概念は、(トリ)確率テンソルによって決定される二進演算の族に対して拡張され、より高い順序のマルコフ連鎖を記述することができる。 結合性、可換性、および中性要素と逆数の存在の問題は、そのような操作のために解析される。 多確率テンソルのより一般的な構成について、確率固有ベクトルの特性を示す。 量子の場合も同様の結果が得られる: 量子状態の空間で定義される二元演算を誘導する三次チャネルを解析する。 同じ大きさの2つの任意の密度行列に対して定義される確率ベクトルの畳み込みの量子アナログを提案する。 この概念の量子畳み込みニューラルネットワークにおける誤り軽減やビルディングブロックのスキーム構築への応用について論じる。

The notion of convolution of two probability vectors, corresponding to a coincidence experiment can be extended for a family of binary operations determined by (tri)stochastic tensors, to describe Markov chains of a higher order. The problem of associativity, commutativity and the existence of neutral elements and inverses is analyzed for such operations. For a more general setup of multi-stochastic tensors, we present the characterization of their probability eigenvectors. Similar results are obtained for the quantum case: we analyze tristochastic channels, which induce binary operations defined in the space of quantum states. Studying coherifications of tristochastic tensors we propose a quantum analogue of the convolution of probability vectors defined for two arbitrary density matrices of the same size. Possible applications of this notion to construct schemes of error mitigation or building blocks in quantum convolutional neural networks are discussed.
翻訳日:2023-05-30 15:40:17 公開日:2023-05-29
# jigsaw: 複数の割れたオブジェクトを組み立てる学習

Jigsaw: Learning to Assemble Multiple Fractured Objects ( http://arxiv.org/abs/2305.17975v1 )

ライセンス: Link先を確認
Jiaxin Lu, Yifan Sun, Qixing Huang(参考訳) 3次元骨折の自動化は, 整形外科, 考古学, 日常生活に不可欠である。 本稿では,物理的に破損した3dオブジェクトを複数のピースから組み立てる新しいフレームワークjigsawを提案する。 本手法は,大域的および局所的形状の階層的特徴を活用し,破壊面を整合・整列する。 本研究の枠組みは,(1)破面と原点を分離する表面区分,(2)破面点間の対応を求めるために一致した複数部分,(3)大域的ポーズを回復するためのロバストなグローバルアライメント,の3つの構成要素からなる。 セグメンテーションとマッチングを共同で学習し,機能マッチングと剛性制約をシームレスに統合する方法を示す。 破壊的バッドデータセットにおけるjigsawを評価し,最先端の手法と比較して優れた性能を実現する。 また, 様々な破壊モード, 物体, および未発見のインスタンスに対してよく一般化する。 私たちの知る限りでは、これは複数の部品にまたがる3d骨折の組み立てのために特別に設計された最初の学習ベースの方法です。

Automated assembly of 3D fractures is essential in orthopedics, archaeology, and our daily life. This paper presents Jigsaw, a novel framework for assembling physically broken 3D objects from multiple pieces. Our approach leverages hierarchical features of global and local geometry to match and align the fracture surfaces. Our framework consists of three components: (1) surface segmentation to separate fracture and original parts, (2) multi-parts matching to find correspondences among fracture surface points, and (3) robust global alignment to recover the global poses of the pieces. We show how to jointly learn segmentation and matching and seamlessly integrate feature matching and rigidity constraints. We evaluate Jigsaw on the Breaking Bad dataset and achieve superior performance compared to state-of-the-art methods. Our method also generalizes well to diverse fracture modes, objects, and unseen instances. To the best of our knowledge, this is the first learning-based method designed specifically for 3D fracture assembly over multiple pieces.
翻訳日:2023-05-30 15:40:02 公開日:2023-05-29
# View-to-Label: 自己監督型3Dオブジェクト検出のためのマルチビュー一貫性

View-to-Label: Multi-View Consistency for Self-Supervised 3D Object Detection ( http://arxiv.org/abs/2305.17972v1 )

ライセンス: Link先を確認
Issa Mouawad, Nikolas Brasch, Fabian Manhardt, Federico Tombari, Francesca Odone(参考訳) 自動運転車では、安全運転は3次元空間の環境を正しく知覚する能力に大きく依存しているため、3次元物体検出のタスクは認識の基本的な側面である。 3dセンサーは正確なメトリック知覚を提供するが、単眼的アプローチは、幅広いアプリケーションで価値のあるコストと可用性の利点を享受する。 残念ながら、単項法のトレーニングには膨大な量の注釈データが必要です。 興味深いことに、自制的なアプローチが最近、トレーニングプロセスの容易化と、広く利用可能な未使用データへのアクセスのアンロックに成功している。 関連する研究は、LIDARスキャンやステレオ画像など、さまざまな先行技術を活用しているが、そのような先行技術は再びユーザビリティを制限している。 そこで本研究では,RGBシーケンスのみから,多視点制約と弱いラベルを生かした,自己監督型3Dオブジェクト検出手法を提案する。 LIDARスキャンやステレオ画像を用いた最先端の自己監督手法と同等の性能を示すKITTI 3Dデータセットの実験を行った。

For autonomous vehicles, driving safely is highly dependent on the capability to correctly perceive the environment in 3D space, hence the task of 3D object detection represents a fundamental aspect of perception. While 3D sensors deliver accurate metric perception, monocular approaches enjoy cost and availability advantages that are valuable in a wide range of applications. Unfortunately, training monocular methods requires a vast amount of annotated data. Interestingly, self-supervised approaches have recently been successfully applied to ease the training process and unlock access to widely available unlabelled data. While related research leverages different priors including LIDAR scans and stereo images, such priors again limit usability. Therefore, in this work, we propose a novel approach to self-supervise 3D object detection purely from RGB sequences alone, leveraging multi-view constraints and weak labels. Our experiments on KITTI 3D dataset demonstrate performance on par with state-of-the-art self-supervised methods using LIDAR scans or stereo images.
翻訳日:2023-05-30 15:39:45 公開日:2023-05-29
# 二極性ポーラロンの非平衡ダイナミクス

Non-equilibrium dynamics of dipolar polarons ( http://arxiv.org/abs/2305.17969v1 )

ライセンス: Link先を確認
Artem G. Volosniev, Giacomo Bighin, Luis Santos and Luis A. Pe\~na Ardila(参考訳) 双極子ポラロン、すなわち双極子ボース-アインシュタイン凝縮体に浸漬された不純物は、不純物-ボソン相互作用のクエンチの後、平衡外量子力学を研究する。 縮合体の双極性および不純物の性質は異方性緩和ダイナミクス、特にポーラロンの異方性ドレッシングをもたらすことを示す。 より関連性の高いコールドアトムの設定では、クエンチダイナミクスは双極子異方性とトラップ幾何の相互作用によって強く影響を受ける。 本研究は異方性媒質中の不純物を二極性混合物を用いてシミュレーションする方法である。

We study the out-of-equilibrium quantum dynamics of dipolar polarons, i.e., impurities immersed in a dipolar Bose-Einstein condensate, after a quench of the impurity-boson interaction. We show that the dipolar nature of the condensate and of the impurity results in anisotropic relaxation dynamics, in particular, anisotropic dressing of the polaron. More relevantly for cold-atom setups, quench dynamics is strongly affected by the interplay between dipolar anisotropy and trap geometry. Our findings pave the way for simulating impurities in anisotropic media utilizing experiments with dipolar mixtures.
翻訳日:2023-05-30 15:39:30 公開日:2023-05-29
# 低リソースキーフレーズ生成のためのデータ拡張

Data Augmentation for Low-Resource Keyphrase Generation ( http://arxiv.org/abs/2305.17968v1 )

ライセンス: Link先を確認
Krishna Garg, Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) キーフレーズ生成(英: keyphrase generation)とは、ある記事の内容をいくつかの敬語句(またはキーフレーズ)に要約する作業である。 タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。 低リソース設定でのキーフレーズ生成の問題に対処する作業はごくわずかだが、事前トレーニングや擬似注釈の自動メソッドのためにラベルなしのデータが多数追加されている。 本稿では,純粋にリソース制約のあるドメインにおけるキーフレーズ生成に特化するデータ拡張戦略を提案する。 我々は,現在および不在のキーフレーズ生成を改善するために,記事の全文を用いた手法を設計する。 提案手法を3つのデータセットで総合的に検証し,データ拡張戦略が常に最先端のパフォーマンスを改善することを示す。 ソースコードはhttps://github.com/kgarg8/kpgen-lowres-data-augで公開しています。

Keyphrase generation is the task of summarizing the contents of any given article into a few salient phrases (or keyphrases). Existing works for the task mostly rely on large-scale annotated datasets, which are not easy to acquire. Very few works address the problem of keyphrase generation in low-resource settings, but they still rely on a lot of additional unlabeled data for pretraining and on automatic methods for pseudo-annotations. In this paper, we present data augmentation strategies specifically to address keyphrase generation in purely resource-constrained domains. We design techniques that use the full text of the articles to improve both present and absent keyphrase generation. We test our approach comprehensively on three datasets and show that the data augmentation strategies consistently improve the state-of-the-art performance. We release our source code at https://github.com/kgarg8/kpgen-lowres-data-aug.
翻訳日:2023-05-30 15:39:17 公開日:2023-05-29
# Quafu-RL: クラウド量子コンピュータによる量子強化学習

Quafu-RL: The Cloud Quantum Computers based Quantum Reinforcement Learning ( http://arxiv.org/abs/2305.17966v1 )

ライセンス: Link先を確認
BAQIS Quafu Group(参考訳) 量子コンピューティングの急速な発展に伴い、ハイブリッド量子古典機械学習は多くの分野において有望な計算上の優位性を示している。 量子強化学習は、最も難しい課題の1つであり、最近、古典的手法よりも正式に証明可能な理論上の利点で標準ベンチマーク環境を解く能力を示した。 しかし、量子プロセッサの進歩や、ノイズの多い中間スケール量子(NISQ)時代の量子コンピューティングクラウドの出現にもかかわらず、パラメータ化量子回路(PQC)に基づくアルゴリズムは、NISQデバイス上ではほとんど行われない。 本研究では,baqis quafu 量子コンピューティングクラウド上で,最大 136 量子ビットの様々な実デバイス上で,ベンチマーク量子強化問題を実行するための第一歩を踏み出す。 実験の結果,Reinforcement Learning (RL) エージェントはトレーニングと推論の段階でわずかに緩和された目標を達成することができることがわかった。 さらに、多目的進化アルゴリズムを用いて量子モデルにおけるハードウェア効率の良いPQCアーキテクチャを慎重に設計し、Quafuに適応可能な学習アルゴリズムを開発する。 量子クラウドプラットフォーム上で量子コンピュータを活用することによって、機械学習タスクを実現するための指針として、Quafu-RLが期待できる。

With the rapid advent of quantum computing, hybrid quantum-classical machine learning has shown promising computational advantages in many key fields. Quantum reinforcement learning, as one of the most challenging tasks, has recently demonstrated its ability to solve standard benchmark environments with formally provable theoretical advantages over classical counterparts. However, despite the progress of quantum processors and the emergence of quantum computing clouds in the noisy intermediate-scale quantum (NISQ) era, algorithms based on parameterized quantum circuits (PQCs) are rarely conducted on NISQ devices. In this work, we take the first step towards executing benchmark quantum reinforcement problems on various real devices equipped with at most 136 qubits on BAQIS Quafu quantum computing cloud. The experimental results demonstrate that the Reinforcement Learning (RL) agents are capable of achieving goals that are slightly relaxed both during the training and inference stages. Moreover, we meticulously design hardware-efficient PQC architectures in the quantum model using a multi-objective evolutionary algorithm and develop a learning algorithm that is adaptable to Quafu. We hope that the Quafu-RL be a guiding example to show how to realize machine learning task by taking advantage of quantum computers on the quantum cloud platform.
翻訳日:2023-05-30 15:39:03 公開日:2023-05-29
# 不確実性割引による進化的鉱山計画の信頼性向上

Improving Confidence in Evolutionary Mine Scheduling via Uncertainty Discounting ( http://arxiv.org/abs/2305.17957v1 )

ライセンス: Link先を確認
Michael Stimson, William Reid, Aneta Neumann, Simon Ratcliffe, Frank Neumann(参考訳) 鉱山計画は多くの不確実性を伴う複雑な作業である。 初期可能性では、利用可能な鉱物資源は希薄な掘削による鉱石グレードのサンプリングによってのみ推定できるため、堆積物のサンプルが不足している部分では大きな不確実性が生じる。 鉱業の生涯における鉱石の抽出スケジュールの立案は、その経済性にとって不可欠である。 我々は,各期間に得られた利益の確率的境界を提供する「不確実性下での最適スケジュール」を決定する新しい手法を提案する。 経済枠組み内の不確実性に対するこの処理は、これまで使いづらい可変性のモデルを実行可能な洞察に還元する。 この新しい手法は、進化アルゴリズム内の不確実性に基づいて利益を割引し、同じ可能性を持つモデルのアンサンブルに対するダウンサイドリスクを改善するための単一の地質モデルの経済的最適性を犠牲にする。 我々はMaptekの鉱山計画ソフトウェアEvolutionを用いて実験を行った。 以上の結果から,地雷計画プロセスにおいて不確実性情報を有効に活用することに成功した。

Mine planning is a complex task that involves many uncertainties. During early stage feasibility, available mineral resources can only be estimated based on limited sampling of ore grades from sparse drilling, leading to large uncertainty in under-sampled parts of the deposit. Planning the extraction schedule of ore over the life of a mine is crucial for its economic viability. We introduce a new approach for determining an "optimal schedule under uncertainty" that provides probabilistic bounds on the profits obtained in each period. This treatment of uncertainty within an economic framework reduces previously difficult-to-use models of variability into actionable insights. The new method discounts profits based on uncertainty within an evolutionary algorithm, sacrificing economic optimality of a single geological model for improving the downside risk over an ensemble of equally likely models. We provide experimental studies using Maptek's mine planning software Evolution. Our results show that our new approach is successful for effectively making use of uncertainty information in the mine planning process.
翻訳日:2023-05-30 15:38:40 公開日:2023-05-29
# 生成先行したマルチモーダル顔スティル化

Multi-Modal Face Stylization with a Generative Prior ( http://arxiv.org/abs/2305.18009v1 )

ライセンス: Link先を確認
Mengtian Li, Yi Dong, Minxuan Lin, Haibin Huang, Pengfei Wan, Chongyang Ma(参考訳) 本稿では,芸術的な顔のスタイライゼーションのための新しいアプローチを提案する。 この課題では既存の手法が印象的な成果を上げているが、多様なスタイルと正確な顔再構成を備えた高品質なスタイリッシュな顔を作るには改善の余地がある。 提案するフレームワークMMFSは,StyleGANの強みを活用し,エンコーダ・デコーダアーキテクチャに統合することで,マルチモーダル顔スタイリングをサポートする。 具体的には、StyleGANの中間分解能層と高分解能層をデコーダとし、その低分解能層をエンコーダと整列させ、入力された顔の詳細を抽出し保存する。 また、第1段階でエンコーダを訓練し、特徴マップをStyleGANと整列させ、入力面の忠実な再構築を可能にする2段階のトレーニング戦略も導入する。 第2段階では、ネットワーク全体をスタイリッシュな顔生成のための芸術データで微調整する。 ゼロショットとワンショットのスタイライゼーションタスクに微調整モデルを適用するために、大規模なコントラスト言語-イメージ-プレトレーニング(clip)空間から、潜在的なw+$の微調整スタイルガン空間まで、追加のマッピングネットワークを訓練する。 定性的かつ定量的な実験により,本フレームワークは1ショットと0ショットの両方のスタイリゼーションタスクにおいて優れた顔スタイリゼーション性能を達成し,最先端の手法を大きなマージンで上回った。

In this work, we introduce a new approach for artistic face stylization. Despite existing methods achieving impressive results in this task, there is still room for improvement in generating high-quality stylized faces with diverse styles and accurate facial reconstruction. Our proposed framework, MMFS, supports multi-modal face stylization by leveraging the strengths of StyleGAN and integrates it into an encoder-decoder architecture. Specifically, we use the mid-resolution and high-resolution layers of StyleGAN as the decoder to generate high-quality faces, while aligning its low-resolution layer with the encoder to extract and preserve input facial details. We also introduce a two-stage training strategy, where we train the encoder in the first stage to align the feature maps with StyleGAN and enable a faithful reconstruction of input faces. In the second stage, the entire network is fine-tuned with artistic data for stylized face generation. To enable the fine-tuned model to be applied in zero-shot and one-shot stylization tasks, we train an additional mapping network from the large-scale Contrastive-Language-Image-Pre-training (CLIP) space to a latent $w+$ space of fine-tuned StyleGAN. Qualitative and quantitative experiments show that our framework achieves superior face stylization performance in both one-shot and zero-shot stylization tasks, outperforming state-of-the-art methods by a large margin.
翻訳日:2023-05-30 15:31:20 公開日:2023-05-29
# 高解像度イベントカメラによる歩行者検出

Pedestrian detection with high-resolution event camera ( http://arxiv.org/abs/2305.18008v1 )

ライセンス: Link先を確認
Piotr Wzorek, Tomasz Kryjak(参考訳) コンピュータビジョンアルゴリズムのダイナミックな開発にもかかわらず、ドローンや自動運転車のような自動運転車の認識と制御システムの実装には多くの課題がある。 従来のカメラで撮影されたビデオストリームは、照明条件が難しいため、動きのぼやけや画質の低下といった問題を引き起こすことが多い。 さらに、フレームレート(通常は毎秒30または60フレーム)は、特定のシナリオにおいて制限要因となる可能性がある。 イベントカメラ(DVS -- Dynamic Vision Sensor)は、上記の問題に対処するための潜在的に興味深い技術である。 本稿では,歩行者検出作業における深層学習によるイベントデータ処理の2つの方法の比較を行う。 我々は,ビデオフレーム,畳み込みニューラルネットワーク,非同期スパース畳み込みニューラルネットワークという表現を用いた。 その結果、イベントカメラの可能性を示し、高解像度(1280 x 720ピクセル)映像に使用される手法の精度と効率を評価することができた。

Despite the dynamic development of computer vision algorithms, the implementation of perception and control systems for autonomous vehicles such as drones and self-driving cars still poses many challenges. A video stream captured by traditional cameras is often prone to problems such as motion blur or degraded image quality due to challenging lighting conditions. In addition, the frame rate - typically 30 or 60 frames per second - can be a limiting factor in certain scenarios. Event cameras (DVS -- Dynamic Vision Sensor) are a potentially interesting technology to address the above mentioned problems. In this paper, we compare two methods of processing event data by means of deep learning for the task of pedestrian detection. We used a representation in the form of video frames, convolutional neural networks and asynchronous sparse convolutional neural networks. The results obtained illustrate the potential of event cameras and allow the evaluation of the accuracy and efficiency of the methods used for high-resolution (1280 x 720 pixels) footage.
翻訳日:2023-05-30 15:30:49 公開日:2023-05-29
# テキスト駆動画像変換のための条件スコアガイダンス

Conditional Score Guidance for Text-Driven Image-to-Image Translation ( http://arxiv.org/abs/2305.18007v1 )

ライセンス: Link先を確認
Hyunsoo Lee, Minsoo Kang, Bohyung Han(参考訳) 本稿では,事前訓練されたテキスト・画像拡散モデルに基づくテキスト駆動画像変換のための新しいアルゴリズムを提案する。 本手法は,修正テキストで定義されたソース画像の関心領域を選択的に編集し,残りの部分を保存し,対象画像を生成することを目的とする。 対象のプロンプトにのみ依存する既存の手法とは対照的に,特定の翻訳タスクに対処するように調整されたソースプロンプトとソースイメージの両方を考慮した新たなスコア関数を導入する。 この目的を達成するために、条件スコア関数を基準スコアと目標画像生成のためのガイド語に分解し、原則的に導出する。 勾配計算では、後続分布のガウス分布を採用し、その平均と分散を追加の訓練を必要とせずに推定する。 さらに,条件付きスコアガイダンスの強化を目的として,簡易かつ効果的なミックスアップ手法を取り入れた。 この方法は、ソースから派生した2つのクロス・アテンション・マップとターゲット・プロンプトとを組み合わせることにより、ソース画像中の元の部分と、ターゲットプロンプトに整列した編集領域との望ましい融合により、ターゲット画像の生成を促進する。 総合的な実験により,様々なタスクにおいて優れた画像から画像への翻訳性能を実現することを実証した。

We present a novel algorithm for text-driven image-to-image translation based on a pretrained text-to-image diffusion model. Our method aims to generate a target image by selectively editing the regions of interest in a source image, defined by a modifying text, while preserving the remaining parts. In contrast to existing techniques that solely rely on a target prompt, we introduce a new score function, which considers both a source prompt and a source image, tailored to address specific translation tasks. To this end, we derive the conditional score function in a principled manner, decomposing it into a standard score and a guiding term for target image generation. For the gradient computation, we adopt a Gaussian distribution of the posterior distribution, estimating its mean and variance without requiring additional training. In addition, to enhance the conditional score guidance, we incorporate a simple yet effective mixup method. This method combines two cross-attention maps derived from the source and target latents, promoting the generation of the target image by a desirable fusion of the original parts in the source image and the edited regions aligned with the target prompt. Through comprehensive experiments, we demonstrate that our approach achieves outstanding image-to-image translation performance on various tasks.
翻訳日:2023-05-30 15:30:37 公開日:2023-05-29
# 3状態ツインフィールド量子鍵分散プロトコルの有限鍵法における鍵レート解析

Key Rate Analysis of a 3-State Twin-Field Quantum Key Distribution Protocol in the Finite-key Regime ( http://arxiv.org/abs/2305.18006v1 )

ライセンス: Link先を確認
Matt Young, Darius Bunandar, Marco Lucamarini, Stefano Pirandola(参考訳) 量子鍵分配(QKD)プロトコルを分析する場合、いくつかのメトリクスが決定できるが、最も重要なものはシークレット鍵レートである。 シークレットキーレート(英: Secret Key Rate)は、2つのパーティ間でシークレットキーの一部となる送信当たりのビット数である。 例えばbb84プロトコルでは、[1, p.1032] からの方程式 52 は与えられた量子ビット誤り率 (qber) の秘密鍵レートを与える。 しかし、これらのような方程式に繋がる解析は漸近的アプローチに依拠することが多く、そこでは2つの通信相手の間で無限の送信が送られると仮定される(アリスとボブと表記される)。 実用的な実装では、これは明らかに不可能です。 さらに、いくつかのQKDプロトコルは非対称プロトコルと呼ばれるカテゴリに属しており、そのような分析を行うことが著しく困難である。 そのため、現在、Finite-key regimeと呼ばれる別のアプローチについて多くの調査が行われている。 Bunandarらによる作品。 [2] は半定値プログラミングを使って非対称プロトコルの秘密鍵レートの低いバウンダリを生成するコードを生成する。 本稿では,BB84[3]の3状態バージョンとTwin-Fieldプロトコル[4]の両方からインスピレーションを得て,新しいQKDプロトコルを考案し,そのコードを用いて新しいプロトコルの解析を行う。

When analysing Quantum Key Distribution (QKD) protocols several metrics can be determined, but one of the most important is the Secret Key Rate. The Secret Key Rate is the number of bits per transmission that result in being part of a Secret Key between two parties. There are equations that give the Secret Key Rate, for example, for the BB84 protocol, equation 52 from [1, p.1032] gives the Secret Key Rate for a given Quantum Bit Error Rate (QBER). However, the analysis leading to equations such as these often rely on an Asymptotic approach, where it is assumed that an infinite number of transmissions are sent between the two communicating parties (henceforth denoted as Alice and Bob). In a practical implementation this is obviously impossible. Moreover, some QKD protocols belong to a category called Asymmetric protocols, for which it is significantly more difficult to perform such an analysis. As such, there is currently a lot of investigation into a different approach called the Finite-key regime. Work by Bunandar et al. [2] has produced code that used Semi-Definite Programming to produce lower bounds on the Secret Key Rate of even Asymmetric protocols. Our work looks at devising a novel QKD protocol taking inspiration from both the 3-state version of BB84 [3], and the Twin-Field protocol [4], and then using this code to perform analysis of the new protocol.
翻訳日:2023-05-30 15:30:15 公開日:2023-05-29
# 情報ダイアグラムから導かれる一般化エントロピーにおける不確かさの関係

Uncertainty relations in terms of generalized entropies derived from information diagrams ( http://arxiv.org/abs/2305.18005v1 )

ライセンス: Link先を確認
Alexey E. Rastegin(参考訳) エントロピーの不確実性関係は、彼ら自身の権利や多くのアプリケーションにおいて興味深い。 これを念頭に置いて、我々は対応する不等式をできるだけ厳格にしようとする。 パラメータ化エントロピーを用いることで、様々な情報手段間の関係を改善することもできる。 特殊タイプの測定は量子情報科学で広く用いられている。 それらの多くは、2乗確率の総和として定義される一致の指数を推定することができる。 エントロピーと偶然の指数の不等式は、古典情報理論における研究の長年の方向性を形成する。 いわゆる情報ダイアグラムは、不等式を得るための強力なツールを提供する。 文献では、このような結果は主にシャノンエントロピーに関連付けられた標準的な情報関数を扱う。 同時に、一般化された情報関数は、量子情報理論の疑問に使われている。 事実上、R\'{e}nyi と Tsallis のエントロピーと関連する函数は別個の興味を持つ。 本稿では,情報ダイアグラムに基づくエントロピー的不確実性関係について述べる。 得られた不等式は、相互に偏りのない基底、対称的な情報完全測定およびそれらの一般化に適用される。 また、等角的タイトフレームに割り当てられた量子測度に対するエントロピー不確実性関係も改善する。

Entropic uncertainty relations are interesting in their own rights as well as for a lot of applications. Keeping this in mind, we try to make the corresponding inequalities as tight as possible. The use of parametrized entropies also allows one to improve relations between various information measures. Measurements of special types are widely used in quantum information science. For many of them we can estimate the index of coincidence defined as the total sum of squared probabilities. Inequalities between entropies and the index of coincidence form a long-standing direction of researches in classical information theory. The so-called information diagrams provide a powerful tool to obtain inequalities of interest. In the literature, results of such a kind mainly deal with standard information functions linked to the Shannon entropy. At the same time, generalized information functions have found use in questions of quantum information theory. In effect, R\'{e}nyi and Tsallis entropies and related functions are of a separate interest. This paper is devoted to entropic uncertainty relations derived from information diagrams. The obtained inequalities are then applied to mutually unbiased bases, symmetric informationally complete measurements and their generalizations. We also improve entropic uncertainty relations for quantum measurement assigned to an equiangular tight frame.
翻訳日:2023-05-30 15:29:49 公開日:2023-05-29
# 選挙結果に対する政治的教義の影響--安倍氏暗殺事件

The Effects of Political Martyrdom on Election Results: The Assassination of Abe ( http://arxiv.org/abs/2305.18004v1 )

ライセンス: Link先を確認
Miu Nicole Takagi(参考訳) 先進国では暗殺は稀であり、そのような行為が選挙や政治の状況に与える影響は未定である。 本稿では,2022年の衆議院議員選挙における前首相暗殺の影響を調べるため,twitterのデータに注目した。 感情分析と感情検出を,200万以上のツイートのトピックモデリングと合わせて,過去の選挙期間中のツイートと比較する。 われわれの調査結果は、Twitterの感情が短期的な出来事に負の影響を受けており、ソーシャルメディアの注目が減っていることを示唆している。 また、「ネクロポリス」が故人党に有利な選挙結果にどのように影響したかについても検討した。

In developed nations assassinations are rare and thus the impact of such acts on the electoral and political landscape is understudied. In this paper, we focus on Twitter data to examine the effects of Japan's former Primer Minister Abe's assassination on the Japanese House of Councillors elections in 2022. We utilize sentiment analysis and emotion detection together with topic modeling on over 2 million tweets and compare them against tweets during previous election cycles. Our findings indicate that Twitter sentiments were negatively impacted by the event in the short term and that social media attention span has shortened. We also discuss how "necropolitics" affected the outcome of the elections in favor of the deceased's party meaning that there seems to have been an effect of Abe's death on the election outcome though the findings warrant further investigation for conclusive results.
翻訳日:2023-05-30 15:29:34 公開日:2023-05-29
# ディフレート : 効率的な視覚変換器の微分圧縮速度

DiffRate : Differentiable Compression Rate for Efficient Vision Transformers ( http://arxiv.org/abs/2305.17997v1 )

ライセンス: Link先を確認
Mengzhao Chen, Wenqi Shao, Peng Xu, Mingbao Lin, Kaipeng Zhang, Fei Chao, Rongrong Ji, Yu Qiao, Ping Luo(参考訳) Token圧縮は、プルーニング(ドロップ)やトークンのマージによって大規模な視覚変換器(ViTなど)を高速化することを目的としている。 重要なタスクですが、難しい作業です。 最近の先進的なアプローチは大きな成功を収めたが、圧縮レート(すなわち削除すべきトークンの数)を慎重に手作業で処理する必要がある。 この問題に対処するために,先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮法である微分圧縮率(DiffRate)を提案する。 まず、DiffRateは損失関数の勾配を圧縮比に伝播させ、これは以前の研究では微分不可能なハイパーパラメータと見なされる。 この場合、異なるレイヤは、余分なオーバーヘッドなしに、異なる圧縮率を階層的に自動的に学習することができる。 第二に、トークンのプルーニングとマージはDiffRateで同時に行うことができ、以前の作品では分離されていた。 3つ目の実験は、DiffRateが最先端のパフォーマンスを達成することを示すものである。 例えば、既定のvit-h(mae)モデルに学習層毎の圧縮速度を適用することで、40%のフラップ削減と1.5倍のスループット向上を実現し、微調整なしでimagenet上で0.16%の精度低下を実現した。 コードとモデルはhttps://github.com/opengvlab/diffrateで入手できる。

Token compression aims to speed up large-scale vision transformers (e.g. ViTs) by pruning (dropping) or merging tokens. It is an important but challenging task. Although recent advanced approaches achieved great success, they need to carefully handcraft a compression rate (i.e. number of tokens to remove), which is tedious and leads to sub-optimal performance. To tackle this problem, we propose Differentiable Compression Rate (DiffRate), a novel token compression method that has several appealing properties prior arts do not have. First, DiffRate enables propagating the loss function's gradient onto the compression ratio, which is considered as a non-differentiable hyperparameter in previous work. In this case, different layers can automatically learn different compression rates layer-wisely without extra overhead. Second, token pruning and merging can be naturally performed simultaneously in DiffRate, while they were isolated in previous works. Third, extensive experiments demonstrate that DiffRate achieves state-of-the-art performance. For example, by applying the learned layer-wise compression rates to an off-the-shelf ViT-H (MAE) model, we achieve a 40% FLOPs reduction and a 1.5x throughput improvement, with a minor accuracy drop of 0.16% on ImageNet without fine-tuning, even outperforming previous methods with fine-tuning. Codes and models are available at https://github.com/OpenGVLab/DiffRate.
翻訳日:2023-05-30 15:29:20 公開日:2023-05-29
# 音声質問応答のためのマルチスケール注意

Multi-Scale Attention for Audio Question Answering ( http://arxiv.org/abs/2305.17993v1 )

ライセンス: Link先を確認
Guangyao Li, Yixin Xu, Di Hu(参考訳) AQA(Audio Question answering)は、シーン理解の探索に広く使用されるプロキシタスクであり、注目されている。 AQAは、オーディオシーンの異なるスケールのイベントからの包括的な時間的推論を必要とするため、難しい。 しかし、既存の手法では、視覚質問応答タスクの構造を単純なパターンでオーディオに拡張するが、細粒度の音声シーンを知覚する場合はうまく機能しない。 この目的のために、非同期ハイブリッドアテンションモジュールとマルチスケールウィンドウアテンションモジュールからなるマルチスケールウィンドウアテンションフュージョンモデル(MWAFM)を提案する。 前者は単調な時間的文脈と横断的な時間的文脈を集約するように設計され、後者はより包括的な理解のために様々な長さと時間的依存関係の音イベントをキャプチャする。 提案したMWAFMが時空間情報を効果的に探索し,微粒化シーンにおけるAQAを促進することの実証実験を行った。コード:https://github.com/GeWu-Lab/MWAFM

Audio question answering (AQA), acting as a widely used proxy task to explore scene understanding, has got more attention. The AQA is challenging for it requires comprehensive temporal reasoning from different scales' events of an audio scene. However, existing methods mostly extend the structures of visual question answering task to audio ones in a simple pattern but may not perform well when perceiving a fine-grained audio scene. To this end, we present a Multi-scale Window Attention Fusion Model (MWAFM) consisting of an asynchronous hybrid attention module and a multi-scale window attention module. The former is designed to aggregate unimodal and cross-modal temporal contexts, while the latter captures sound events of varying lengths and their temporal dependencies for a more comprehensive understanding. Extensive experiments are conducted to demonstrate that the proposed MWAFM can effectively explore temporal information to facilitate AQA in the fine-grained scene.Code: https://github.com/GeWu-Lab/MWAFM
翻訳日:2023-05-30 15:28:55 公開日:2023-05-29
# 2次元運動量状態格子

Two dimensional momentum state lattices ( http://arxiv.org/abs/2305.17987v1 )

ライセンス: Link先を確認
Shraddha Agrawal, Sai Naga Manoj Paladugu, and Bryce Gadway(参考訳) 過去10年間の運動量状態格子(MSL)の発展を基盤として,この手法の高次元への単純な拡張を導入する。 物質波系における独自のブラッグ共鳴の選択的アドレッシングに基づいて、MSLはチューナブル障害、ゲージ場、非ハーミティシティ、その他の特徴を持つタイトバインディングモデルの実現を可能にした。 本稿では、運動量空間における原子のレーザー駆動ダイナミクスを記述する2次元のスケーラブルで可変なタイト結合モデルの構築に関する実験的なアプローチについて概説する。 数値シミュレーションを用いて、このシステムは運動的フラストレーションを伴う平らなバンドモデルや、位相境界状態をサポートするフラックス格子など、最も単純なモデルと種類の現象を取り上げる。 最後に、高次元における新しい輸送現象と局所化現象の探索を可能にする障害や非ハーミティティーの導入を含む、このモデルへの直接拡張の多くについて論じる。

Building on the development of momentum state lattices (MSLs) over the past decade, we introduce a simple extension of this technique to higher dimensions. Based on the selective addressing of unique Bragg resonances in matter-wave systems, MSLs have enabled the realization of tight-binding models with tunable disorder, gauge fields, non-Hermiticity, and other features. Here, we examine and outline an experimental approach to building scalable and tunable tight-binding models in two dimensions describing the laser-driven dynamics of atoms in momentum space. Using numerical simulations, we highlight some of the simplest models and types of phenomena this system is well-suited to address, including flat-band models with kinetic frustration and flux lattices supporting topological boundary states. Finally, we discuss many of the direct extensions to this model, including the introduction of disorder and non-Hermiticity, which will enable the exploration of new transport and localization phenomena in higher dimensions.
翻訳日:2023-05-30 15:28:37 公開日:2023-05-29
# 典型的なバイパルタイトステアビリティと一般化された局所量子測定

Typical bipartite steerability and generalized local quantum measurements ( http://arxiv.org/abs/2305.17985v1 )

ライセンス: Link先を確認
Maximilian Schumacher, Gernot Alber(参考訳) 最近,Alice と Bob の両部ステアビリティに関する相関行列に基づく十分条件を,$(N,M)$-型の局所的に完備な正の演算子値測度 (POVMs) に適用した。 これらのPOVMは、現在の関心の局所的な一般化された測定の大規模なクラスを統一的に記述することができる。 この十分条件は特異なスケーリング特性を示すことが示されている。 これは、情報的に完備なすべての$(N,M)$-POVMsがアリスからボブへの双極子ステアビリティの検出において等しく強力であり、また、局所正則エルミート作用素基底(LOOs)と同じくらい強力であることを意味する。 アリスからボブまでの2部量子状態と全ての量子状態の間のユークリッド体積比の低い境界のステアリング数値計算の典型性を、ヒット・アンド・ランのモンテカルロアルゴリズムの助けを借りて決定する。 これらの結果は、この相関行列に基づく十分条件が2つの量子ビットの単一例外でこれらの体積比を著しく過小評価していることを示している。 これらの結果は、aliceの量子ビットからbobの任意の次元量子システムへの二成分のステアビリティの決定を二成分の絡み合いの決定に還元する最近提案された方法と比較される。 局所測定を超越する絡み検出法を用いる場合,本手法は典型的操舵性の検出に極めて有効であることが実証された。

Recently proposed correlation-matrix based sufficient conditions for bipartite steerability from Alice to Bob are applied to local informationally complete positive operator valued measures (POVMs) of the $(N,M)$-type. These POVMs allow for a unified description of a large class of local generalized measurements of current interest. It is shown that this sufficient condition exhibits a peculiar scaling property. It implies that all types of informationally complete $(N,M)$-POVMs are equally powerful in detecting bipartite steerability from Alice to Bob and, in addition, they are as powerful as local orthonormal hermitian operator bases (LOOs). In order to explore the typicality of steering numerical calculations of lower bounds on Euclidean volume ratios between steerable bipartite quantum states from Alice to Bob and all quantum states are determined with the help of a hit-and-run Monte-Carlo algorithm. These results demonstrate that with the single exception of two qubits this correlation-matrix based sufficient condition significantly underestimates these volume ratios. These results are also compared with a recently proposed method which reduces the determination of bipartite steerability from Alice's qubit to Bob's arbitrary dimensional quantum system to the determination of bipartite entanglement. It is demonstrated that in general this method is significantly more effective in detecting typical steerability provided entanglement detection methods are used which transcend local measurements.
翻訳日:2023-05-30 15:28:21 公開日:2023-05-29
# 自然言語説明に対する忠実性テスト

Faithfulness Tests for Natural Language Explanations ( http://arxiv.org/abs/2305.18029v1 )

ライセンス: Link先を確認
Pepa Atanasova, Oana-Maria Camburu, Christina Lioma, Thomas Lukasiewicz, Jakob Grue Simonsen, Isabelle Augenstein(参考訳) ニューラルモデルの説明は、その予測に対するモデルの意思決定過程を明らかにすることを目的としている。 しかし、最近の研究は、モデルの内部の作業に不満足な理由を提示する傾向があるため、サリエンシマップや反ファクトアルなどの説明を行う現在の手法が誤解を招く可能性があることを示している。 本研究は自然言語説明(nles)の忠実性を評価するという難題を提起する。 この目的のために、我々は2つのテストを示す。 まず,偽の予測につながるがnlesには反映されない理由を挿入する偽の入力エディタを提案する。 次に、生成したNLEに記述された理由から入力を再構成し、同じ予測にどれだけの頻度で導かれるかを確認する。 我々のテストは、新しいNLEモデルを評価することができ、忠実なNLEの開発における基本的なツールを証明できる。

Explanations of neural models aim to reveal a model's decision-making process for its predictions. However, recent work shows that current methods giving explanations such as saliency maps or counterfactuals can be misleading, as they are prone to present reasons that are unfaithful to the model's inner workings. This work explores the challenging question of evaluating the faithfulness of natural language explanations (NLEs). To this end, we present two tests. First, we propose a counterfactual input editor for inserting reasons that lead to counterfactual predictions but are not reflected by the NLEs. Second, we reconstruct inputs from the reasons stated in the generated NLEs and check how often they lead to the same predictions. Our tests can evaluate emerging NLE models, proving a fundamental tool in the development of faithful NLEs.
翻訳日:2023-05-30 15:22:27 公開日:2023-05-29
# ADAPTERMIX:低リソースTTS適応のためのアダプタの混合の有効性を探る

ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation ( http://arxiv.org/abs/2305.18028v1 )

ライセンス: Link先を確認
Ambuj Mehrish, Abhinav Ramesh Kashyap, Li Yingting, Navonil Majumder, Soujanya Poria(参考訳) 広く話されていない言語や、訓練データにあまり表現されていないアクセントや方言を持つ話者にとって、話者適応には大きな課題がある。 この問題に対処するために,我々は「アダプタの混合」手法を提案する。 このアプローチでは、バックボーンモデル層に複数のアダプタを追加して、異なる話者の特徴を学習する。 提案手法は,新しい話者毎に1分間のデータのみを使用する場合,話者選好テストにおいて5%の顕著な改善が得られた。 さらに、アダプタパラダイムに従って、アダプタパラメータ(全体のモデルパラメータの11%)のみを微調整する。 これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。 全体として,提案手法は音声合成技術,特に多様な背景を持つ話者に適応するための有望な解決策を提供する。

There are significant challenges for speaker adaptation in text-to-speech for languages that are not widely spoken or for speakers with accents or dialects that are not well-represented in the training data. To address this issue, we propose the use of the "mixture of adapters" method. This approach involves adding multiple adapters within a backbone-model layer to learn the unique characteristics of different speakers. Our approach outperforms the baseline, with a noticeable improvement of 5% observed in speaker preference tests when using only one minute of data for each new speaker. Moreover, following the adapter paradigm, we fine-tune only the adapter parameters (11% of the total model parameters). This is a significant achievement in parameter-efficient speaker adaptation, and one of the first models of its kind. Overall, our proposed approach offers a promising solution to the speech synthesis techniques, particularly for adapting to speakers from diverse backgrounds.
翻訳日:2023-05-30 15:22:13 公開日:2023-05-29
# セマンティクスロールラベリング(semantic role labeling)による分布外検出

Semantic Role Labeling Guided Out-of-distribution Detection ( http://arxiv.org/abs/2305.18026v1 )

ライセンス: Link先を確認
Jinan Zou, Maihao Guo, Yu Tian, Yuhao Lin, Haiyao Cao, Lingqiao Liu, Ehsan Abbasnejad, Javen Qinfeng Shi(参考訳) 自然言語処理における予期せぬドメインシフトインスタンスの特定は、現実世界のアプリケーションでは不可欠である。 これまでの作業では、文を表現するために単一のグローバルな機能埋め込みを利用することで、OODインスタンスを識別するが、微妙なOODパターンをうまく特徴づけることはできない。 現在のOOD手法が直面するもうひとつの大きな課題は、IDデータとセマンティックに類似したハードなOODインスタンスを特定するために、効果的な低次元の文表現を学習することだ。 本稿では,文の異なる引数と全文のグローバルな特徴表現から,意味的役割ラベル付け(SRL)を導出した意味的役割ラベル付け(SRLOOD)を分離し,抽出し,学習する,意味的役割ラベル付け(Semantic Role Labeling Guided Out-of-distriion Detection, SRLOOD)と呼ばれる新しい教師なしOOD検出手法を提案する。 また,SRLの抽出した役割を予測することにより,グローバルな特徴学習を強化するために,新たな自己教師型アプローチも導入された。 その結果,4つのOODベンチマークにおいてSOTA性能が得られ,本手法の有効性が示唆された。 コードは受理次第利用可能だ。

Identifying unexpected domain-shifted instances in natural language processing is crucial in real-world applications. Previous works identify the OOD instance by leveraging a single global feature embedding to represent the sentence, which cannot characterize subtle OOD patterns well. Another major challenge current OOD methods face is learning effective low-dimensional sentence representations to identify the hard OOD instances that are semantically similar to the ID data. In this paper, we propose a new unsupervised OOD detection method, namely Semantic Role Labeling Guided Out-of-distribution Detection (SRLOOD), that separates, extracts, and learns the semantic role labeling (SRL) guided fine-grained local feature representations from different arguments of a sentence and the global feature representations of the full sentence using a margin-based contrastive loss. A novel self-supervised approach is also introduced to enhance such global-local feature learning by predicting the SRL extracted role. The resulting model achieves SOTA performance on four OOD benchmarks, indicating the effectiveness of our approach. Codes will be available upon acceptance.
翻訳日:2023-05-30 15:21:57 公開日:2023-05-29
# 集合決定の順序に対するレキシミンアプローチ

The Leximin Approach for a Sequence of Collective Decisions ( http://arxiv.org/abs/2305.18024v1 )

ライセンス: Link先を確認
Ido Kahana and Noam Hazon(参考訳) 多くの場合、複数のエージェントが一連の決定を下す必要がある。 例えば、毎週のミーティングが行われる場所を決定する必要がある労働者のグループ。 このような場合、意思決定機構は公平性の概念を考慮しなければならない。 本稿では、ラウンドロビン、最大ナッシュ福祉、レキシミンの3つの既知のメカニズムの公平性を分析する。 オフラインとオンラインの両方の設定を検討し、比例性の公平性の概念と緩和に集中する。 具体的には、オフライン環境では、たとえそのような結果が存在するとしても、3つのメカニズムが比例的あるいは近似的結果を見つけられないことを示す。 そこで我々は,この条件を捉えた新しいフェアネス特性を導入し,レキシミン機構の変種が新しいフェアネス特性を満たすことを示す。 オンライン環境では,比例性あるいは緩和性を保証することは不可能であることを示す。 したがって,エージェントの嗜好に対する自然な制限を検討し,レキシミン機構が比例性に対する最善の加法近似を保証し,比例性の全緩和を満たすことを示す。

In many situations, several agents need to make a sequence of decisions. For example, a group of workers that needs to decide where their weekly meeting should take place. In such situations, a decision-making mechanism must consider fairness notions. In this paper, we analyze the fairness of three known mechanisms: round-robin, maximum Nash welfare, and leximin. We consider both offline and online settings, and concentrate on the fairness notion of proportionality and its relaxations. Specifically, in the offline setting, we show that the three mechanisms fail to find a proportional or approximate-proportional outcome, even if such an outcome exists. We thus introduce a new fairness property that captures this requirement, and show that a variant of the leximin mechanism satisfies the new fairness property. In the online setting, we show that it is impossible to guarantee proportionality or its relaxations. We thus consider a natural restriction on the agents' preferences, and show that the leximin mechanism guarantees the best possible additive approximation to proportionality and satisfies all the relaxations of proportionality.
翻訳日:2023-05-30 15:21:34 公開日:2023-05-29
# 文書レベルイベント検出のための拡張としての抽象要約

Abstractive Summarization as Augmentation for Document-Level Event Detection ( http://arxiv.org/abs/2305.18023v1 )

ライセンス: Link先を確認
Janko Vidakovi\'c and Filip Karlo Do\v{s}ilovi\'c and Domagoj Plu\v{s}\v{c}ec(参考訳) トランスフォーマーベースのモデルでは、浅いモデルに比べて、様々なNLPタスクでパフォーマンスが大幅に向上している。 しかし、深層モデルは、特に文書レベルのイベント検出のような長いシーケンス長を持つタスクにおいて、浅いモデルよりも計算的に高価である。 本研究では,文書レベルのイベント検出における浅層モデルと深層モデルのパフォーマンスギャップを,抽象的なテキスト要約を用いて補足する手法を提案する。 低リソースクラスからサンプルの抽象的な要約を生成することでDocEEデータセットを拡張する。 分類には、TF-IDF表現を持つ線形SVMとRoBERTaベースを用いる。 ゼロショットの抽象的な要約にBARTを使用し、教師付き微調整に比べて拡張セットアップのリソース集約を減らした。 我々はテキスト生成のための4つの復号法、すなわちビームサーチ、トップkサンプリング、トップpサンプリング、コントラスト検索を実験した。 さらに,分類のための追加入力として文書タイトルを使うことによる影響についても検討する。 以上の結果から,文書タイトルを使用すると,線形SVMとRoBERTaのマクロF1スコアが2.04%,3.19%向上することがわかった。 要約による拡張により、線形SVMの性能は0.5%向上し、復号法で若干異なる。 全体としては,RoBERTaに比べて線形SVMでは改善が不十分である。

Transformer-based models have consistently produced substantial performance gains across a variety of NLP tasks, compared to shallow models. However, deep models are orders of magnitude more computationally expensive than shallow models, especially on tasks with large sequence lengths, such as document-level event detection. In this work, we attempt to bridge the performance gap between shallow and deep models on document-level event detection by using abstractive text summarization as an augmentation method. We augment the DocEE dataset by generating abstractive summaries of examples from low-resource classes. For classification, we use linear SVM with TF-IDF representations and RoBERTa-base. We use BART for zero-shot abstractive summarization, making our augmentation setup less resource-intensive compared to supervised fine-tuning. We experiment with four decoding methods for text generation, namely beam search, top-k sampling, top-p sampling, and contrastive search. Furthermore, we investigate the impact of using document titles as additional input for classification. Our results show that using the document title offers 2.04% and 3.19% absolute improvement in macro F1-score for linear SVM and RoBERTa, respectively. Augmentation via summarization further improves the performance of linear SVM by about 0.5%, varying slightly across decoding methods. Overall, our augmentation setup yields insufficient improvements for linear SVM compared to RoBERTa.
翻訳日:2023-05-30 15:21:17 公開日:2023-05-29
# HGT:CT画像とテキストを用いた多指間関節感染症診断のための階層型GCNトランス

HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic Joint Infection Diagnosis Using CT Images and Text ( http://arxiv.org/abs/2305.18022v1 )

ライセンス: Link先を確認
Ruiyang Li, Fujun Yang, Xianjie Liu and Hongwei Shi(参考訳) 補綴関節感染症 (pji) は, 高い診断難易度を特徴とする重篤な合併症である。 現在,ct画像のノイズが大きいことと,ct画像とテキストデータとの間のデータ量差があるため,ct画像とpjiの数値テキストデータを組み合わせた統一診断基準が確立されていない。 本研究では,ディープラーニングとマルチモーダル技術に基づく診断手法であるHGTを紹介する。 片方向選択注意(USA)機構とグラフ畳み込みネットワーク(GCN)ベースの機能融合ネットワークを介して、CTスキャン画像と患者の数値テキストデータとを効果的に融合する。 提案手法をカスタマイズしたマルチモーダルPJIデータセット上で評価し,アブレーション実験と解釈可能性評価により評価した。 提案手法は,91.4\%の精度(ACC)と95.9\%の曲線下面積(AUC)を達成し,最近のマルチモーダルアプローチをACC2.9\%,AUC2.2\%で上回り,パラメータ数は68Mに留まった。 特に, 解釈可能性の結果は, 病変部位におけるモデルの強い焦点と局所化能力を強調した。 提案手法は臨床医に,臨床実践の正確性と効率を高めるための追加診断ツールを提供する。

Prosthetic Joint Infection (PJI) is a prevalent and severe complication characterized by high diagnostic challenges. Currently, a unified diagnostic standard incorporating both computed tomography (CT) images and numerical text data for PJI remains unestablished, owing to the substantial noise in CT images and the disparity in data volume between CT images and text data. This study introduces a diagnostic method, HGT, based on deep learning and multimodal techniques. It effectively merges features from CT scan images and patients' numerical text data via a Unidirectional Selective Attention (USA) mechanism and a graph convolutional network (GCN)-based feature fusion network. We evaluated the proposed method on a custom-built multimodal PJI dataset, assessing its performance through ablation experiments and interpretability evaluations. Our method achieved an accuracy (ACC) of 91.4\% and an area under the curve (AUC) of 95.9\%, outperforming recent multimodal approaches by 2.9\% in ACC and 2.2\% in AUC, with a parameter count of only 68M. Notably, the interpretability results highlighted our model's strong focus and localization capabilities at lesion sites. This proposed method could provide clinicians with additional diagnostic tools to enhance accuracy and efficiency in clinical practice.
翻訳日:2023-05-30 15:20:57 公開日:2023-05-29
# 単調なMax-Sum GNNとデータログの対応について

On the Correspondence Between Monotonic Max-Sum GNNs and Datalog ( http://arxiv.org/abs/2305.18015v1 )

ライセンス: Link先を確認
David Tena Cucala, Bernardo Cuenca Grau, Boris Motik, Egor V. Kostylev(参考訳) 構造化データに機械学習技術を適用することには大きな関心があるが、これらの技術の表現力(つまり、何を学ぶことができるかの記述)はまだよく分かっていない。 本稿では,グラフニューラルネットワーク(GNN)に基づくデータ変換について検討する。 まず、GNNが処理可能な数値形式にデータセットをエンコードする方法の選択は、モデルの表現性の特徴を曖昧にし、正準符号化が適切な基盤となることを論じる。 第2に,最大および総集合関数を持つGNNのサブクラスをカバーする単調最大GNNの表現性について検討する。 各GNNに対して、任意のデータセットにGNNを適用することで、プログラムのルールをデータセットに単一ラウンドで適用するのと同じ事実を生成するように、Datalogプログラムを計算できることが示される。 モノトニックなmax-sum gnnは、任意に大きな特徴値をもたらすような、無限個の特徴ベクトルをまとめることができるが、ルールアプリケーションでは、定数の有界数のみを必要とする。 その結果,単調max-sum gnnの非有界和は表現力を高めないことがわかった。 第3に、最大集約関数のみを使用するモノトニックマックスGNNのサブクラスに結果をシャープし、対応するDatalogプログラムのクラスを特定する。

Although there has been significant interest in applying machine learning techniques to structured data, the expressivity (i.e., a description of what can be learned) of such techniques is still poorly understood. In this paper, we study data transformations based on graph neural networks (GNNs). First, we note that the choice of how a dataset is encoded into a numeric form processable by a GNN can obscure the characterisation of a model's expressivity, and we argue that a canonical encoding provides an appropriate basis. Second, we study the expressivity of monotonic max-sum GNNs, which cover a subclass of GNNs with max and sum aggregation functions. We show that, for each such GNN, one can compute a Datalog program such that applying the GNN to any dataset produces the same facts as a single round of application of the program's rules to the dataset. Monotonic max-sum GNNs can sum an unbounded number of feature vectors which can result in arbitrarily large feature values, whereas rule application requires only a bounded number of constants. Hence, our result shows that the unbounded summation of monotonic max-sum GNNs does not increase their expressive power. Third, we sharpen our result to the subclass of monotonic max GNNs, which use only the max aggregation function, and identify a corresponding class of Datalog programs.
翻訳日:2023-05-30 15:20:32 公開日:2023-05-29
# trer:3次元ライダー位置認識のための軽量変圧器再ランキング手法

TReR: A Lightweight Transformer Re-Ranking Approach for 3D LiDAR Place Recognition ( http://arxiv.org/abs/2305.18013v1 )

ライセンス: Link先を確認
Tiago Barros, Lu\'is Garrote, Martin Aleksandrov, Cristiano Premebida, Urbano J. Nunes(参考訳) 自律運転システムは、ローカライゼーションドリフトの低減を保証するために、信頼できるループクロージャ検出を必要とすることが多い。 近年, 3D LiDAR を用いた位置認識手法では, 位置認識を効率よく行うことができる。 しかし、実世界の困難なシナリオにデプロイすると、場所認識モデルはより複雑になり、高い計算需要のコストがかかる。 本研究は,3次元位置認識モデルから生成した初期ループ候補ランキングを,提案される軽量トランスフォーマベースリランキングアプローチ(trer)によって再注文する,第1のレトライベ・ザンリランキングパラダイムを採用する情報リトライバルの観点からこの問題に取り組む。 提案手法は,場所認識モデルに依存しないグローバル記述子のみに依存する。 KITTI Odometry データセットを用いて,TReR を αQE や SGV などの再評価手法と比較した結果,αQE と比較した場合のロバスト性と効率性を示すとともに,SGV と比較した場合のロバスト性と効率性の良好なトレードオフを提供する。

Autonomous driving systems often require reliable loop closure detection to guarantee reduced localization drift. Recently, 3D LiDAR-based localization methods have used retrieval-based place recognition to find revisited places efficiently. However, when deployed in challenging real-world scenarios, the place recognition models become more complex, which comes at the cost of high computational demand. This work tackles this problem from an information-retrieval perspective, adopting a first-retrieve-then-re-ranking paradigm, where an initial loop candidate ranking, generated from a 3D place recognition model, is re-ordered by a proposed lightweight transformer-based re-ranking approach (TReR). The proposed approach relies on global descriptors only, being agnostic to the place recognition model. The experimental evaluation, conducted on the KITTI Odometry dataset, where we compared TReR with s.o.t.a. re-ranking approaches such as alphaQE and SGV, indicate the robustness and efficiency when compared to alphaQE while offering a good trade-off between robustness and efficiency when compared to SGV.
翻訳日:2023-05-30 15:20:08 公開日:2023-05-29
# ASRで説明可能なAIメソッドを信頼できますか? 音素認識に関する一検討

Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition ( http://arxiv.org/abs/2305.18011v1 )

ライセンス: Link先を確認
Xiaoliang Wu, Peter Bell, Ajitha Rajan(参考訳) 説明可能なAI(XAI)技術は、画像分類や自然言語処理といった分野におけるディープラーニングモデルの出力の説明と理解に広く用いられている。 深層学習に基づく音声認識(ASR)を説明するためにXAI技術を使うことに関心が持たれている。 しかし これらの説明が信用できるかどうか 十分な証拠はありません そこで我々は,画像分類領域であるLocal Interpretable Model-Agnostic Explanations (LIME) から,TIMITに基づく音素認識タスクのために訓練されたモデルに,最先端のXAI技術を適用する。 この簡単なタスクは、評価のための制御された設定を提供すると同時に、説明の質を評価するための専門家の注釈付き真実を提供する。 本稿では,本論文で提案する時間分割音声セグメントに基づくlimeの変種について,最上位3つの音声セグメントの96%の時間的真理を含む,最も信頼性の高い説明を生成する。

Explainable AI (XAI) techniques have been widely used to help explain and understand the output of deep learning models in fields such as image classification and Natural Language Processing. Interest in using XAI techniques to explain deep learning-based automatic speech recognition (ASR) is emerging. but there is not enough evidence on whether these explanations can be trusted. To address this, we adapt a state-of-the-art XAI technique from the image classification domain, Local Interpretable Model-Agnostic Explanations (LIME), to a model trained for a TIMIT-based phoneme recognition task. This simple task provides a controlled setting for evaluation while also providing expert annotated ground truth to assess the quality of explanations. We find a variant of LIME based on time partitioned audio segments, that we propose in this paper, produces the most reliable explanations, containing the ground truth 96% of the time in its top three audio segments.
翻訳日:2023-05-30 15:19:46 公開日:2023-05-29
# 視覚言語モデルにおけるゼロショット一般化のためのクリップ報酬によるテスト時間適応

Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models ( http://arxiv.org/abs/2305.18010v1 )

ライセンス: Link先を確認
Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) 視覚言語(VL)モデルの出力とタスク目標との相違は、その展開を妨げる。 トレーニングとテストデータの間に分散シフトがある場合、この問題は悪化する可能性がある。 この問題に対処するため、完全なテスト時間適応~(TTA)メソッドがエントロピーの最小化によってブートストラップされる。 しかし、予測のエントロピーを最小化することで、モデル自体の出力分布の誤りに過度に適合する。 本研究では,タスク目標の過度な適合を回避するため,フィードバック付きTTAを提案する。 具体的には、画像分類、画像テキスト検索、画像キャプションといった様々なタスクにおいて、テスト期間中にVLモデルに対するフィードバックを提供するために、報酬モデルとしてCLIPを採用する。 単一のテストサンプルが与えられたモデルでは、強化学習によるCLIP報酬の最大化を目指している。 サンプル候補の平均CLIPスコアをベースラインとして,報酬設計を採用する。 この設計は、様々なタスク固有のサンプリング戦略と組み合わせるとシンプルで驚くほど効果的である。 システム全体が柔軟性があり、報酬モデルを複数のCLIPモデルで拡張することができる。 さらに、momentum bufferを使用して、複数のテストサンプルから学んだ知識を記憶し、活用することもできる。 大規模な実験により,本手法はTTA後の異なるVLモデルを大幅に改善することが示された。

Misalignment between the outputs of a vision-language (VL) model and task goal hinders its deployment. This issue can worsen when there are distribution shifts between the training and test data. To address this problem, prevailing fully test-time adaptation~(TTA) methods bootstrap themselves through entropy minimization. However, minimizing the entropy of the predictions makes the model overfit to incorrect output distributions of itself. In this work, we propose TTA with feedback to avoid such overfitting and align the model with task goals. Specifically, we adopt CLIP as reward model to provide feedback for VL models during test time in various tasks, including image classification, image-text retrieval, and image captioning. Given a single test sample, the model aims to maximize CLIP reward through reinforcement learning. We adopt a reward design with the average CLIP score of sampled candidates as the baseline. This design is simple and surprisingly effective when combined with various task-specific sampling strategies. The entire system is flexible, allowing the reward model to be extended with multiple CLIP models. Plus, a momentum buffer can be used to memorize and leverage the learned knowledge from multiple test samples. Extensive experiments demonstrate that our method significantly improves different VL models after TTA.
翻訳日:2023-05-30 15:19:30 公開日:2023-05-29
# 線形量子系における合成場による非相互熱流束

Nonreciprocal heat flux via synthetic fields in linear quantum systems ( http://arxiv.org/abs/2305.18066v1 )

ライセンス: Link先を確認
S.-A. Biehs and M. Antezza and G.S. Agarwal(参考訳) 外部駆動により共振器パラメータを変化させることによって実現したN結合型量子共振器と応用合成電場との熱伝達について検討した。 この目的のために、量子光学マスター方程式と、全ての量子発振器が独自の熱浴を持つことのできる$N$結合発振器のランゲヴィン方程式に基づく2つの一般的な方法を開発した。 合成電気及び磁場は、振動子共鳴を所定の位相で動的に変調することによって生成される。 フロッケ理論を用いて、熱流束スペクトルと伝達電力を決定できる両方の方法で力学方程式を解く。 これらの方法を適用して、4つの量子結合共振器の線形タイト結合鎖の特定の場合を研究する。 この場合、既往の研究で予測された非相反性熱流束スペクトルに加えて、この合成場が全熱流束の非相反性を誘導することにより、純熱流束整流を実現した。

We study the heat transfer between N coupled quantum resonators with applied synthetic electric and magnetic fields realized by changing the resonators parameters by external drivings. To this end we develop two general methods, based on the quantum optical master equation and on the Langevin equation for $N$ coupled oscillators where all quantum oscillators can have their own heat baths. The synthetic electric and magnetic fields are generated by a dynamical modulation of the oscillator resonance with a given phase. Using Floquet theory we solve the dynamical equations with both methods which allow us to determine the heat flux spectra and the transferred power. With apply these methods to study the specific case of a linear tight-binding chain of four quantum coupled resonators. We find that in that case, in addition to a non-reciprocal heat flux spectrum already predicted in previous investigations, the synthetic fields induce here non-reciprocity in the total heat flux hence realizing a net heat flux rectification.
翻訳日:2023-05-30 15:13:18 公開日:2023-05-29
# ベクトルに基づく表現が鍵:不等角化と合成一般化に関する研究

Vector-based Representation is the Key: A Study on Disentanglement and Compositional Generalization ( http://arxiv.org/abs/2305.18063v1 )

ライセンス: Link先を確認
Tao Yang, Yuwang Wang, Cuiling Lan, Yan Lu, Nanning Zheng(参考訳) 観察(異方性)から基本的な概念を認識し、これらの概念の新たな組み合わせを生成することは、人間が素早い知識学習をサポートし、深層学習モデルが苦労する新しいタスクに一般化する基本的な能力である。 ヒューマンライクなインテリジェンスに向けて,非絡み合い表現学習に関する様々な研究が提案され,近年では構成一般化の研究も行われている。 しかし, 絡み合いと組成一般化の関係について研究する研究はほとんどなく, 観察結果は矛盾する。 本稿では,不整合と構成一般化能力の両方の観点から,いくつかの典型的な非絡合表現学習作品について検討し,ベクトルベース表現(スカラーの代わりにベクトルを用いて概念を表現する)が優れた非絡合と強い構成一般化の両立の鍵となる重要な洞察を与える。 この洞察はまた、脳が個々のニューロンよりもニューロンの集団活動に関する情報をコードしているという神経科学の研究に共鳴している。 そこで本研究では,スカラーベース不整合処理(\beta$-TCVAEおよびFacterVAE)をベクトルベースで改良し,両機能を向上する手法をさらに提案する。 ベクトルに基づく表現の次元が与える影響について検討し,その1つの重要な疑問について考察した。 要約して,本研究では,優れた概念認識と新しい概念構成を両立させることが可能であることを実証し,人間のような知性への重要な一歩として貢献する。

Recognizing elementary underlying concepts from observations (disentanglement) and generating novel combinations of these concepts (compositional generalization) are fundamental abilities for humans to support rapid knowledge learning and generalize to new tasks, with which the deep learning models struggle. Towards human-like intelligence, various works on disentangled representation learning have been proposed, and recently some studies on compositional generalization have been presented. However, few works study the relationship between disentanglement and compositional generalization, and the observed results are inconsistent. In this paper, we study several typical disentangled representation learning works in terms of both disentanglement and compositional generalization abilities, and we provide an important insight: vector-based representation (using a vector instead of a scalar to represent a concept) is the key to empower both good disentanglement and strong compositional generalization. This insight also resonates the neuroscience research that the brain encodes information in neuron population activity rather than individual neurons. Motivated by this observation, we further propose a method to reform the scalar-based disentanglement works ($\beta$-TCVAE and FactorVAE) to be vector-based to increase both capabilities. We investigate the impact of the dimensions of vector-based representation and one important question: whether better disentanglement indicates higher compositional generalization. In summary, our study demonstrates that it is possible to achieve both good concept recognition and novel concept composition, contributing an important step towards human-like intelligence.
翻訳日:2023-05-30 15:13:02 公開日:2023-05-29
# ソフトウェアプロセス品質の進化的変化を活用する

Leveraging Evolutionary Changes for Software Process Quality ( http://arxiv.org/abs/2305.18061v1 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) 現実世界のソフトウェアアプリケーションは、常に進化し続けなければならない。 この進化は、新しいアプリケーションを開発したり、新しい要求を満たしたり、修正したり、将来の機能を組み込んだりする際に起こります。 従来のソフトウェア品質管理には、ソフトウェア品質モデルと継続的コード検査ツールが含まれる。 これらの尺度は、ソフトウェアの品質を直接評価することに焦点を当てます。 しかし、開発プロセスの品質と結果のソフトウェア製品との間には、強い相関関係と因果関係がある。 したがって、開発プロセスの改善は間接的にソフトウェア製品も改善します。 これを実現するには、過去のプロセスから効果的な学習が必要であり、しばしば死後の組織学習を通じて受け入れられる。 大規模なアーティファクトの質的評価は一般的だが、アプリケーションライフサイクル管理によって得られる小さな量的変化はしばしば見過ごされる。 ソフトウェアメトリクスに加えて、これらの小さな変更は、プロジェクト文化とマネジメントに関連する複雑な現象を明らかにします。 これらの変更を活用することで、このような複雑な問題の検出と対処に役立ちます。 ソフトウェアの進化は以前、変更のサイズによって測定されていたが、信頼性と汎用性の定量化方法に関する合意の欠如は、信頼できるメトリクスとしての使用を妨げている。 異なる大きさの分類は進化の性質を確実に記述することができない。 アプリケーションのライフサイクル管理データは豊富だが、どのアーティファクトが有害な管理プラクティスをモデル化できるかはいまだ不明だ。 シミュレーションモデリング、離散事象シミュレーション、ベイズネットワークのようなアプローチは、そのような現象の連続的なプロセスモデルを利用する能力に限られる。 さらに悪いことに、このようなグレーまたはブラックボックスモデルに対するアクセシビリティと機械的な洞察は、通常非常に低い。 これらの課題に対処するために、客観的に活用することを提案します [...]

Real-world software applications must constantly evolve to remain relevant. This evolution occurs when developing new applications or adapting existing ones to meet new requirements, make corrections, or incorporate future functionality. Traditional methods of software quality control involve software quality models and continuous code inspection tools. These measures focus on directly assessing the quality of the software. However, there is a strong correlation and causation between the quality of the development process and the resulting software product. Therefore, improving the development process indirectly improves the software product, too. To achieve this, effective learning from past processes is necessary, often embraced through post mortem organizational learning. While qualitative evaluation of large artifacts is common, smaller quantitative changes captured by application lifecycle management are often overlooked. In addition to software metrics, these smaller changes can reveal complex phenomena related to project culture and management. Leveraging these changes can help detect and address such complex issues. Software evolution was previously measured by the size of changes, but the lack of consensus on a reliable and versatile quantification method prevents its use as a dependable metric. Different size classifications fail to reliably describe the nature of evolution. While application lifecycle management data is rich, identifying which artifacts can model detrimental managerial practices remains uncertain. Approaches such as simulation modeling, discrete events simulation, or Bayesian networks have only limited ability to exploit continuous-time process models of such phenomena. Even worse, the accessibility and mechanistic insight into such gray- or black-box models are typically very low. To address these challenges, we suggest leveraging objectively [...]
翻訳日:2023-05-30 15:12:16 公開日:2023-05-29
# 超音波損傷検出における偽陽性抑制のための負の時間文脈のマイニング

Mining Negative Temporal Contexts For False Positive Suppression In Real-Time Ultrasound Lesion Detection ( http://arxiv.org/abs/2305.18060v1 )

ライセンス: Link先を確認
Haojun Yu, Youcheng Li, QuanLin Wu, Ziwei Zhao, Dengbo Chen, Dong Wang, Liwei Wang(参考訳) 超音波スキャンの過程では、リアルタイムの病変検出が正確ながん診断に役立つ。 しかし、この本質的な課題は依然として挑戦的で未熟である。 一般的なリアルタイム物体検出モデルは、超音波ビデオに適用した場合に明らかな偽陽性(FPs)を誤って報告することができる。 重要な問題のひとつは、以前のフレームで負の症状を使わなかったことであり、これはNTC(負の時間的文脈)と表される。 この問題に対処するために,ntcを含む以前のフレームから逆光流の指導によりコンテキストを抽出することを提案する。 抽出した文脈を集約することにより、NTCを利用してFPを抑えることができる。 得られたモデルをUltraDetと呼びます。 提案するUltraDetは,従来の最先端技術よりも大幅に向上し,リアルタイム推論速度を実現する。 今後の研究を容易にするため、我々の実験で使用されるCVA-BUSデータセットのコード、チェックポイント、および高品質なラベルをリリースする。

During ultrasonic scanning processes, real-time lesion detection can assist radiologists in accurate cancer diagnosis. However, this essential task remains challenging and underexplored. General-purpose real-time object detection models can mistakenly report obvious false positives (FPs) when applied to ultrasound videos, potentially misleading junior radiologists. One key issue is their failure to utilize negative symptoms in previous frames, denoted as negative temporal contexts (NTC). To address this issue, we propose to extract contexts from previous frames, including NTC, with the guidance of inverse optical flow. By aggregating extracted contexts, we endow the model with the ability to suppress FPs by leveraging NTC. We call the resulting model UltraDet. The proposed UltraDet demonstrates significant improvement over previous state-of-the-arts and achieves real-time inference speed. To facilitate future research, we will release the code, checkpoints, and high-quality labels of the CVA-BUS dataset used in our experiments.
翻訳日:2023-05-30 15:11:27 公開日:2023-05-29
# instructionit: ユーザ指示による拡散型画像編集のための自動マスクの改善

InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions ( http://arxiv.org/abs/2305.18047v1 )

ライセンス: Link先を確認
Qian Wang, Biao Zhang, Michael Birsak, Peter Wonka(参考訳) 近年、拡散モデルとテキストプロンプトに基づく画像生成を用いたテキストガイド画像編集が研究されている。 しかし、これらのモデルは編集すべき領域を正確に特定し、正確かつ忠実に編集を行うのに苦労する。 本研究では,ユーザインストラクションに基づいたきめ細かい編集が可能なInstructEditというフレームワークを提案する。 提案するフレームワークには,言語プロセッサ,セグメンタ,イメージエディタの3つのコンポーネントがある。 最初のコンポーネントである言語プロセッサは、大きな言語モデルを使用してユーザー命令を処理する。 この処理の目標は、ユーザ命令を解析し、セグメンタとイメージエディタのキャプションのプロンプトを出力することである。 このステップではChatGPTとオプションでBLIP2を採用しています。 第2のコンポーネントであるsegmenterは、言語プロセッサが提供するセグメンテーションプロンプトを使用する。 我々は,最先端のセグメンテーションフレームワークであるgrounded segmented anythingを用いて,セグメンテーションプロンプトに基づいて高品質のマスクを自動的に生成する。 第3のコンポーネントであるイメージエディタは、言語プロセッサからのキャプションとセグメンタからのマスクを使用して、編集されたイメージを算出する。 我々は,この目的のために,安定拡散とDiffEditのマスク誘導世代を採用する。 実験の結果,入力画像が複雑なオブジェクトや複数のオブジェクトを含む場合,従来の編集手法よりも精度がよいことがわかった。 DiffEditよりもマスクの品質が向上し、編集画像の品質が向上する。 また,本フレームワークは複数種類のユーザ命令を入力として受け取れることを示す。 コードはhttps://github.com/qianwangx/instructedit.com/で提供します。

Recent works have explored text-guided image editing using diffusion models and generated edited images based on text prompts. However, the models struggle to accurately locate the regions to be edited and faithfully perform precise edits. In this work, we propose a framework termed InstructEdit that can do fine-grained editing based on user instructions. Our proposed framework has three components: language processor, segmenter, and image editor. The first component, the language processor, processes the user instruction using a large language model. The goal of this processing is to parse the user instruction and output prompts for the segmenter and captions for the image editor. We adopt ChatGPT and optionally BLIP2 for this step. The second component, the segmenter, uses the segmentation prompt provided by the language processor. We employ a state-of-the-art segmentation framework Grounded Segment Anything to automatically generate a high-quality mask based on the segmentation prompt. The third component, the image editor, uses the captions from the language processor and the masks from the segmenter to compute the edited image. We adopt Stable Diffusion and the mask-guided generation from DiffEdit for this purpose. Experiments show that our method outperforms previous editing methods in fine-grained editing applications where the input image contains a complex object or multiple objects. We improve the mask quality over DiffEdit and thus improve the quality of edited images. We also show that our framework can accept multiple forms of user instructions as input. We provide the code at https://github.com/QianWangX/InstructEdit.
翻訳日:2023-05-30 15:11:03 公開日:2023-05-29
# 暗黙的伝達演算子学習:分子動力学のための多重時間分解サロゲート

Implicit Transfer Operator Learning: Multiple Time-Resolution Surrogates for Molecular Dynamics ( http://arxiv.org/abs/2305.18046v1 )

ライセンス: Link先を確認
Mathias Schreiner and Ole Winther and Simon Olsson(参考訳) 分子系の計算特性は(正規化されていない)ボルツマン分布の期待値の推定に依存する。 分子動力学 (MD) は、そのような量の近似法として広く採用されている。 しかし、安定なシミュレーションは非常に小さな積分時間ステップ (10^{-15}\,\mathrm{s}$) に依存しているのに対し、自由エネルギーや速度の結合のようないくつかの瞬間の収束は10^{-1}\, \mathrm{s}$ の時間スケールでのサンプリングプロセスに依存しており、これらのシミュレーションは全ての分子系に対して独立に繰り返す必要がある。 本稿では,シミュレーションプロセスのサロゲートを複数の時間分解能で学習するフレームワークであるImplict Transfer Operator (ITO) Learningを提案する。 拡散確率モデルに新しいSE(3)等変アーキテクチャを組み込んだITOを実装し, システムの一部しか観測されていない場合においても, 複数の時間スケールで自己整合確率力学を生成可能であることを示す。 最後に,粗い分子表現のみを用いて全原子の分子動力学を定量的にモデル化できる粗粒cg-se3-itoモデルを提案する。 したがって、ITOはMDの多重時間・空間分解能加速に向けた重要なステップを提供する。

Computing properties of molecular systems rely on estimating expectations of the (unnormalized) Boltzmann distribution. Molecular dynamics (MD) is a broadly adopted technique to approximate such quantities. However, stable simulations rely on very small integration time-steps ($10^{-15}\,\mathrm{s}$), whereas convergence of some moments, e.g. binding free energy or rates, might rely on sampling processes on time-scales as long as $10^{-1}\, \mathrm{s}$, and these simulations must be repeated for every molecular system independently. Here, we present Implict Transfer Operator (ITO) Learning, a framework to learn surrogates of the simulation process with multiple time-resolutions. We implement ITO with denoising diffusion probabilistic models with a new SE(3) equivariant architecture and show the resulting models can generate self-consistent stochastic dynamics across multiple time-scales, even when the system is only partially observed. Finally, we present a coarse-grained CG-SE3-ITO model which can quantitatively model all-atom molecular dynamics using only coarse molecular representations. As such, ITO provides an important step towards multiple time- and space-resolution acceleration of MD.
翻訳日:2023-05-30 15:10:38 公開日:2023-05-29
# 物理に変形したコンピュータビジョン : レビューと展望

Physics-Informed Computer Vision: A Review and Perspectives ( http://arxiv.org/abs/2305.18035v1 )

ライセンス: Link先を確認
Chayan Banerjee, Kien Nguyen, Clinton Fookes, George Karniadakis(参考訳) 機械学習フレームワークにおける物理情報の取り込みは、多くのアプリケーションドメインを開放し、変換している。 ここでは、基本的な知識の誘導と物理法則の統制を通じて学習プロセスが強化される。 本研究では,視覚データの解釈と理解におけるコンピュータビジョンタスクの有用性について検討する。 本稿では,物理法則を導いたコンピュータビジョンタスクの定式化とアプローチに関する体系的文献レビューを行う。 まず,一般的なコンピュータビジョンパイプラインを段階分類に分解し,各段階に物理方程式を組み込む手法を検討する。 各タスクにおける既存のアプローチは、統合のためにモデル化された物理プロセスと、データ(オブザーバビリティバイアス)の変更、ネットワークの変更(インダクティブバイアス)、損失(学習バイアス)を物理的なルールを含むように修正する方法について分析される。 分類学は、物理インフォームド能力の適用について統一的な視点を提供し、物理インフォームド機械学習がどこで行われているか、ギャップと機会がどこにあるかを強調している。 最後に、今後の研究の方法を伝えるためのオープンな問題と課題を強調します。 まだ初期の段階だが、物理に変形したコンピュータビジョンの研究は、より現実的なアプリケーションにおいて、物理的実用性、正確性、データ効率、一般化を改善できるより良いコンピュータビジョンモデルの開発を約束している。

Incorporation of physical information in machine learning frameworks are opening and transforming many application domains. Here the learning process is augmented through the induction of fundamental knowledge and governing physical laws. In this work we explore their utility for computer vision tasks in interpreting and understanding visual data. We present a systematic literature review of formulation and approaches to computer vision tasks guided by physical laws, known as physics-informed computer vision. We begin by decomposing the popular computer vision pipeline into a taxonomy of stages and investigate approaches to incorporate governing physical equations in each stage. Existing approaches in each task are analyzed with regard to what governing physical processes are modeled for integration and how they are formulated to be incorporated, i.e. modify data (observation bias), modify networks (inductive bias), and modify losses (learning bias) to include physical rules. The taxonomy offers a unified view of the application of the physics-informed capability, highlighting where physics-informed machine learning has been conducted and where the gaps and opportunities are. Finally, we highlight open problems and challenges to inform future research avenues. While still in its early days, the study of physics-informed computer vision has the promise to develop better computer vision models that can improve physical plausibility, accuracy, data efficiency and generalization in increasingly realistic applications.
翻訳日:2023-05-30 15:10:10 公開日:2023-05-29
# 英語ニュース記事における文レベル主観性検出コーパス

A Corpus for Sentence-level Subjectivity Detection on English News Articles ( http://arxiv.org/abs/2305.18034v1 )

ライセンス: Link先を確認
Francesco Antici, Andrea Galassi, Federico Ruggeri, Katerina Korre, Arianna Muti, Alessandra Bardi, Alice Fedotova, Alberto Barr\'on-Cede\~no(参考訳) 文レベルで主観性検出のための新しいコーパスを提案する。 我々は,言語固有の手がかりに限らず,新たなアノテーションガイドラインを開発し,それを英語で新しいコーパスの作成に適用する。 コーパスは411件の主観的文と638件の客観的文からなる。 この新しいリソースは、語彙や機械翻訳のような言語固有のツールに頼ることなく、英語や他の言語における主観性検出のためのモデルの開発への道を開く。 本研究は,単言語とクロス言語の両方において,タスクの最先端の多言語トランスフォーマーモデルを評価し,後者はイタリア語のコーパスに類似している。 我々は、コーパスを他の言語のリソースで豊かにすることで、タスクの結果を改善することを観察する。

We present a novel corpus for subjectivity detection at the sentence level. We develop new annotation guidelines for the task, which are not limited to language-specific cues, and apply them to produce a new corpus in English. The corpus consists of 411 subjective and 638 objective sentences extracted from ongoing coverage of political affairs from online news outlets. This new resource paves the way for the development of models for subjectivity detection in English and across other languages, without relying on language-specific tools like lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task, both in mono- and cross-lingual settings, the latter with a similar existing corpus in Italian language. We observe that enriching our corpus with resources in other languages improves the results on the task.
翻訳日:2023-05-30 15:09:48 公開日:2023-05-29
# ACROBAT 2022チャレンジ:乳がん組織の自動登録

The ACROBAT 2022 Challenge: Automatic Registration Of Breast Cancer Tissue ( http://arxiv.org/abs/2305.18033v1 )

ライセンス: Link先を確認
Philippe Weitz, Masi Valkonen, Leslie Solorzano, Circe Carr, Kimmo Kartasalo, Constance Boissin, Sonja Koivukoski, Aino Kuusela, Dusan Rasic, Yanbo Feng, Sandra Sinius Pouplier, Abhinav Sharma, Kajsa Ledesma Eriksson, Stephanie Robertson, Christian Marzahl, Chandler D. Gatenbee, Alexander R.A. Anderson, Marek Wodzinski, Artur Jurgas, Niccol\`o Marini, Manfredo Atzori, Henning M\"uller, Daniel Budelmann, Nick Weiss, Stefan Heldmann, Johannes Lotz, Jelmer M. Wolterink, Bruno De Santi, Abhijeet Patil, Amit Sethi, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Mahtab Farrokh, Neeraj Kumar, Russell Greiner, Leena Latonen, Anne-Vibeke Laenkholm, Johan Hartman, Pekka Ruusuvuori, Mattias Rantalainen(参考訳) 病理組織学的全スライディング画像(WSI)間の組織アライメントは研究および臨床応用に不可欠である。 コンピューティング、ディープラーニング、大規模wsiデータセットの可用性の進歩は、wsi分析に革命をもたらした。 したがって、wsi登録の現状は明らかでない。 この課題に対処するため,1,152人の乳癌患者の4,212個のWSIを含む,過去最大のWSI登録データセットに基づいてACROBATチャレンジを実施した。 課題は, 正常な診断免疫組織化学で染色した組織WSIを, H&E染色した組織と一致させることであった。 各種WSI特性と臨床共変量の影響の調査を含む,8つのWSI登録アルゴリズムの性能を比較した。 概念的に異なるwsi登録手法は、高い精度の登録性能をもたらし、メソッド間のパフォーマンスに影響を与える共変量を特定することができる。 これらの結果から,wsi 登録の現状が明らかになり,提案手法の選択と開発が研究されている。

The alignment of tissue between histopathological whole-slide-images (WSI) is crucial for research and clinical applications. Advances in computing, deep learning, and availability of large WSI datasets have revolutionised WSI analysis. Therefore, the current state-of-the-art in WSI registration is unclear. To address this, we conducted the ACROBAT challenge, based on the largest WSI registration dataset to date, including 4,212 WSIs from 1,152 breast cancer patients. The challenge objective was to align WSIs of tissue that was stained with routine diagnostic immunohistochemistry to its H&E-stained counterpart. We compare the performance of eight WSI registration algorithms, including an investigation of the impact of different WSI properties and clinical covariates. We find that conceptually distinct WSI registration methods can lead to highly accurate registration performances and identify covariates that impact performances across methods. These results establish the current state-of-the-art in WSI registration and guide researchers in selecting and developing methods.
翻訳日:2023-05-30 15:09:36 公開日:2023-05-29
# 銅酸化物及び関連材料における準粒子散乱速度とARPESのゼーマン依存性

Zeeman dependence of the quasiparticle scattering rate and ARPES in copper oxides and related materials ( http://arxiv.org/abs/2305.18083v1 )

ライセンス: Link先を確認
George Kastrinakis(参考訳) 強相互作用の強いフェルミ液体の枠組みの中では、フェルミ表面の前後に位置するファン・ホーブピークの密度の金属系において、有限磁場に対するゼーマンエネルギー$\omega_H$の効果を計算する。 化学ポテンシャルは$\omega_H$で増加する。 常およびd波超伝導状態の両方において、最大で$\omega_h$ と温度で線形な特性準粒子散乱速度を求める。 我々は、ARPES実験が散乱速度のこの挙動、特にスピンアップとダウン電子の差を解明できるはずだと予測する。

Within a strongly interacting Fermi liquid framework, we calculate the effects of the Zeeman energy $\omega_H$ for a finite magnetic field, in a metallic system with a van Hove peak in the density of states, located close to and below the Fermi surface. We find that the chemical potential increases with the square of $\omega_H$. We obtain a characteristic quasiparticle scattering rate linear in the maximum of $\omega_H$ and temperature, both in the normal and the d-wave superconducting state. We predict that ARPES experiments should be able to elucidate this behavior of the scattering rate, and in particular, the difference between spin up and down electrons.
翻訳日:2023-05-30 15:02:14 公開日:2023-05-29
# ゲーム・オブ・トーン:大学評価におけるGPT-4生成コンテンツの検出

Game of Tones: Faculty detection of GPT-4 generated content in university assessments ( http://arxiv.org/abs/2305.18081v1 )

ライセンス: Link先を確認
Mike Perkins (1), Jasper Roe (2), Darius Postma (1), James McGaughran (1), Don Hickerson (1) ((1) British University Vietnam, Vietnam, (2) James Cook University Singapore, Singapore)(参考訳) 本研究では,Open AIのジェネレーティブ・プレトレーニング・トランスフォーマー4(GPT-4)生成コンテンツの使用に対する大学評価の堅牢性を検討するとともに,Turnitin Artificial Intelligence(AI)検出ツールによって支援された場合の学習スタッフによるその使用を検出する能力を評価する。 この研究には22のgpt-4が作成され、15の異なる教員による評価プロセスに含まれた。 実験結果の91%はaiが生成したコンテンツを含んでいるが、検出されたコンテンツは54.8%に過ぎなかった。 このことは,AI検出ツールの回避には,インシデントエンジニアリングに関する敵のテクニックの使用が有効な方法であり,AI検出ソフトウェアの改善が必要であることを強調している。 Turnitin AI検出ツールを使用して、学部は学術的不正行為プロセスへの実験的な提出の54.5%を報告し、これらのツールに対する認識と訓練の強化の必要性を示唆した。 Genuineの応募は54.4点、AIが生成したコンテンツは52.3点、実際の状況ではGPT-4に匹敵する性能を示した。 勧告には、AIツールの使用に抵抗しやすくするためのアセスメント戦略の調整、可能な限りAI非包括的アセスメントの使用、教員や学生に対する包括的なトレーニングプログラムの提供が含まれる。 本研究は,ai生成コンテンツと学術的評価との関係の理解に寄与し,学術的整合性を保つためのさらなる調査を促している。

This study explores the robustness of university assessments against the use of Open AI's Generative Pre-Trained Transformer 4 (GPT-4) generated content and evaluates the ability of academic staff to detect its use when supported by the Turnitin Artificial Intelligence (AI) detection tool. The research involved twenty-two GPT-4 generated submissions being created and included in the assessment process to be marked by fifteen different faculty members. The study reveals that although the detection tool identified 91% of the experimental submissions as containing some AI-generated content, the total detected content was only 54.8%. This suggests that the use of adversarial techniques regarding prompt engineering is an effective method in evading AI detection tools and highlights that improvements to AI detection software are needed. Using the Turnitin AI detect tool, faculty reported 54.5% of the experimental submissions to the academic misconduct process, suggesting the need for increased awareness and training into these tools. Genuine submissions received a mean score of 54.4, whereas AI-generated content scored 52.3, indicating the comparable performance of GPT-4 in real-life situations. Recommendations include adjusting assessment strategies to make them more resistant to the use of AI tools, using AI-inclusive assessment where possible, and providing comprehensive training programs for faculty and students. This research contributes to understanding the relationship between AI-generated content and academic assessment, urging further investigation to preserve academic integrity.
翻訳日:2023-05-30 15:01:58 公開日:2023-05-29
# NeRF評価のためのロバストフレームワークを目指して

Towards a Robust Framework for NeRF Evaluation ( http://arxiv.org/abs/2305.18079v1 )

ライセンス: Link先を確認
Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull(参考訳) neural radiance field (nerf)の研究は、3dモデリング、バーチャル/拡張現実、視覚効果など、近年注目を集めている。 現在のNeRF実装では、高品質な視覚的結果が得られるが、それらを評価するための信頼性の高い方法が特に欠けている。 従来の画像品質評価手法と分析指標(PSNR、SSIM、LPIPSなど)は、NeRFパイプライン全体の能力を一般化するため、性能の近似指標を提供するだけである。 そこで本稿では,ニューラルレンダリングネットワークをNeRFパイプラインから分離した上で,明示的な放射場表現に基づいてNeRFをトレーニングし,評価することで,パラメトリック評価を行う新しいテストフレームワークを提案する。 また,評価目的に特有な表現を生成するための構成可能なアプローチも導入する。 これは、メッシュモデルを明示的なNeRFサンプルに変換するためにレイキャストを使用し、これらの表現を"シェード"する。 これら2つのアプローチを組み合わせることで、このフレームワーク内で異なる「タスク」(視覚効果や学習戦略の異なるシーン)と種類のネットワーク(nerfs and depth-wise implicit neural representations (inrs))をどのように評価できるかを実証する。 さらに,視覚的パラメータと空間データの分布を考慮に入れたフレームワークのタスク複雑性を測定するための新しい指標を提案する。 我々のアプローチは、NeRF法の比較客観的評価フレームワークを作成する可能性を提供します。

Neural Radiance Field (NeRF) research has attracted significant attention recently, with 3D modelling, virtual/augmented reality, and visual effects driving its application. While current NeRF implementations can produce high quality visual results, there is a conspicuous lack of reliable methods for evaluating them. Conventional image quality assessment methods and analytical metrics (e.g. PSNR, SSIM, LPIPS etc.) only provide approximate indicators of performance since they generalise the ability of the entire NeRF pipeline. Hence, in this paper, we propose a new test framework which isolates the neural rendering network from the NeRF pipeline and then performs a parametric evaluation by training and evaluating the NeRF on an explicit radiance field representation. We also introduce a configurable approach for generating representations specifically for evaluation purposes. This employs ray-casting to transform mesh models into explicit NeRF samples, as well as to "shade" these representations. Combining these two approaches, we demonstrate how different "tasks" (scenes with different visual effects or learning strategies) and types of networks (NeRFs and depth-wise implicit neural representations (INRs)) can be evaluated within this framework. Additionally, we propose a novel metric to measure task complexity of the framework which accounts for the visual parameters and the distribution of the spatial data. Our approach offers the potential to create a comparative objective evaluation framework for NeRF methods.
翻訳日:2023-05-30 15:01:27 公開日:2023-05-29
# ディープラーニングの成功を支えるメカニズム

The mechanism underlying successful deep learning ( http://arxiv.org/abs/2305.18078v1 )

ライセンス: Link先を確認
Yarden Tzach, Yuval Meir, Ofek Tevet, Ronit D. Gross, Shiri Hodassman, Roni Vardi and Ido Kanter(参考訳) 深層アーキテクチャは、数十から数百の畳み込み層(CL)で構成され、いくつかの完全連結層(FC)と複雑な分類タスクのラベルを表す出力層で構成される。 既存のディープラーニング(dl)の根拠によれば、最初のclは生データからローカライズされた特徴を示し、続くレイヤは洗練された分類に必要な高レベルな特徴を徐々に抽出する。 本稿では,DLの基盤となるメカニズムを定量化する3段階の効率的な手法を提案する。 まず、成功率(sr)を最大化するために、深いアーキテクチャを訓練する。 次に、最初の数個のclの重みが固定され、出力に接続された結合された新しいfc層のみが訓練され、srsが層に進行する。 最後に、訓練されたfc重みを単一のフィルタから発生するものを除いて沈黙させ、入力ラベルと平均出力フィールドの相関行列を用いて、このフィルタの機能の定量化を可能にすることにより、定量化可能な特徴の集合を得る。 各フィルタは基本的に入力ラベルとは無関係に単一の出力ラベルを選択し、高いSRを防止しているように見えるが、出力ラベルの小さなサブセットを反故意に識別する。 この特徴は基礎となるDL機構の不可欠な部分であり、層によって徐々にシャープ化され、信号対雑音比とSRが向上する。 この機構は、VGG-16、VGG-6、AVGG-16によって定量的に実証される。 DLの基盤となるメカニズムは、各フィルタの品質を特定するための正確なツールを提供し、SR、計算複雑性、DLのレイテンシを改善するための追加手順を指示することが期待されている。

Deep architectures consist of tens or hundreds of convolutional layers (CLs) that terminate with a few fully connected (FC) layers and an output layer representing the possible labels of a complex classification task. According to the existing deep learning (DL) rationale, the first CL reveals localized features from the raw data, whereas the subsequent layers progressively extract higher-level features required for refined classification. This article presents an efficient three-phase procedure for quantifying the mechanism underlying successful DL. First, a deep architecture is trained to maximize the success rate (SR). Next, the weights of the first several CLs are fixed and only the concatenated new FC layer connected to the output is trained, resulting in SRs that progress with the layers. Finally, the trained FC weights are silenced, except for those emerging from a single filter, enabling the quantification of the functionality of this filter using a correlation matrix between input labels and averaged output fields, hence a well-defined set of quantifiable features is obtained. Each filter essentially selects a single output label independent of the input label, which seems to prevent high SRs; however, it counterintuitively identifies a small subset of possible output labels. This feature is an essential part of the underlying DL mechanism and is progressively sharpened with layers, resulting in enhanced signal-to-noise ratios and SRs. Quantitatively, this mechanism is exemplified by the VGG-16, VGG-6, and AVGG-16. The proposed mechanism underlying DL provides an accurate tool for identifying each filter's quality and is expected to direct additional procedures to improve the SR, computational complexity, and latency of DL.
翻訳日:2023-05-30 15:01:02 公開日:2023-05-29
# 効率的な深層ハッシュ検索に向けて - 特徴埋め込みマッチングによるデータの凝縮

Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching ( http://arxiv.org/abs/2305.18076v1 )

ライセンス: Link先を確認
Tao Feng, Jie Zhang, Peizheng Wang, Zhijie Wang(参考訳) 最先端の深層ハッシュ検索モデルのトレーニングに要する費用は、より洗練されたモデルと大規模データセットの採用により増大している。 dataset distillation(dd)またはdataset condensation(dc)は、元の情報を保持する小さな合成データセットの生成に焦点を当てている。 それでも既存のDD手法は精度と効率のトレードオフを維持する上で困難に直面している。 そして、最先端のデータセット蒸留法は、すべての深いハッシュ検索方法に拡張できない。 本稿では,合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。 さらに,初期の拡張モデルとマルチフォームの戦略を取り入れることで,特徴の多様性を高める。 大規模実験は、最先端のベースライン法と比較して、性能と効率の両面において、我々のアプローチが顕著に優れていることを示す証拠となる。

The expenses involved in training state-of-the-art deep hashing retrieval models have witnessed an increase due to the adoption of more sophisticated models and large-scale datasets. Dataset Distillation (DD) or Dataset Condensation(DC) focuses on generating smaller synthetic dataset that retains the original information. Nevertheless, existing DD methods face challenges in maintaining a trade-off between accuracy and efficiency. And the state-of-the-art dataset distillation methods can not expand to all deep hashing retrieval methods. In this paper, we propose an efficient condensation framework that addresses these limitations by matching the feature-embedding between synthetic set and real set. Furthermore, we enhance the diversity of features by incorporating the strategies of early-stage augmented models and multi-formation. Extensive experiments provide compelling evidence of the remarkable superiority of our approach, both in terms of performance and efficiency, compared to state-of-the-art baseline methods.
翻訳日:2023-05-30 15:00:35 公開日:2023-05-29
# マルチコンテキストデータ生成によるテキスト専用画像キャプション

Text-Only Image Captioning with Multi-Context Data Generation ( http://arxiv.org/abs/2305.18072v1 )

ライセンス: Link先を確認
Feipeng Ma, Yizhou Zhou, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun(参考訳) Text-only Image Captioning (TIC)は、画像の正確な記述が可能なテキストのみに基づくモデルの構築を目的としたアプローチである。 近年の拡散モデルでは、与えられたテキストと意味的に一貫性のある高品質な画像を生成することができる。 これにより、TICのための合成訓練画像を生成することができる。 しかし,単純な記述から生成された画像は,画像領域における実世界のシーンの複雑さとは一致しない,1つまたは限られたコンテキストで1つの視点を示すのが一般的である。 本稿では,マルチコンテキストデータ生成を導入してこの問題に対処する新しいフレームワークを提案する。 最初のテキストコーパスから始めて、フレームワークは様々な視点から同じシーンを記述する複数の文を選択するために、大きな言語モデルを使用する。 これらの文は、複数のコンテキストを持つ単一の文にまとめられる。 拡散モデルを用いて要約した文を用いて,簡単な文と複雑な画像を生成する。 最後に,このプロセスから得られた合成画像-テキストペアのみを用いてモデルを訓練する。 実験結果から,提案フレームワークは,mscoco,flickr30k,ss1mなどの一般的なデータセットにおける最先端のパフォーマンスを実現するため,我々が認識した中心的課題に効果的に対処できることが判明した。

Text-only Image Captioning (TIC) is an approach that aims to construct a model solely based on text that can accurately describe images. Recently, diffusion models have demonstrated remarkable capabilities in generating high-quality images that are semantically coherent with given texts. This presents an opportunity to generate synthetic training images for TIC. However, we have identified a challenge that the images generated from simple descriptions typically exhibit a single perspective with one or limited contexts, which is not aligned with the complexity of real-world scenes in the image domain. In this paper, we propose a novel framework that addresses this issue by introducing multi-context data generation. Starting with an initial text corpus, our framework employs a large language model to select multiple sentences that describe the same scene from various perspectives. These sentences are then summarized into a single sentence with multiple contexts. We generate simple images using the straightforward sentences and complex images using the summarized sentences through diffusion models. Finally, we train the model exclusively using the synthetic image-text pairs obtained from this process. Experimental results demonstrate that our proposed framework effectively tackles the central challenge we have identified, achieving the state-of-the-art performance on popular datasets such as MSCOCO, Flickr30k, and SS1M.
翻訳日:2023-05-30 15:00:20 公開日:2023-05-29
# マルチエージェントシステムにおける合理性の統一モデルに向けて

Towards a Unifying Model of Rationality in Multiagent Systems ( http://arxiv.org/abs/2305.18071v1 )

ライセンス: Link先を確認
Robert Loftin, Mustafa Mert \c{C}elikok, Frans A. Oliehoek(参考訳) 現実世界に配備されたマルチエージェントシステムは、これらのエージェントが互いに協力するのと同じくらい効果的に他のエージェント(人間を含む)と協力する必要がある。 このようなAIを設計し、その有効性を保証するためには、AIがどんな種類のエージェントと協力できなければならないかを明確に指定する必要があります。 本研究は, 個別に合理的な学習者であり, 相互に協調できる(共同行動がパレート効率であるという意味で)社会的に知的なエージェントの汎用モデルを提案する。 我々は,各エージェントが生涯にわたって生み出した後悔を合理性として定義し,異なる形態の後悔に対して社会的に知的なエージェントを構築する方法を示す。 次に,このモデルが多種多様な社会的知的なエージェントと協調できる「ロバスト」masの開発に与える影響について論じる。

Multiagent systems deployed in the real world need to cooperate with other agents (including humans) nearly as effectively as these agents cooperate with one another. To design such AI, and provide guarantees of its effectiveness, we need to clearly specify what types of agents our AI must be able to cooperate with. In this work we propose a generic model of socially intelligent agents, which are individually rational learners that are also able to cooperate with one another (in the sense that their joint behavior is Pareto efficient). We define rationality in terms of the regret incurred by each agent over its lifetime, and show how we can construct socially intelligent agents for different forms of regret. We then discuss the implications of this model for the development of "robust" MAS that can cooperate with a wide variety of socially intelligent agents.
翻訳日:2023-05-30 14:59:59 公開日:2023-05-29
# 雑音残差畳み込みニューラルネットワークによる空間領域の法医学的ビデオステガナリシス

Forensic Video Steganalysis in Spatial Domain by Noise Residual Convolutional Neural Network ( http://arxiv.org/abs/2305.18070v1 )

ライセンス: Link先を確認
Mart Keizer, Zeno Geradts, Meike Kombrink(参考訳) 本研究は, 画像ステガナシスに対する畳み込みニューラルネットワーク(CNN)に基づくアプローチを評価する。 ビデオステガノグラフィーデータセットを作成し、CNNを訓練して空間領域で法医学的ステガノリシスを行う。 ノイズ残差畳み込みニューラルネットワークを用いて埋め込み秘密を検出する。ステガノグラフィ埋め込みプロセスではビデオフレームの画素値が常に変更されるためである。 実験の結果、cnnに基づくアプローチは鑑識ビデオのステグアナリシスに有効な手法となり、検出率は99.96%に達した。 キーワード:法医学、seg analysis、deep steganography、msu stegovideo、convolutional neural networks

This research evaluates a convolutional neural network (CNN) based approach to forensic video steganalysis. A video steganography dataset is created to train a CNN to conduct forensic steganalysis in the spatial domain. We use a noise residual convolutional neural network to detect embedded secrets since a steganographic embedding process will always result in the modification of pixel values in video frames. Experimental results show that the CNN-based approach can be an effective method for forensic video steganalysis and can reach a detection rate of 99.96%. Keywords: Forensic, Steganalysis, Deep Steganography, MSU StegoVideo, Convolutional Neural Networks
翻訳日:2023-05-30 14:59:45 公開日:2023-05-29
# ボールオルタナティブが欠如する一様性に対する離散分布ヒストグラムの試験におけるミニマックスリスク

The minimax risk in testing the histogram of discrete distributions for uniformity under missing ball alternatives ( http://arxiv.org/abs/2305.18111v1 )

ライセンス: Link先を確認
Alon Kipnis(参考訳) 我々は,多くのカテゴリからカテゴリ上の一様分布への離散的サンプルの適合性をテストする問題を考える。 代替仮説のクラスとして、半径$\epsilon$ の $\ell_p$ の球を、$p \leq 2$ の均一レート列の周りに取り除くことを考える。 標本の数と次元の数が無限になるに従って$\epsilon \to 0$のとき、漸近的ミニマックスのリスクを鋭く特徴づけ、発生のヒストグラム(不在のカテゴリ、シングルトン、衝突、...)に基づいてテストする。 例えば、$p=1$ と、期待されるサンプル数の制限で$n$ は、カテゴリー数$n$ (別名 "sub-linear" regime) と比較して、minimax リスク $r^*_\epsilon$ asymptotes to $2 \bar{\phi}\left(n \epsilon^2/\sqrt{8n}\right) $, with $\bar{\phi}(x)$ は通常の生存関数である。 種々の問題パラメータに関する実証的な研究により、この推定は有限標本において正確であり、我々のテストは衝突のみを用いるチフタッドテストやテストよりもはるかに優れていることが示された。 本解析は,ヒストグラム順序の漸近正規性,ミニマックス設定とベイズ設定の等価性,多次元最適化問題の1次元問題への還元に基づく。

We consider the problem of testing the fit of a discrete sample of items from many categories to the uniform distribution over the categories. As a class of alternative hypotheses, we consider the removal of an $\ell_p$ ball of radius $\epsilon$ around the uniform rate sequence for $p \leq 2$. We deliver a sharp characterization of the asymptotic minimax risk when $\epsilon \to 0$ as the number of samples and number of dimensions go to infinity, for testing based on the occurrences' histogram (number of absent categories, singletons, collisions, ...). For example, for $p=1$ and in the limit of a small expected number of samples $n$ compared to the number of categories $N$ (aka "sub-linear" regime), the minimax risk $R^*_\epsilon$ asymptotes to $2 \bar{\Phi}\left(n \epsilon^2/\sqrt{8N}\right) $, with $\bar{\Phi}(x)$ the normal survival function. Empirical studies over a range of problem parameters show that this estimate is accurate in finite samples, and that our test is significantly better than the chisquared test or a test that only uses collisions. Our analysis is based on the asymptotic normality of histogram ordinates, the equivalence between the minimax setting to a Bayesian one, and the reduction of a multi-dimensional optimization problem to a one-dimensional problem.
翻訳日:2023-05-30 14:52:04 公開日:2023-05-29
# フラグメントに基づく量子化学のための量子アルゴリズムの状態準備

State preparation in quantum algorithms for fragment-based quantum chemistry ( http://arxiv.org/abs/2305.18110v1 )

ライセンス: Link先を確認
Ruhee D'Cunha, Matthew Otten, Matthew R. Hermes, Laura Gagliardi and Stephen K. Gray(参考訳) 量子アルゴリズムの状態準備は、量子化学において高い精度を達成するために重要であり、古典的なアルゴリズムと競合する。 局所化アクティブスペースユニタリ結合クラスタ(las-ucc)アルゴリズムは、量子コンピュータにフラグメントベースのマルチリファレンス波動関数を反復的にロードする。 本研究では,各フラグメントに対して量子位相推定(QPE)と直接初期化(DI)の2つの状態準備法を比較する。 本研究は,アシラ量子ビット数やトロッターステップ数などのQPEパラメータが準備状態に与える影響を解析する。 一方、QPEはより大きなフラグメントに対してより効率的であるのに対して、DIでは小さなフラグメントに対してリソースが少なくなります。 我々の資源推定は、その後の量子化学計算のための状態準備におけるシステムの断片化の利点を浮き彫りにする。 これらの結果は、量子回路、特にQPE回路を経由したマルチ参照量子化学波動関数の作成に広く応用されている。

State preparation for quantum algorithms is crucial for achieving high accuracy in quantum chemistry and competing with classical algorithms. The localized active space unitary coupled cluster (LAS-UCC) algorithm iteratively loads a fragment-based multireference wave function onto a quantum computer. In this study, we compare two state preparation methods, quantum phase estimation (QPE) and direct initialization (DI), for each fragment. We analyze the impact of QPE parameters, such as the number of ancilla qubits and Trotter steps, on the prepared state. We find a trade-off between the methods, where DI requires fewer resources for smaller fragments, while QPE is more efficient for larger fragments. Our resource estimates highlight the benefits of system fragmentation in state preparation for subsequent quantum chemical calculations. These findings have broad applications for preparing multireference quantum chemical wave functions on quantum circuits, particularly via QPE circuits.
翻訳日:2023-05-30 14:51:30 公開日:2023-05-29
# デュアルフローモデリングによる医療対話生成

Medical Dialogue Generation via Dual Flow Modeling ( http://arxiv.org/abs/2305.18109v1 )

ライセンス: Link先を確認
Kaishuai Xu, Wenjun Hou, Yi Cheng, Jian Wang, Wenjie Li(参考訳) 医療対話システム(MDS)は、患者に診断や処方薬などの医療サービスを提供することを目的としている。 ほとんどの患者は症状を正確に説明できないため、MDSでは対話理解が難しい。 先行研究は主に、前述の医療機関を重要な対話履歴情報として抽出することでこの問題に対処した。 本研究は, 医師の対話と医師の対話の推移を各ターンで捉えることも重要であると論じ, 対話のフローの理解と, 次のターンでの対話と対話の予測の促進に寄与する。 そこで,我々はdual flow enhanced medical (dfmed) 対話生成フレームワークを提案する。 対話履歴で使用される医療的実体と対話的行為を抽出し、その遷移をエンティティ中心のグラフフローとシーケンシャルな行動フローでモデル化する。 我々は2つのシーケンシャルモデルを用いてそれらを符号化し、相互作用を強化するために織り部品を考案する。 2つのデータセットの実験により,自動評価と手動評価の両方において,本手法がベースラインを超えることを示した。

Medical dialogue systems (MDS) aim to provide patients with medical services, such as diagnosis and prescription. Since most patients cannot precisely describe their symptoms, dialogue understanding is challenging for MDS. Previous studies mainly addressed this by extracting the mentioned medical entities as critical dialogue history information. In this work, we argue that it is also essential to capture the transitions of the medical entities and the doctor's dialogue acts in each turn, as they help the understanding of how the dialogue flows and enhance the prediction of the entities and dialogue acts to be adopted in the following turn. Correspondingly, we propose a Dual Flow enhanced Medical (DFMed) dialogue generation framework. It extracts the medical entities and dialogue acts used in the dialogue history and models their transitions with an entity-centric graph flow and a sequential act flow, respectively. We employ two sequential models to encode them and devise an interweaving component to enhance their interactions. Experiments on two datasets demonstrate that our method exceeds baselines in both automatic and manual evaluations.
翻訳日:2023-05-30 14:51:15 公開日:2023-05-29
# 精度・一般化トレードオフのための工作訓練劣化分布

Crafting Training Degradation Distribution for the Accuracy-Generalization Trade-off ( http://arxiv.org/abs/2305.18107v1 )

ライセンス: Link先を確認
Ruofan Zhang, Jinjin Gu, Haoyu Chen, Chao Dong, Yulun Zhang, Wenming Yang(参考訳) 超解像(SR)技術は、一般に、一般化性能と復元精度の2つの主要な課題に直面する。 一般化を促進するために,複雑な大規模分解を用いて手法を訓練する場合,精度の低下が避けられないことを示す。 しかし、ある実世界のアプリケーションにおける劣化は、通常、限定的な変動範囲を示すため、このスコープでの一般化性能とテスト精度のトレードオフを犯すことができる。 そこで本研究では,少数の参照画像を用いたクラフトトレーニング劣化分布の新しい手法を提案する。 我々の戦略は分解空間の双対表現と分解分布の間のfr\'echet距離に基づいている。 提案手法は,実世界のアプリケーションにおける一般化能力を保ちながら,テスト画像の性能を著しく向上することを示す。

Super-resolution (SR) techniques designed for real-world applications commonly encounter two primary challenges: generalization performance and restoration accuracy. We demonstrate that when methods are trained using complex, large-range degradations to enhance generalization, a decline in accuracy is inevitable. However, since the degradation in a certain real-world applications typically exhibits a limited variation range, it becomes feasible to strike a trade-off between generalization performance and testing accuracy within this scope. In this work, we introduce a novel approach to craft training degradation distributions using a small set of reference images. Our strategy is founded upon the binned representation of the degradation space and the Fr\'echet distance between degradation distributions. Our results indicate that the proposed technique significantly improves the performance of test images while preserving generalization capabilities in real-world applications.
翻訳日:2023-05-30 14:50:58 公開日:2023-05-29
# 大規模言語モデルを用いたユーザペルソナ記述:半構造化インタビューのテーマ分析のフェーズ6

Writing user personas with Large Language Models: Testing phase 6 of a Thematic Analysis of semi-structured interviews ( http://arxiv.org/abs/2305.18099v1 )

ライセンス: Link先を確認
Stefano De Paoli(参考訳) 本論文の目的は,大規模言語モデル(より正確にはGPT3.5-Turbo)を用いて,半構造化インタビューのテーマ分析(TA)を満足して実施できるかどうかを確立することである。 本論文は, TAをモデルで実行するための胚過程を確立した著者による以前の研究に基づいて, さらに解析を行い, TAの最終段階(フェーズ6)をカバーする。 このフェーズは以前の作業ではカバーされなかった。 特に、ユーザのパーソナライズを記述するために、ユーザインタビューのデータセットにllmで行なったtaの結果と、ペルソナナナナラティブを生成するためにta上に構築されたモデルを使用することに重点を置く。 ユーザペルソナは実際のユーザのモデルであり、通常、ユーザーのサンプルとのインタビューのようなデータ分析から構築される。 ユーザペルソナは、ユーザ中心設計プロセスでよく使用されるツールである。 本稿は,モデルがユーザパーソナライズのための基本的なユーザパーソナライズをテーマから許容できる品質で構築し,そのモデルがユーザパーソナライズのためのアイデアの生成に役立てることができることを示す。

The goal of this paper is establishing if we can satisfactorily perform a Thematic Analysis (TA) of semi-structured interviews using a Large Language Model (more precisely GPT3.5-Turbo). Building on previous work by the author, which established an embryonal process for conducting a TA with the model, this paper will perform a further analysis and then cover the last phase of a TA (phase 6), which entails the writing up of the result. This phase was not covered by the previous work. In particular, the focus will be on using the results of a TA done with the LLM on a dataset of user interviews, for writing user personas, with the model building on the TA to produce the personas narratives. User personas are models of real users, usually built from a data analysis like interviews with a sample of users. User personas are tools often used in User Centered Design processes. The paper shows that the model can build basic user personas with an acceptable quality deriving them from themes, and that the model can serve for the generation of ideas for user personas.
翻訳日:2023-05-30 14:50:45 公開日:2023-05-29
# BigTrans: 100言語を超える多言語翻訳機能を備えた大規模言語モデルの拡張

BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages ( http://arxiv.org/abs/2305.18098v1 )

ライセンス: Link先を確認
Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong(参考訳) 大規模言語モデル(LLM)は、様々な自然言語間で有望な翻訳性能を示す。 しかし、BLOOM や LLaMA のようなオープンソース言語の多くは英語に支配的であり、数十の自然言語しかサポートしていないため、言語翻訳における LLM の可能性はあまり調査されていない。 本研究では,20言語のみをカバーするLLaMAに適応し,100言語以上の多言語翻訳機能を備えたBigTransを提案する。 BigTransはLLaMA-13B上に構築されており、3つのステップで最適化されている。 まず,中国一言語データを用いたLLaMAのトレーニングを継続する。 第2に,102の自然言語をカバーする大規模並列データセットによるモデルのトレーニングを継続する。 第3に、多言語翻訳命令で基礎モデルをチューニングし、BigTransモデルに導いた。 多言語翻訳の予備実験では、BigTransは多くの言語でChatGPTとGoogle Translateと互換性があり、8つの言語ペアでChatGPTを上回ります。 われわれはBigTransモデルをリリースし、研究の進展を期待している。

Large language models (LLMs) demonstrate promising translation performance among various natural languages. However, many LLMs especially the open-sourced ones, such as BLOOM and LLaMA, are English-dominant and support only dozens of natural languages, making the potential of LLMs on language translation less explored. In this work, we present BigTrans which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languages. BigTrans is built upon LLaMA-13B and it is optimized in three steps. First, we continue training LLaMA with massive Chinese monolingual data. Second, we continue training the model with a large-scale parallel dataset that covers 102 natural languages. Third, we instruct-tune the foundation model with multilingual translation instructions, leading to our BigTrans model. The preliminary experiments on multilingual translation show that BigTrans performs comparably with ChatGPT and Google Translate in many languages and even outperforms ChatGPT in 8 language pairs. We release the BigTrans model and hope it can advance the research progress.
翻訳日:2023-05-30 14:50:24 公開日:2023-05-29
# 離散単位を中間目的とするテキストレス音声言語理解の改善

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target ( http://arxiv.org/abs/2305.18096v1 )

ライセンス: Link先を確認
Guan-Wei Wu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee(参考訳) Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。 従来の研究は、事前訓練された自動音声認識(ASR)モデルやペアテキストを中間目標とするペア音声テキストデータを用いて、エンドツーエンドのSLUを進展させた。 しかし、ペアの書き起こしは高価であり、非書き起こし言語には非現実的である。 一方、Textless SLUは、ペアの書き起こしを使わずに、音声から意味情報を抽出する。 しかし、中間目標の欠如とテキストレスSLUの訓練指導は、しばしば準最適性能をもたらす。 本研究では, テキストレスSLUの性能向上のための中間ガイダンスとして, 自己教師型音声モデルからのコンテンツ非依存の離散単位を用いた。 本手法は,5つのSLUベンチマークコーパスのベースライン法を超えている。 さらに,単位指導は数発の学習を促進し,ノイズに対処するモデルの能力を高める。

Spoken Language Understanding (SLU) is a task that aims to extract semantic information from spoken utterances. Previous research has made progress in end-to-end SLU by using paired speech-text data, such as pre-trained Automatic Speech Recognition (ASR) models or paired text as intermediate targets. However, acquiring paired transcripts is expensive and impractical for unwritten languages. On the other hand, Textless SLU extracts semantic information from speech without utilizing paired transcripts. However, the absence of intermediate targets and training guidance for textless SLU often results in suboptimal performance. In this work, inspired by the content-disentangled discrete units from self-supervised speech models, we proposed to use discrete units as intermediate guidance to improve textless SLU performance. Our method surpasses the baseline method on five SLU benchmark corpora. Additionally, we find that unit guidance facilitates few-shot learning and enhances the model's ability to handle noise.
翻訳日:2023-05-30 14:50:05 公開日:2023-05-29
# コントラスト学習に基づく画像レイニングのための再帰的動的マルチスケールネットワーク

Contrastive Learning Based Recursive Dynamic Multi-Scale Network for Image Deraining ( http://arxiv.org/abs/2305.18092v1 )

ライセンス: Link先を確認
Zhiying Jiang, Risheng Liu, Shuzhou Yang, Zengxi Zhang, Xin Fan(参考訳) 雨のストリークは撮影された画像の可視性を大幅に低下させ、その後のコンピュータビジョンアプリケーションのパフォーマンスを制限している。 既存のディープラーニングベースのイメージレーダリング手法では,手作業によるネットワーク構築と,雨画像からの直接的なプロジェクションの学習が使用されている。 より良いレーディングパフォーマンスを追求するため、彼らはポジティブな情報とネガティブな情報の固有の特性を利用するのではなく、より複雑なアーキテクチャを詳述することに焦点を合わせている。 本稿では,雨と澄んだ画像の相関関係を解析し,雨と復元した画像の相互情報の最適化に先立ってコントラストを利用する,コントラスト学習に基づく画像デライニング手法を提案する。 複雑で多様な実世界の降雨パターンを考えると、再帰的なメカニズムが発達する。 マルチスケールの機能抽出と動的クロスレベル情報リクルートモジュールを含んでいる。 前者は多種多様な雨パターンをより正確に描写し、後者は浅層情報に対して高レベルな特徴を選択的に補うことができる。 提案する再帰的動的マルチスケールネットワークは,従来のRDMCとは対照的である。 合成ベンチマークと実世界の画像を用いた広範囲な実験により,提案するrdmcは雨のストレークの描写に強い性能を与え,最先端の手法を上回っていることが示された。 さらに,オブジェクト検出と意味セグメンテーションの実用的評価を行い,提案手法の有効性を示した。

Rain streaks significantly decrease the visibility of captured images and are also a stumbling block that restricts the performance of subsequent computer vision applications. The existing deep learning-based image deraining methods employ manually crafted networks and learn a straightforward projection from rainy images to clear images. In pursuit of better deraining performance, they focus on elaborating a more complicated architecture rather than exploiting the intrinsic properties of the positive and negative information. In this paper, we propose a contrastive learning-based image deraining method that investigates the correlation between rainy and clear images and leverages a contrastive prior to optimize the mutual information of the rainy and restored counterparts. Given the complex and varied real-world rain patterns, we develop a recursive mechanism. It involves multi-scale feature extraction and dynamic cross-level information recruitment modules. The former advances the portrayal of diverse rain patterns more precisely, while the latter can selectively compensate high-level features for shallow-level information. We term the proposed recursive dynamic multi-scale network with a contrastive prior, RDMC. Extensive experiments on synthetic benchmarks and real-world images demonstrate that the proposed RDMC delivers strong performance on the depiction of rain streaks and outperforms the state-of-the-art methods. Moreover, a practical evaluation of object detection and semantic segmentation shows the effectiveness of the proposed method.
翻訳日:2023-05-30 14:49:50 公開日:2023-05-29
# 検索とドメインフィードバックを用いたチャットGPTによる会話型ドラッグ編集

ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback ( http://arxiv.org/abs/2305.18090v1 )

ライセンス: Link先を確認
Shengchao Liu, Jiongxiao Wang, Yijin Yang, Chengpeng Wang, Ling Liu, Hongyu Guo, Chaowei Xiao(参考訳) chatgptのような会話型大規模言語モデル(llm)の最近の進歩は、薬物発見を含む様々な領域で顕著な期待を示している。 しかし、既存の研究は主に化学反応とレトロ合成における会話型LDMの能力の研究に重点を置いている。 創薬パイプラインにおける重要なタスクである薬物編集は、ほとんど未調査のままである。 このギャップを埋めるため,LSMを用いた薬物編集の体系的調査を容易にするフレームワークChatDrugを提案する。 ChatDrugは、プロンプトモジュール、検索およびドメインフィードバック(ReDF)モジュール、会話モジュールを併用して、効果的なドラッグ編集を効率化する。 実験により,小分子,ペプチド,タンパク質を包含する39項目中33項目において,chatdrugが最高の性能を示した。 さらに10例のケーススタディを通じて,chatdrugは,分子機能群,ペプチドモチーフ,タンパク質構造などの重要なサブ構造を識別して操作し,薬物編集のための多様な有効な提案を生成できることを実証した。 また、ChatDrugは、ドメイン固有の視点から洞察に富んだ説明を提供し、解釈可能性を高め、情報的な意思決定を可能にすることを示す。 この研究は、薬物編集のためのChatGPTと会話型LLMの可能性に光を当てている。 より効率的で協力的な薬物発見パイプラインへの道を開き、製薬研究と開発の発展に貢献した。

Recent advancements in conversational large language models (LLMs), such as ChatGPT, have demonstrated remarkable promise in various domains, including drug discovery. However, existing works mainly focus on investigating the capabilities of conversational LLMs on chemical reaction and retrosynthesis. While drug editing, a critical task in the drug discovery pipeline, remains largely unexplored. To bridge this gap, we propose ChatDrug, a framework to facilitate the systematic investigation of drug editing using LLMs. ChatDrug jointly leverages a prompt module, a retrieval and domain feedback (ReDF) module, and a conversation module to streamline effective drug editing. We empirically show that ChatDrug reaches the best performance on 33 out of 39 drug editing tasks, encompassing small molecules, peptides, and proteins. We further demonstrate, through 10 case studies, that ChatDrug can successfully identify the key substructures (e.g., the molecule functional groups, peptide motifs, and protein structures) for manipulation, generating diverse and valid suggestions for drug editing. Promisingly, we also show that ChatDrug can offer insightful explanations from a domain-specific perspective, enhancing interpretability and enabling informed decision-making. This research sheds light on the potential of ChatGPT and conversational LLMs for drug editing. It paves the way for a more efficient and collaborative drug discovery pipeline, contributing to the advancement of pharmaceutical research and development.
翻訳日:2023-05-30 14:49:12 公開日:2023-05-29
# 説明の理由:対話的コントラストの説明(REASONX)

Reason to explain: Interactive contrastive explanations (REASONX) ( http://arxiv.org/abs/2305.18143v1 )

ライセンス: Link先を確認
Laura State, Salvatore Ruggieri and Franco Turini(参考訳) 多くの高性能機械学習モデルは解釈できない。 個人に重大な影響を与えるような決定シナリオで使われるようになるにつれ、アウトプットをよりよく理解するためのツールを開発する必要がある。 一般的な説明法には対比的な説明がある。 しかし、背景知識の組み入れが不十分であり、相互作用性の欠如など、いくつかの欠点に悩まされている。 ダイアログのような)対話性は、説明をより良く伝えるために重要であるが、背景知識は、例えば、エンドユーザのニーズに説明を適用することによって、品質を大幅に改善する可能性がある。 このギャップを埋めるために,制約論理プログラミング(Constraint Logic Programming, CLP)に基づく説明ツールREASONXを提案する。 REASONXは、背景知識によって拡張可能な対話型コントラスト的説明を提供し、未特定情報の設定の下で動作可能であり、提供された説明の柔軟性が向上する。 REASONXは、実例と論証的決定規則を計算し、最も近い論証的な例を出力する。 分析対象のMLモデルである決定木や、任意のMLモデルのグローバル/ローカルサロゲートモデルの説明を提供する。 REASONXの中核部分はCLP上に構築されていますが、Pythonによる説明の計算を可能にするプログラム層も提供しています。 本稿では、合成データセット上でのREASONXの機能と、クレジットドメインにおける十分に発達した例について説明する。 どちらのケースでも、reasonxがどのように柔軟に使用され、ユーザのニーズに合わせて調整できるかを示せる。

Many high-performing machine learning models are not interpretable. As they are increasingly used in decision scenarios that can critically affect individuals, it is necessary to develop tools to better understand their outputs. Popular explanation methods include contrastive explanations. However, they suffer several shortcomings, among others an insufficient incorporation of background knowledge, and a lack of interactivity. While (dialogue-like) interactivity is important to better communicate an explanation, background knowledge has the potential to significantly improve their quality, e.g., by adapting the explanation to the needs of the end-user. To close this gap, we present REASONX, an explanation tool based on Constraint Logic Programming (CLP). REASONX provides interactive contrastive explanations that can be augmented by background knowledge, and allows to operate under a setting of under-specified information, leading to increased flexibility in the provided explanations. REASONX computes factual and constrative decision rules, as well as closest constrative examples. It provides explanations for decision trees, which can be the ML models under analysis, or global/local surrogate models of any ML model. While the core part of REASONX is built on CLP, we also provide a program layer that allows to compute the explanations via Python, making the tool accessible to a wider audience. We illustrate the capability of REASONX on a synthetic data set, and on a a well-developed example in the credit domain. In both cases, we can show how REASONX can be flexibly used and tailored to the needs of the user.
翻訳日:2023-05-30 14:43:54 公開日:2023-05-29
# U(1)対称ハイブリッド量子オートマトン回路における絡み合いダイナミクス

Entanglement dynamics in U(1) symmetric hybrid quantum automaton circuits ( http://arxiv.org/abs/2305.18141v1 )

ライセンス: Link先を確認
Yiqiu Han, Xiao Chen(参考訳) 量子オートマトン(QA)回路のU(1)対称性の存在下での絡み合いのダイナミクスについて検討する。 2つ目の R'enyi エントロピーは対数補正で微分的に成長し、Huang [IOP SciNotes 1, 035205 (2020)] によって確立された境界を飽和する。 qa回路の特長のおかげで、古典的ビット文字列モデルの観点から、絡み合いのダイナミクスを理解している。 具体的には、拡散ダイナミクスはスピン0または1の幅広い長い領域を含む希少なスローモードに由来すると論じる。 さらに,QA回路のU(1)対称性と特性を両立させる複合計測を導入することで,監視されたQA回路の絡み合いのダイナミクスを解明する。 測定速度が増加するにつれて、第2のR'enyiエントロピーが拡散成長(対数補正まで)を持続する体積法相から、時間的に対数的に成長する臨界相への遷移が存在することがわかった。 この興味深い現象は、u(1)対称ハール乱数回路のような非オートマトン回路とqa回路を区別し、体積則相転移の体積則が存在し、体積則相における射影的測定の非零度がr\'enyiエントロピーの弾道的成長をもたらす。

We study the entanglement dynamics of quantum automaton (QA) circuits in the presence of U(1) symmetry. We find that the second R\'enyi entropy grows diffusively with a logarithmic correction as $\sqrt{t\ln{t}}$, saturating the bound established by Huang [IOP SciNotes 1, 035205 (2020)]. Thanks to the special feature of QA circuits, we understand the entanglement dynamics in terms of a classical bit string model. Specifically, we argue that the diffusive dynamics stems from the rare slow modes containing extensively long domains of spin 0s or 1s. Additionally, we investigate the entanglement dynamics of monitored QA circuits by introducing a composite measurement that preserves both the U(1) symmetry and properties of QA circuits. We find that as the measurement rate increases, there is a transition from a volume-law phase where the second R\'enyi entropy persists the diffusive growth (up to a logarithmic correction) to a critical phase where it grows logarithmically in time. This interesting phenomenon distinguishes QA circuits from non-automaton circuits such as U(1)-symmetric Haar random circuits, where a volume-law to an area-law phase transition exists, and any non-zero rate of projective measurements in the volume-law phase leads to a ballistic growth of the R\'enyi entropy.
翻訳日:2023-05-30 14:43:28 公開日:2023-05-29
# セマンティクス整合トランスフォーマによるアライメントフリーhdrデグホスト

Alignment-free HDR Deghosting with Semantics Consistent Transformer ( http://arxiv.org/abs/2305.18135v1 )

ライセンス: Link先を確認
Steven Tel, Zongwei Wu, Yulun Zhang, Barth\'el\'emy Heyrman, C\'edric Demonceaux, Radu Timofte, Dominique Ginhac(参考訳) 高ダイナミックレンジイメージング(HDR)は、複数の低ダイナミックレンジ入力から情報を取得し、現実的な出力を生成することを目的としている。 本質的には、動的セマンティクスと静的セマンティクスの両方を含むコンテキスト情報を活用して、画像生成を改善する。 既存の手法では、前景やカメラの動きによる入力フレーム間の空間的不一致にしばしば焦点が当てられている。 しかし,動的コンテキストと静的コンテキストを同時に活用する研究は行われていない。 そこで本研究では,ネットワーク内の空間的およびチャネル的注意モジュールを併せ持つ,意味的一貫性を持つトランスフォーマー(sctnet)を用いたアライメントフリーネットワークを提案する。 空間的注意は動的動きをモデル化するための画像内相関に対処することを目的としており、チャネル的注意は画像間干渉を可能にし、フレーム間のセマンティック一貫性を高める。 これとは別に、前景の物体、環境要因、より大きな動きのバリエーションを持つ新しいリアルなHDRデータセットを導入する。 従来のデータセットと我々のデータの比較は,提案手法の有効性を検証し,性能と計算コストのトレードオフを最大化している。

High dynamic range (HDR) imaging aims to retrieve information from multiple low-dynamic range inputs to generate realistic output. The essence is to leverage the contextual information, including both dynamic and static semantics, for better image generation. Existing methods often focus on the spatial misalignment across input frames caused by the foreground and/or camera motion. However, there is no research on jointly leveraging the dynamic and static context in a simultaneous manner. To delve into this problem, we propose a novel alignment-free network with a Semantics Consistent Transformer (SCTNet) with both spatial and channel attention modules in the network. The spatial attention aims to deal with the intra-image correlation to model the dynamic motion, while the channel attention enables the inter-image intertwining to enhance the semantic consistency across frames. Aside from this, we introduce a novel realistic HDR dataset with more variations in foreground objects, environmental factors, and larger motions. Extensive comparisons on both conventional datasets and ours validate the effectiveness of our method, achieving the best trade-off on the performance and the computational cost.
翻訳日:2023-05-30 14:42:59 公開日:2023-05-29
# 接続性を考慮した等価回路平均化のための量子フレドキンとトフォリゲートの浅一元分解

Shallow unitary decompositions of quantum Fredkin and Toffoli gates for connectivity-aware equivalent circuit averaging ( http://arxiv.org/abs/2305.18128v1 )

ライセンス: Link先を確認
Pedro M. Q. Cruz, Bruno Murta(参考訳) 制御SWAPと制御制御NOTゲートは、FredkinとToffoliによる可逆的古典計算の提案の中心である。 量子計算において、量子アルゴリズムの古典論理サブルーチンの実装や、直接古典的な体系を持たない量子スキームの両方で広く使われているため、異なる物理プラットフォームに固有の下層ゲートセットの観点で、それらの効率的な分解を追求することが、早くから必須となっている。 ここでは, 論理的に等価な CNOT 数最適化回路をトッフォリゲートとフレドキンゲートに対して, 完全かつ線形な qubit 接続の下で提供し, 後者は制御とターゲット qubit に対する2つの異なるルーティングを持つ。 次に, 等価回路平均化によるコヒーレント誤差を軽減するために, これらの分解を短期量子コンピュータでどのように活用するかを示す。 また、トフォリゲートやフレドキンゲートが非自明に作用する3つのキュービットが隣接していない場合も考慮し、SWAP毎に1つのCNOTを節約する新しいスキームを提案する。 このスキームは、長距離CNOTの浅い実装にも使われる。 本結果は,効率的な量子回路の設計において,異なる絡み合い構造と接続制約を考慮することの重要性を強調した。

The controlled-SWAP and controlled-controlled-NOT gates are at the heart of the original proposal of reversible classical computation by Fredkin and Toffoli. Their widespread use in quantum computation, both in the implementation of classical logic subroutines of quantum algorithms and in quantum schemes with no direct classical counterparts, have made it imperative early on to pursue their efficient decomposition in terms of the lower-level gate sets native to different physical platforms. Here, we add to this body of literature by providing several logically equivalent CNOT-count-optimal circuits for the Toffoli and Fredkin gates under all-to-all and linear qubit connectivity, the latter with two different routings for control and target qubits. We then demonstrate how these decompositions can be employed on near-term quantum computers to mitigate coherent errors via equivalent circuit averaging. We also consider the case where the three qubits on which the Toffoli or Fredkin gates act nontrivially are not adjacent, proposing a novel scheme to reorder them that saves one CNOT for every SWAP. This scheme also finds use in the shallow implementation of long-range CNOTs. Our results highlight the importance of considering different entanglement structures and connectivity constraints when designing efficient quantum circuits.
翻訳日:2023-05-30 14:42:40 公開日:2023-05-29
# マグノンの固有非線形熱ホール輸送:量子動力学のアプローチ

Intrinsic nonlinear thermal Hall transport of magnons: A Quantum kinetic theory approach ( http://arxiv.org/abs/2305.18127v1 )

ライセンス: Link先を確認
Harsh Varshney, Rohit Mukherjee, Arijit Kundu, and Amit Agarwal(参考訳) 量子力学理論フレームワークを用いたボソニック系の非線形熱ホール応答の系統的研究を行った。 本研究では、波動関数依存バンド幾何量である量子メートル法から生じる固有非線形ボソン熱電流の存在を実証する。 非線形ドリュードおよび非線形異常ホールの寄与とは対照的に、固有の非線形熱伝導度は散乱時間スケールとは独立である。 本研究では,dzyaloshinskii-moriya相互作用を伴わない2次元強磁性ハニカム格子におけるトポロジカルマグノンの固有熱ホール応答の優位性を示す。 本研究は, バンド形状による非線形熱輸送の意義と, 量子マグノニクスによる固有非線形熱ホール応答の動機付け実験を行った。

We present a systematic study of the nonlinear thermal Hall responses in bosonic systems using the quantum kinetic theory framework. We demonstrate the existence of an intrinsic nonlinear boson thermal current, arising from the quantum metric which is a wavefunction dependent band geometric quantity. In contrast to the nonlinear Drude and nonlinear anomalous Hall contributions, the intrinsic nonlinear thermal conductivity is independent of the scattering timescale. We demonstrate the dominance of this intrinsic thermal Hall response in topological magnons in a two-dimensional ferromagnetic honeycomb lattice without Dzyaloshinskii-Moriya interaction. Our findings highlight the significance of band geometry induced nonlinear thermal transport and motivate experimental probe of the intrinsic nonlinear thermal Hall response with implications for quantum magnonics.
翻訳日:2023-05-30 14:42:14 公開日:2023-05-29
# 光子付加ベル型エンタングルコヒーレント状態の低vs高次非古典性

Lower-vs-Higher Order Non-classicality of Photon-added Bell-type Entangled Coherent States ( http://arxiv.org/abs/2305.18123v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) 生成演算子を用いて, ベル型エンタングルコヒーレント状態から得られる光子付加ベル型エンタングルコヒーレント状態(pbecs)の低次および高次非古典性を比較する。 我々は,マンデルの$Q_m^l$,アンチバンチング$d_h^{l-1}$,サブポジショニングフォトンの統計値$D_h(l-1)$,Squeezing$S(l)$の低次および高次基準を得た。 さらに、最初の3つの基準は任意の状態に対して非古典性を与えず、高次基準はパラメータのすべての値に対して非常に高い正の値を与える。 また、4番目の基準または最後の基準である$s(l)$は、より低い順序と高階の非古典性を与える。

We compare the lower and higher order non-classicality of a class of the photon-added Bell-type entangled coherent states (PBECS) got from Bell-type entangled coherent states using creation operators. We obtained lower and higher order criteria namely Mandel's $Q_m^l$, antibunching $d_h^{l-1}$, Subpoissioning photon statistics $D_h(l-1)$ and Squeezing $S(l)$ for the states obtained. Further we observe that first three criteria does not gives non-classicality for any state and higher order criteria gives very high positive values for all values of parameters. Also the fourth or last criterion $S(l)$ gives non-classicality for lower order as well as higher order.
翻訳日:2023-05-30 14:42:01 公開日:2023-05-29
# TD-GEM:テキスト駆動ガーメント編集マッパー

TD-GEM: Text-Driven Garment Editing Mapper ( http://arxiv.org/abs/2305.18120v1 )

ライセンス: Link先を確認
Reza Dadfar, Sanaz Sabzevari, M\r{a}rten Bj\"orkman, Danica Kragic(参考訳) 言語ベースのファッション画像編集は、ユーザーがテキストプロンプトで好みの衣服のバリエーションを試すことができる。 StyleCLIPとHairCLIPの潜在表現を操作する研究から着想を得て、フルボディの人間のデータセットのファッションアイテムを編集する潜在空間に焦点を当てた。 現在、衣服の形状やテクスチャの複雑さや人間のポーズの多様性が原因で、ファッション画像編集の処理にギャップがある。 本稿では,ファッションアイテムの編集を目的としたtd-gem(text-driven clothing editing mapper)と呼ばれる編集最適化手法を提案する。 この目的のために、まず、より正確な結果を得るために、Encoder for Editing (e4e) やPivotal Tuning Inversion (PTI) のような生成的敵ネットワークインバージョンを通して画像の潜在表現を得る。 次に、最適化に基づくContrasive Language-Image Pre-training(CLIP)を用いて、テキストプロンプトによって表現されたターゲット属性の方向におけるファッションイメージの潜在表現を誘導する。 我々のTD-GEMはターゲット属性に従って画像を正確に操作し、画像の他の部分は無タッチで保持する。 実験では,TD-GEMを2つの属性(色と袖の長さ)で評価し,最近の操作方式と比較して現実的な画像を効果的に生成する。

Language-based fashion image editing allows users to try out variations of desired garments through provided text prompts. Inspired by research on manipulating latent representations in StyleCLIP and HairCLIP, we focus on these latent spaces for editing fashion items of full-body human datasets. Currently, there is a gap in handling fashion image editing due to the complexity of garment shapes and textures and the diversity of human poses. In this paper, we propose an editing optimizer scheme method called Text-Driven Garment Editing Mapper (TD-GEM), aiming to edit fashion items in a disentangled way. To this end, we initially obtain a latent representation of an image through generative adversarial network inversions such as Encoder for Editing (e4e) or Pivotal Tuning Inversion (PTI) for more accurate results. An optimization-based Contrasive Language-Image Pre-training (CLIP) is then utilized to guide the latent representation of a fashion image in the direction of a target attribute expressed in terms of a text prompt. Our TD-GEM manipulates the image accurately according to the target attribute, while other parts of the image are kept untouched. In the experiments, we evaluate TD-GEM on two different attributes (i.e., "color" and "sleeve length"), which effectively generates realistic images compared to the recent manipulation schemes.
翻訳日:2023-05-30 14:41:43 公開日:2023-05-29
# 時空間マター:相対論的量子論における局在問題

Space-Time-Matter: Some Notes on the Localization Problem in Relativistic Quantum Theory ( http://arxiv.org/abs/2305.18118v1 )

ライセンス: Link先を確認
Christian Beck(参考訳) この研究は、相対論的量子論における正のエネルギー仮定の意味と、量子システムの局所化に関する問題に光を当てることを目的としている。 相対論的波動方程式(ディラック方程式など)の解の正のエネルギー特性は、自由時間発展を超えた状態変換に関して非常に脆弱であることが示されている。 第二量子化における負のエネルギーディラック波動関数とペア生成過程の間の関係に注意を払うと、この解析は相対論的量子論の局所化問題(例えばニュートン、ウィグナー、リー、シュライダー、ヘーガーフェルト、マレーメントの有名な結果と関連する)として知られる問題のクラスをよりよく理解する。 最後に、この解析はボーム場の量子論の観点から反映される。

This work aims to shed some light on the meaning of the positive energy assumption in relativistic quantum theory and its relation to questions of localization of quantum systems. It is shown that the positive energy property of solutions of relativistic wave equations (such as the Dirac equation) is very fragile with respect to state transformations beyond free time evolution. Paying attention to the connection between negative energy Dirac wave functions and pair creation processes in second quantization, this analysis leads to a better understanding of a class of problems known as the localization problem of relativistic quantum theory (associated for instance with famous results of Newton and Wigner, Reeh and Schlieder, Hegerfeldt or Malament). Finally, this analysis is reflected from the perspective of a Bohmian quantum field theory.
翻訳日:2023-05-30 14:41:19 公開日:2023-05-29
# グラフ準同型ゲームの普遍性と量子彩色問題

Universality of graph homomorphism games and the quantum coloring problem ( http://arxiv.org/abs/2305.18116v1 )

ライセンス: Link先を確認
Samuel J. Harris(参考訳) 有限、単純、無向グラフに対する量子グラフパラメータは、すべての同期非局所ゲームに対する勝利戦略を符号化する。 同期ゲーム $\mathcal{G}=(I,O,\lambda)$ with $|I|=n$ and $|O|=k$ が与えられたとき、Z. Ji (arXiv:1310.3794) による同期型非局所ゲームに対する量子戦略の勝利のために、Z. Ji (arXiv:1310.3794) が入力した作業を強化し単純化し、最大で3+n+9n(k-2)+6|\lambda^{-1}(\{0\})| のグラフ上の3ドルカラーゲームと$*$-equivalence と呼ぶものを実証する。 応用として、L. Lov\'{a}sz's reduction の量子バージョン (Comb. on 4th SE Conf. on Graph Theory & Computing, 1973) のグラフの$k$彩色問題である$G$と$n$頂点を持つ$m$エッジを、3+n+9n(k-2)+6mk$頂点を持つグラフの$3$彩色問題に適用する。 a. atserias et al (j. comb. theory series b, vol. 136, 2019) ``graph of the game" $x(\mathcal{g})$ associated to $\mathcal{g}$ from a. atserias et al (j. comb. theory series b, vol. 136, 2019) 独立数ゲーム $\text{hom}(k_{|i|},\overline{x(\mathcal{g})})$ はここでは$*$-equivalent to $\mathcal{g}$ であるので、ゲーム代数を除く全てのゲームで勝利戦略の可能性は同じである。 したがって、色数、独立数、クランク数の量子バージョンは、すべての量子モデルにおける全ての同期ゲームに対する勝利戦略をエンコードする。

We show that quantum graph parameters for finite, simple, undirected graphs encode winning strategies for all possible synchronous non-local games. Given a synchronous game $\mathcal{G}=(I,O,\lambda)$ with $|I|=n$ and $|O|=k$, we demonstrate what we call a weak $*$-equivalence between $\mathcal{G}$ and a $3$-coloring game on a graph with at most $3+n+9n(k-2)+6|\lambda^{-1}(\{0\})|$ vertices, strengthening and simplifying work implied by Z. Ji (arXiv:1310.3794) for winning quantum strategies for synchronous non-local games. As an application, we obtain a quantum version of L. Lov\'{a}sz's reduction (Proc. 4th SE Conf. on Comb., Graph Theory & Computing, 1973) of the $k$-coloring problem for a graph $G$ with $n$ vertices and $m$ edges to the $3$-coloring problem for a graph with $3+n+9n(k-2)+6mk$ vertices. We also show that, for ``graph of the game" $X(\mathcal{G})$ associated to $\mathcal{G}$ from A. Atserias et al (J. Comb. Theory Series B, Vol. 136, 2019), the independence number game $\text{Hom}(K_{|I|},\overline{X(\mathcal{G})})$ is hereditarily $*$-equivalent to $\mathcal{G}$, so that the possibility of winning strategies is the same in both games for all models, except the game algebra. Thus, the quantum versions of the chromatic number, independence number and clique number encode winning strategies for all synchronous games in all quantum models.
翻訳日:2023-05-30 14:41:03 公開日:2023-05-29
# ボソニック作用素の線型結合の正規順序での自然力の一般拡張

General expansion of natural power of linear combination of Bosonic operators in normal order ( http://arxiv.org/abs/2305.18113v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) 量子力学において、ボソニック作用素は、ボソニック粒子の生成(a^\dagger$)と消滅(a^$)を表すために用いられる数学的対象である。 ボソニック作用素の線型結合の自然な力は、指数として$n$の演算子$(a^\dagger x+ay)^n$と、ボソニック作用素から自由な変数$x,\,y$を表す。 これらの演算子の通常の順序付けは、すべての生成演算子が消滅演算子の左にあるように演算子を配置し、表現中の項の数を減らす数学的手法である。 本稿では,ボソニック作用素の線形結合の自然パワーを正規順に一般展開する。 この展開は、直接法を用いて二項係数と正規順序作用素の積を用いて表現でき、数学的帰納法の基本原理を用いて証明できるものではない。 また、ボゾンの数と生成と消滅作用素の間の可換関係の観点からの展開係数の公式も導出する。 この結果は、相関関数の計算や分割関数の評価など、量子力学における多体系の研究に重要な応用をもたらす。 本稿では, ボソニック系の挙動を解析し, 理解するための強力なツールとして, 幅広い物理問題に適用できることを示す。

In quantum mechanics, bosonic operators are mathematical objects that are used to represent the creation ($a^\dagger$) and annihilation ($a$) of bosonic particles. The natural power of a linear combination of bosonic operators represents an operator $(a^\dagger x+ay)^n$ with $n$ as the exponent and $x,\,y$ are the variables free from bosonic operators. The normal ordering of these operators is a mathematical technique that arranges the operators so that all the creation operators are to the left of the annihilation operators, reducing the number of terms in the expression. In this paper, we present a general expansion of the natural power of a linear combination of bosonic operators in normal order. We show that the expansion can be expressed in terms of binomial coefficients and the product of the normal-ordered operators using the direct method and than prove it using the fundamental principle of mathematical induction. We also derive a formula for the coefficients of the expansion in terms of the number of bosons and the commutation relation between the creation and annihilation operators. Our results have important applications in the study of many-body systems in quantum mechanics, such as in the calculation of correlation functions and the evaluation of the partition function. The general expansion presented in this paper provides a powerful tool for analyzing and understanding the behavior of bosonic systems, and can be applied to a wide range of physical problems.
翻訳日:2023-05-30 14:40:02 公開日:2023-05-29
# ニューラルコードブックを用いたコンパクトリアルタイム放射光場

Compact Real-time Radiance Fields with Neural Codebook ( http://arxiv.org/abs/2305.18163v1 )

ライセンス: Link先を確認
Lingzhi Li, Zhongshu Wang, Zhen Shen, Li Shen, Ping Tan(参考訳) プレノッセルによる明示的なボリューム表現による神経放射野の再構成は、トレーニングとレンダリング効率において顕著な利点を示し、グリッドベースの表現は通常、記憶と伝達にかなりのオーバーヘッドをもたらす。 本稿では,圧縮手法の観点から,コンパクトな放射場を追求するための簡易かつ効果的なフレームワークを提案する。 グリッドモデルに現れる固有の特性を利用して、モデル複雑性を著しく低減する非一様圧縮ステムを開発し、高速な最適化により、シーンごとのモデル固有の高周波の詳細を符号化する新しいパラメータ化モジュールであるNeural Codebookを導入した。 私たちのアプローチは、競合するレンダリング品質で、グリッドモデルストレージを40ドル以上削減できます。 さらに,180fpsでリアルタイムレンダリングの高速化を実現し,リアルタイムレンダリングに比べてストレージコストが大幅に向上した。

Reconstructing neural radiance fields with explicit volumetric representations, demonstrated by Plenoxels, has shown remarkable advantages on training and rendering efficiency, while grid-based representations typically induce considerable overhead for storage and transmission. In this work, we present a simple and effective framework for pursuing compact radiance fields from the perspective of compression methodology. By exploiting intrinsic properties exhibiting in grid models, a non-uniform compression stem is developed to significantly reduce model complexity and a novel parameterized module, named Neural Codebook, is introduced for better encoding high-frequency details specific to per-scene models via a fast optimization. Our approach can achieve over 40 $\times$ reduction on grid model storage with competitive rendering quality. In addition, the method can achieve real-time rendering speed with 180 fps, realizing significant advantage on storage cost compared to real-time rendering methods.
翻訳日:2023-05-30 14:32:47 公開日:2023-05-29
# q-learningの代替手段としてのva-learning

VA-learning as a more efficient alternative to Q-learning ( http://arxiv.org/abs/2305.18161v1 )

ライセンス: Link先を確認
Yunhao Tang, R\'emi Munos, Mark Rowland, Michal Valko(参考訳) 強化学習では、アドバンテージ関数は政策改善に不可欠であるが、しばしば学習されたq関数から抽出される。 自然の疑問は、なぜ直接に有利な関数を学ばないのか? 本稿では,q関数を明示的に参照することなく,ブートストラップを用いたアドバンテージ関数とバリュー関数を直接学習するva-learningを提案する。 va-learningはオフ・ポリシーを学び、q-learningと同様の理論的な保証を享受する。 アドバンテージ関数と値関数の直接学習により、VA学習は、Atari-57ゲーム上での表型実装とディープRLエージェントの両方において、Q学習のサンプル効率を改善する。 また、VA学習とデュエルアーキテクチャの密接な関係を同定し、DQNエージェントに対する単純なアーキテクチャ変更がパフォーマンスを向上させる傾向にある理由を部分的に説明する。

In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which directly learns advantage function and value function using bootstrapping, without explicit reference to Q-functions. VA-learning learns off-policy and enjoys similar theoretical guarantees as Q-learning. Thanks to the direct learning of advantage function and value function, VA-learning improves the sample efficiency over Q-learning both in tabular implementations and deep RL agents on Atari-57 games. We also identify a close connection between VA-learning and the dueling architecture, which partially explains why a simple architectural change to DQN agents tends to improve performance.
翻訳日:2023-05-30 14:32:31 公開日:2023-05-29
# 対向フェアネス --フェアネス評価におけるグループ間の系統的差異に対処する

Counterpart Fairness -- Addressing Systematic between-group Differences in Fairness Evaluation ( http://arxiv.org/abs/2305.18160v1 )

ライセンス: Link先を確認
Yifei Wang, Zhengyang Zhou, Liqin Wang, John Laurentiev, Peter Hou, Li Zhou, Pengyu Hong(参考訳) 機械学習(ml)を使用して意思決定を支援する場合、アルゴリズムによる決定が公平であることを保証することが重要である。 既存のグループフェアネス法は、同じグループ単位の測度を必要とするが、体系的なグループ間差を考慮できない。 非感受性変数であるが系統的差異を呈する結合因子はフェアネス評価に有意な影響を及ぼす。 この問題を緩和するために、フェアネス測定は、集団の同一性が結合要因を探索することによってアルゴリズム的に区別できない異なるグループ(すなわち、興味のあるタスクに関して互いに類似している個人)の比較に基づいて行うべきであると信じている。 本手法は,「オレンジ」と「アプルズ」を比較することによるフェアネス評価の防止を目的としている。 さらに,MLモデルの妥当性を評価するために,CFair(Counterpart-Fairness)と呼ばれる統計的公正度指数を提案する。 cfairの有効性を検証するために,集中治療のための医療情報マート(mimic-ivデータベース)に関する実証研究を行った。 コードは \url{https://github.com/zhengyjo/cfair} で公開します。

When using machine learning (ML) to aid decision-making, it is critical to ensure that an algorithmic decision is fair, i.e., it does not discriminate against specific individuals/groups, particularly those from underprivileged populations. Existing group fairness methods require equal group-wise measures, which however fails to consider systematic between-group differences. The confounding factors, which are non-sensitive variables but manifest systematic differences, can significantly affect fairness evaluation. To mitigate this problem, we believe that a fairness measurement should be based on the comparison between counterparts (i.e., individuals who are similar to each other with respect to the task of interest) from different groups, whose group identities cannot be distinguished algorithmically by exploring confounding factors. We have developed a propensity-score-based method for identifying counterparts, which prevents fairness evaluation from comparing "oranges" with "apples". In addition, we propose a counterpart-based statistical fairness index, termed Counterpart-Fairness (CFair), to assess fairness of ML models. Empirical studies on the Medical Information Mart for Intensive Care (MIMIC)-IV database were conducted to validate the effectiveness of CFair. We publish our code at \url{https://github.com/zhengyjo/CFair}.
翻訳日:2023-05-30 14:32:17 公開日:2023-05-29
# AUCの誤用: リスク評価が悪化する理由

The Misuse of AUC: What High Impact Risk Assessment Gets Wrong ( http://arxiv.org/abs/2305.18159v1 )

ライセンス: Link先を確認
Kweku Kwegyir-Aggrey, Marissa Gerchick, Malika Mohan, Aaron Horowitz, Suresh Venkatasubramanian(参考訳) どの機械学習モデルが最高の影響リスク評価タスクを実行するかを判断する場合、実践者は一般的に、モデル選択の防御と検証にAUC(Area under the Curve)を使用する。 本稿では、モデル性能指標としてのaucの現在の使用と理解が、メトリクスの使用を意図した方法を誤解していると論じる。 この目的のために、我々はAUCの誤用を特徴付け、この誤用が現実世界において複数のリスクアセスメント領域でどのように悪影響を及ぼすかを説明する。 我々は、aucの元々の解釈が時間とともに変化し、決定しきい値、クラスバランス、統計的不確実性、保護されたグループに関する問題が、aucベースのモデル比較によって未対応のままであり、政策立案者のパービューであるモデル選択が数学的厳密さのベールの背後に隠れている点に、この分離を見出す。 AUCを含む現在のモデル検証プラクティスは堅牢ではなく、しばしば無効である、と結論付けている。

When determining which machine learning model best performs some high impact risk assessment task, practitioners commonly use the Area under the Curve (AUC) to defend and validate their model choices. In this paper, we argue that the current use and understanding of AUC as a model performance metric misunderstands the way the metric was intended to be used. To this end, we characterize the misuse of AUC and illustrate how this misuse negatively manifests in the real world across several risk assessment domains. We locate this disconnect in the way the original interpretation of AUC has shifted over time to the point where issues pertaining to decision thresholds, class balance, statistical uncertainty, and protected groups remain unaddressed by AUC-based model comparisons, and where model choices that should be the purview of policymakers are hidden behind the veil of mathematical rigor. We conclude that current model validation practices involving AUC are not robust, and often invalid.
翻訳日:2023-05-30 14:31:57 公開日:2023-05-29
# ロバストな半教師付き学習のための分散セマンティクスプラニング

Out-of-Distributed Semantic Pruning for Robust Semi-Supervised Learning ( http://arxiv.org/abs/2305.18158v1 )

ライセンス: Link先を確認
Yu Wang, Pengchong, Qiao, Chang Liu, Guoli Song, Xiawu Zheng, Jie Chen(参考訳) 堅牢な半教師付き学習(SSL)の最近の進歩は、典型的にはサンプルレベルでのアウト・オブ・ディストリビューション(OOD)情報をフィルタリングする。 我々は、ロバストSSLの見落とされがちな問題は、セマンティックレベルの情報の破損であり、フィールドの開発を事実上制限していると論じる。 本稿では,OODセマンティック・プルーニング (OSP) という,OODセマンティック・プルーニング(OOD Semantic Pruning, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング(OODセマンティック・プルーニング, セマンティック・プルーニング) 具体的には i)各IDサンプルとOODサンプルをセマンティックオーバーラップしたペアリングOODマッチングモジュールを提案する。 (ii) ソフトな直交正規化をデザインし, ペアのoodサンプルと共線形な意味成分を抑圧することにより, まず各id特徴を変換する。 すると、ソフト直交分解の前後の予測が一貫するように強制される。 本手法は,OOD検出とID分類において,難易度の高いベンチマークで高い性能を示す。 特にOSPは、ID分類の精度を13.7%、TinyImageNetデータセットのOOD検出のAUROCを5.9%上回る。 ソースコードはhttps://github.com/rain305f/OSPで公開されている。

Recent advances in robust semi-supervised learning (SSL) typically filter out-of-distribution (OOD) information at the sample level. We argue that an overlooked problem of robust SSL is its corrupted information on semantic level, practically limiting the development of the field. In this paper, we take an initial step to explore and propose a unified framework termed OOD Semantic Pruning (OSP), which aims at pruning OOD semantics out from in-distribution (ID) features. Specifically, (i) we propose an aliasing OOD matching module to pair each ID sample with an OOD sample with semantic overlap. (ii) We design a soft orthogonality regularization, which first transforms each ID feature by suppressing its semantic component that is collinear with paired OOD sample. It then forces the predictions before and after soft orthogonality decomposition to be consistent. Being practically simple, our method shows a strong performance in OOD detection and ID classification on challenging benchmarks. In particular, OSP surpasses the previous state-of-the-art by 13.7% on accuracy for ID classification and 5.9% on AUROC for OOD detection on TinyImageNet dataset. The source codes are publicly available at https://github.com/rain305f/OSP.
翻訳日:2023-05-30 14:31:37 公開日:2023-05-29
# 文法的誤り訂正におけるGPT-3の有効性を探る:プロンプト法の性能と制御性に関する研究

Exploring Effectiveness of GPT-3 in Grammatical Error Correction: A Study on Performance and Controllability in Prompt-Based Methods ( http://arxiv.org/abs/2305.18156v1 )

ライセンス: Link先を確認
Mengsay Loem, Masahiro Kaneko, Sho Takase, Naoaki Okazaki(参考訳) GPT-3のような大規模事前学習型言語モデルは、様々な自然言語処理タスクにおいて顕著な性能を示している。 しかし,GPT-3による文法的誤り訂正(GEC)タスクへのプロンプトベース手法の適用とその制御性はまだ未検討である。 GECの制御性は、特に教育環境では、学習者レベルや特定のエラータイプに応じてフィードバックを調整できる能力によって学習プロセスが大幅に向上する。 本稿では,ゼロショットと少数ショット設定を用いた GEC タスクにおける GPT-3 を用いたプロンプトベース手法の性能と制御性について検討する。 我々は,gpt-3のアウトプットに対するタスク命令や例の影響について検討し,最小編集,フラレンシー編集,学習者レベルといった側面の制御に焦点を当てた。 以上の結果から, GPT-3 は GEC タスクを効果的に実行でき, 既存の教師なしアプローチや教師なしアプローチよりも優れていた。 また, GPT-3は, 適切なタスク命令や実例が与えられた場合に制御可能であることを示した。

Large-scale pre-trained language models such as GPT-3 have shown remarkable performance across various natural language processing tasks. However, applying prompt-based methods with GPT-3 for Grammatical Error Correction (GEC) tasks and their controllability remains underexplored. Controllability in GEC is crucial for real-world applications, particularly in educational settings, where the ability to tailor feedback according to learner levels and specific error types can significantly enhance the learning process. This paper investigates the performance and controllability of prompt-based methods with GPT-3 for GEC tasks using zero-shot and few-shot setting. We explore the impact of task instructions and examples on GPT-3's output, focusing on controlling aspects such as minimal edits, fluency edits, and learner levels. Our findings demonstrate that GPT-3 could effectively perform GEC tasks, outperforming existing supervised and unsupervised approaches. We also showed that GPT-3 could achieve controllability when appropriate task instructions and examples are given.
翻訳日:2023-05-30 14:30:56 公開日:2023-05-29
# 大きな言語モデルは、彼らが知らないことを知っていますか?

Do Large Language Models Know What They Don't Know? ( http://arxiv.org/abs/2305.18153v1 )

ライセンス: Link先を確認
Zhangyue Yin, Qiushi Sun, Qipeng Guo, Jiawen Wu, Xipeng Qiu, Xuanjing Huang(参考訳) 大規模言語モデル(llm)には豊富な知識があり、様々な自然言語処理(nlp)タスクにおいて優れている。 現在の研究は、彼らの既存の知識におけるパフォーマンスの向上に焦点を当てている。 膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。 したがって、自己知識と呼ばれる無知における自身の限界を理解する能力は、最重要事項である。 本研究は,llmsの自己認識能力を評価することを目的としている。 我々は,これらのモデルの応答の不確実性を検出するための自動化手法を導入し,その自己認識の新たな尺度を提供する。 さらに,5つのカテゴリと回答可能なカテゴリから回答できない質問からなる,ユニークなデータセットであるSelfAwareを導入する。 GPT-3, InstructGPT, LLaMAを含む20個のLLMを対象とし, これらのモデルに内在する自己認識能力について検討した。 さらに,インコンテキスト学習と命令チューニングが,この自己認識をさらに強化できることを実証する。 この有望な洞察にもかかわらず、我々の研究結果は、これらのモデルの能力と人間の知識の限界を認識する能力の間にかなりのギャップがあることも示している。

Large language models (LLMs) have a wealth of knowledge that allows them to excel in various Natural Language Processing (NLP) tasks. Current research focuses on enhancing their performance within their existing knowledge. Despite their vast knowledge, LLMs are still limited by the amount of information they can accommodate and comprehend. Therefore, the ability to understand their own limitations on the unknows, referred to as self-knowledge, is of paramount importance. This study aims to evaluate LLMs' self-knowledge by assessing their ability to identify unanswerable or unknowable questions. We introduce an automated methodology to detect uncertainty in the responses of these models, providing a novel measure of their self-knowledge. We further introduce a unique dataset, SelfAware, consisting of unanswerable questions from five diverse categories and their answerable counterparts. Our extensive analysis, involving 20 LLMs including GPT-3, InstructGPT, and LLaMA, discovering an intrinsic capacity for self-knowledge within these models. Moreover, we demonstrate that in-context learning and instruction tuning can further enhance this self-knowledge. Despite this promising insight, our findings also highlight a considerable gap between the capabilities of these models and human proficiency in recognizing the limits of their knowledge.
翻訳日:2023-05-30 14:30:38 公開日:2023-05-29
# バイオメディカルNERの精度に影響を与える外因性因子

Extrinsic Factors Affecting the Accuracy of Biomedical NER ( http://arxiv.org/abs/2305.18152v1 )

ライセンス: Link先を確認
Zhiyi Li and Shengjie Zhang and Yujie Song and Jungyeul Park(参考訳) バイオメディカル・ネーム・エンティティ・認識(NER)は、臨床テキストにおける構造化された情報を特定することを目的とした批判的タスクである。 正確で信頼性の高いNERは、医療システムを含む下流アプリケーションを改善するために使用できる重要なバイオメディカル情報の抽出と分析を容易にする。 しかし、バイオメディカル領域のnerは、データアノテートに高い専門性、時間、費用を必要とするため、データ可用性が限られているため、困難である。 本稿では,その限定データを用いて,臨床テキストデータセット上でのNERモデルの性能向上を図るために,コーパスアノテーション,データ拡張手法,半教師付き学習,ブリル変換などの外因的要因について検討する(i2b2 2012 \citet{sun-rumshisky-uzuner:2013})。 実験により, モデルF1のスコアが73.74から77.55に大幅に向上することを示した。 以上の結果から,異なる外来因子を考慮し,これらの手法を組み合わせることは,データサイズが制限された生体医学領域におけるnerの性能向上に有望なアプローチであることが示唆された。

Biomedical named entity recognition (NER) is a critial task that aims to identify structured information in clinical text, which is often replete with complex, technical terms and a high degree of variability. Accurate and reliable NER can facilitate the extraction and analysis of important biomedical information, which can be used to improve downstream applications including the healthcare system. However, NER in the biomedical domain is challenging due to limited data availability, as the high expertise, time, and expenses are required to annotate its data. In this paper, by using the limited data, we explore various extrinsic factors including the corpus annotation scheme, data augmentation techniques, semi-supervised learning and Brill transformation, to improve the performance of a NER model on a clinical text dataset (i2b2 2012, \citet{sun-rumshisky-uzuner:2013}). Our experiments demonstrate that these approaches can significantly improve the model's F1 score from original 73.74 to 77.55. Our findings suggest that considering different extrinsic factors and combining these techniques is a promising approach for improving NER performance in the biomedical domain where the size of data is limited.
翻訳日:2023-05-30 14:30:21 公開日:2023-05-29
# ai生成テキストのマルチスケール正ラベル検出

Multiscale Positive-Unlabeled Detection of AI-Generated Texts ( http://arxiv.org/abs/2305.18149v1 )

ライセンス: Link先を確認
Yuchuan Tian, Hanting Chen, Xutao Wang, Zheyuan Bai, Qinghua Zhang, Ruifeng Li, Chao Xu, Yunhe Wang(参考訳) 近年のLarge Language Models(LLM)、例えばChatGPT(英語版)は、人間のようなテキストを生成することに驚いているが、偽の学術的テキスト、偽ニュース、偽のツイートなどに誤用される可能性がある。 従来の研究では、単純なML分類器、事前訓練されたモデルに基づくトレーニング非依存の手法、微調整された言語分類モデルなど、これらのマルチスケールAI生成テキストを検出する方法が提案されている。 しかし、主流検出器はコーパス長の因子を考慮せずに定式化され、より短いコーパスは情報的特徴が不足しているため、より長いコーパスに比べて検出が困難である。 本稿では,マルチスケールテキスト検出の課題を解決するために,MPU(Multiscale Positive-Unlabeled)トレーニングフレームワークを提案する。 まず,ショートマシンテキストの人間的類似性を認め,これらの短いマシンテキストをトレーニング中に「ラベルなし」とマークすることで,肯定的ラベル付き(pu)問題としてテキスト分類を再現する。 このPUの文脈では、スケール不変コーパスの正の先行を推定するために、繰り返しモデルを抽象的に使用する、長さに敏感なマルチスケールPU損失を提案する。 さらに,トレーニングコーパスを充実させるためのテキストマルチスケーリングモジュールも導入する。 実験の結果,MPU法は長いAI生成テキストの検出性能を向上し,言語モデル検出器の短絡検出を大幅に改善することがわかった。 MPUで訓練された言語モデルは、マルチスケールのAI生成テキストに対して、既存の検出器を大きなマージンで上回る可能性がある。 コードはhttps://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgptとhttps://github.com/huawei-noah/Efficient-Computing/AIGC_text_detectorで入手できる。

Recent releases of Large Language Models (LLMs), e.g. ChatGPT, are astonishing at generating human-like texts, but they may get misused for fake scholarly texts, fake news, fake tweets, et cetera. Previous works have proposed methods to detect these multiscale AI-generated texts, including simple ML classifiers, pretrained-model-based training-agnostic methods, and finetuned language classification models. However, mainstream detectors are formulated without considering the factor of corpus length: shorter corpuses are harder to detect compared with longer ones for shortage of informative features. In this paper, a Multiscale Positive-Unlabeled (MPU) training framework is proposed to address the challenge of multiscale text detection. Firstly, we acknowledge the human-resemblance property of short machine texts, and rephrase text classification as a Positive-Unlabeled (PU) problem by marking these short machine texts as "unlabeled" during training. In this PU context, we propose the length-sensitive Multiscale PU Loss, where we use a recurrent model in abstraction to estimate positive priors of scale-variant corpuses. Additionally, we introduce a Text Multiscaling module to enrich training corpuses. Experiments show that our MPU method augments detection performance on long AI-generated text, and significantly improves short-corpus detection of language model detectors. Language Models trained with MPU could outcompete existing detectors by large margins on multiscale AI-generated texts. The codes are available at https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt and https://github.com/huawei-noah/Efficient-Computing/AIGC_text_detector.
翻訳日:2023-05-30 14:29:57 公開日:2023-05-29
# GripRank: 検索と生成の間にギャップを埋める - 生成知識によるパスランクの改善

GripRank: Bridging the Gap between Retrieval and Generation via the Generative Knowledge Improved Passage Ranking ( http://arxiv.org/abs/2305.18144v1 )

ライセンス: Link先を確認
Jiaqi Bai, Hongcheng Guo, Jiaheng Liu, Jian Yang, Xinnian Liang, Zhao Yan and Zhoujun Li(参考訳) 入力クエリから適切な回答を提供するために、大通路コーパスから検索された文を活用しようとする検索強調テキスト生成は、オープンドメイン質問応答や知識強調対話生成といった知識集約型言語タスクにおいて著しく進歩している。 しかし、検索と生成の相違のため、検索された通路は回答生成を導くのに理想的ではない。つまり、適切な回答を生成する可能性を考慮せずに、検索手続き中に候補通路は全て等しく扱われる。 この不一致により、パッセージレトリバーは、回答を生成するために候補パスのサブオプティマイズコレクションを提供する。 本稿では,ジェネレーティブパス推定器 (GPE) から経路ランク装置へ知識を抽出し,提案課題に対処するジェネレーティブ知識改善パスランキング (GripRank) 手法を提案する。 我々は,gpeが発注したパスのランク付けをパスランカ学習に教えることにより,蒸留手順を実現する。 さらに、gpeが提供する知識を難易度の高いカリキュラムを通じて段階的にランチャーに蒸留することができ、多くの有力候補からの回答の出所を正しく認識できるカリキュラム知識蒸留機構を考案し、蒸留品質の向上を図る。 3つの知識集約型言語タスクにまたがる4つのデータセットに関する広範な実験を行った。 実験結果から,KILTベンチマークにおいて,パスランキングと回答生成の両面での最先端手法の利点が示された。

Retrieval-enhanced text generation, which aims to leverage passages retrieved from a large passage corpus for delivering a proper answer given the input query, has shown remarkable progress on knowledge-intensive language tasks such as open-domain question answering and knowledge-enhanced dialogue generation. However, the retrieved passages are not ideal for guiding answer generation because of the discrepancy between retrieval and generation, i.e., the candidate passages are all treated equally during the retrieval procedure without considering their potential to generate the proper answers. This discrepancy makes a passage retriever deliver a sub-optimal collection of candidate passages to generate answers. In this paper, we propose the GeneRative Knowledge Improved Passage Ranking (GripRank) approach, addressing the above challenge by distilling knowledge from a generative passage estimator (GPE) to a passage ranker, where the GPE is a generative language model used to measure how likely the candidate passages can generate the proper answer. We realize the distillation procedure by teaching the passage ranker learning to rank the passages ordered by the GPE. Furthermore, we improve the distillation quality by devising a curriculum knowledge distillation mechanism, which allows the knowledge provided by the GPE can be progressively distilled to the ranker through an easy-to-hard curriculum, enabling the passage ranker to correctly recognize the provenance of the answer from many plausible candidates. We conduct extensive experiments on four datasets across three knowledge-intensive language tasks. Experimental results show advantages over the state-of-the-art methods for both passage ranking and answer generation on the KILT benchmark.
翻訳日:2023-05-30 14:29:23 公開日:2023-05-29
# ミドル」における構文とセマンティクス : エージェントによるLMの構文・セマンティクス界面の探索

Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity ( http://arxiv.org/abs/2305.18185v1 )

ライセンス: Link先を確認
Lindia Tjuatja, Emmy Liu, Lori Levin, Graham Neubig(参考訳) 大規模言語モデルの最近の進歩により、研究者は様々な言語的タスクにわたってその能力を調べるようになったが、モデルがどのようにして単語間の相互作用やより大きな構文形式、すなわち構文と意味論の交点における現象を扱うかについての研究はほとんど行われていない。 このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。 我々は、任意に推移する英語動詞のサブセットの独特な言語特性を活用し、新しい評価データセットを作成した。 このデータセットは、3つのモデルクラスのサイズを変えて、語彙レベルでエージェント性に敏感であるか、特定の構文の文脈でこれらの単語レベルのプリエントを適切に採用できるかどうかを判断するために使われた。 全体として GPT-3 text-davinci-003 は全ての実験で非常によく機能し、他の全ての実験モデルよりも優れている。 実際、結果は構文的・意味的コーパス統計よりも人間の判断とよりよく関連している。 これは、LMが特定のタスクのための選択コーパスよりも言語アノテーション、理論テスト、発見のための有用なツールとして役立つ可能性を示唆している。

Recent advances in large language models have prompted researchers to examine their abilities across a variety of linguistic tasks, but little has been done to investigate how models handle the interactions in meaning across words and larger syntactic forms -- i.e. phenomena at the intersection of syntax and semantics. We present the semantic notion of agentivity as a case study for probing such interactions. We created a novel evaluation dataset by utilitizing the unique linguistic properties of a subset of optionally transitive English verbs. This dataset was used to prompt varying sizes of three model classes to see if they are sensitive to agentivity at the lexical level, and if they can appropriately employ these word-level priors given a specific syntactic context. Overall, GPT-3 text-davinci-003 performs extremely well across all experiments, outperforming all other models tested by far. In fact, the results are even better correlated with human judgements than both syntactic and semantic corpus statistics. This suggests that LMs may potentially serve as more useful tools for linguistic annotation, theory testing, and discovery than select corpora for certain tasks.
翻訳日:2023-05-30 14:23:48 公開日:2023-05-29
# コンバウンディングによる対物的データ拡張の再考

Rethinking Counterfactual Data Augmentation Under Confounding ( http://arxiv.org/abs/2305.18183v1 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Saketh Bachu, Saloni Dash, Charchit Sharma, Amit Sharma, Vineeth N Balasubramanian(参考訳) 機械学習モデルのトレーニングデータの偏りを緩和する方法として、反事実データ拡張が最近登場している。 これらのバイアス、例えばスプリアス相関は、データ生成プロセスにおける様々な観測および観測されていない共起変数によって生じる。 本稿では,提案手法が下流分類器にどのように影響するかを正式に分析し,反実データ拡張に基づく解に対する因果的視点を示す。 共起バイアスの除去が不変な特徴を学習する手段としてどのように役立ち、最終的に観測されたデータ分布を超えた一般化を支援するかを検討する。 さらに, 逆ファクト画像を生成するアルゴリズムを提案することで, 下流分類器に対する共起効果の影響を効果的に軽減する。 mnist変種とcelebaデータセットの実験を通じて,本手法の有効性と実用性を示す。

Counterfactual data augmentation has recently emerged as a method to mitigate confounding biases in the training data for a machine learning model. These biases, such as spurious correlations, arise due to various observed and unobserved confounding variables in the data generation process. In this paper, we formally analyze how confounding biases impact downstream classifiers and present a causal viewpoint to the solutions based on counterfactual data augmentation. We explore how removing confounding biases serves as a means to learn invariant features, ultimately aiding in generalization beyond the observed data distribution. Additionally, we present a straightforward yet powerful algorithm for generating counterfactual images, which effectively mitigates the influence of confounding effects on downstream classifiers. Through experiments on MNIST variants and the CelebA datasets, we demonstrate the effectiveness and practicality of our approach.
翻訳日:2023-05-30 14:23:27 公開日:2023-05-29
# 光照射下におけるエキシトンフォノン三角形のダイナミクス

Dynamics of an Exciton-phonon Triangle under Photoirradiation ( http://arxiv.org/abs/2305.18182v1 )

ライセンス: Link先を確認
Noriyuki Aoyagi, Hiroaki Matsueda, and Kunio Ishida(参考訳) ここで、三角系における光フォノンと結合した励起子のダイナミクスを数値的に研究する。 準スピン状態による励起子を表現することにより、キラルスピン状態とエキシトンキラル状態との類似性について議論する。 特に、光照射によってラマン散乱による超高速時間スケールでの励起子の状態の切替を引き起こす励起子の光制御について論じる。 位相図は、励起子-フォノン相互作用の大きさと励起子転移エネルギーによって決定される系の基底状態特性に基づいて得られる。 光の周波数および/または強度の変化により、励起子-フォノン複合状態間の遷移が誘導され、フォノン励起による励起子のキラル特性のコヒーレント制御の可能性が示唆される。

Herein, the dynamics of excitons coupled with optical phonons in a triangular system is numerically studied. By representing the excitons by quasi-spin states, the similarity between the chiral spin states and the exciton chiral states is discussed. In particular, the optical control of excitons is discussed, where photoirradiation causes the switching of the exciton states on the ultrafast time scale by Raman scattering. A phase diagram is obtained based on the ground-state properties of the system determined by the magnitudes of the exciton-phonon interactions and exciton transfer energy. By varying the frequency and/or intensity of light, a transition between exciton-phonon composite states is induced, which suggests the possibility of the coherent control of the chiral properties of excitonic systems via phonon excitation.
翻訳日:2023-05-30 14:23:15 公開日:2023-05-29
# 量子アニールの強結合極限における$U(N)$ゲージ理論

$U(N)$ gauge theory in the strong coupling limit on a quantum annealer ( http://arxiv.org/abs/2305.18179v1 )

ライセンス: Link先を確認
Jangho Kim and Thomas Luu and Wolfgang Unger(参考訳) 強結合系における格子 qcd は整数値を持つ双対変数で定式化することができる。 この方法では有限密度符号問題を回避し、ワームアルゴリズムによって、控えめな有限温度と有限密度を効率的にシミュレーションすることができる。 しかし、低温度の環境は対処に費用がかかる。 分割関数は整数の項でのみ表されるので、D-ウェーブ量子アニーラーでの研究には適している。 まず、研究対象とするシステムのセットアップを説明し、その後、量子アニール、特にD-Waveに適合する改質を示す。 概念実証として、ゲージ群 $U(1)$ に対して D-Wave 上で得られた最初の結果を示し、ゲージ群 $U(3)$ および $SU(3)$ への次のステップを概説する。 また,ヒストグラムの重み付けにより,分析結果と比較して観察精度が大幅に向上することがわかった。

Lattice QCD in the strong coupling regime can be formulated in dual variables which are integer-valued. It can be efficiently simulated for modest finite temperatures and finite densities via the Worm algorithm, circumventing the finite density sign problem in this regime. However, the low temperature regime is more expensive to address. As the partition function is solely expressed in terms of integers, it is well suited to be studied on the D-Wave quantum annealer. We will first explain the setup of the system we want to study, and then present its reformulation suitable for a quantum annealer, and in particular the D-Wave. As a proof of concept, we present first results obtained on D-Wave for gauge group $U(1)$ and outline the next steps towards gauge groups $U(3)$ and $SU(3)$. We find that in addition, histogram reweighting greatly improves the accuracy of our observables when compared to analytic results.
翻訳日:2023-05-30 14:22:57 公開日:2023-05-29
# 自然言語生成装置の信頼性評価

Perceived Trustworthiness of Natural Language Generators ( http://arxiv.org/abs/2305.18176v1 )

ライセンス: Link先を確認
Beatriz Cabrero-Daniel and Andrea Sanagust\'in Cabrero(参考訳) ヒューマンライクな会話テキストを生成するチャットボットのような自然言語生成ツールは、個人用と専門用の両方で一般的になっています。 しかし、その信頼性と倫理的影響には懸念がある。 この論文は、異なるユーザ(例えば言語学者、エンジニア)がこれらのツールをどのように認識し、採用し、機械生成のテキスト品質に対する認識を理解しているかを理解する問題に対処する。 また、自然言語生成ツールの持つメリットや限界、およびガバナンス戦略に対するユーザの信念についても論じている。 本研究の主な成果は、自然言語生成ツールの信頼と採用に対する利用者の分野や専門知識のレベルの影響、人文テキストと比較して、機械生成テキストの正確性、流布性、潜在的なバイアスに対するユーザの評価、これらのツールに関連する利点と倫理的リスクの分析である。 さらに,これらの知見がAI開発プロセスの強化にもたらす影響についても論じる。 この論文は、異なるユーザー特性が、機械生成テキストの品質と全体的な信頼性に対する信念をいかに形作るかに光を当てている。 さらに、異なるユーザの視点から、これらのツールのメリットとリスクについても検討する。

Natural Language Generation tools, such as chatbots that can generate human-like conversational text, are becoming more common both for personal and professional use. However, there are concerns about their trustworthiness and ethical implications. The paper addresses the problem of understanding how different users (e.g., linguists, engineers) perceive and adopt these tools and their perception of machine-generated text quality. It also discusses the perceived advantages and limitations of Natural Language Generation tools, as well as users' beliefs on governance strategies. The main findings of this study include the impact of users' field and level of expertise on the perceived trust and adoption of Natural Language Generation tools, the users' assessment of the accuracy, fluency, and potential biases of machine-generated text in comparison to human-written text, and an analysis of the advantages and ethical risks associated with these tools as identified by the participants. Moreover, this paper discusses the potential implications of these findings for enhancing the AI development process. The paper sheds light on how different user characteristics shape their beliefs on the quality and overall trustworthiness of machine-generated text. Furthermore, it examines the benefits and risks of these tools from the perspectives of different users.
翻訳日:2023-05-30 14:22:29 公開日:2023-05-29
# 確率的画像テキスト表現の改善

Improved Probabilistic Image-Text Representations ( http://arxiv.org/abs/2305.18171v1 )

ライセンス: Link先を確認
Sanghyuk Chun(参考訳) 基本視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションに起因する固有の曖昧さに悩まされている。 決定論的関数はあいまいさを捉えるのに十分強力ではないため、挑戦に取り組む確率的埋め込みの探求が促進される。 しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。 そこで本論文では,PCME++ という名称の確率的クロスモーダル埋め込みを改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。 さらに,pcme++をさらに強化するための2つの最適化手法が提案されている。第1に,大規模偽陰性下での損失飽和問題を防ぐための擬似正定式化,第2に確率的マッチングのための混合サンプルデータ拡張である。 MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。 PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。 さらに、ゼロショット分類のための自動プロンプトチューニングにおけるPCME++の適用可能性を示す。 コードはhttps://naver-ai.github.io/pcmepp/で入手できる。

Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further; first, the incorporation of pseudo-positives to prevent the loss saturation problem under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt tuning for zero-shot classification is shown. The code is available at https://naver-ai.github.io/pcmepp/.
翻訳日:2023-05-30 14:21:53 公開日:2023-05-29
# 数値推論のための短時間プロンプトにおけるトレーニングデータ活用

Leveraging Training Data in Few-Shot Prompting for Numerical Reasoning ( http://arxiv.org/abs/2305.18170v1 )

ライセンス: Link先を確認
Zhanming Jie, Wei Lu(参考訳) CoT(Chain-of- Thought)は、多くの自然言語処理タスクで有効であることが証明されているが、特に数学語問題(MWP)解決の文脈では、様々な問題タイプにうまく一般化するプロンプトの設計は困難である。 さらに、多様性が向上した大量のトレーニングデータを持つことが一般的だが、CoTアノテーションは利用できないため、教師付き学習技術の使用が制限される。 これらの課題に対処するために, 動的プログラムのプロンプトとプログラムの蒸留という, 数ショットのプロンプトシナリオでトレーニングデータを活用するための2つのアプローチを検討する。 我々のアプローチはGaoら(2022年)に大きく影響を受けており、中間的推論ステップとしてCoTをプログラムに置き換えることを提案した。 このようなプロンプト戦略により,MWP問題解決におけるプログラム実行による解の正確性検証が可能となる。 動的プログラムプロンプトは,大規模な言語モデルから正しいプログラムをサンプリングしてトレーニングデータをアノテートし,プログラム蒸留ではより小さいモデルをプログラムにアノテートしたトレーニングデータに適用する。 3つの標準MWPデータセットによる実験により,これらの手法の有効性が実証された。 この結果から,大量のトレーニングデータを活用することにより,プロンプトの一般化能力の向上と,MWP問題解決における微調整小モデルの性能向上が期待できる。

Chain-of-thought (CoT) prompting with large language models has proven effective in numerous natural language processing tasks, but designing prompts that generalize well to diverse problem types can be challenging, especially in the context of math word problem (MWP) solving. Additionally, it is common to have a large amount of training data that have a better diversity coverage but CoT annotations are not available, which limits the use of supervised learning techniques. To address these issues, we investigate two approaches to leverage the training data in a few-shot prompting scenario: dynamic program prompting and program distillation. Our approach is largely inspired by Gao et al., (2022), where they proposed to replace the CoT with the programs as the intermediate reasoning step. Such a prompting strategy allows us to accurately verify the answer correctness through program execution in MWP solving. Our dynamic program prompting involves annotating the training data by sampling correct programs from a large language model, while program distillation involves adapting a smaller model to the program-annotated training data. Our experiments on three standard MWP datasets demonstrate the effectiveness of these approaches, yielding significant improvements over previous baselines for prompting and fine-tuning. Our results suggest that leveraging a large amount of training data can improve the generalization ability of prompts and boost the performance of fine-tuned small models in MWP solving
翻訳日:2023-05-30 14:21:23 公開日:2023-05-29
# LM-CPPF:コントラストプロンプトに基づくFew-Shotファインチューニングのためのパラフレージングガイドデータ拡張

LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning ( http://arxiv.org/abs/2305.18169v1 )

ライセンス: Link先を確認
Amirhossein Abaskohi, Sascha Rothe, Yadollah Yaghoobzadeh(参考訳) 近年,NLPのための事前学習言語モデルの開発が著しく進展している。 しかし、これらのモデルは小さなデータセットを微調整する際にしばしば苦労する。 この問題に対処するため、研究者は様々な適応アプローチを提案している。 プロンプトベースのチューニングは、特に大型モデルにおいて、間違いなく最も一般的な方法である。 これまでの研究では、プロンプトベースの微調整にコントラスト学習を加えることは、モデルがクラス間でより識別可能な埋め込みを生成するのに役立つため効果的であり、モデルがポジティブな例とネガティブな例から同時に学ぶことにより、サンプル効率も向上することを示している。 コントラスト学習の最も重要な要素の1つはデータ拡張であるが、コンピュータビジョンとは異なり、nlpの効果的なデータ拡張は依然として困難である。 本稿では,生成言語モデル,特に GPT-3 や OPT-175B のような大規模言語モデルを用いて,プロンプトに基づく言語モデルの微調整を行う LM-CPPF を提案する。 複数のテキスト分類ベンチマークを用いた実験により,この拡張手法が,データ拡張,バック翻訳,複数テンプレートなど他の手法よりも優れていることが示された。

In recent years, there has been significant progress in developing pre-trained language models for NLP. However, these models often struggle when fine-tuned on small datasets. To address this issue, researchers have proposed various adaptation approaches. Prompt-based tuning is arguably the most common way, especially for larger models. Previous research shows that adding contrastive learning to prompt-based fine-tuning is effective as it helps the model generate embeddings that are more distinguishable between classes, and it can also be more sample-efficient as the model learns from positive and negative examples simultaneously. One of the most important components of contrastive learning is data augmentation, but unlike computer vision, effective data augmentation for NLP is still challenging. This paper proposes LM-CPPF, Contrastive Paraphrasing-guided Prompt-based Fine-tuning of Language Models, which leverages prompt-based few-shot paraphrasing using generative language models, especially large language models such as GPT-3 and OPT-175B, for data augmentation. Our experiments on multiple text classification benchmarks show that this augmentation method outperforms other methods, such as easy data augmentation, back translation, and multiple templates.
翻訳日:2023-05-30 14:20:55 公開日:2023-05-29
# 人間と機械の協調による緊急処分意思決定手法

An Emergency Disposal Decision-making Method with Human--Machine Collaboration ( http://arxiv.org/abs/2305.18165v1 )

ライセンス: Link先を確認
Yibo Guo, Jingyi Xue, Yingkang Zhang, Mingliang Xu(参考訳) 人工知能技術の急速な発展は、高精度な予測と決定を必要とする多くの分野において、人間を置き換える無人システムにつながった。 現代の運用環境では、すべてのジョブプランは機器故障やリソース不足などの緊急イベントの影響を受け、迅速な解決が重要である。 意思決定を支援するために無人システムを使用することで、解決効率は向上するが、彼らの意思決定は解釈不可能であり、間違った決定をする可能性がある。 現在の無人システムは人間の監督と制御を必要とする。 タスクフィルタリングとタスクスケジューリングという2つのフェーズを用いて,計画外の事象を解決するための協調的ヒューマンマシン手法を提案する。タスクフィルタリングフェーズでは,動的タスクのためのヒューマンマシン協調意思決定アルゴリズムを提案する。 GACRNNモデルは、ジョブノードの状態を予測し、キーノードを特定し、マシン予測された解決タスクリストを生成するために使用される。 A human decision-maker supervises the list in real time and modifies and confirms the machine-predicted list through the human--machine interface. In the task scheduling phase, we propose a scheduling algorithm that integrates human experience constraints. The steps to resolve an event are inserted into the normal job sequence to schedule the resolution. We propose several human--machine collaboration methods in each phase to generate steps to resolve an unplanned event while minimizing the impact on the original job plan.

Rapid developments in artificial intelligence technology have led to unmanned systems replacing human beings in many fields requiring high-precision predictions and decisions. In modern operational environments, all job plans are affected by emergency events such as equipment failures and resource shortages, making a quick resolution critical. The use of unmanned systems to assist decision-making can improve resolution efficiency, but their decision-making is not interpretable and may make the wrong decisions. Current unmanned systems require human supervision and control. Based on this, we propose a collaborative human--machine method for resolving unplanned events using two phases: task filtering and task scheduling. In the task filtering phase, we propose a human--machine collaborative decision-making algorithm for dynamic tasks. The GACRNN model is used to predict the state of the job nodes, locate the key nodes, and generate a machine-predicted resolution task list. A human decision-maker supervises the list in real time and modifies and confirms the machine-predicted list through the human--machine interface. In the task scheduling phase, we propose a scheduling algorithm that integrates human experience constraints. The steps to resolve an event are inserted into the normal job sequence to schedule the resolution. We propose several human--machine collaboration methods in each phase to generate steps to resolve an unplanned event while minimizing the impact on the original job plan.
翻訳日:2023-05-30 14:20:32 公開日:2023-05-29
# ジェネレーティブ・ディバイサル・ネットワークを用いた皮膚病変分割

Generative Adversarial Networks based Skin Lesion Segmentation ( http://arxiv.org/abs/2305.18164v1 )

ライセンス: Link先を確認
Shubham Innani, Prasad Dutande, Bhakti Baheti, Venu Pokuri, Ujjwal Baid, Sanjay Talbar, Sharath Chandra Guntuku(参考訳) 皮膚がんは正確な診断と治療を必要とする深刻な疾患である。 このタスクで臨床医を支援する1つの方法は、皮膚鏡画像から皮膚病変を自動的に切り離すコンピュータ支援診断(cad)ツールを使用することである。 この目的のために、EGANと呼ばれる新たな逆学習ベースのフレームワークを開発した。 このフレームワークは、教師なし生成ネットワークを使用して正確な病変マスクを生成する。 トップダウンのスクイーズ励起に基づく複合スケールドパスと非対称な側接続ベースのボトムアップパスを備えたジェネレータモジュールと、オリジナルマスクと合成マスクを区別する識別モジュールで構成される。 さらに、形態素に基づく平滑化損失が実装され、ネットワークが病変のスムーズなセマンティックな境界を作るように促される。 このフレームワークは、International Skin Imaging Collaboration (ISIC) Lesion Dataset 2018で評価され、Dice係数、Jaccard類似度、90.1%、83.6%、94.5%の精度で、現在最先端の皮膚病変セグメンテーションアプローチを上回っている。 これは、Dice Coefficientの2%増加、Jaccard Indexの1%増加、精度の1%増加を表す。

Skin cancer is a serious condition that requires accurate identification and treatment. One way to assist clinicians in this task is by using computer-aided diagnosis (CAD) tools that can automatically segment skin lesions from dermoscopic images. To this end, a new adversarial learning-based framework called EGAN has been developed. This framework uses an unsupervised generative network to generate accurate lesion masks. It consists of a generator module with a top-down squeeze excitation-based compound scaled path and an asymmetric lateral connection-based bottom-up path, and a discriminator module that distinguishes between original and synthetic masks. Additionally, a morphology-based smoothing loss is implemented to encourage the network to create smooth semantic boundaries of lesions. The framework is evaluated on the International Skin Imaging Collaboration (ISIC) Lesion Dataset 2018 and outperforms the current state-of-the-art skin lesion segmentation approaches with a Dice coefficient, Jaccard similarity, and Accuracy of 90.1%, 83.6%, and 94.5%, respectively. This represents a 2% increase in Dice Coefficient, 1% increase in Jaccard Index, and 1% increase in Accuracy.
翻訳日:2023-05-30 14:20:14 公開日:2023-05-29
# 視覚探索とインスピレーションのための概念分解

Concept Decomposition for Visual Exploration and Inspiration ( http://arxiv.org/abs/2305.18203v1 )

ライセンス: Link先を確認
Yael Vinker, Andrey Voynov, Daniel Cohen-Or, Ariel Shamir(参考訳) 創造的なアイデアはしばしば、様々な概念を捉えた既存の視覚的例からアイデアを変換し、結合し、変更することから生まれます。 しかし、概念全体を単純にコピーすることはできず、概念の特定の側面を調べることでインスピレーションを得ることができる。 したがって、新しい視点を提供するために、概念を異なる側面に分けることがしばしば必要である。 本稿では,画像の集合として表現される視覚概念を,階層木構造に符号化された異なる視覚的側面に分解する手法を提案する。 大規模視覚言語モデルとそのリッチな潜在空間を概念分解と生成に活用する。 ツリーの各ノードは、事前訓練されたテキストから画像へのモデルの潜在空間に注入された学習ベクトルを埋め込み、サブ概念を表す。 我々は、ノードにエンコードされた埋め込みベクトルの最適化を導くために一連の正規化を使い、ツリーの階層構造に従う。 本手法により, 新たな概念を探索し, 発見することができる。 このツリーは、各ノードで無限に視覚的にサンプリングする可能性を提供し、ユーザーが関心のあるオブジェクトの隠れたサブ概念を探索できるようにする。 学習された各ノードのアスペクトはツリー内と木間を結合して新しい視覚的アイデアを作成でき、自然言語文でそのようなアスペクトを新しいデザインに適用することができる。

A creative idea is often born from transforming, combining, and modifying ideas from existing visual examples capturing various concepts. However, one cannot simply copy the concept as a whole, and inspiration is achieved by examining certain aspects of the concept. Hence, it is often necessary to separate a concept into different aspects to provide new perspectives. In this paper, we propose a method to decompose a visual concept, represented as a set of images, into different visual aspects encoded in a hierarchical tree structure. We utilize large vision-language models and their rich latent space for concept decomposition and generation. Each node in the tree represents a sub-concept using a learned vector embedding injected into the latent space of a pretrained text-to-image model. We use a set of regularizations to guide the optimization of the embedding vectors encoded in the nodes to follow the hierarchical structure of the tree. Our method allows to explore and discover new concepts derived from the original one. The tree provides the possibility of endless visual sampling at each node, allowing the user to explore the hidden sub-concepts of the object of interest. The learned aspects in each node can be combined within and across trees to create new visual ideas, and can be used in natural language sentences to apply such aspects to new designs.
翻訳日:2023-05-30 14:11:20 公開日:2023-05-29
# 長文質問応答の評価に関する批判的評価

A Critical Evaluation of Evaluations for Long-form Question Answering ( http://arxiv.org/abs/2305.18201v1 )

ライセンス: Link先を確認
Fangyuan Xu, Yixiao Song, Mohit Iyyer, Eunsol Choi(参考訳) LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。 本研究は,人間と自動評価の双方を対象とし,長文回答の評価を初めてターゲットとした研究を行う。 私たちは7つの分野のドメインエキスパートを雇い、彼らの選択に対する自由形式の正当化とともに、ペアの回答に対する選好判断を提供する。 本稿では,専門家の評価を慎重に分析し,回答の包括性などの新たな側面に焦点を当てる。 次に,テキストの自動生成指標について検討し,既存の指標が人間の嗜好判断を予測できないことを確認する。 しかし、いくつかのメトリクスは答えのきめ細かい側面(例えばコヒーレンス)と相関する。 我々は,回答の1つの"オーバースコア"から脱却し,事実性や完全性といった側面をターゲットとして,多面的な評価を採用することを推奨する。 すべてのアノテーションとコードを公開して、今後の取り組みをLFQA評価に刺激します。

Long-form question answering (LFQA) enables answering a wide range of questions, but its flexibility poses enormous challenges for evaluation. We perform the first targeted study of the evaluation of long-form answers, covering both human and automatic evaluation practices. We hire domain experts in seven areas to provide preference judgments over pairs of answers, along with free-form justifications for their choices. We present a careful analysis of experts' evaluation, which focuses on new aspects such as the comprehensiveness of the answer. Next, we examine automatic text generation metrics, finding that no existing metrics are predictive of human preference judgments. However, some metrics correlate with fine-grained aspects of answers (e.g., coherence). We encourage future work to move away from a single "overall score" of the answer and adopt a multi-faceted evaluation, targeting aspects such as factuality and completeness. We publicly release all of our annotations and code to spur future work into LFQA evaluation.
翻訳日:2023-05-30 14:10:59 公開日:2023-05-29
# 対話生成のための文脈知識学習

Contextual Knowledge Learning For Dialogue Generation ( http://arxiv.org/abs/2305.18200v1 )

ライセンス: Link先を確認
Wen Zheng, Natasa Milic-Frayling, Ke Zhou(参考訳) 対話生成モデルに会話コンテキストと知識を組み込むことは,生成した応答の品質向上に不可欠である。 従来の対話交換から発する発話を含む文脈は、応答生成のためのコンテンツ源および外部知識を選択する手段として使用される。 しかし、無関係なコンテンツの導入を避けるためには、コンテキストや知識のきめ細かいスコアリングを可能にすることが重要である。 本稿では,モデル学習の不可欠な部分として,文脈と知識の重み付けに関する新しいアプローチを提案する。 我々は,文脈知識学習(ckl)プロセスを通じて,文脈と知識に対する潜在ベクトルを含むモデルトレーニングを指導する。 CKL潜在ベクトルは、弱い監督を通して文脈、知識、反応の関係を捉え、訓練過程における文脈発話と知識文の差分重み付けを可能にする。 2つの標準データセットと人間による評価実験により、CKLは6つの強力なベースラインモデルの性能と比較して大幅に改善され、トレーニングセットのサイズの縮小に関して堅牢性を示している。

Incorporating conversational context and knowledge into dialogue generation models has been essential for improving the quality of the generated responses. The context, comprising utterances from previous dialogue exchanges, is used as a source of content for response generation and as a means of selecting external knowledge. However, to avoid introducing irrelevant content, it is key to enable fine-grained scoring of context and knowledge. In this paper, we present a novel approach to context and knowledge weighting as an integral part of model training. We guide the model training through a Contextual Knowledge Learning (CKL) process which involves Latent Vectors for context and knowledge, respectively. CKL Latent Vectors capture the relationship between context, knowledge, and responses through weak supervision and enable differential weighting of context utterances and knowledge sentences during the training process. Experiments with two standard datasets and human evaluation demonstrate that CKL leads to a significant improvement compared with the performance of six strong baseline models and shows robustness with regard to reduced sizes of training sets.
翻訳日:2023-05-30 14:10:42 公開日:2023-05-29
# アシラリーモードを持たないマヨラナ量子ビットに対する決定論的位相量子ゲート

Deterministic topological quantum gates for Majorana qubits without ancillary modes ( http://arxiv.org/abs/2305.18190v1 )

ライセンス: Link先を確認
Su-Qi Zhang, Jian-Song Hong, Yuan Xue, Xun-Jiang Luo, Li-Wei Yu, Xiong-Jun Liu, and Xin Liu(参考訳) トポロジカル量子計算における量子ゲートの実現は、基本的な面と実践面の両方において大きな課題に直面している。 本稿では,macherana qubits上でclifford量子ゲートを実装する問題を実現するため,決定論的かつ位相的に保護された計測に基づくスキームを提案する。 提案手法は, 隣接するMajorana qubitを利用するが, 量子情報を妨害せず, 位相量子コンピューティングにおけるAcillary Majorana 0 modes (MZMs) の必要がなくなるという厳密な証明に基づいている。 アンシラフリーな構造から、幾何学的可視化を構築することにより、2量子クリフォードゲートを実現するための4段階の最小測定シーケンスを示す。 測定専用戦略の不確実性を回避するため, 具体的なMajoranaプラットフォームで示されるような, 完全なトポロジカルプロテクションを維持しつつ, 望ましくない測定結果を修正するために, MZMsをパラメータ空間で操作することを提案する。 提案手法は,測定に基づく位相的および決定論的クリフォードゲートの最小操作を同定し,位相的量子計算のアンシラフリーな設計を提供する。

The realization of quantum gates in topological quantum computation still confronts significant challenges in both fundamental and practical aspects. Here, we propose a deterministic and fully topologically protected measurement-based scheme to realize the issue of implementing Clifford quantum gates on the Majorana qubits. Our scheme is based on rigorous proof that the single-qubit gate can be performed by leveraging the neighboring Majorana qubit but not disturbing its carried quantum information, eliminating the need for ancillary Majorana zero modes (MZMs) in topological quantum computing. Benefiting from the ancilla-free construction, we show the minimum measurement sequences with four steps to achieve two-qubit Clifford gates by constructing their geometric visualization. To avoid the uncertainty of the measurement-only strategy, we propose manipulating the MZMs in their parameter space to correct the undesired measurement outcomes while maintaining complete topological protection, as demonstrated in a concrete Majorana platform. Our scheme identifies the minimal operations of measurement-based topological and deterministic Clifford gates and offers an ancilla-free design of topological quantum computation.
翻訳日:2023-05-30 14:10:24 公開日:2023-05-29
# マーク付きペルソナ:自然言語を用いることで言語モデルのステレオタイプを測定する

Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models ( http://arxiv.org/abs/2305.18189v1 )

ライセンス: Link先を確認
Myra Cheng, Esin Durmus, Dan Jurafsky(参考訳) 大規模言語モデル(LLM)の害を認識し軽減するためには,LLM出力におけるステレオタイプの有効性とニュアンスを理解する必要がある。 そこで我々は,LLMのステレオタイプをレキシコンやデータラベリングを使わずに,交差する人口動態群に対する即時測定手法であるMarked Personasを提案する。 識別性という社会言語学的概念(明示的に言語的にマークされたカテゴリーと無マークのデフォルトを特徴付ける)を基礎として,提案手法は2つある。 1) LLMは,未マークのデフォルトグループのペルソナとともに,対象とする人口動態群のペルソナ,すなわち自然言語記述を生成するよう促す。 2)対象グループのパーソナラと対応する無標のものとを著しく区別する単語の識別。 また, GPT-3.5 と GPT-4 が生成する描写は, 同一のプロンプトを用いたヒトの描写よりも, 人種的ステレオタイプの割合が高いことがわかった。 マークされた(非白人、非白人の)集団のパーソナラを区別する言葉は、他の集団のパターンを反映し、これらの集団を異種化する。 交叉レンズは、熱帯主義や少数女性の多性愛など、辺境化されたグループの描写を支配するトロピーを更に明らかにする。 これらの表現的危害はストーリー生成のような下流アプリケーションにも影響します。

To recognize and mitigate harms from large language models (LLMs), we need to understand the prevalence and nuances of stereotypes in LLM outputs. Toward this end, we present Marked Personas, a prompt-based method to measure stereotypes in LLMs for intersectional demographic groups without any lexicon or data labeling. Grounded in the sociolinguistic concept of markedness (which characterizes explicitly linguistically marked categories versus unmarked defaults), our proposed method is twofold: 1) prompting an LLM to generate personas, i.e., natural language descriptions, of the target demographic group alongside personas of unmarked, default groups; 2) identifying the words that significantly distinguish personas of the target group from corresponding unmarked ones. We find that the portrayals generated by GPT-3.5 and GPT-4 contain higher rates of racial stereotypes than human-written portrayals using the same prompts. The words distinguishing personas of marked (non-white, non-male) groups reflect patterns of othering and exoticizing these demographics. An intersectional lens further reveals tropes that dominate portrayals of marginalized groups, such as tropicalism and the hypersexualization of minoritized women. These representational harms have concerning implications for downstream applications like story generation.
翻訳日:2023-05-30 14:10:00 公開日:2023-05-29
# 適応信頼領域法としての予測符号化の理解

Understanding Predictive Coding as an Adaptive Trust-Region Method ( http://arxiv.org/abs/2305.18188v1 )

ライセンス: Link先を確認
Francesco Innocenti, Ryan Singh, Christopher L. Buckley(参考訳) 予測符号化(PC)は、脳にインスパイアされた局所学習アルゴリズムであり、最近、生物学的に関連するシナリオにおいて、バックプロパゲーション(BP)よりも有利であることが示唆されている。 理論的研究は主にpcがbpを様々な範囲で近似できることを示すことに焦点を当ててきたが、「自然な」pcの利点は理解されていない。 そこで我々は,2次情報を用いた適応信頼領域(TR)アルゴリズムとしてPCの理論を開発する。 その結果,pcの学習ダイナミクスは,bpの損失勾配方向とpc推論ダイナミクスによって見出されるtr方向との補間と解釈できることがわかった。 我々の理論では、pcはbpよりも早くサドルポイントを脱出すべきであり、これは浅い線形モデルで証明された予測であり、より深いネットワークでの実験による支援である。 この研究は、ディープネットワークとワイドネットワークにおけるPC理解の基礎を築いた。

Predictive coding (PC) is a brain-inspired local learning algorithm that has recently been suggested to provide advantages over backpropagation (BP) in biologically relevant scenarios. While theoretical work has mainly focused on showing how PC can approximate BP in various limits, the putative benefits of "natural" PC are less understood. Here we develop a theory of PC as an adaptive trust-region (TR) algorithm that uses second-order information. We show that the learning dynamics of PC can be interpreted as interpolating between BP's loss gradient direction and a TR direction found by the PC inference dynamics. Our theory suggests that PC should escape saddle points faster than BP, a prediction which we prove in a shallow linear model and support with experiments on deeper networks. This work lays a foundation for understanding PC in deep and wide networks.
翻訳日:2023-05-30 14:09:39 公開日:2023-05-29
# GazeGNN: 疾患分類のためのゲイズガイド付きグラフニューラルネットワーク

GazeGNN: A Gaze-Guided Graph Neural Network for Disease Classification ( http://arxiv.org/abs/2305.18221v1 )

ライセンス: Link先を確認
Bin Wang, Hongyi Pan, Armstrong Aboah, Zheyuan Zhang, Ahmet Cetin, Drew Torigian, Baris Turkbey, Elizabeth Krupinski, Jayaram Udupa, Ulas Bagci(参考訳) 近年, 医用画像解析における視線追跡技術の応用が注目されている。 ドメインの専門家のビジュアル検索パターンを収集し、健康や病気に関する重要な情報を含んでいる。 したがって、放射線医の視線パターンを診断分析に効率的に統合する方法は、重要な問題となる。 既存の作品は通常、視線情報を視覚的注意マップ(VAM)に変換して学習過程を監督する。 しかし、この時間を要する手順はエンドツーエンドアルゴリズムの開発を困難にしている。 本研究では,医療用スキャンから疾患分類を行うための,新しい視線誘導グラフニューラルネットワーク(gnn)であるgazngnnを提案する。 GazeGNNでは、画像と視線の両方のパターン情報をモデル化する統一表現グラフを作成します。 これにより、視線情報をVAMに変換することなく直接利用することができる。 この利点を活かし,vam準備中に導入されるノイズや時間消費を回避し,リアルタイム,リアルタイム,エンドツーエンドの疾患分類アルゴリズムを初めて開発する。 われわれの知る限り、GazeGNNはGNNを採用して画像と視線データを統合した最初の作品だ。 胸部X線データを用いた実験により,提案手法は既存手法と比較して最も優れた分類性能を示した。

The application of eye-tracking techniques in medical image analysis has become increasingly popular in recent years. It collects the visual search patterns of the domain experts, containing much important information about health and disease. Therefore, how to efficiently integrate radiologists' gaze patterns into the diagnostic analysis turns into a critical question. Existing works usually transform gaze information into visual attention maps (VAMs) to supervise the learning process. However, this time-consuming procedure makes it difficult to develop end-to-end algorithms. In this work, we propose a novel gaze-guided graph neural network (GNN), GazeGNN, to perform disease classification from medical scans. In GazeGNN, we create a unified representation graph that models both the image and gaze pattern information. Hence, the eye-gaze information is directly utilized without being converted into VAMs. With this benefit, we develop a real-time, real-world, end-to-end disease classification algorithm for the first time and avoid the noise and time consumption introduced during the VAM preparation. To our best knowledge, GazeGNN is the first work that adopts GNN to integrate image and eye-gaze data. Our experiments on the public chest X-ray dataset show that our proposed method exhibits the best classification performance compared to existing methods.
翻訳日:2023-05-30 14:01:54 公開日:2023-05-29
# モーフィング攻撃の最小化に向けて -- モーフィングペア選択のための深い埋め込みとモーフィング攻撃検出の改善

Towards minimizing efforts for Morphing Attacks -- Deep embeddings for morphing pair selection and improved Morphing Attack Detection ( http://arxiv.org/abs/2305.18216v1 )

ライセンス: Link先を確認
Roman Kessler, Kiran Raja, Juan Tapia, Christoph Busch(参考訳) 顔のモーフィング攻撃は、アイデンティティ文書のセキュリティ、特にその後のアクセス制御プロセスに対する脅威となる。 本研究では,大規模なモーフィング攻撃発生のための画像選択と,潜在的モーフィング攻撃の検出の2つの目的について検討した。 我々は、MagFaceモデルを使用して両方のユースケースに以前の埋め込み研究を構築した。 最初の目的として、顔埋め込み類似性に基づいて個人をペア化する事前選択アルゴリズムを用いる。 我々は、異なる形態の顔画像の攻撃電位を定量化し、多数のモルフィング攻撃を自動生成する事前選択のユーザビリティを比較する。 第2の目的について,2つの最先端顔認識システムからの埋め込みを,モーフィング攻撃を検出する能力の観点から比較する。 以上の結果から,ArcFaceとMagFaceは画像選択に有用な顔埋め込みを提供することがわかった。 オープンソースとCOTSの両方の顔認識システムは、特にソフトバイオメトリックスのみに制約されたランダムなペアリングではなく、組み込まれている場合、発生した攻撃に影響を受けやすい。 より正確な顔認識システムでは、攻撃に対する脆弱性が大きく、COTSシステムは最も影響を受けやすい。 さらに、magfaceembedsは、以前使用されていたarcfaceembedsと比較して、モーフィックな顔画像を検出するためのロバストな代替手段として機能する。 その結果,より効果的な顔形態決定における顔埋め込みの利点が認められ,顔画像の正確な検出が可能となった。 これは様々な設計された攻撃の広範な分析によって支えられている。 MagFaceモデルは、目標、選択前、攻撃検出の両方に一般的に使用されるArcFaceモデルの強力な代替品であることが証明されている。

Face Morphing Attacks pose a threat to the security of identity documents, especially with respect to a subsequent access control process, because it enables both individuals involved to exploit the same document. In this study, face embeddings serve two purposes: pre-selecting images for large-scale Morphing Attack generation and detecting potential Morphing Attacks. We build upon previous embedding studies in both use cases using the MagFace model. For the first objective, we employ an pre-selection algorithm that pairs individuals based on face embedding similarity. We quantify the attack potential of differently morphed face images to compare the usability of pre-selection in automatically generating numerous successful Morphing Attacks. Regarding the second objective, we compare embeddings from two state-of-the-art face recognition systems in terms of their ability to detect Morphing Attacks. Our findings demonstrate that ArcFace and MagFace provide valuable face embeddings for image pre-selection. Both open-source and COTS face recognition systems are susceptible to generated attacks, particularly when pre-selection is based on embeddings rather than random pairing which was only constrained by soft biometrics. More accurate face recognition systems exhibit greater vulnerability to attacks, with COTS systems being the most susceptible. Additionally, MagFace embeddings serve as a robust alternative for detecting morphed face images compared to the previously used ArcFace embeddings. The results endorse the advantages of face embeddings in more effective image pre-selection for face morphing and accurate detection of morphed face images. This is supported by extensive analysis of various designed attacks. The MagFace model proves to be a powerful alternative to the commonly used ArcFace model for both objectives, pre-selection and attack detection.
翻訳日:2023-05-30 14:01:37 公開日:2023-05-29
# 不確実性検出のためのガウス過程プローブ(GPP)

Gaussian Process Probes (GPP) for Uncertainty-Aware Probing ( http://arxiv.org/abs/2305.18213v1 )

ライセンス: Link先を確認
Zi Wang and Alexander Ku and Jason Baldridge and Thomas L. Griffiths and Been Kim(参考訳) モデルが表現できる概念とできない概念を理解することは、効果的で責任あるモデルの使用から分散データの検出に至るまで、多くのタスクに基礎を置いてきた。 ガウス過程プローブ(gpp)は,モデルによって表される概念の不確かさを探索し測定するための,統一的で単純なフレームワークである。 線形プローブ法のベイズ拡大として、gppは(概念の)分類器上の分布がモデルによって誘導されるかを問う。 この分布は、モデルが何を表すかと、モデルが何を表すかのプローブがどれだけ自信があるかを測定するのに使うことができる。 GPPは入力のベクトル表現(例えばアクティベーション)を持つ任意の事前学習モデルに適用できる。 トレーニングデータや勾配、アーキテクチャへのアクセスは必要ありません。 合成画像と実画像の両方を含むデータセット上でGPPを検証する。 実験では,(1)ごく少数の例でもモデルの概念表現を探索できること,(2)認識的不確実性(プローブがどの程度自信を持っているか)と排他的不確実性(モデルに対する概念のファジィ性)の双方を正確に測定すること,(3)これらの不確実性測定と古典的手法を用いて分布データから検出できることが示されている。 GPPはガウス的プロセスを使用して、データ効率、汎用性、不確実性を意識したツールを提供し、機械学習モデルの能力を理解し評価する。

Understanding which concepts models can and cannot represent has been fundamental to many tasks: from effective and responsible use of models to detecting out of distribution data. We introduce Gaussian process probes (GPP), a unified and simple framework for probing and measuring uncertainty about concepts represented by models. As a Bayesian extension of linear probing methods, GPP asks what kind of distribution over classifiers (of concepts) is induced by the model. This distribution can be used to measure both what the model represents and how confident the probe is about what the model represents. GPP can be applied to any pre-trained model with vector representations of inputs (e.g., activations). It does not require access to training data, gradients, or the architecture. We validate GPP on datasets containing both synthetic and real images. Our experiments show it can (1) probe a model's representations of concepts even with a very small number of examples, (2) accurately measure both epistemic uncertainty (how confident the probe is) and aleatory uncertainty (how fuzzy the concepts are to the model), and (3) detect out of distribution data using those uncertainty measures as well as classic methods do. By using Gaussian processes to expand what probing can offer, GPP provides a data-efficient, versatile and uncertainty-aware tool for understanding and evaluating the capabilities of machine learning models.
翻訳日:2023-05-30 14:01:13 公開日:2023-05-29
# 信頼を超えて:信頼できるモデルは非特異性も考慮すべきである

Beyond Confidence: Reliable Models Should Also Consider Atypicality ( http://arxiv.org/abs/2305.18262v1 )

ライセンス: Link先を確認
Mert Yuksekgonul, Linjun Zhang, James Zou, Carlos Guestrin(参考訳) ほとんどの機械学習モデルは予測に自信を与えることができるが、予測の信頼性を理解するには自信が不十分である。 例えば、入力がトレーニングデータセットで十分に表現されていない場合や、入力が本質的に曖昧である場合、モデルは信頼性の低い予測を行うことができる。 本研究では,サンプルやクラスが非典型的(希少)であるかとモデル予測の信頼性の関係について検討する。 まず,非定型性は誤用と正確性に強く関連していることを示す。 特に,非定型入力や非定型クラスの予測が過度に信頼され,精度が低いことを実証的に示す。 これらの知見を用いて,不確かさの定量化とモデル性能の向上を,識別型ニューラルネットワークと大規模言語モデルに適用した。 本報告では,非定型性を用いることで,異なる皮膚トーン群にまたがる皮膚病変分類器の性能が向上することを示す。 全体として,モデルの信頼性だけでなく,不確実性の定量化や性能向上にも非定型性を用いるべきである。 以上の結果から, 簡易な非定型性推定器が有意な価値をもたらすことが示唆された。

While most machine learning models can provide confidence in their predictions, confidence is insufficient to understand a prediction's reliability. For instance, the model may have a low confidence prediction if the input is not well-represented in the training dataset or if the input is inherently ambiguous. In this work, we investigate the relationship between how atypical(rare) a sample or a class is and the reliability of a model's predictions. We first demonstrate that atypicality is strongly related to miscalibration and accuracy. In particular, we empirically show that predictions for atypical inputs or atypical classes are more overconfident and have lower accuracy. Using these insights, we show incorporating atypicality improves uncertainty quantification and model performance for discriminative neural networks and large language models. In a case study, we show that using atypicality improves the performance of a skin lesion classifier across different skin tone groups without having access to the group attributes. Overall, we propose that models should use not only confidence but also atypicality to improve uncertainty quantification and performance. Our results demonstrate that simple post-hoc atypicality estimators can provide significant value.
翻訳日:2023-05-30 13:54:29 公開日:2023-05-29
# Synfeal: エンドツーエンドカメラローカライゼーションのためのデータ駆動シミュレータ

Synfeal: A Data-Driven Simulator for End-to-End Camera Localization ( http://arxiv.org/abs/2305.18260v1 )

ライセンス: Link先を確認
Daniel Coelho, Miguel Oliveira, and Paulo Dias(参考訳) 現実世界のデータ収集は人工知能のボトルネックと見なされることが多く、いくつかの分野で研究の進歩が停滞している。 エンド・ツー・エンド・カメラのローカライズ手法は従来手法よりも優れており,データ収集手法にまつわる不整合は,エンド・ツー・エンド手法の可能性を抑制していると論じる。 最近のデータ中心パラダイムに触発されて,実世界の現実的な3次元再構成に基づく大規模ローカライゼーションデータセットを合成する枠組みを提案する。 synfeal: synthetic from realと呼ばれるこのフレームワークは、オープンソースのデータ駆動シミュレーターで、仮想カメラをリアルな3dテクスチャドメッシュで動かし、対応する接地カメラのポーズを収集し、rgbイメージを合成します。 その結果,synfealが生成するデータセットに対するカメラローカライズアルゴリズムのトレーニングは,最先端手法が生成するデータセットと比較して優れた結果をもたらすことがわかった。 そこで本研究では,synfealを用いて,データセットのサイズとカメラ位置推定アルゴリズムの性能の関係について,最初の解析を行った。 その結果,データセットサイズによって性能が著しく向上した。 また,高品質な大規模なローカライゼーションデータセットが利用可能であれば,スクラッチからのトレーニングによってパフォーマンスが向上することが示唆された。 Synfealはhttps://github.com/DanielCoelho112/synfeal.comで公開されている。

Collecting real-world data is often considered the bottleneck of Artificial Intelligence, stalling the research progress in several fields, one of which is camera localization. End-to-end camera localization methods are still outperformed by traditional methods, and we argue that the inconsistencies associated with the data collection techniques are restraining the potential of end-to-end methods. Inspired by the recent data-centric paradigm, we propose a framework that synthesizes large localization datasets based on realistic 3D reconstructions of the real world. Our framework, termed Synfeal: Synthetic from Real, is an open-source, data-driven simulator that synthesizes RGB images by moving a virtual camera through a realistic 3D textured mesh, while collecting the corresponding ground-truth camera poses. The results validate that the training of camera localization algorithms on datasets generated by Synfeal leads to better results when compared to datasets generated by state-of-the-art methods. Using Synfeal, we conducted the first analysis of the relationship between the size of the dataset and the performance of camera localization algorithms. Results show that the performance significantly increases with the dataset size. Our results also suggest that when a large localization dataset with high quality is available, training from scratch leads to better performances. Synfeal is publicly available at https://github.com/DanielCoelho112/synfeal.
翻訳日:2023-05-30 13:54:08 公開日:2023-05-29
# GlyphControl:ビジュアルテキスト生成のためのグリフ条件制御

GlyphControl: Glyph Conditional Control for Visual Text Generation ( http://arxiv.org/abs/2305.18259v1 )

ライセンス: Link先を確認
Yukang Yang, Dongnan Gui, Yuhui Yuan, Haisong Ding, Han Hu, Kai Chen(参考訳) 近年,コヒーレントな画像テキストを生成できる拡散型画像生成モデルの開発への関心が高まっている。 本稿では,この課題に対処するために,GlyphControlという新しい,効率的な手法を提案する。 ByT5のような文字認識型テキストエンコーダに依存し、テキスト・ツー・イメージモデルの再訓練を必要とする既存の方法とは異なり、本手法ではグリフ条件情報を活用して、正確なビジュアルテキストを生成する際に、既製の安定拡散モデルの性能を向上させる。 glyph命令を組み込むことで、ユーザーは特定の要求に応じて生成されたテキストの内容、場所、サイズをカスタマイズできる。 視覚テキスト生成のさらなる研究を容易にするため,LAION-Glyphと呼ばれるトレーニングベンチマークデータセットを構築した。 生成した視覚テキストのOCR測定値とCLIPスコアを測定し,本手法の有効性を評価する。 実験結果から,glyphcontrolはocr精度とクリップスコアの点で,最近のifアプローチよりも優れており,本手法の有効性を強調する。

Recently, there has been a growing interest in developing diffusion-based text-to-image generative models capable of generating coherent and well-formed visual text. In this paper, we propose a novel and efficient approach called GlyphControl to address this task. Unlike existing methods that rely on character-aware text encoders like ByT5 and require retraining of text-to-image models, our approach leverages additional glyph conditional information to enhance the performance of the off-the-shelf Stable-Diffusion model in generating accurate visual text. By incorporating glyph instructions, users can customize the content, location, and size of the generated text according to their specific requirements. To facilitate further research in visual text generation, we construct a training benchmark dataset called LAION-Glyph. We evaluate the effectiveness of our approach by measuring OCR-based metrics and CLIP scores of the generated visual text. Our empirical evaluations demonstrate that GlyphControl outperforms the recent DeepFloyd IF approach in terms of OCR accuracy and CLIP scores, highlighting the efficacy of our method.
翻訳日:2023-05-30 13:53:42 公開日:2023-05-29
# 一つの目的が全てをルールする: 最大化対象Fusingの推定と探索計画

One Objective to Rule Them All: A Maximization Objective Fusing Estimation and Planning for Exploration ( http://arxiv.org/abs/2305.18258v1 )

ライセンス: Link先を確認
Zhihan Liu, Miao Lu, Wei Xiong, Han Zhong, Hao Hu, Shenao Zhang, Sirui Zheng, Zhuoran Yang, Zhaoran Wang(参考訳) オンライン強化学習(オンラインRL)では、探索と搾取のバランスが、サンプル効率の良い方法で最適なポリシーを見つける上で重要である。 これを実現するために、既存のサンプル効率の高いオンラインRLアルゴリズムは通常、見積もり、計画、探索の3つのコンポーネントから構成される。 しかし、一般関数近似器に対処するためには、データ依存レベルセット内の最適化や複雑なサンプリング手順など、探索をインセンティブにする非現実的なアルゴリズムコンポーネントがほとんどである。 この課題に対処するために、我々は、探索と搾取を自動でバランスしながら、見積もりと計画コンポーネントを統合する単一の目的である \emph{unconstrainedly} を最適化するだけでよい \textit{maximize to explore} (\texttt{mex}) と呼ばれる実装が容易なrlフレームワークを提案する。 理論的には、<texttt{MEX} はマルコフ決定過程(MDP)の一般関数近似によるサブ線形後悔を達成し、さらに2プレイヤーゼロサムマルコフゲーム(MG)に拡張可能である。 一方、deep rlベースラインを適用して、モデルフリーとモデルベースのマナーの両方で、低報酬の様々なmujoco環境において、ベースラインを安定したマージンで上回ることができる、実践的なバージョンの \textt{mex}を設計する。 従来のサンプル効率のよいオンラインRLアルゴリズムと一般関数近似を比較して,より低い計算コストを享受しながら類似のサンプル効率を実現し,最新の深部RL手法との互換性が向上した。

In online reinforcement learning (online RL), balancing exploration and exploitation is crucial for finding an optimal policy in a sample-efficient way. To achieve this, existing sample-efficient online RL algorithms typically consist of three components: estimation, planning, and exploration. However, in order to cope with general function approximators, most of them involve impractical algorithmic components to incentivize exploration, such as optimization within data-dependent level-sets or complicated sampling procedures. To address this challenge, we propose an easy-to-implement RL framework called \textit{Maximize to Explore} (\texttt{MEX}), which only needs to optimize \emph{unconstrainedly} a single objective that integrates the estimation and planning components while balancing exploration and exploitation automatically. Theoretically, we prove that \texttt{MEX} achieves a sublinear regret with general function approximations for Markov decision processes (MDP) and is further extendable to two-player zero-sum Markov games (MG). Meanwhile, we adapt deep RL baselines to design practical versions of \texttt{MEX}, in both model-free and model-based manners, which can outperform baselines by a stable margin in various MuJoCo environments with sparse rewards. Compared with existing sample-efficient online RL algorithms with general function approximations, \texttt{MEX} achieves similar sample efficiency while enjoying a lower computational cost and is more compatible with modern deep RL methods.
翻訳日:2023-05-30 13:53:24 公開日:2023-05-29
# トランスフォーマーを用いたハイパーリレーショナルおよび数値知識グラフの表現学習

Representation Learning on Hyper-Relational and Numeric Knowledge Graphs with Transformers ( http://arxiv.org/abs/2305.18256v1 )

ライセンス: Link先を確認
Chanyoung Chung, Jaejun Lee, Joyce Jiyoung Whang(参考訳) ハイパーリレーショナルナレッジグラフ(hyper-relational knowledge graph)では、三重項が一連の修飾子と関連づけられ、修飾子は関係と実体で構成され、三重項の補助情報を提供する。 既存のハイパーリレーショナルナレッジグラフ埋め込みメソッドはエンティティが離散オブジェクトであると仮定しているが、いくつかの情報は数値を使って表現されるべきである(j.r.r., born in, 1892)。 また、三重項(オックスフォード大学で教育を受けたJ.R.R.)は(開始時間、1911年)等式に関連付けられる。 本稿では,三重項あるいは等化子に数値リテラルを含むハイパーリレーショナル知識グラフの表現を学習するHyNTという統合フレームワークを提案する。 文脈変換器と予測変換器を定義し、三重項とその修飾子間の相関関係だけでなく、数値情報にも基いて表現を学習する。 三重項と等化器のコンパクト表現を学習して変換器に供給することにより,変換器の計算コストを削減できる。 hyntを使うことで、ハイパーリレーショナルナレッジグラフにおけるエンティティやリレーションの欠如に加えて、不足している数値を予測できる。 実験の結果,HyNTは実世界のデータセットにおいて最先端の手法よりも優れていた。

A hyper-relational knowledge graph has been recently studied where a triplet is associated with a set of qualifiers; a qualifier is composed of a relation and an entity, providing auxiliary information for a triplet. While existing hyper-relational knowledge graph embedding methods assume that the entities are discrete objects, some information should be represented using numeric values, e.g., (J.R.R., was born in, 1892). Also, a triplet (J.R.R., educated at, Oxford Univ.) can be associated with a qualifier such as (start time, 1911). In this paper, we propose a unified framework named HyNT that learns representations of a hyper-relational knowledge graph containing numeric literals in either triplets or qualifiers. We define a context transformer and a prediction transformer to learn the representations based not only on the correlations between a triplet and its qualifiers but also on the numeric information. By learning compact representations of triplets and qualifiers and feeding them into the transformers, we reduce the computation cost of using transformers. Using HyNT, we can predict missing numeric values in addition to missing entities or relations in a hyper-relational knowledge graph. Experimental results show that HyNT significantly outperforms state-of-the-art methods on real-world datasets.
翻訳日:2023-05-30 13:52:48 公開日:2023-05-29
# リー代数の対称性を用いた完全可解ハミルトニアンの拡張

Extension of exactly-solvable Hamiltonians using symmetries of Lie algebras ( http://arxiv.org/abs/2305.18251v1 )

ライセンス: Link先を確認
Smik Patel, Tzu-Ching Yen, Artur F. Izmaylov(参考訳) 相対的に単純なユニタリ変換を用いて対角化できる厳密解ハミルトニアンは、量子コンピューティングにおいて非常に有用である。 量子位相推定アルゴリズムの進化作用素のトロッター・スズキ近似や変分量子固有解器の量子測定問題において相互作用するハミルトニアンの分解に使用できる。 完全可解ハミルトニアンの典型的な形の1つは、極小リー代数を形成する作用素の線型結合である。 非常に頻繁にそのような線型結合は非相互作用ハミルトニアンを表現するため、相互作用するケースを記述することに限定的な関心を持つ。 ここでは、これらの組合せの係数がリー代数対称性の多項式によって置換される拡張を提案する。 この置換はより一般の可解なハミルトニアンクラスとなり、キュービット代数は最近提案された非文脈的パウリハミルトニアンと関係がある。 フェルミオン問題において、この置換は、単一のスレーター行列式を持つが、異なる固有状態に対して異なる単一粒子状態の異なるハミルトン状態を持つ。 新しい可解ハミルトニアン類は、対称性の中間回路の測定結果に依存するゲートを持つ量子回路を用いて効率的に測定することができる。

Exactly-solvable Hamiltonians that can be diagonalized using relatively simple unitary transformations are of great use in quantum computing. They can be employed for decomposition of interacting Hamiltonians either in Trotter-Suzuki approximations of the evolution operator for the quantum phase estimation algorithm, or in the quantum measurement problem for the variational quantum eigensolver. One of the typical forms of exactly solvable Hamiltonians is a linear combination of operators forming a modest size Lie algebra. Very frequently such linear combinations represent non-interacting Hamiltonians and thus are of limited interest for describing interacting cases. Here we propose the extension where coefficients in these combinations are substituted by polynomials of the Lie algebra symmetries. This substitution results in a more general class of solvable Hamiltonians and for qubit algebras is related to the recently proposed non-contextual Pauli Hamiltonians. In fermionic problems, this substitution leads to Hamiltonians with eigenstates that are single Slater determinants but with different sets of single-particle states for different eigenstates. The new class of solvable Hamiltonians can be measured efficiently using quantum circuits with gates that depend on the result of a mid-circuit measurement of the symmetries.
翻訳日:2023-05-30 13:52:25 公開日:2023-05-29
# 言語モデルはいつ参照を幻覚させるのか?

Do Language Models Know When They're Hallucinating References? ( http://arxiv.org/abs/2305.18248v1 )

ライセンス: Link先を確認
Ayush Agrawal, Lester Mackey and Adam Tauman Kalai(参考訳) 現在の最先端言語モデル(LM)は、トレーニングデータに確固とした基盤が欠けている書籍や論文の参照である「幻覚」でテキストを生成することで有名である。 しかし,これらの多くは,外部リソースを照会することなく,ブラックボックスクエリのみを用いて同一のLMを用いて識別できることが判明した。 生成した参照タイトルが本物かどうかに関する直接クエリによる一貫性チェック(Kadavath et al. 2022, Lin et al. 2022, Manakul et al. 2023)は、その作品の著者などの補助的な詳細を求める間接クエリによる一貫性チェックと比較される。 これらの整合性チェックは、参照が幻覚であるか否かを部分的に信頼性のある指標である。 特に、GPTシリーズのLMは、独立したセッションでクエリされた際、幻覚された参照の異なる作者を幻覚させるが、実際の参照の作者を一貫して識別する。 このことから、幻覚は根底にある表現よりも生成技術の結果である可能性が示唆される。

Current state-of-the-art language models (LMs) are notorious for generating text with "hallucinations," a primary example being book and paper references that lack any solid basis in their training data. However, we find that many of these fabrications can be identified using the same LM, using only black-box queries without consulting any external resources. Consistency checks done with direct queries about whether the generated reference title is real (inspired by Kadavath et al. 2022, Lin et al. 2022, Manakul et al. 2023) are compared to consistency checks with indirect queries which ask for ancillary details such as the authors of the work. These consistency checks are found to be partially reliable indicators of whether or not the reference is a hallucination. In particular, we find that LMs in the GPT-series will hallucinate differing authors of hallucinated references when queried in independent sessions, while it will consistently identify authors of real references. This suggests that the hallucination may be more a result of generation techniques than the underlying representation.
翻訳日:2023-05-30 13:52:05 公開日:2023-05-29
# TaleCrafter: 複数のキャラクタによるインタラクティブなストーリービジュアライゼーション

TaleCrafter: Interactive Story Visualization with Multiple Characters ( http://arxiv.org/abs/2305.18247v1 )

ライセンス: Link先を確認
Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang(参考訳) 正確なストーリーの視覚化には、フレーム間のアイデンティティ一貫性、プレーンテキストとビジュアルコンテンツのアライメント、イメージ内のオブジェクトの適切なレイアウトなど、いくつかの必要な要素が必要です。 以前の作品の多くは、同じスタイルで同じ文字の動画群、例えばフリントストーンsvデータセットにテキスト・ツー・イメージ(t2i)モデルを適合させることで、これらの要件を満たそうとしている。 しかし、学習されたT2Iモデルは一般的に新しいキャラクター、シーン、スタイルに適応するのに苦労し、しばしば合成画像のレイアウトを変更する柔軟性に欠ける。 本稿では,複数の新規文字を処理し,レイアウトや局所構造の編集を支援する汎用対話型ストーリー可視化システムを提案する。 大規模コーパスで訓練された大規模言語とT2Iモデルの事前知識を活用することで開発される。 システムは、ストーリー・ツー・プロンプト生成(S2P)、テキスト・トゥ・レイアウト生成(T2L)、制御可能なテキスト・ツー・イメージ生成(C-T2I)、イメージ・トゥ・ビデオアニメーション(I2V)の4つの相互接続コンポーネントからなる。 まず、S2Pモジュールは、簡潔なストーリー情報をその後の段階に必要な詳細なプロンプトに変換する。 次に、T2Lはプロンプトに基づいて多様で合理的なレイアウトを生成し、ユーザが好みに合わせてレイアウトを調整および洗練する機能を提供する。 コアコンポーネントであるc-t2iは、レイアウト、スケッチ、アクタ固有の識別子でガイドされたイメージの作成を可能にする。 最後に、I2Vは生成した画像をアニメーションすることで可視化プロセスを強化する。 提案システムの対話型編集の有効性と柔軟性を検証するため,広範な実験とユーザ調査を行った。

Accurate Story visualization requires several necessary elements, such as identity consistency across frames, the alignment between plain text and visual content, and a reasonable layout of objects in images. Most previous works endeavor to meet these requirements by fitting a text-to-image (T2I) model on a set of videos in the same style and with the same characters, e.g., the FlintstonesSV dataset. However, the learned T2I models typically struggle to adapt to new characters, scenes, and styles, and often lack the flexibility to revise the layout of the synthesized images. This paper proposes a system for generic interactive story visualization, capable of handling multiple novel characters and supporting the editing of layout and local structure. It is developed by leveraging the prior knowledge of large language and T2I models, trained on massive corpora. The system comprises four interconnected components: story-to-prompt generation (S2P), text-to-layout generation (T2L), controllable text-to-image generation (C-T2I), and image-to-video animation (I2V). First, the S2P module converts concise story information into detailed prompts required for subsequent stages. Next, T2L generates diverse and reasonable layouts based on the prompts, offering users the ability to adjust and refine the layout to their preference. The core component, C-T2I, enables the creation of images guided by layouts, sketches, and actor-specific identifiers to maintain consistency and detail across visualizations. Finally, I2V enriches the visualization process by animating the generated images. Extensive experiments and a user study are conducted to validate the effectiveness and flexibility of interactive editing of the proposed system.
翻訳日:2023-05-30 13:51:44 公開日:2023-05-29
# Provable and Practical: Langevin Monte Carloによる強化学習の効率的な探索

Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo ( http://arxiv.org/abs/2305.18246v1 )

ライセンス: Link先を確認
Haque Ishfaq, Qingfeng Lan, Pan Xu, A. Rupam Mahmood, Doina Precup, Anima Anandkumar, Kamyar Azizzadenesheli(参考訳) 本稿では、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。 既存のトンプソンサンプリングアルゴリズムの重要な欠点の1つは、後方分布のガウス近似を実行する必要があることである。 その代わりに、markov chain monte carlo (mcmc) 法の効率的なタイプであるlangevin monte carloを用いて、後続分布からq関数を直接サンプリングする。 提案手法では,Q関数の正確な後部分布を学習するためにのみ雑音勾配降下更新を行う必要があるため,より深いRLでの展開が容易である。 提案手法の厳密な理論的解析を行い、線形マルコフ決定過程(線形MDP)において、$\tilde{O}(d^{3/2}H^{5/2}\sqrt{T})$の後悔境界を持ち、$d$は特徴写像の次元であり、$H$は計画的地平線であり、$T$はステップの総数であることを示す。 我々は、Adam Optimizationrを用いて勾配更新を行うことにより、このアプローチをディープRLに適用する。 提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。

We present a scalable and effective exploration strategy based on Thompson sampling for reinforcement learning (RL). One of the key shortcomings of existing Thompson sampling algorithms is the need to perform a Gaussian approximation of the posterior distribution, which is not a good surrogate in most practical settings. We instead directly sample the Q function from its posterior distribution, by using Langevin Monte Carlo, an efficient type of Markov Chain Monte Carlo (MCMC) method. Our method only needs to perform noisy gradient descent updates to learn the exact posterior distribution of the Q function, which makes our approach easy to deploy in deep RL. We provide a rigorous theoretical analysis for the proposed method and demonstrate that, in the linear Markov decision process (linear MDP) setting, it has a regret bound of $\tilde{O}(d^{3/2}H^{5/2}\sqrt{T})$, where $d$ is the dimension of the feature mapping, $H$ is the planning horizon, and $T$ is the total number of steps. We apply this approach to deep RL, by using Adam optimizer to perform gradient updates. Our approach achieves better or similar results compared with state-of-the-art deep RL algorithms on several challenging exploration tasks from the Atari57 suite.
翻訳日:2023-05-30 13:51:11 公開日:2023-05-29
# マルチモーダル大言語モデルを用いた文脈オブジェクト検出

Contextual Object Detection with Multimodal Large Language Models ( http://arxiv.org/abs/2305.18279v1 )

ライセンス: Link先を確認
Yuhang Zang, Wei Li, Jun Han, Kaiyang Zhou, Chen Change Loy(参考訳) 近年のMLLM(Multimodal Large Language Models)は、画像キャプションや質問応答といった視覚言語タスクにおいて顕著であるが、本質的な知覚能力、すなわちオブジェクト検出に欠ける。 本稿では,コンテキストオブジェクト検出の新たな研究問題 -- 異なるヒューマン-ai対話的コンテキスト内の可視オブジェクトを理解することで,この制限に対処する。 言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。 さらに、視覚的オブジェクトと人間のAIインタラクションのための言語入力を識別、識別、関連付けるために、視覚的コンテキストのエンドツーエンドで微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。 ContextDETには3つの重要なサブモデルがあります。 (i)視覚表現を抽出する視覚エンコーダ (ii)マルチモーダルコンテキスト復号のための事前訓練LDM、及び (iii)文脈対象語が与えられた境界ボックスを予測するビジュアルデコーダ。 新しいgenerate-then-detect frameworkにより、人間の語彙内のオブジェクトワードを検出できる。 広範な実験により,提案するコードベンチマーク,オープンボキャブラリー検出,画像セグメンテーション参照におけるコンテキストデットの利点を示す。 github: https://github.com/yuhangzang/contextdet。

Recent Multimodal Large Language Models (MLLMs) are remarkable in vision-language tasks, such as image captioning and question answering, but lack the essential perception ability, i.e., object detection. In this work, we address this limitation by introducing a novel research problem of contextual object detection -- understanding visible objects within different human-AI interactive contexts. Three representative scenarios are investigated, including the language cloze test, visual captioning, and question answering. Moreover, we present ContextDET, a unified multimodal model that is capable of end-to-end differentiable modeling of visual-language contexts, so as to locate, identify, and associate visual objects with language inputs for human-AI interaction. Our ContextDET involves three key submodels: (i) a visual encoder for extracting visual representations, (ii) a pre-trained LLM for multimodal context decoding, and (iii) a visual decoder for predicting bounding boxes given contextual object words. The new generate-then-detect framework enables us to detect object words within human vocabulary. Extensive experiments show the advantages of ContextDET on our proposed CODE benchmark, open-vocabulary detection, and referring image segmentation. Github: https://github.com/yuhangzang/ContextDET.
翻訳日:2023-05-30 13:44:52 公開日:2023-05-29
# 構文マージの数学的構造

Mathematical Structure of Syntactic Merge ( http://arxiv.org/abs/2305.18278v1 )

ライセンス: Link先を確認
Matilde Marcolli, Noam Chomsky, Robert Berwick(参考訳) 言語学におけるミニマリストプログラムの構文的マージ演算はホップ代数の項で数学的に記述することができ、再正規化の物理学で生じるものと類似した形式主義を持つ。 このマージの数学的定式化は、言語学で実証的に観察される現象が単純な数学的議論から正当化できるので、優れた記述力を持つ。 また、外部化と構文パラメータの役割のための数学的モデルも提供する。

The syntactic Merge operation of the Minimalist Program in linguistics can be described mathematically in terms of Hopf algebras, with a formalism similar to the one arising in the physics of renormalization. This mathematical formulation of Merge has good descriptive power, as phenomena empirically observed in linguistics can be justified from simple mathematical arguments. It also provides a possible mathematical model for externalization and for the role of syntactic parameters.
翻訳日:2023-05-30 13:44:31 公開日:2023-05-29
# 3DTeethSeg'22: 3D Teth Scan Segmentation and Labeling Challenge

3DTeethSeg'22: 3D Teeth Scan Segmentation and Labeling Challenge ( http://arxiv.org/abs/2305.18277v1 )

ライセンス: Link先を確認
Achraf Ben-Hamadou, Oussama Smaoui, Ahmed Rekik, Sergi Pujades, Edmond Boyer, Hoyeon Lim, Minchang Kim, Minkyung Lee, Minyoung Chung, Yeong-Gil Shin, Mathieu Leclercq, Lucia Cevidanes, Juan Carlos Prieto, Shaojie Zhuang, Guangshun Wei, Zhiming Cui, Yuanfeng Zhou, Tudor Dascalu, Bulat Ibragimov, Tae-Hoon Yong, Hong-Gi Ahn, Wan Kim, Jae-Hwan Han, Byungsun Choi, Niels van Nistelrooij, Steven Kempers, Shankeeth Vinayahalingam, Julien Strippoli, Aur\'elien Thollot, Hugo Setbon, Cyril Trosset, Edouard Ladroit(参考訳) 口腔内3dスキャンによる歯の局在, セグメンテーション, およびラベリングは, 歯科診断, 治療計画, 口腔保健に関する人口調査など, 現代の歯科医療において不可欠な課題である。 しかし, 歯科解剖学, イメージングプロトコル, 一般公開データの利用率の制限などにより, 自動歯形解析アルゴリズムの開発が重大な課題となっている。 これらの課題に対処するために、3dteethseg'22 challengeは2022年に国際医用画像コンピューティング会議(miccai)と共に組織され、口腔内3dスキャンから歯の局在化、セグメンテーション、ラベリングに取り組むアルゴリズムを呼び掛けた。 900人の患者から合計1800件のスキャンデータを作成し,各歯を人間と機械のハイブリッドアルゴリズムで個別に注釈付けした。 このデータセットで合計6つのアルゴリズムを評価した。 本研究では,3DTeethSeg'22チャレンジの評価結果について述べる。 3DTeethSeg'22チャレンジコードは、https://github.com/abenhamadou/3DTeethSeg22_challengeでアクセスすることができる。

Teeth localization, segmentation, and labeling from intra-oral 3D scans are essential tasks in modern dentistry to enhance dental diagnostics, treatment planning, and population-based studies on oral health. However, developing automated algorithms for teeth analysis presents significant challenges due to variations in dental anatomy, imaging protocols, and limited availability of publicly accessible data. To address these challenges, the 3DTeethSeg'22 challenge was organized in conjunction with the International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) in 2022, with a call for algorithms tackling teeth localization, segmentation, and labeling from intraoral 3D scans. A dataset comprising a total of 1800 scans from 900 patients was prepared, and each tooth was individually annotated by a human-machine hybrid algorithm. A total of 6 algorithms were evaluated on this dataset. In this study, we present the evaluation results of the 3DTeethSeg'22 challenge. The 3DTeethSeg'22 challenge code can be accessed at: https://github.com/abenhamadou/3DTeethSeg22_challenge
翻訳日:2023-05-30 13:44:22 公開日:2023-05-29
# 心の眼の再構築--コントラスト学習と拡散前兆を用いたfmriから画像への変換

Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors ( http://arxiv.org/abs/2305.18274v1 )

ライセンス: Link先を確認
Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham(参考訳) 脳活動から視像を検索・再構成するための新しいfMRI-to-imageアプローチであるMindEyeを提案する。 本モデルは,検索(コントラスト学習)と再構築(拡散前処理)に特化した2つの並列部分モジュールからなる。 mindeyeは、fmriの脳活動をクリップ画像空間のようなあらゆる高次元のマルチモーダル潜在空間にマッピングすることができ、この潜在空間からの埋め込みを受け入れる生成モデルを使って画像再構成を可能にする。 提案手法と既存手法を総合的に比較し,定性的側面比較と定量的評価を併用し,MindEyeが復元作業と検索作業の両方において最先端のパフォーマンスを達成することを示す。 特にMindEyeは、脳の埋め込みがきめ細かな画像特有の情報を保持していることを示す非常に類似した候補の中でも、正確な元の画像を取得することができる。 これにより、LAION-5Bのような大規模データベースからでも正確に画像を取得することができる。 我々は,mindeyeが従来の手法よりも性能が向上し,検索と再構築のための特別なサブモジュール,トレーニング技術の改善,パラメータの桁違いなトレーニングモデルなどが得られたことをアブレーションにより証明した。 さらに,img2imgを別個のオートエンコーダから出力することで,MindEyeは再構成の低レベル画像の特徴を保存できることを示す。 すべてのコードはGitHubで入手できる。

We present MindEye, a novel fMRI-to-image approach to retrieve and reconstruct viewed images from brain activity. Our model comprises two parallel submodules that are specialized for retrieval (using contrastive learning) and reconstruction (using a diffusion prior). MindEye can map fMRI brain activity to any high dimensional multimodal latent space, like CLIP image space, enabling image reconstruction using generative models that accept embeddings from this latent space. We comprehensively compare our approach with other existing methods, using both qualitative side-by-side comparisons and quantitative evaluations, and show that MindEye achieves state-of-the-art performance in both reconstruction and retrieval tasks. In particular, MindEye can retrieve the exact original image even among highly similar candidates indicating that its brain embeddings retain fine-grained image-specific information. This allows us to accurately retrieve images even from large-scale databases like LAION-5B. We demonstrate through ablations that MindEye's performance improvements over previous methods result from specialized submodules for retrieval and reconstruction, improved training techniques, and training models with orders of magnitude more parameters. Furthermore, we show that MindEye can better preserve low-level image features in the reconstructions by using img2img, with outputs from a separate autoencoder. All code is available on GitHub.
翻訳日:2023-05-30 13:43:59 公開日:2023-05-29
# Pix2Repair:画像から形状を復元する

Pix2Repair: Implicit Shape Restoration from Images ( http://arxiv.org/abs/2305.18273v1 )

ライセンス: Link先を確認
Nikolas Lamb, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) Pix2Repairは、画像から復元形状を生成し、破折した物体を修復する自動形状修復手法である。 以前の修理アプローチでは、入力として破砕した物体の高分解能の防水3dメッシュが必要だった。 入力3Dメッシュは高価な3Dスキャナーを使用して取得し、スキャンされたメッシュは手作業によるクリーンアップ、アクセシビリティとスケーラビリティの制限を必要とする。 Pix2Repairは、壊れた物体の画像を入力として、自動的に3Dプリント可能な復元形状を生成する。 本稿では, 破壊対象を表す潜在符号を, 完全な形状と破壊面に分解する新しい形状関数を提案する。 本稿では, 幾何破折と破折バッドデータセットからの人工骨折の復元, QPデータセットからの文化的遺産, Fantastic Breaksデータセットからの実際の骨折の復元について述べる。 視線中心の復元を予測することで軸対称物体の復元における課題を克服する。 本手法は, シャムハ距離, アースムーバー距離, ノーマル一貫性, およびパーセンテージ復元の観点で形状修復に適応した形状補完アプローチよりも優れる。

We present Pix2Repair, an automated shape repair approach that generates restoration shapes from images to repair fractured objects. Prior repair approaches require a high-resolution watertight 3D mesh of the fractured object as input. Input 3D meshes must be obtained using expensive 3D scanners, and scanned meshes require manual cleanup, limiting accessibility and scalability. Pix2Repair takes an image of the fractured object as input and automatically generates a 3D printable restoration shape. We contribute a novel shape function that deconstructs a latent code representing the fractured object into a complete shape and a break surface. We show restorations for synthetic fractures from the Geometric Breaks and Breaking Bad datasets, and cultural heritage objects from the QP dataset, and for real fractures from the Fantastic Breaks dataset. We overcome challenges in restoring axially symmetric objects by predicting view-centered restorations. Our approach outperforms shape completion approaches adapted for shape repair in terms of chamfer distance, earth mover's distance, normal consistency, and percent restorations generated.
翻訳日:2023-05-30 13:43:32 公開日:2023-05-29
# 2層ニューラルネットワークの学習

Learning Two-Layer Neural Networks, One (Giant) Step at a Time ( http://arxiv.org/abs/2305.18270v1 )

ライセンス: Link先を確認
Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic Stephan(参考訳) 本研究では,浅層ニューラルネットワークの学習ダイナミクスについて検討し,多数のバッチ勾配降下ステップがカーネルレジームを超えて機能学習を容易にする条件について検討した。 バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。 単一ステップのプロセスの解析では,バッチサイズが$n = O(d)$で機能学習が可能であるのに対して,単一方向や単一インデックスモデルを学ぶのに十分であることがわかった。 対照的に、$n = O(d^2)$ は複数の方向の学習と特殊化に不可欠である。 さらに,最初の $\ell$ hermite 係数を持たない ``hard'' 方向は観測されず,勾配降下によって捕獲されるには $n = o(d^\ell)$ のバッチサイズを必要とすることを示した。 いくつかのステップを繰り返すと、シナリオが変わる: $n = o(d)$ のバッチサイズは、ヘルマイトベースで線形に接続された部分空間にまたがる新たなターゲット方向を学習するのに十分である。 本分析では, 濃度, 投射に基づく条件付け, ガウス同値など, 独立した興味を持つ手法を併用する。 学習と専門化に必要な条件を決定することで、バッチサイズとイテレーション数との相互作用を強調し、学習性能が時間とバッチサイズにおける精度の階段を示し、ニューラルネットワークにおける特徴学習に新たな光を当てる階層的描写へと導く。

We study the training dynamics of shallow neural networks, investigating the conditions under which a limited number of large batch gradient descent steps can facilitate feature learning beyond the kernel regime. We compare the influence of batch size and that of multiple (but finitely many) steps. Our analysis of a single-step process reveals that while a batch size of $n = O(d)$ enables feature learning, it is only adequate for learning a single direction, or a single-index model. In contrast, $n = O(d^2)$ is essential for learning multiple directions and specialization. Moreover, we demonstrate that ``hard'' directions, which lack the first $\ell$ Hermite coefficients, remain unobserved and require a batch size of $n = O(d^\ell)$ for being captured by gradient descent. Upon iterating a few steps, the scenario changes: a batch-size of $n = O(d)$ is enough to learn new target directions spanning the subspace linearly connected in the Hermite basis to the previously learned directions, thereby a staircase property. Our analysis utilizes a blend of techniques related to concentration, projection-based conditioning, and Gaussian equivalence that are of independent interest. By determining the conditions necessary for learning and specialization, our results highlight the interaction between batch size and number of iterations, and lead to a hierarchical depiction where learning performance exhibits a stairway to accuracy over time and batch size, shedding new light on feature learning in neural networks.
翻訳日:2023-05-30 13:43:14 公開日:2023-05-29
# 正しい理由のために正しいことをする:コスト不感度の探索による人工道徳的認知の評価

Doing the right thing for the right reason: Evaluating artificial moral cognition by probing cost insensitivity ( http://arxiv.org/abs/2305.18269v1 )

ライセンス: Link先を確認
Yiran Mao, Madeline G. Reinecke, Markus Kunesch, Edgar A. Du\'e\~nez-Guzm\'an, Ramona Comanescu, Julia Haas, Joel Z. Leibo(参考訳) 複雑な人工エージェントの道徳的認知を評価することは可能か? 本書では道徳の1つの側面を考察する:「正しい理由のために正しいことをする」。 「人間にも応用できる人工的道徳認知の行動に基づく分析を提案。 このコストに対するエージェントの感度を測定することで、私たちは根本的な動機について深い洞察を得ることができます。 この評価を特定の深層強化学習エージェントに適用し,メモリベースのメタ強化学習により学習する。 以上の結果から,他者の嗜好を含む報酬関数を訓練したエージェントは,自尊心のある嗜好を訓練したエージェントよりもコストの上昇に敏感でない方法で支援行動を実行することが示唆された。

Is it possible to evaluate the moral cognition of complex artificial agents? In this work, we take a look at one aspect of morality: `doing the right thing for the right reasons.' We propose a behavior-based analysis of artificial moral cognition which could also be applied to humans to facilitate like-for-like comparison. Morally-motivated behavior should persist despite mounting cost; by measuring an agent's sensitivity to this cost, we gain deeper insight into underlying motivations. We apply this evaluation to a particular set of deep reinforcement learning agents, trained by memory-based meta-reinforcement learning. Our results indicate that agents trained with a reward function that includes other-regarding preferences perform helping behavior in a way that is less sensitive to increasing cost than agents trained with more self-interested preferences.
翻訳日:2023-05-30 13:42:50 公開日:2023-05-29
# 制約付きリードワンにおける(1+1)EAの解析

Analysis of the (1+1) EA on LeadingOnes with Constraints ( http://arxiv.org/abs/2305.18267v1 )

ライセンス: Link先を確認
Tobias Friedrich, Timo K\"otzing, Aneta Neumann, Frank Neumann, Aishwarya Radhakrishnan(参考訳) 近年,制約問題に対する進化的アルゴリズムの作用の理解が注目されている。 本稿では,従来のLeadingOnes問題の制約バージョンを最適化するアルゴリズムについて述べる。 まず,古典的 (1+1) EA に対して決定論的濃度制約を課し,厳密な境界として $\Theta(n (n-B)\log(B) + n^2)$ を与える。 その結果,アルゴリズムの挙動は一様制約の制約境界に大きく依存していることがわかった。 その後, 確率的制約の文脈における問題を考察し, EA($\mu$+1) がサンプリングベースでこれらの制約にどのように対処できるかを実験的に検討して考察する。

Understanding how evolutionary algorithms perform on constrained problems has gained increasing attention in recent years. In this paper, we study how evolutionary algorithms optimize constrained versions of the classical LeadingOnes problem. We first provide a run time analysis for the classical (1+1) EA on the LeadingOnes problem with a deterministic cardinality constraint, giving $\Theta(n (n-B)\log(B) + n^2)$ as the tight bound. Our results show that the behaviour of the algorithm is highly dependent on the constraint bound of the uniform constraint. Afterwards, we consider the problem in the context of stochastic constraints and provide insights using experimental studies on how the ($\mu$+1) EA is able to deal with these constraints in a sampling-based setting.
翻訳日:2023-05-30 13:42:34 公開日:2023-05-29
# 新型コロナウイルス(covid-19)の真偽を科学的な証拠で確認

Check-COVID: Fact-Checking COVID-19 News Claims with Scientific Evidence ( http://arxiv.org/abs/2305.18265v1 )

ライセンス: Link先を確認
Gengyu Wang, Kate Harwood, Lawrence Chillrud, Amith Ananthram, Melanie Subbiah, Kathleen McKeown(参考訳) われわれは、科学論文の証拠を利用して、ニュースから新型コロナウイルスに関する主張を検証するための、新たなファクトチェックベンチマークであるCheck-COVIDを提示する。 事実チェックへのこのアプローチは、形式的な学術用語で書かれたジャーナル記事の証拠に対して、日常言語で書かれたインターネットテキストをチェックする必要があるため、特に難しい。 Check-COVIDには、専門家が記載した1,504件のニュース記事と、科学雑誌の記事や検証ラベルの文章レベルの証拠が組み合わさっている。 抽出された(ジャーナリストによる)クレームと合成された(注釈による)クレームの両方を含む。 このタスクでそれぞれF1スコア76.99と69.90を達成しているファクトチェック特定システムとGPT-3.5の両方を用いた実験は、クレームタイプとドメイン内のデータの重要性の両方を自動的にファクトチェックすることの難しさを明らかにしている。 データとモデルはhttps://github.com/posuer/check-covid.comで公開しています。

We present a new fact-checking benchmark, Check-COVID, that requires systems to verify claims about COVID-19 from news using evidence from scientific articles. This approach to fact-checking is particularly challenging as it requires checking internet text written in everyday language against evidence from journal articles written in formal academic language. Check-COVID contains 1, 504 expert-annotated news claims about the coronavirus paired with sentence-level evidence from scientific journal articles and veracity labels. It includes both extracted (journalist-written) and composed (annotator-written) claims. Experiments using both a fact-checking specific system and GPT-3.5, which respectively achieve F1 scores of 76.99 and 69.90 on this task, reveal the difficulty of automatically fact-checking both claim types and the importance of in-domain data for good performance. Our data and models are released publicly at https://github.com/posuer/Check-COVID.
翻訳日:2023-05-30 13:42:16 公開日:2023-05-29
# gen-l-video:temporal co-denoisingによるマルチテキストからロングビデオ生成

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising ( http://arxiv.org/abs/2305.18264v1 )

ライセンス: Link先を確認
Fu-Yun Wang, Wenshuo Chen, Guanglu Song, Han-Jia Ye, Yu Liu, Hongsheng Li(参考訳) 大規模画像テキストデータセットの活用と拡散モデルの進歩により、テキスト駆動生成モデルは画像生成と編集の分野で顕著な進歩を遂げた。 本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性を検討する。 ビデオ生成と編集の現在の手法は革新的ではあるが、しばしば非常に短いビデオ(通常24フレーム未満)に限られ、単一のテキスト条件に限定される。 これらの制約は、実世界のビデオは通常複数のセグメントから構成されており、それぞれが異なる意味情報を持っているため、アプリケーションに著しく制限を与える。 この課題に対処するために,我々は,多種多様なセマンティクスセグメントを有する数百のフレームからなる映像を,コンテンツの一貫性を維持しながら生成・編集するための,市販のショートビデオ拡散モデルを拡張できるgen-l-videoと呼ばれる新しいパラダイムを導入する。 我々は,テキスト駆動のビデオ生成と編集の手法を3つ実装し,提案するパラダイムにより,様々な意味セグメントを付与した長文ビデオに対応できるように拡張した。 実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張し,今後の研究・応用の可能性を示した。 コードはhttps://github.com/G-U-N/Gen-L-Videoで公開されている。

Leveraging large-scale image-text datasets and advancements in diffusion models, text-driven generative models have made remarkable strides in the field of image generation and editing. This study explores the potential of extending the text-driven ability to the generation and editing of multi-text conditioned long videos. Current methodologies for video generation and editing, while innovative, are often confined to extremely short videos (typically less than 24 frames) and are limited to a single text condition. These constraints significantly limit their applications given that real-world videos usually consist of multiple segments, each bearing different semantic information. To address this challenge, we introduce a novel paradigm dubbed as Gen-L-Video, capable of extending off-the-shelf short video diffusion models for generating and editing videos comprising hundreds of frames with diverse semantic segments without introducing additional training, all while preserving content consistency. We have implemented three mainstream text-driven video generation and editing methodologies and extended them to accommodate longer videos imbued with a variety of semantic segments with our proposed paradigm. Our experimental outcomes reveal that our approach significantly broadens the generative and editing capabilities of video diffusion models, offering new possibilities for future research and applications. The code is available at https://github.com/G-U-N/Gen-L-Video.
翻訳日:2023-05-30 13:42:00 公開日:2023-05-29
# RAPHAEL: 大きな拡散経路によるテキスト・画像生成

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths ( http://arxiv.org/abs/2305.18295v1 )

ライセンス: Link先を確認
Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo(参考訳) テキストから画像への生成は、最近目覚ましい成果を上げている。 我々は,複数の名詞,形容詞,動詞を含む文のプロンプトを正確に表現し,高度に芸術的な画像を生成するために,RAPHAELと呼ばれるテキスト条件画像拡散モデルを導入する。 これは、ネットワーク入力から出力への数十億の拡散経路(ルート)を可能にする、空間-MoE層と時間-MoE層を積み重ねることによって達成される。 各パスは、拡散時間ステップで特定の画像領域に特定のテキスト概念を記述するための「ページ」として直感的に機能する。 総合的な実験により、RAPHAELは画像の品質と美的魅力の両方の観点から、最近の最先端モデル、例えばStable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2を上回っていることが明らかになった。 第一に、RAPHAELは日本の漫画、リアリズム、サイバーパンク、インクイラストのような様々なスタイルの画像を切り替える際の優れたパフォーマンスを示す。 第二に、30億のパラメータを持つ単一のモデルで、2ヶ月間1,000A100 GPUでトレーニングされ、COCOデータセットで最先端のゼロショットFIDスコア6.61を達成する。 さらに、RAPHAELはViLG-300ベンチマークの人間による評価において、その性能を大幅に上回っている。 我々は、ラファエルが学界と産業の両方における画像生成研究のフロンティアを促進する可能性を秘めており、この急速に発展する分野における将来のブレークスルーへの道を開くと信じている。 詳細はプロジェクトのwebページにある。 https://raphael-painter.github.io/。

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a project webpage: https://raphael-painter.github.io/.
翻訳日:2023-05-30 13:35:14 公開日:2023-05-29
# 予測頭部における単語頻度の変換言語モデル

Transformer Language Models Handle Word Frequency in Prediction Head ( http://arxiv.org/abs/2305.18294v1 )

ライセンス: Link先を確認
Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui(参考訳) 予測ヘッドはトランスフォーマー言語モデルの重要なコンポーネントである。 予測に直接的な影響があるにもかかわらず、このコンポーネントはトランスフォーマーの分析においてしばしば見過ごされてきた。 本研究では,予測ヘッドの内部動作について検討し,特にバイアスパラメータに着目した。 BERT モデルと GPT-2 モデルを用いた実験により,単語予測ヘッドのバイアスがコーパス内の単語周波数を反映する能力に重要な役割を果たすことが明らかとなった。 また, テキスト品質を損なうことなく, より多様なテキストを生成できるという, 実践的自己回帰テキスト生成シナリオにおけるバイアス制御の効果を定量的に評価する。

Prediction head is a crucial component of Transformer language models. Despite its direct impact on prediction, this component has often been overlooked in analyzing Transformers. In this study, we investigate the inner workings of the prediction head, specifically focusing on bias parameters. Our experiments with BERT and GPT-2 models reveal that the biases in their word prediction heads play a significant role in the models' ability to reflect word frequency in a corpus, aligning with the logit adjustment method commonly used in long-tailed learning. We also quantify the effect of controlling the biases in practical auto-regressive text generation scenarios; under a particular setting, more diverse text can be generated without compromising text quality.
翻訳日:2023-05-30 13:34:43 公開日:2023-05-29
# mix-of-show:拡散モデルのマルチコンセプタカスタマイズのための分散低ランク適応

Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models ( http://arxiv.org/abs/2305.18292v1 )

ライセンス: Link先を確認
Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou(参考訳) 安定拡散のような公共の大規模テキスト・画像拡散モデルは、コミュニティから大きな注目を集めている。 これらのモデルはローランク適応(loras)を使用して新しい概念に容易にカスタマイズできる。 しかしながら、複数のカスタマイズされた概念を共同でサポートする複数の概念ロラスの利用が課題となっている。 このシナリオを、単一クライアントの概念チューニングと中心ノードの概念融合を含む分散マルチコンセプトカスタマイズと呼ぶ。 本稿では,既存の単一クライアントloraチューニングとモデル融合時のid損失による概念衝突を含む,分散マルチコンセプタカスタマイズの課題を解決するmix-of-showと呼ばれる新しいフレームワークを提案する。 Mix-of-Showは、単一の概念のドメイン内の本質を保ち、理論的に制限のない概念融合をサポートするために、中心ノードの単一サイクルチューニングと勾配融合のために埋め込み分解されたLoRA(ED-LoRA)を採用する。 さらに,マルチコンセプタサンプリングにおける属性バインディングやオブジェクト不足問題に対処するために,空間的に制御可能なサンプリング(例えば controlnet や t2i-adaptor)を拡張した局所制御可能なサンプリングを導入する。 大規模な実験では、Mix-of-Showは複数のカスタマイズされたコンセプトを、キャラクター、オブジェクト、シーンを含む高い忠実度で構成できることを示した。

Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.
翻訳日:2023-05-30 13:34:31 公開日:2023-05-29
# ハイブリッド光機械ネットワークにおける量子状態と定常量子相関の伝達

Transfer of quantum states and stationary quantum correlations in a hybrid optomechanical network ( http://arxiv.org/abs/2305.18291v1 )

ライセンス: Link先を確認
Hugo Molinares, Bing He and Vitalie Eremeev(参考訳) 本研究では,内部に原子を持つ2つの空洞と共通の移動鏡(すなわち機械振動子)を介して相互作用するハイブリッド光機械ネットワークにおける動的移動と量子状態の定常同期の効果に関する体系的研究を行う。 キャビティモード間のSchr\"{o}dinger's catと圧縮状態の高忠実移動が可能であることが判明した。 さらに, スクイージングの発生, 移動, 安定化を中間とする機械振動子によって実現可能な高忠実度における定常的な圧縮状態におけるキャビティモードの同期効果を示す。 この枠組みでは,二部岩および三部岩の絡み合いの発生と進化も研究し,伝達と同期の効果との相互関係を見出した。 特に、移動が最大忠実度で起こるとき、この瞬間に任意の絡み合いはほぼゼロであり、モードは非絡み合いである。 一方、2つのボソニックモードが圧縮された定常状態で同期されると、これらのモードも絡み合わされる。 この研究で得られた結果は、量子情報と計算技術、および圧縮状態が必須であるメトロロジーのセットアップにその適用性を見出すかもしれない。

We present a systematic study on the effects of dynamical transfer and steady-state synchronization of quantum states in a hybrid optomechanical network, consisting of two cavities with atoms inside and interacting via a common moving mirror (i.e. mechanical oscillator), are studied. It is found that high fidelity transfer of Schr\"{o}dinger's cat and squeezed states between the cavities modes is possible. Additionally, we show the effect of synchronization of cavity modes in a steady squeezed states at high fidelity realizable by the mechanical oscillator which intermediates the generation, transfer and stabilization of the squeezing. In this framework, we also have studied the generation and evolution of bipartite and tripartite entanglement and found its interconnection to the effects of transfer and synchronization. Particularly, when the transfer occurs at the maximal fidelity, at this instant any entanglement is almost zero, so the modes are disentangled. On the other hand, when the two bosonic modes are synchronized in a squeezed stationary state, then these modes are also entangled. The results found in this study may find their applicability in quantum information and computation technologies, as well in metrology setups, where the squeezed states are essential.
翻訳日:2023-05-30 13:34:08 公開日:2023-05-29
# 直接参照最適化:あなたの言語モデルは秘密裏にリワードモデルである

Direct Preference Optimization: Your Language Model is Secretly a Reward Model ( http://arxiv.org/abs/2305.18290v1 )

ライセンス: Link先を確認
Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn(参考訳) 大規模な教師なし言語モデル(LM)は、幅広い世界の知識とある程度の推論スキルを学習するが、教師なしの訓練の性質が全くないため、その行動の正確な制御は困難である。 このようなステアビリティを得るための既存の方法は、モデル世代における相対的な品質の人間ラベルを収集し、教師なしLMを微調整してこれらの好みに合わせる。 しかし、rlhfは複雑でしばしば不安定な手順であり、まず人間の好みを反映した報酬モデルに適合し、その後強化学習を用いて大きな教師なしlmを微調整し、元のモデルから遠ざかることなくこの推定報酬を最大化する。 本稿では、報酬関数と最適ポリシーのマッピングを利用して、この制約付き報酬最大化問題を、基本的には人間の嗜好データに対する分類問題を解き、単一の段階の政策訓練で正確に最適化できることを示す。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、パフォーマンスが高く、計算量も軽量であり、報酬モデルへの適合、微調整中のLMからのサンプリング、あるいは重要なハイパーパラメータチューニングを行う必要がなくなる。 我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。 特に、DPOによる微調整は、RLHFの世代感情制御能力を超え、要約やシングルターン対話における応答品質を向上させるとともに、実装とトレーニングが大幅に簡単になる。

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model generations and fine-tune the unsupervised LM to align with these preferences, often with reinforcement learning from human feedback (RLHF). However, RLHF is a complex and often unstable procedure, first fitting a reward model that reflects the human preferences, and then fine-tuning the large unsupervised LM using reinforcement learning to maximize this estimated reward without drifting too far from the original model. In this paper, we leverage a mapping between reward functions and optimal policies to show that this constrained reward maximization problem can be optimized exactly with a single stage of policy training, essentially solving a classification problem on the human preference data. The resulting algorithm, which we call Direct Preference Optimization (DPO), is stable, performant and computationally lightweight, eliminating the need for fitting a reward model, sampling from the LM during fine-tuning, or performing significant hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align with human preferences as well as or better than existing methods. Notably, fine-tuning with DPO exceeds RLHF's ability to control sentiment of generations and improves response quality in summarization and single-turn dialogue while being substantially simpler to implement and train.
翻訳日:2023-05-30 13:33:42 公開日:2023-05-29
# LaFTer: 言語とラベルなしイメージコレクションを用いたゼロショット分類器のラベルなしチューニング

LaFTer: Label-Free Tuning of Zero-shot Classifier using Language and Unlabeled Image Collections ( http://arxiv.org/abs/2305.18287v1 )

ライセンス: Link先を確認
M. Jehanzeb Mirza, Leonid Karlinsky, Wei Lin, Mateusz Kozinski, Horst Possegger, Rogerio Feris, Horst Bischof(参考訳) 近年,大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルでは,単純な言語プロンプトとして定義された潜在的に無制限なカテゴリの開語彙認識を可能にするゼロショット視覚分類において,新たな最先端(SOTA)が設定されている。 しかし、これらの大きな進歩にもかかわらず、これらのゼロショット分類器の性能は、教師付き微調整で訓練された専用(閉圏集合)分類器の結果に及ばない。 本稿では,ラベルのないVLデータとラベルなしのVLデータと,興味のあるカテゴリを記述したLarge Language Model (LLM) を用いて自動生成するテキストの集合を用いて,このギャップを初めて削減する方法を示し,それらのカテゴリのラベル付きビジュアルインスタンスを効果的に置換する。 ラベルフリーアプローチを用いることで、ベースVLモデルのゼロショット性能や、さまざまなデータセット上での現代的な手法やベースラインよりも大幅にパフォーマンスが改善され、ラベルフリー環境では最大11.7%(平均3.8%)の絶対的な改善が示される。 さらに,ラベルのないアプローチであっても,5ショットの監督を行うベースラインを先導する数ショットよりも平均1.3%向上する。

Recently, large-scale pre-trained Vision and Language (VL) models have set a new state-of-the-art (SOTA) in zero-shot visual classification enabling open-vocabulary recognition of potentially unlimited set of categories defined as simple language prompts. However, despite these great advances, the performance of these zeroshot classifiers still falls short of the results of dedicated (closed category set) classifiers trained with supervised fine tuning. In this paper we show, for the first time, how to reduce this gap without any labels and without any paired VL data, using an unlabeled image collection and a set of texts auto-generated using a Large Language Model (LLM) describing the categories of interest and effectively substituting labeled visual instances of those categories. Using our label-free approach, we are able to attain significant performance improvements over the zero-shot performance of the base VL model and other contemporary methods and baselines on a wide variety of datasets, demonstrating absolute improvement of up to 11.7% (3.8% on average) in the label-free setting. Moreover, despite our approach being label-free, we observe 1.3% average gains over leading few-shot prompting baselines that do use 5-shot supervision.
翻訳日:2023-05-30 13:33:13 公開日:2023-05-29
# photowap:パーソナライズされた被写体を画像で入れ替える

Photoswap: Personalized Subject Swapping in Images ( http://arxiv.org/abs/2305.18286v1 )

ライセンス: Link先を確認
Jing Gu, Yilin Wang, Nanxuan Zhao, Tsu-Jui Fu, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang(参考訳) 画像と視覚コンテンツが私たちのデジタルランドスケープを支配している時代には、これらの画像の操作とパーソナライズが不可欠になっている。 写真の中で、自分の遊び心のある子犬と一緒に、太陽に照らされた窓にくつろいでいるタブビーキャットをシームレスに置換し、元の魅力と構成を保存することを想像してください。 既存の画像にパーソナライズされた被写体をスワップすることで、没入的な画像編集体験を可能にする新しいアプローチであるPhotoswapを提案する。 Photowapはまず参照画像から対象の視覚概念を学習し、トレーニング不要な方法で事前学習した拡散モデルを用いて対象画像に置き換える。 良好な認識された視覚被写体を任意の画像にシームレスに、適切な自己着脱と相互着脱操作で移すことができ、被写体のポーズと画像全体のコヒーレンスを維持することができる。 パーソナライズされた被験者交換におけるphotowapの有効性と制御可能性に関する総合実験 さらに、photoswapは、被写体交換、背景保存、全体的な品質において、人間の評価におけるベースラインの方法を大幅に上回っており、エンターテイメントからプロの編集まで、幅広い応用可能性を示している。

In an era where images and visual content dominate our digital landscape, the ability to manipulate and personalize these images has become a necessity. Envision seamlessly substituting a tabby cat lounging on a sunlit window sill in a photograph with your own playful puppy, all while preserving the original charm and composition of the image. We present Photoswap, a novel approach that enables this immersive image editing experience through personalized subject swapping in existing images. Photoswap first learns the visual concept of the subject from reference images and then swaps it into the target image using pre-trained diffusion models in a training-free manner. We establish that a well-conceptualized visual subject can be seamlessly transferred to any image with appropriate self-attention and cross-attention manipulation, maintaining the pose of the swapped subject and the overall coherence of the image. Comprehensive experiments underscore the efficacy and controllability of Photoswap in personalized subject swapping. Furthermore, Photoswap significantly outperforms baseline methods in human ratings across subject swapping, background preservation, and overall quality, revealing its vast application potential, from entertainment to professional editing.
翻訳日:2023-05-30 13:32:47 公開日:2023-05-29
# 部分的にパーソナライズされた連合学習:データの不均一性の呪いを破る

Partially Personalized Federated Learning: Breaking the Curse of Data Heterogeneity ( http://arxiv.org/abs/2305.18285v1 )

ライセンス: Link先を確認
Konstantin Mishchenko, Rustem Islamov, Eduard Gorbunov, Samuel Horv\'ath(参考訳) 我々は,個人化の柔軟性とグローバルトレーニングの協調性とのバランスを崩す,フェデレートラーニング(FL)の部分的にパーソナライズされた定式化を提案する。 私たちのフレームワークでは、変数を全クライアント間で共有されるグローバルパラメータと、プライベートに保持される個々のローカルパラメータに分割しています。 パラメータの適切な分割の下では、各クライアントがデータを完璧に適合させるグローバルパラメータを見つけ、得られた問題をオーバーパーソナライズされたものとして参照することが可能である。 例えば、共有グローバルパラメータは良いデータ表現を学ぶために使用できますが、パーソナライズされたレイヤは特定のクライアント用に微調整されています。 さらに,全クライアントに有意なメリットを提供する,部分的パーソナライズされた定式化のための単純なアルゴリズムを提案する。 特に、ローカルステップでのトレーニング、非同期トレーニング、Byzantine-robustトレーニングなど、いくつかの設定でデータの不均一性を損なう。

We present a partially personalized formulation of Federated Learning (FL) that strikes a balance between the flexibility of personalization and cooperativeness of global training. In our framework, we split the variables into global parameters, which are shared across all clients, and individual local parameters, which are kept private. We prove that under the right split of parameters, it is possible to find global parameters that allow each client to fit their data perfectly, and refer to the obtained problem as overpersonalized. For instance, the shared global parameters can be used to learn good data representations, whereas the personalized layers are fine-tuned for a specific client. Moreover, we present a simple algorithm for the partially personalized formulation that offers significant benefits to all clients. In particular, it breaks the curse of data heterogeneity in several settings, such as training with local steps, asynchronous training, and Byzantine-robust training.
翻訳日:2023-05-30 13:31:59 公開日:2023-05-29
# CommonAccent:共通音声に基づくアクセント分類のための大規模音響事前学習モデルの探索

CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice ( http://arxiv.org/abs/2305.18283v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez and Sara Ahmed and Danielius Visockas and Cem Subakan(参考訳) 近年の音声認識(ASR)の進歩にもかかわらず、アクセント付き音声認識は依然として大きな問題である。 より包括的なASRシステムを構築するために、より大きなASRフレームワークの一部としてアクセント情報の統合がアクセント付き音声誤りの軽減につながることが研究で示されている。 本稿では,ecapa-tdnnとwav2vec 2.0/xlsrアーキテクチャによる多言語アクセント分類について述べる。 我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせた簡易なフォローレシピを提案する。 さらに、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。 また, 音韻的類似性に基づくクラスタリングのレベルがあることから, t-SNEによるWav2Vev 2.0埋め込みの内部分類についても検討した。 (当社のレシピは speechbrain toolkit でオープンソースです。 https://github.com/speechbrain/speechbrain/tree/develop/recipes)

Despite the recent advancements in Automatic Speech Recognition (ASR), the recognition of accented speech still remains a dominant problem. In order to create more inclusive ASR systems, research has shown that the integration of accent information, as part of a larger ASR framework, can lead to the mitigation of accented speech errors. We address multilingual accent classification through the ECAPA-TDNN and Wav2Vec 2.0/XLSR architectures which have been proven to perform well on a variety of speech-related downstream tasks. We introduce a simple-to-follow recipe aligned to the SpeechBrain toolkit for accent classification based on Common Voice 7.0 (English) and Common Voice 11.0 (Italian, German, and Spanish). Furthermore, we establish new state-of-the-art for English accent classification with as high as 95% accuracy. We also study the internal categorization of the Wav2Vev 2.0 embeddings through t-SNE, noting that there is a level of clustering based on phonological similarity. (Our recipe is open-source in the SpeechBrain toolkit, see: https://github.com/speechbrain/speechbrain/tree/develop/recipes)
翻訳日:2023-05-30 13:31:42 公開日:2023-05-29
# HyperConformer: 効率的な音声認識のためのマルチヘッドハイパーミクサ

HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition ( http://arxiv.org/abs/2305.18281v1 )

ライセンス: Link先を確認
Florian Mai and Juan Zuluaga-Gomez and Titouan Parcollet and Petr Motlicek(参考訳) 最先端のASRシステムは、局所的およびグローバルな相互作用を別々にモデル化することで、有望な結果を得た。 前者は効率的に計算できるが、大域的な相互作用は通常、長い入力シーケンスに費用がかかる注意機構によってモデル化される。 本稿では,線形複雑性を示す注意の代替となるHyperMixerを,音声認識のためのConformerアーキテクチャに拡張し,HyperConformerを実現する。 特に、マルチヘッドHyperConformerは、推論速度、メモリ、パラメータカウント、利用可能なトレーニングデータの観点から、Conformerよりも効率的でありながら、同等または高い認識性能を達成する。 HyperConformerは5.7GBのトレーニング中に8M未満のニューラルパラメータとピークメモリを持つLibrispeechテストクリーン上で2.9%のワードエラー率を達成する。 エンコーダの速度は、中の長さの音声では38%、長めの音声では56%である。 (https://github.com/speechbrain/tree/develop/recipes/LibriSpeech/ASR/transformer/)

State-of-the-art ASR systems have achieved promising results by modeling local and global interactions separately. While the former can be computed efficiently, global interactions are usually modeled via attention mechanisms, which are expensive for long input sequences. Here, we address this by extending HyperMixer, an efficient alternative to attention exhibiting linear complexity, to the Conformer architecture for speech recognition, leading to HyperConformer. In particular, multi-head HyperConformer achieves comparable or higher recognition performance while being more efficient than Conformer in terms of inference speed, memory, parameter count, and available training data. HyperConformer achieves a word error rate of 2.9% on Librispeech test-clean with less than 8M neural parameters and a peak memory during training of 5.7GB, hence trainable with accessible hardware. Encoder speed is between 38% on mid-length speech and 56% on long speech faster than an equivalent Conformer. (The HyperConformer recipe is publicly available in: https://github.com/speechbrain/speechbrain/tree/develop/recipes/LibriSpeech/ASR/transformer/)
翻訳日:2023-05-30 13:31:22 公開日:2023-05-29
# 超解像・異方性推定のための遠近光場

Disentangling Light Fields for Super-Resolution and Disparity Estimation ( http://arxiv.org/abs/2202.10603v4 )

ライセンス: Link先を確認
Yingqian Wang, Longguang Wang, Gaochang Wu, Jungang Yang, Wei An, Jingyi Yu, Yulan Guo(参考訳) 光フィールド(LF)カメラは光線の強度と方向の両方を記録し、3Dシーンを4DLF画像にエンコードする。 近年、さまざまなLF画像処理タスクに対して多くの畳み込みニューラルネットワーク(CNN)が提案されている。 しかし,空間的・角的な情報に相違があるため,CNNがLF画像を効果的に処理することは困難である。 本稿では,この結合した情報をLF画像処理のために切り離すための汎用メカニズムを提案する。 具体的には、まずドメイン固有の畳み込みのクラスを設計し、異なる次元からLFをアンタングルし、タスク固有のモジュールを設計することでこれらのアンタングル特徴を活用する。 我々の解離機構は、LF構造を予め組み込んで、4次元LFデータを効果的に扱うことができる。 提案手法に基づき,空間超解像・角超解像・不均質推定のための3つのネットワーク(DistgSSR,DistgASR,DistgDisp)を開発した。 実験の結果,ネットワークはこれら3つのタスクすべてに対して最先端の性能を達成し,この機構の有効性,効率,汎用性を実証した。 プロジェクトページ: https://yingqianwang.github.io/distglf/

Light field (LF) cameras record both intensity and directions of light rays, and encode 3D scenes into 4D LF images. Recently, many convolutional neural networks (CNNs) have been proposed for various LF image processing tasks. However, it is challenging for CNNs to effectively process LF images since the spatial and angular information are highly inter-twined with varying disparities. In this paper, we propose a generic mechanism to disentangle these coupled information for LF image processing. Specifically, we first design a class of domain-specific convolutions to disentangle LFs from different dimensions, and then leverage these disentangled features by designing task-specific modules. Our disentangling mechanism can well incorporate the LF structure prior and effectively handle 4D LF data. Based on the proposed mechanism, we develop three networks (i.e., DistgSSR, DistgASR and DistgDisp) for spatial super-resolution, angular super-resolution and disparity estimation. Experimental results show that our networks achieve state-of-the-art performance on all these three tasks, which demonstrates the effectiveness, efficiency, and generality of our disentangling mechanism. Project page: https://yingqianwang.github.io/DistgLF/.
翻訳日:2023-05-30 11:28:47 公開日:2023-05-29
# 異なるアーキテクチャと音声認識のための訓練方法を用いたエネルギーベース言語モデルの探索

Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition ( http://arxiv.org/abs/2305.12676v3 )

ライセンス: Link先を確認
Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao(参考訳) エネルギーベース言語モデル(elms)は自然文の非正規化分布をパラメータ化し、一般的な自己回帰言語モデル(alms)とは根本的に異なる。 重要な応用として、EMMは音声認識における文のスコアを計算する手段としてうまく使われてきたが、いずれもより現代的なCNNやLSTMネットワークを使用している。 近年の Transformer ネットワークと BERT や GPT2 のような大規模事前学習モデルの発展により,EMM をさらに進化させる新たな可能性が高まっている。 本稿では,エネルギー関数の異なるアーキテクチャと異なる学習手法について検討し,音声認識のためのリコーリングにおけるelmの能力について検討する。

Energy-based language models (ELMs) parameterize an unnormalized distribution for natural sentences and are radically different from popular autoregressive language models (ALMs). As an important application, ELMs have been successfully used as a means for calculating sentence scores in speech recognition, but they all use less-modern CNN or LSTM networks. The recent progress in Transformer networks and large pretrained models such as BERT and GPT2 opens new possibility to further advancing ELMs. In this paper, we explore different architectures of energy functions and different training methods to investigate the capabilities of ELMs in rescoring for speech recognition, all using large pretrained models as backbones.
翻訳日:2023-05-30 11:17:20 公開日:2023-05-29
# 確率射とカーネル平均埋め込みによる教師付き学習

Supervised learning with probabilistic morphisms and kernel mean embeddings ( http://arxiv.org/abs/2305.06348v3 )

ライセンス: Link先を確認
H\^ong V\^an L\^e(参考訳) 本稿では,入力空間 $\mathcal{x}$ とラベル空間 $\mathcal{y}$ に対する教師付き学習の生成モデルにおける正しい損失関数の概念を提案する。 教師付き学習の生成モデルにおける正しい損失関数は、たとえスーパーバイザオペレータが$\mathcal{h}$に属していなくても、可能な予測者とスーパーバイザオペレータの仮説空間 $\mathcal{h}$ の要素間の不一致を正確に測定しなければならない。 正しい損失関数を定義するために、確率測度 $\mu$ on $\mathcal{x} \times \mathcal{y}$ に対する正規条件付き確率測度 $\mu_{\mathcal{y}|\mathcal{x}}$ を、線型作用素方程式の解として、$\pi_{\mathcal{x}}: \mathcal{x}\times\mathcal{y}\to \mathcal{x}$ に対して特徴づける。 もし$\mathcal{Y}$ がボレル$\sigma$-algebra $ \mathcal{B} (\mathcal{Y})$ を持つ分離可測距離空間であれば、正則な条件確率測度 $\mu_{\mathcal{Y}|\mathcal{X}}$ はマルコフ核の空間上の平均二乗誤差の最小化として、$\mathcal{X}$ から $\mathcal{Y}$ への可算射として特徴づけられる。 この特徴付けはカーネル平均埋め込みを利用する。 これらの結果を基にして,学習アルゴリズムの一般化可能性の定量化に内部尺度を用い,回帰モデルの学習可能性に対処するcucker-smaleの結果を条件付き確率推定問題に拡張する。 さらに,確率的不正問題を解くためのVapnikの正規化手法の変種を提案し,内部測度を導入し,その応用例を示した。

In this paper I propose a concept of a correct loss function in a generative model of supervised learning for an input space $\mathcal{X}$ and a label space $\mathcal{Y}$, both of which are measurable spaces. A correct loss function in a generative model of supervised learning must accurately measure the discrepancy between elements of a hypothesis space $\mathcal{H}$ of possible predictors and the supervisor operator, even when the supervisor operator does not belong to $\mathcal{H}$. To define correct loss functions, I propose a characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ for a probability measure $\mu$ on $\mathcal{X} \times \mathcal{Y}$ relative to the projection $\Pi_{\mathcal{X}}: \mathcal{X}\times\mathcal{Y}\to \mathcal{X}$ as a solution of a linear operator equation. If $\mathcal{Y}$ is a separable metrizable topological space with the Borel $\sigma$-algebra $ \mathcal{B} (\mathcal{Y})$, I propose an additional characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ as a minimizer of mean square error on the space of Markov kernels, referred to as probabilistic morphisms, from $\mathcal{X}$ to $\mathcal{Y}$. This characterization utilizes kernel mean embeddings. Building upon these results and employing inner measure to quantify the generalizability of a learning algorithm, I extend a result due to Cucker-Smale, which addresses the learnability of a regression model, to the setting of a conditional probability estimation problem. Additionally, I present a variant of Vapnik's regularization method for solving stochastic ill-posed problems, incorporating inner measure, and showcase its applications.
翻訳日:2023-05-30 11:17:08 公開日:2023-05-29
# 超目的視点からの低レベル強凸性のない二値最適化

Bilevel Optimization without Lower-Level Strong Convexity from the Hyper-Objective Perspective ( http://arxiv.org/abs/2301.00712v3 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu and Jingzhao Zhang(参考訳) 双レベル最適化は、ハイパーパラメータチューニングやメタラーニングのような、他の斜め最適化問題の内部構造を明らかにする。 双レベル最適化の共通の目標は、超目的関数の定常点を見つけることである。 この超対象的アプローチは広く用いられているが、下層関数が強い凸性を持たない場合、その理論的性質は十分には研究されていない。 本研究では,従来の低レベルの強い凸性仮定を使わずに,超対象的アプローチを一歩進めて検討する。 その結果, 一般凸下層関数の超対象物は, 評価や最適化に難渋することが示唆された。 この課題に取り組むために, 勾配支配条件を導入し, 低レベル解集合を非シングルトンにすることで, 強い凸性仮定を厳密に緩和する。 勾配支配条件下では, スイッチンググラディエント法 (SGM) を第0次オラクルとして用い, 超対象の近似定常点を求める不正確なグラディエント・フリー・メソッド (IGFM) を提案する。 また, 弱シャープ最小条件下では, 非スムース低レベル関数に結果を拡張する。

Bilevel optimization reveals the inner structure of otherwise oblique optimization problems, such as hyperparameter tuning and meta-learning. A common goal in bilevel optimization is to find stationary points of the hyper-objective function. Although this hyper-objective approach is widely used, its theoretical properties have not been thoroughly investigated in cases where the lower-level functions lack strong convexity. In this work, we take a step forward and study the hyper-objective approach without the typical lower-level strong convexity assumption. Our hardness results show that the hyper-objective of general convex lower-level functions can be intractable either to evaluate or to optimize. To tackle this challenge, we introduce the gradient dominant condition, which strictly relaxes the strong convexity assumption by allowing the lower-level solution set to be non-singleton. Under the gradient dominant condition, we propose the Inexact Gradient-Free Method (IGFM), which uses the Switching Gradient Method (SGM) as the zeroth order oracle, to find an approximate stationary point of the hyper-objective. We also extend our results to nonsmooth lower-level functions under the weak sharp minimum condition.
翻訳日:2023-05-30 11:16:13 公開日:2023-05-29
# バイアスゼロのスカラー不変量ネットワーク

Scalar Invariant Networks with Zero Bias ( http://arxiv.org/abs/2211.08486v4 )

ライセンス: Link先を確認
Chuqin Geng, Xiaojie Xu, Haolin Ye, Xujie Si(参考訳) weightsと同じく、バイアス項はニューラルネットワークを含む多くの一般的な機械学習モデルの学習可能なパラメータである。 バイアスはニューラルネットワークの表現力を高め、コンピュータビジョンにおける様々なタスクを解決できると考えられている。 しかし、入力空間における画像の本質的な分布と所望のモデル特性を第一原理から考慮し、画像分類などの画像関連タスクにはバイアスを無視することができると論じる。 以上の結果から,ゼロバイアスニューラルネットワークは,実際の画像分類タスクにおいてバイアス付きネットワークと同等の性能を発揮することが示唆された。 ゼロバイアスニューラルネットワークはスカラー不変性 (multiplication invariance) と呼ばれる貴重な特性を持つことを示した。 これは、入力画像のコントラストが変更されたとき、ネットワークの予測が変わらないことを意味する。 我々はスカラー不変性をより一般的な場合にまで拡張し、入力空間の凸領域の形式的検証を可能にする。 さらに,ゼロバイアスニューラルネットワークがゼロ画像の予測に有効であることを示す。 特定のラベルに対するバイアスを示すような最先端のモデルとは異なり、ゼロバイアスネットワークはすべてのラベルに対して一様である。 我々は、画像分類のためのニューラルネットワークアーキテクチャを設計する上で、バイアス項の減少は幾何学的先行と見なすことができると考えている。 ゼロバイアスニューラルネットワークの堅牢性と公正性は、信頼できる倫理的AIへの有望な道のりを示すかもしれない。

Just like weights, bias terms are the learnable parameters of many popular machine learning models, including neural networks. Biases are thought to enhance the representational power of neural networks, enabling them to solve a variety of tasks in computer vision. However, we argue that biases can be disregarded for some image-related tasks such as image classification, by considering the intrinsic distribution of images in the input space and desired model properties from first principles. Our findings suggest that zero-bias neural networks can perform comparably to biased networks for practical image classification tasks. We demonstrate that zero-bias neural networks possess a valuable property called scalar (multiplication) invariance. This means that the prediction of the network remains unchanged when the contrast of the input image is altered. We extend scalar invariance to more general cases, enabling formal verification of certain convex regions of the input space. Additionally, we prove that zero-bias neural networks are fair in predicting the zero image. Unlike state-of-the-art models that may exhibit bias toward certain labels, zero-bias networks have uniform belief in all labels. We believe dropping bias terms can be considered as a geometric prior in designing neural network architecture for image classification, which shares the spirit of adapting convolutions as the transnational invariance prior. The robustness and fairness advantages of zero-bias neural networks may also indicate a promising path towards trustworthy and ethical AI.
翻訳日:2023-05-30 11:15:35 公開日:2023-05-29
# コヒーレントなソフト模倣学習

Coherent Soft Imitation Learning ( http://arxiv.org/abs/2305.16498v2 )

ライセンス: Link先を確認
Joe Watson, Sandy H. Huang, Nicolas Heess(参考訳) 模倣学習法は、政策の行動クローニング(bc)または報酬の逆強化学習(irl)を通して専門家から学ぶことを求める。 このような方法でエージェントは、手作りの報酬機能でキャプチャが難しい人間から複雑なタスクを学習することができる。 BC または IRL の模倣の選択は、デモの質と状態対応のカバレッジと、マルコフの決定プロセスへの追加アクセスに依存する。 bcとirlを組み合わせたハイブリッド戦略は一般的ではなく、不正確な報酬に対する初期政策最適化は、bcによる政策の事前訓練の利点を減少させる。 この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。 エントロピー正規化(ソフト)強化学習設定では、正規化ポリシー更新を反転させることで、行動制限されたポリシーを形見賞と批判的仮説空間の両方として使用できることを示す。 このコヒーレンシー設備は、報酬推定と環境との付加的な相互作用を用いて、クローン化されたポリシーを微調整する。 このアプローチは、初期動作のクローン化を通じて模倣学習を便利に達成し、続いてオンラインまたはオフラインのデータソースによるRLによる改善を行う。 このアプローチの単純さは、敵対的なアプローチとは対照的に、安定した学習と最小限のハイパーパラメータチューニングによって、高次元および視覚ベースのタスクへの優雅なスケーリングを可能にする。

Imitation learning methods seek to learn from an expert either through behavioral cloning (BC) of the policy or inverse reinforcement learning (IRL) of the reward. Such methods enable agents to learn complex tasks from humans that are difficult to capture with hand-designed reward functions. Choosing BC or IRL for imitation depends on the quality and state-action coverage of the demonstrations, as well as additional access to the Markov decision process. Hybrid strategies that combine BC and IRL are not common, as initial policy optimization against inaccurate rewards diminishes the benefit of pretraining the policy with BC. This work derives an imitation method that captures the strengths of both BC and IRL. In the entropy-regularized ('soft') reinforcement learning setting, we show that the behaviour-cloned policy can be used as both a shaped reward and a critic hypothesis space by inverting the regularized policy update. This coherency facilities fine-tuning cloned policies using the reward estimate and additional interactions with the environment. This approach conveniently achieves imitation learning through initial behaviour cloning, followed by refinement via RL with online or offline data sources. The simplicity of the approach enables graceful scaling to high-dimensional and vision-based tasks, with stable learning and minimal hyperparameter tuning, in contrast to adversarial approaches.
翻訳日:2023-05-30 11:10:02 公開日:2023-05-29
# スパイクニューラルネットワークにおける計算と学習のための資源としてのノイズの利用

Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks ( http://arxiv.org/abs/2305.16044v2 )

ライセンス: Link先を確認
Gehua Ma, Rui Yan, Huajin Tang(参考訳) スパイクニューロンのネットワークは、脳の異常な情報処理能力の基盤となり、ニューロモルフィックインテリジェンスにおける柱モデルとして登場した。 スパイキングニューラルネットワーク(SNN)に関する広範な研究にもかかわらず、ほとんどが決定論的モデルに基づいている。 SNNにノイズを組み込むことは、生物物理学的により現実的なニューラルダイナミクスをもたらし、モデル性能の恩恵を受ける可能性がある。 本稿では,雑音ニューロンのダイナミクスを組み込んだスパイキングニューロンモデルを導入することにより,ノイズスパイキングニューラルネットワーク(nsnn)とノイズ駆動学習ルール(ndl)を提案する。 提案手法は,雑音が計算と学習の資源としてどのように機能するかを示し,理論的には一般的なsnsの枠組みを提供する。 さらに、NDLは代理勾配に対する洞察力のある生物学的根拠を提供する。 様々なSNNアーキテクチャとアルゴリズムを組み込むことにより,本手法は,決定論的SNNよりも競合性能と,困難な摂動に対する堅牢性を向上することを示した。 さらに,ニューラルコーディング研究におけるNSNNモデルの有用性を示す。 NSNNは、機械学習の実践者や計算神経科学研究者のために、強力で柔軟で使いやすいツールを提供している。

Networks of spiking neurons underpin the extraordinary information-processing capabilities of the brain and have emerged as pillar models in neuromorphic intelligence. Despite extensive research on spiking neural networks (SNNs), most are established on deterministic models. Integrating noise into SNNs leads to biophysically more realistic neural dynamics and may benefit model performance. This work presents the noisy spiking neural network (NSNN) and the noise-driven learning rule (NDL) by introducing a spiking neuron model incorporating noisy neuronal dynamics. Our approach shows how noise may act as a resource for computation and learning and theoretically provides a framework for general SNNs. Moreover, NDL provides an insightful biological rationale for surrogate gradients. By incorporating various SNN architectures and algorithms, we show that our approach exhibits competitive performance and improved robustness against challenging perturbations than deterministic SNNs. Additionally, we demonstrate the utility of the NSNN model for neural coding studies. Overall, NSNN offers a powerful, flexible, and easy-to-use tool for machine learning practitioners and computational neuroscience researchers.
翻訳日:2023-05-30 11:08:22 公開日:2023-05-29
# 情報損失・混合・創発型III$_1$因子

Information loss, mixing and emergent type III$_1$ factors ( http://arxiv.org/abs/2305.16028v2 )

ライセンス: Link先を確認
Keiichiro Furuya, Nima Lashkari, Mudassir Moosa, Shoy Ouseph(参考訳) ブラックホール情報損失問題の顕在化は、大規模な反ド・ジッターブラックホールにおけるプローブ作用素の2点関数が時間内に崩壊するのに対して、境界CFTでは、ほぼ周期的な時間関数であることが期待されている。 二点関数(時間的クラスター化)の崩壊は、量子重力における可観測代数、状態、および力学の性質にとって重要な手がかりである。 時間内にクラスタ化する演算子を"混合"と呼び、混合に必要な十分な条件を探索します。 情報損失問題は、I型代数では混合作用素が存在しないという主張の特別な場合である。 熱場二重(kms状態)において、混合作用素が(乗法の下で)代数を形成するならば、結果として得られる代数はフォン・ノイマン型iii$_1$因子でなければならない。 言い換えると、すべての非保存作用素が拡散する物理的に直感的な要件は非常に強く、可観測代数をiii$_1$因子と呼ばれるエキゾチックな代数に固定する。 より一般に、一般量子系の任意の平衡状態 (von Neumann algebra) に対して、モジュラフローの下で混合する作用素の集合が代数を形成するとき、III$_1$ von Neumann factor であることを示す。 一般化自由体の理論(GFF)において、GFFクラスタの時間における2点函数がすべての作用素が混合され、代数がタイプIII$_1$因子であることが示される。 例えば、$\mathscr{N=4}$ SYM において、ホーキング・ページ相転移より上、単一のトレース作用素のクラスタリングは、代数がIII$_1$因子の型であることを示し、最近ルーテウスとリューの予想を定めている。 時間帯域に関連する GFF の C$^*$-algebra と von Neumann の部分代数を明示的に構成し、より一般的には HKLL 再構成写像を用いてバルク時空の開集合を構成する。

A manifestation of the black hole information loss problem is that the two-point function of probe operators in a large Anti-de Sitter black hole decays in time, whereas, on the boundary CFT, it is expected to be an almost periodic function of time. We point out that the decay of the two-point function (clustering in time) holds important clues to the nature of observable algebras, states, and dynamics in quantum gravity. We call operators that cluster in time "mixing" and explore the necessary and sufficient conditions for mixing. The information loss problem is a special case of the statement that in type I algebras, there exists no mixing operators. We prove that, in a thermofield double (KMS state), if mixing operators form an algebra (close under multiplication) the resulting algebra must be a von Neumann type III$_1$ factor. In other words, the physically intuitive requirement that all non-conserved operators should diffuse is so strong that it fixes the observable algebra to be an exotic algebra called a type III$_1$ factor. More generally, for an arbitrary out-of-equilibrium state of a general quantum system (von Neumann algebra), we show that if the set of operators that mix under modular flow forms an algebra it is a type III$_1$ von Neumann factor. In a theory of Generalized Free Fields (GFF), we show that if the two-point function of GFF clusters in time all operators are mixing, and the algebra is a type III$_1$ factor. For instance, in $\mathscr{N=4}$ SYM, above the Hawking-Page phase transition, clustering of the single trace operators implies that the algebra is a type III$_1$ factor, settling a recent conjecture of Leutheusser and Liu. We explicitly construct the C$^*$-algebra and von Neumann subalgebras of GFF associated with time bands and more generally, open sets of the bulk spacetime using the HKLL reconstruction map.
翻訳日:2023-05-30 11:08:03 公開日:2023-05-29
# 3つのタワー:事前学習によるフレキシブルコントラスト学習

Three Towers: Flexible Contrastive Learning with Pretrained Image Models ( http://arxiv.org/abs/2305.16999v2 )

ライセンス: Link先を確認
Jannik Kossen, Mark Collier, Basil Mustafa, Xiao Wang, Xiaohua Zhai, Lucas Beyer, Andreas Steiner, Jesse Berent, Rodolphe Jenatton, Efi Kokiopoulou(参考訳) 本稿では,視覚言語モデルのコントラスト学習を改善するためのフレキシブルな手法である3つのタワー(3t)を提案する。 対照的なモデルは通常、ゼロからトレーニングされるが、LiT (Zhai et al., 2022) は、最近、事前訓練された分類器の埋め込みによる性能向上を示している。 しかし、ライトはイメージタワーを、対照的にイメージタワーを訓練することの利点を除いて、凍結した埋め込みに置き換える。 3tでは,事前学習された組込みとコントラストトレーニングの両方の恩恵を受ける,より柔軟なストラテジーを提案する。 これを実現するため,凍結した既設埋設塔を含む第3の塔を導入し,この第3の塔と主画像テキスト塔との整合を奨励する。 経験的に、3TはLiTとCLIPスタイルの検索タスクのベースラインを一貫して改善する。 分類において、3Tはオフスクラッチベースラインよりも確実に改善され、JFT事前トレーニングモデルではLiTと比較して性能が劣るが、ImageNet-21kとPlaces365事前トレーニングではLiTより優れている。

We introduce Three Towers (3T), a flexible method to improve the contrastive learning of vision-language models by incorporating pretrained image classifiers. While contrastive models are usually trained from scratch, LiT (Zhai et al., 2022) has recently shown performance gains from using pretrained classifier embeddings. However, LiT directly replaces the image tower with the frozen embeddings, excluding any potential benefits of contrastively training the image tower. With 3T, we propose a more flexible strategy that allows the image tower to benefit from both pretrained embeddings and contrastive training. To achieve this, we introduce a third tower that contains the frozen pretrained embeddings, and we encourage alignment between this third tower and the main image-text towers. Empirically, 3T consistently improves over LiT and the CLIP-style from-scratch baseline for retrieval tasks. For classification, 3T reliably improves over the from-scratch baseline, and while it underperforms relative to LiT for JFT-pretrained models, it outperforms LiT for ImageNet-21k and Places365 pretraining.
翻訳日:2023-05-30 11:00:03 公開日:2023-05-29
# navgpt: 大きな言語モデルを用いた視覚言語ナビゲーションにおける明示的な推論

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models ( http://arxiv.org/abs/2305.16986v2 )

ライセンス: Link先を確認
Gengze Zhou, Yicong Hong, Qi Wu(参考訳) 前例のない規模のデータで訓練されたChatGPTやGPT-4のような大規模言語モデル(LLM)は、モデルスケーリングによる重要な推論能力の出現を示している。 このような傾向は、LLMを無制限の言語データで訓練する可能性を強調し、普遍的なエンボディエージェントの開発を進めた。 本研究では,LLMに基づく指示追従ナビゲーションエージェントであるNavGPTを導入し,視覚・言語ナビゲーション(VLN)のためのゼロショットシーケンシャル動作予測を行うことにより,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにする。 それぞれのステップにおいて、NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論し、ターゲットに近づく決定を下す。 包括的実験を通じて,NavGPTは,ナビゲーションタスク解決に関する共通知識の統合,観察されたシーンからのランドマークの識別,ナビゲーション進行の追跡,計画調整による例外への適応など,ナビゲーションの高レベルな計画を実行することができることを示す。 さらに, llmsは, 経路に沿った観測や行動から高品質なナビゲーション命令を生成できると同時に, エージェントのナビゲーション履歴に基づいて, 正確なトップダウンメトリック軌跡を描画できることを示した。 NavGPTをゼロショットのR2Rタスクに使用する性能は訓練されたモデルにはまだ及ばないが、視覚ナビゲーションエージェントとしてLLMにマルチモーダリティ入力を適用し、学習ベースモデルの恩恵を受けるためにLLMの明示的な推論を適用することを提案している。

Trained with an unprecedented scale of data, large language models (LLMs) like ChatGPT and GPT-4 exhibit the emergence of significant reasoning abilities from model scaling. Such a trend underscored the potential of training LLMs with unlimited language data, advancing the development of a universal embodied agent. In this work, we introduce the NavGPT, a purely LLM-based instruction-following navigation agent, to reveal the reasoning capability of GPT models in complex embodied scenes by performing zero-shot sequential action prediction for vision-and-language navigation (VLN). At each step, NavGPT takes the textual descriptions of visual observations, navigation history, and future explorable directions as inputs to reason the agent's current status, and makes the decision to approach the target. Through comprehensive experiments, we demonstrate NavGPT can explicitly perform high-level planning for navigation, including decomposing instruction into sub-goal, integrating commonsense knowledge relevant to navigation task resolution, identifying landmarks from observed scenes, tracking navigation progress, and adapting to exceptions with plan adjustment. Furthermore, we show that LLMs is capable of generating high-quality navigational instructions from observations and actions along a path, as well as drawing accurate top-down metric trajectory given the agent's navigation history. Despite the performance of using NavGPT to zero-shot R2R tasks still falling short of trained models, we suggest adapting multi-modality inputs for LLMs to use as visual navigation agents and applying the explicit reasoning of LLMs to benefit learning-based models.
翻訳日:2023-05-30 10:59:42 公開日:2023-05-29
# 測定不整合性は外乱よりも強い

Measurement incompatibility is strictly stronger than disturbance ( http://arxiv.org/abs/2305.16931v2 )

ライセンス: Link先を確認
Marco Erba, Paolo Perinotti, Davide Rolino, Alessandro Tosini(参考訳) 有名な$\gamma$-ray microscope $\textit{Gedankenexperiment}$を含む、不確実性原理に関するハイゼンベルクの主張の核心は、それらが作用する系の状態を不可逆的に変化させる測定の存在であり、その後の測定で不可逆的な乱れを引き起こす。 この議論は、非互換な測定の存在、すなわち共同で実行できない測定の存在を正当化するために進められた。 一方,本書では,不和が乱れの十分な条件であることを示す説得力のある論証を提示する一方で,逆含みの反例である玩具理論を示す。

The core of Heisenberg's argument for the uncertainty principle, involving the famous $\gamma$-ray microscope $\textit{Gedankenexperiment}$, consists in the existence of measurements that irreversibly alter the state of the system on which they are acting, causing an irreducible disturbance on subsequent measurements. The argument was put forward to justify the existence of incompatible measurements, namely, measurements that cannot be performed jointly. In this Letter, on the one hand, we provide a compelling argument showing that incompatibility is indeed a sufficient condition for disturbance, while, on the other hand, we exhibit a toy theory that is a counterexample for the converse implication.
翻訳日:2023-05-30 10:59:09 公開日:2023-05-29
# 複素数値深部ニューラルネットワークを用いた普遍近似

Universal approximation with complex-valued deep narrow neural networks ( http://arxiv.org/abs/2305.16910v2 )

ライセンス: Link先を確認
Paul Geuchen, Thomas Jahn, Hannes Matt(参考訳) 有界幅と任意の深さを持つ複素値ニューラルネットワークの普遍性について検討する。 穏やかな仮定の下で、これらの活性化関数の完全な説明を、それらの関連ネットワークが普遍的であること、すなわち、コンパクトな領域において任意の精度で連続関数を近似することができるという性質を持つ、$\varrho:\mathbb{c}\to \mathbb{c}$ を与える。 正確には、深い狭い複素数値ネットワークが普遍であることと、それらの活性化関数が正則でないこと、正則でないこと、反正則でないこと、あるいは$\mathbb{R}$-affine であることを示せる。 これは任意の幅と固定深さの双対設定よりもはるかに大きな関数のクラスである。 実際の場合とは異なり、十分な幅は考慮された活性化関数によって大きく異なる。 2n+2m+5$の幅は常に十分であり、一般に$\max\{2n,2m\}$の幅が必要である。 しかし、許容アクティベーション関数のリッチなサブクラスに対して、n+m+4$の幅が十分であることを証明します。 ここで、$n$と$m$は考慮されたネットワークの入力と出力の次元を表す。

We study the universality of complex-valued neural networks with bounded widths and arbitrary depths. Under mild assumptions, we give a full description of those activation functions $\varrho:\mathbb{C}\to \mathbb{C}$ that have the property that their associated networks are universal, i.e., are capable of approximating continuous functions to arbitrary accuracy on compact domains. Precisely, we show that deep narrow complex-valued networks are universal if and only if their activation function is neither holomorphic, nor antiholomorphic, nor $\mathbb{R}$-affine. This is a much larger class of functions than in the dual setting of arbitrary width and fixed depth. Unlike in the real case, the sufficient width differs significantly depending on the considered activation function. We show that a width of $2n+2m+5$ is always sufficient and that in general a width of $\max\{2n,2m\}$ is necessary. We prove, however, that a width of $n+m+4$ suffices for a rich subclass of the admissible activation functions. Here, $n$ and $m$ denote the input and output dimensions of the considered networks.
翻訳日:2023-05-30 10:58:54 公開日:2023-05-29
# クローズド文字列は排他的検索より早く解けるか?

Can You Solve Closest String Faster than Exhaustive Search? ( http://arxiv.org/abs/2305.16878v2 )

ライセンス: Link先を確認
Amir Abboud, Nick Fischer, Elazar Goldenberg, Karthik C. S., and Ron Safier(参考訳) x \subseteq \sigma^d$ of $n$ string が与えられたとき、最小のハミングボールの半径を最小化する$x^*$ を、$x$ で囲む$x^*$ で求める。 本稿では,最も近い文字列問題は,自明な探索アルゴリズムよりも高速なアルゴリズムを許容するかどうかを検討する。 問題の2つの自然なバージョンについて以下の結果が得られる: $\bullet$ 連続的最も近い文字列問題において、目標は$\sigma^d$ で解文字列 $x^*$ を見つけることである。 二進文字列の場合、全探索アルゴリズムは時間$O(2^d poly(nd))$で実行され、強い指数時間仮説が失敗しない限り、任意の$\epsilon > 0$に対して、時間$O(2(1-\epsilon) d} poly(nd))$で改善できないことが証明される。 $\bullet$ 離散クローズスト文字列問題では、$x^*$ は入力セット $X$ にある必要がある。 この問題は多項式時間で明らかであるが、そのきめ細かい複雑さは、次元が $\omega(\log n) < d < n^{o(1)}$ であるとき、二次時間 $n^{2 \pm o(1)}$ と特定されている。 この既知の難易度を新しいアルゴリズムで補完し、基本的に$d$がハードレンジから外れると、離散的最寄り文字列問題は徹底的な探索よりも早く解くことができることを証明します。 我々のアルゴリズムは、小額のd$レジームにおいて、包含-排他原理の新たな応用に基づいている。 興味深いことに、我々の結果のすべてが、最も近い文字列問題の自然双対(remotest string problem)に当てはまり(さらに強いものもある)、ここでは、すべての文字列に対するハミング距離を最大化する文字列を$x$で見つけることがタスクです。

We study the fundamental problem of finding the best string to represent a given set, in the form of the Closest String problem: Given a set $X \subseteq \Sigma^d$ of $n$ strings, find the string $x^*$ minimizing the radius of the smallest Hamming ball around $x^*$ that encloses all the strings in $X$. In this paper, we investigate whether the Closest String problem admits algorithms that are faster than the trivial exhaustive search algorithm. We obtain the following results for the two natural versions of the problem: $\bullet$ In the continuous Closest String problem, the goal is to find the solution string $x^*$ anywhere in $\Sigma^d$. For binary strings, the exhaustive search algorithm runs in time $O(2^d poly(nd))$ and we prove that it cannot be improved to time $O(2^{(1-\epsilon) d} poly(nd))$, for any $\epsilon > 0$, unless the Strong Exponential Time Hypothesis fails. $\bullet$ In the discrete Closest String problem, $x^*$ is required to be in the input set $X$. While this problem is clearly in polynomial time, its fine-grained complexity has been pinpointed to be quadratic time $n^{2 \pm o(1)}$ whenever the dimension is $\omega(\log n) < d < n^{o(1)}$. We complement this known hardness result with new algorithms, proving essentially that whenever $d$ falls out of this hard range, the discrete Closest String problem can be solved faster than exhaustive search. In the small-$d$ regime, our algorithm is based on a novel application of the inclusion-exclusion principle. Interestingly, all of our results apply (and some are even stronger) to the natural dual of the Closest String problem, called the Remotest String problem, where the task is to find a string maximizing the Hamming distance to all the strings in $X$.
翻訳日:2023-05-30 10:58:32 公開日:2023-05-29
# 抽象要約におけるドメイン一般化のためのドメインアラインプレフィックス平均化

Domain Aligned Prefix Averaging for Domain Generalization in Abstractive Summarization ( http://arxiv.org/abs/2305.16820v2 )

ライセンス: Link先を確認
Pranav Ajit Nair and Sukomal Pal and Pradeepika Verma(参考訳) ドメインの一般化は抽象的な要約に適用される未探索領域にヒットする。 さらに、領域一般化に関する既存の研究の多くは高度な訓練アルゴリズムを持っている。 本稿では,抽象的要約のためのドメイン一般化に対する,軽量,重量平均,ドメインアラインプレフィックス平均化手法を提案する。 複数のソースドメインが与えられた場合、このメソッドはまずそれぞれのプレフィックスをトレーニングする。 これらのソースプレフィックスは、少数のターゲットドメイン文書の要約を生成する。 生成した要約と対応する文書の類似性は、平均的なソースプレフィックスに必要な重みを計算するために使用される。 dapaではプレフィックスチューニングは軽量な微調整を可能にし、重量平均化により新しいソースドメインを計算効率良く追加できる。 4つの異なる要約領域で評価すると、DAPAはベースラインに対して同等またはより良い性能を示し、プレフィックス平均化方式の有効性を示す。

Domain generalization is hitherto an underexplored area applied in abstractive summarization. Moreover, most existing works on domain generalization have sophisticated training algorithms. In this paper, we propose a lightweight, weight averaging based, Domain Aligned Prefix Averaging approach to domain generalization for abstractive summarization. Given a number of source domains, our method first trains a prefix for each one of them. These source prefixes generate summaries for a small number of target domain documents. The similarity of the generated summaries to their corresponding documents is used for calculating weights required to average source prefixes. In DAPA, prefix tuning allows for lightweight finetuning, and weight averaging allows for the computationally efficient addition of new source domains. When evaluated on four diverse summarization domains, DAPA shows comparable or better performance against the baselines, demonstrating the effectiveness of its prefix averaging scheme.
翻訳日:2023-05-30 10:57:53 公開日:2023-05-29
# 神経制御微分方程式の一般化容量について

On the Generalization Capacities of Neural Controlled Differential Equations ( http://arxiv.org/abs/2305.16791v2 )

ライセンス: Link先を確認
Linus Bleistein, Agathe Guilloux(参考訳) 神経制御微分方程式(kidger, morrill, et al. 2020)を用いて,不規則にサンプリングされた時系列のサンプルから結果を予測することを目標とする教師あり学習構成を考える。 この枠組みでは、時系列は観測されない連続経路の離散化であり、結果は未知のベクトル場を持つ制御微分方程式を通してこの経路に依存する。 離散データによる学習は離散化バイアスを生じさせ、それを正確に定量化する。 制御された微分方程式の流れの連続性に関する理論的結果を用いて、近似バイアスは浅いニューラルネットワークによって生成モデルを定義するリプシッツ関数の近似誤差と直接関係していることを示す。 これらの結果とニューラルネットワークのリプシッツ定数を一般化容量に結びつける最近の研究を組み合わせることで、経験的リスク最小化器によって達成された期待損失と真の予測器の期待損失との一般化ギャップを上限とした。

We consider a supervised learning setup in which the goal is to predicts an outcome from a sample of irregularly sampled time series using Neural Controlled Differential Equations (Kidger, Morrill, et al. 2020). In our framework, the time series is a discretization of an unobserved continuous path, and the outcome depends on this path through a controlled differential equation with unknown vector field. Learning with discrete data thus induces a discretization bias, which we precisely quantify. Using theoretical results on the continuity of the flow of controlled differential equations, we show that the approximation bias is directly related to the approximation error of a Lipschitz function defining the generative model by a shallow neural network. By combining these result with recent work linking the Lipschitz constant of neural networks to their generalization capacities, we upper bound the generalization gap between the expected loss attained by the empirical risk minimizer and the expected loss of the true predictor.
翻訳日:2023-05-30 10:57:26 公開日:2023-05-29
# 部分的特徴を持つグラフに対する信頼度に基づく特徴量計算

Confidence-Based Feature Imputation for Graphs with Partially Known Features ( http://arxiv.org/abs/2305.16618v2 )

ライセンス: Link先を確認
Daeho Um, Jiwoong Park, Seulki Park, Jin Young Choi(参考訳) 本稿では,グラフ学習タスクにおける特徴インプテーション問題の欠如について検討する。 以前、いくつかのメソッドは、機能不足のあるグラフ上の学習タスクに対処してきた。 しかし, 特徴の欠落率が高い場合には, 著しい性能低下を回避できなかった。 この制限を克服するため,我々は,ノードの特徴の確信を反映させるために,各インデュートチャネル特徴に割り当てられた,ノード特徴に対するチャネル信頼という新しい概念を導入する。 そこで我々は,未知のノードと最も近い未知のノード間のチャネル幅の短い経路距離を用いて疑似信頼度を設計し,実際の学習過程における真の信頼度を置き換える。 疑似信頼に基づいて,チャネル間ノード間拡散とノード間チャネル間伝播を行う新しい特徴インプテーションスキームを提案する。 このスキームは、非常に高い欠落率(例:99.5\%)でも耐えられ、半教師付きノード分類と高い欠落率を含む様々なデータセットのリンク予測の両方に対して最先端の精度を達成する。 コードはhttps://github.com/daehoum1/pcfiで入手できる。

This paper investigates a missing feature imputation problem for graph learning tasks. Several methods have previously addressed learning tasks on graphs with missing features. However, in cases of high rates of missing features, they were unable to avoid significant performance degradation. To overcome this limitation, we introduce a novel concept of channel-wise confidence in a node feature, which is assigned to each imputed channel feature of a node for reflecting certainty of the imputation. We then design pseudo-confidence using the channel-wise shortest path distance between a missing-feature node and its nearest known-feature node to replace unavailable true confidence in an actual learning process. Based on the pseudo-confidence, we propose a novel feature imputation scheme that performs channel-wise inter-node diffusion and node-wise inter-channel propagation. The scheme can endure even at an exceedingly high missing rate (e.g., 99.5\%) and it achieves state-of-the-art accuracy for both semi-supervised node classification and link prediction on various datasets containing a high rate of missing features. Codes are available at https://github.com/daehoum1/pcfi.
翻訳日:2023-05-30 10:56:52 公開日:2023-05-29
# ロングテール認識問題における重みバランスの検討

Exploring Weight Balancing on Long-Tailed Recognition Problem ( http://arxiv.org/abs/2305.16573v2 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato(参考訳) サンプルサイズが意図的に調整されない限り,データセット内のクラス毎のサンプルサイズ分布が一般的に指数関数的であるため,クラス毎のサンプルサイズが重く歪んだ長いデータにおける認識問題は近年重要になっている。 これらの問題に対処するために様々なアプローチが考案された。 近年,有名な古典的正規化手法と二段階訓練を組み合わせた重みバランスが提案されている。 その単純さにもかかわらず、様々な方法で考案された既存の手法に対する高い性能で知られている。 しかし、このアプローチが長期データに有効である理由については理解されていない。 本研究では,各訓練段階における神経崩壊と錐体効果に着目した手法を分析し,重量減少とクロスエントロピー損失による特徴抽出器のフィッシャーの判別比の増加と,体重減少とクラスバランス損失による暗黙のロジット調整に分解できることを見出した。 分析により,精度を高めつつ訓練段階の数を1つに減らすことにより,より簡便な訓練方法が得られた。

Recognition problems in long-tailed data, where the sample size per class is heavily skewed, have recently gained importance because the distribution of the sample size per class in a dataset is generally exponential unless the sample size is intentionally adjusted. Various approaches have been devised to address these problems. Recently, weight balancing, which combines well-known classical regularization techniques with two-stage training, has been proposed. Despite its simplicity, it is known for its high performance against existing methods devised in various ways. However, there is a lack of understanding as to why this approach is effective for long-tailed data. In this study, we analyze the method focusing on neural collapse and cone effect at each training stage and find that it can be decomposed into the increase in Fisher's discriminant ratio of the feature extractor caused by weight decay and cross entropy loss and implicit logit adjustment caused by weight decay and class-balanced loss. Our analysis shows that the training method can be further simplified by reducing the number of training stages to one while increasing accuracy.
翻訳日:2023-05-30 10:56:33 公開日:2023-05-29
# コントラスト学習で学ぶ特徴は何か? クラス崩壊と特徴抑制における単純バイアスの役割について

Which Features are Learnt by Contrastive Learning? On the Role of Simplicity Bias in Class Collapse and Feature Suppression ( http://arxiv.org/abs/2305.16536v2 )

ライセンス: Link先を確認
Yihao Xue, Siddharth Joshi, Eric Gan, Pin-Yu Chen, Baharan Mirzasoleiman(参考訳) コントラスト学習(CL)は,ラベル管理の有無に関わらず,表現学習の強力な技術として登場した。 しかし、教師付きclはクラス内のサブクラスの表現を壊しがちであり、教師なしclはクラスに関係のない簡単な特徴を学ぶことに集中することで、難しいクラス関連機能を抑制する可能性がある。 しかし、 \textit{class collapse} や \textit{feature suppression} を \textit{test} 時に理論的に理解することはできない。 CL によって学習される \textit{which} 特徴を決定するための,理論的に厳密な最初の統一フレームワークを提供する。 我々の分析は、おそらく、より単純な解を見つけるための(確率的な)勾配勾配のバイアスが、サブクラス表現の崩壊と、より厳しいクラス関連特徴の抑制の鍵となることを示唆している。 さらに, 埋め込み次元の増大とデータ拡張の質の向上を理論的に動機づけた2つの方法として提示する。 また, 教師付きCLと教師なしCLを併用することで, 一般に用いられている確率勾配法を用いても, 高品質な表現が得られる理由を理論的に説明する。

Contrastive learning (CL) has emerged as a powerful technique for representation learning, with or without label supervision. However, supervised CL is prone to collapsing representations of subclasses within a class by not capturing all their features, and unsupervised CL may suppress harder class-relevant features by focusing on learning easy class-irrelevant features; both significantly compromise representation quality. Yet, there is no theoretical understanding of \textit{class collapse} or \textit{feature suppression} at \textit{test} time. We provide the first unified theoretically rigorous framework to determine \textit{which} features are learnt by CL. Our analysis indicate that, perhaps surprisingly, bias of (stochastic) gradient descent towards finding simpler solutions is a key factor in collapsing subclass representations and suppressing harder class-relevant features. Moreover, we present increasing embedding dimensionality and improving the quality of data augmentations as two theoretically motivated solutions to {feature suppression}. We also provide the first theoretical explanation for why employing supervised and unsupervised CL together yields higher-quality representations, even when using commonly-used stochastic gradient methods.
翻訳日:2023-05-30 10:56:13 公開日:2023-05-29