このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231009となっている論文です。

PDF登録状況(公開日: 20231009)

TitleAuthorsAbstract論文公表日・翻訳日
# ReCESS Vaccine for Federated Learning: Proactive Defense against Model Poisoning Attacks

RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks ( http://arxiv.org/abs/2310.05431v1 )

ライセンス: Link先を確認
Haonan Yan, Wenjing Zhang, Qian Chen, Xiaoguang Li, Wenhai Sun, Hui Li, Xiaodong Lin, (参考訳) モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する。 既存の防御の有効性は、最新のモデル中毒攻撃の影響を受けやすいため、予測精度が低下する。 さらに、これらの防御は、悪質な勾配と良性な外れ値の区別が困難であり、モデル一般化をさらに損なう。 本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。 従来の防御における受動的解析と異なり、RECESSは各クライアントに対して、より高精度な応答による悪意のあるクライアントの検出を伴って、デリケートに構築された集約勾配を積極的にクエリする。 さらに、RECESSは、グラデーションをしっかりと集約するために、新しい信頼スコアリングメカニズムを使用している。 各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを推定し、フォールトトレランスを大幅に増加させる。 最後に、典型的なモデルアーキテクチャと4つのデータセットに対して、さまざまな設定でRECESSを広範囲に評価する。 また,他の種類の毒素攻撃に対する防御効果,過度パラメータの感度,適応的対人攻撃に対する防御効果も評価した。 実験結果から,5つの古典的および2つの最先端防御に対する最新のモデル中毒攻撃による精度損失の低減の観点から,RECESSの優位性が示された。

Model poisoning attacks greatly jeopardize the application of federated learning (FL). The effectiveness of existing defenses is susceptible to the latest model poisoning attacks, leading to a decrease in prediction accuracy. Besides, these defenses are intractable to distinguish benign outliers from malicious gradients, which further compromises the model generalization. In this work, we propose a novel proactive defense named RECESS against model poisoning attacks. Different from the passive analysis in previous defenses, RECESS proactively queries each participating client with a delicately constructed aggregation gradient, accompanied by the detection of malicious clients according to their responses with higher accuracy. Furthermore, RECESS uses a new trust scoring mechanism to robustly aggregate gradients. Unlike previous methods that score each iteration, RECESS considers clients' performance correlation across multiple iterations to estimate the trust score, substantially increasing fault tolerance. Finally, we extensively evaluate RECESS on typical model architectures and four datasets under various settings. We also evaluated the defensive effectiveness against other types of poisoning attacks, the sensitivity of hyperparameters, and adaptive adversarial attacks. Experimental results show the superiority of RECESS in terms of reducing accuracy loss caused by the latest model poisoning attacks over five classic and two state-of-the-art defenses.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-09
# 脅威景観のデコード : 社会工学的攻撃におけるチャットGPT,FraudGPT,WormGPT

Decoding the Threat Landscape : ChatGPT, FraudGPT, and WormGPT in Social Engineering Attacks ( http://arxiv.org/abs/2310.05595v1 )

ライセンス: Link先を確認
Polra Victor Falade, (参考訳) サイバーセキュリティの世界では、ChatGPT、FraudGPT、WormGPTといった生成AIモデルの台頭が、革新的なソリューションと前例のない課題の両方を導入している。 この研究は、社会工学攻撃における生成AIの多面的応用を掘り下げ、ブログマイニング技術を用いて進化する脅威の風景に関する洞察を提供する。 ジェネレーティブAIモデルは、サイバー攻撃の分野に革命をもたらし、悪意あるアクターに、説得力がありパーソナライズされたフィッシングルアーを作らせ、ディープフェイクを通じて世論を操り、人間の認知バイアスを悪用する権限を与えている。 これらのモデルであるChatGPT、FraudGPT、WormGPTは、既存の脅威を増大させ、新たなリスクの次元へと導いてきた。 信頼された組織を模倣するフィッシングキャンペーンから、権威ある人物を模倣するディープフェイク技術に至るまで、生成AIがサイバー犯罪の武器をどのように増幅するかを探索する。 さらに、心理学的操作、ターゲットフィッシング、信頼性の危機など、AI駆動のソーシャルエンジニアリングが悪用する脆弱性についても触れました。 これらの脅威に対処するため、従来のセキュリティ対策、AIによるセキュリティソリューション、サイバーセキュリティにおける協調的なアプローチなど、さまざまな戦略を概説する。 我々は,AIに強化された社会工学攻撃との戦いにおいて,警戒し,意識を高め,規制を強化することの重要性を強調した。 AIモデルの急速な進化とトレーニングデータの欠如を特徴とする環境では、生成的AI脅威に対する防御には、絶え間なく適応と個人、組織、政府の集合的努力が必要である。 この研究は、生成的AIとソーシャルエンジニアリングアタックの動的相互作用を包括的に理解し、この複雑なサイバーセキュリティの展望をナビゲートする知識をステークホルダーに提供することを目的としている。

In the ever-evolving realm of cybersecurity, the rise of generative AI models like ChatGPT, FraudGPT, and WormGPT has introduced both innovative solutions and unprecedented challenges. This research delves into the multifaceted applications of generative AI in social engineering attacks, offering insights into the evolving threat landscape using the blog mining technique. Generative AI models have revolutionized the field of cyberattacks, empowering malicious actors to craft convincing and personalized phishing lures, manipulate public opinion through deepfakes, and exploit human cognitive biases. These models, ChatGPT, FraudGPT, and WormGPT, have augmented existing threats and ushered in new dimensions of risk. From phishing campaigns that mimic trusted organizations to deepfake technology impersonating authoritative figures, we explore how generative AI amplifies the arsenal of cybercriminals. Furthermore, we shed light on the vulnerabilities that AI-driven social engineering exploits, including psychological manipulation, targeted phishing, and the crisis of authenticity. To counter these threats, we outline a range of strategies, including traditional security measures, AI-powered security solutions, and collaborative approaches in cybersecurity. We emphasize the importance of staying vigilant, fostering awareness, and strengthening regulations in the battle against AI-enhanced social engineering attacks. In an environment characterized by the rapid evolution of AI models and a lack of training data, defending against generative AI threats requires constant adaptation and the collective efforts of individuals, organizations, and governments. This research seeks to provide a comprehensive understanding of the dynamic interplay between generative AI and social engineering attacks, equipping stakeholders with the knowledge to navigate this intricate cybersecurity landscape.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-09
# NSUCRYPTOにおける第9回国際オリンピックの数学的問題と解法

Mathematical problems and solutions of the Ninth International Olympiad in Cryptography NSUCRYPTO ( http://arxiv.org/abs/2310.05641v1 )

ライセンス: Link先を確認
V. A. Idrisova, N. N. Tokareva, A. A. Gorodilova, I. I. Beterov, T. A. Bonich, E. A. Ishchukova, N. A. Kolomeec, A. V. Kutsenko, E. S. Malygina, I. A. Pankratova, M. A. Pudovkina, A. N. Udovenko, (参考訳) International Olympiad in Cryptography Non-Stop University CRYPTO (NSUCRYPTO) は毎年、大学生や学生に数学の問題を提起している。 NSUCRYPTOの郵便目標は、現代の暗号に学生や若い研究者の注意を引き付け、この分野のオープンな問題に対する意識を高めることである。 NSUCRYPTO'22の問題点とその解決法について述べる。 暗号、暗号、プロトコル、電子マネーと暗号、ハッシュ関数、行列、量子コンピューティング、Sボックスなど。 これらは、学生が解ける簡単な数学的タスクから、別の議論と研究に値する問題を解き放つことまで様々である。 そこで,本稿では,公開鍵対や秘密鍵対,離散対数問題の変更,暗号置換,量子回路など,3パスプロトコルのオープンな問題について考察する。

Every year the International Olympiad in Cryptography Non-Stop University CRYPTO (NSUCRYPTO) offers mathematical problems for university and school students and, moreover, for professionals in the area of cryptography and computer science. The mail goal of NSUCRYPTO is to draw attention of students and young researchers to modern cryptography and raise awareness about open problems in the field. We present problems of NSUCRYPTO'22 and their solutions. There are 16 problems on the following topics: ciphers, cryptosystems, protocols, e-money and cryptocurrencies, hash functions, matrices, quantum computing, S-boxes, etc. They vary from easy mathematical tasks that could be solved by school students to open problems that deserve separate discussion and study. So, in this paper, we consider several open problems on three-pass protocols, public and private keys pairs, modifications of discrete logarithm problem, cryptographic permutations and quantum circuits.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-09
# GPONにおけるISP強制ONUとONTのセキュリティの役割

A review of the security role of ISP mandated ONUs and ONTs in GPONs ( http://arxiv.org/abs/2310.05687v1 )

ライセンス: Link先を確認
Max Franke, Sebastian Neef, (参考訳) ホームファイバ接続は受動光ネットワークによって実現され、今日ではGPON規格に依存している最も一般的な形態となっている。 中でもこの標準は、ONUまたはONTと呼ばれる、顧客の家の中の最初のノードがどのように振る舞うか、どのセキュリティ機能をサポートする必要があるかを規定している。 現在、ドイツを含む一部のヨーロッパ諸国の顧客は、ISPが提供する端末機器の使用と、選択の自由に起因するセキュリティへの影響、およびISPに強制されたハードウェアがGPONのセキュリティを高めるか否かを分析している。 本レビューでは,ISP が指定した ONU/ONT と,ISP が指定した ONU/ONT のセキュリティベースの勧告を正当化する標準準拠の ONU/ONT との間には差がないことを明らかにした。

Home fiber connections are largely realized by using passive optical networks, in their most common form today relying on the GPON standard. Among other things, this standard specifies how the first node inside of customers' homes, the so called ONU or ONT, has to behave, and which security features have to be supported. Currently, customers in some European countries, including Germany, have freedom of choice between using terminal equipment provided by the ISP or a self-selected open market device.We analyze the security implications resulting from this freedom of choice and whether or not ISP-mandated hardware would increase the security of the GPON. Our review reveals that there are no differences between an ISP-mandated ONU/ONT and a standard conforming subscriber-selected ONU/ONT that would justify the security based recommendation of an ISP-mandated ONU/ONT.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-09
# DiCE - クラウド用のデータ暗号化プロキシ

DiCE -- A Data Encryption Proxy for the Cloud ( http://arxiv.org/abs/2310.05710v1 )

ライセンス: Link先を確認
Johannes Koppenwallner, Erich Schikuta, (参考訳) リレーショナルデータベースをクラウドにアウトソーシングすることは、スケーラビリティ、可用性、コスト効率など、いくつかのメリットを提供する。 しかし、アウトソースされたデータの機密性やセキュリティには懸念がある。 ここでの一般的なアプローチは、標準化された暗号化アルゴリズムでデータを暗号化し、クラウドにのみ暗号化されたデータを格納することだ。 しかし、このアプローチの問題点は、暗号化によってソート、フォーマット、コンパビリティといった、データベースクエリの機能に不可欠なデータの重要な特性が失われることである。 この問題の解決策の1つは(例えば順序保存)暗号化アルゴリズムを使用することで、暗号化されたデータにこれらのプロパティを保存することで、クエリーが暗号化されたデータに保存される。 これらのアルゴリズムは、Caesar暗号化のような単純なアルゴリズムから、mOPEのようなセキュアなアルゴリズムまで様々である。 これらのアルゴリズムを可能な限り使いやすくするために、JDBCドライバの ``DiCE' が開発され、SQLクエリをプロキシとして解析し、これらのクエリを透過的に暗号化して復号化している。 これにより、暗号化されていないデータベースのような(ほぼ)パフォーマンスで、クラウド内の暗号化されたデータベース上で多くのクエリを実行することができる。 DiCEドライバは他のJDBCドライバと使用することができ、そのためさまざまなデータベースをサポートする。 ドライバは、異なる暗号化アルゴリズムをサポートするように設定できる。 操作を追跡するため、ドライバの暗号化と復号を追跡するために ``Dice Information Client'' が開発された。 性能解析の結果、DiceドライバのSQLクエリのパースと暗号化によるある程度のオーバーヘッドが示されるが、ネットワークや並列クエリといった他の影響要因によって、このオーバーヘッドは大幅に減少する。

Outsourcing a relational database to the cloud offers several benefits, including scalability, availability, and cost-effectiveness. However, there are concerns about the confidentiality and security of the outsourced data. A general approach here would be to encrypt the data with a standardized encryption algorithm and then store the data only encrypted in the cloud. The problem with this approach, however, is that with encryption, important properties of the data such as sorting, format or comparability, which are essential for the functioning of database queries, are lost. One solution to this problem is the use of (e.g. order-preserving) encryption algorithms, which also preserve these properties in the encrypted data, thus enabling queries to encrypted data. These algorithms range from simple algorithms like Caesar encryption to secure algorithms like mOPE. In order to be able to use these algorithms as easy as possible, ``DiCE'' a JDBC driver was developed, that parses SQL queries as a proxy and transparently encrypts and decrypts these queries. This allows to execute many queries on an encrypted database in the cloud with (nearly) the performance as on unencrypted databases. The DiCE driver can be used with any other JDBC driver and therefore supports a variety of databases. The driver can be configured to support different encryption algorithms. To keep track of the operations, the ``Dice Information Client'' has been developed to track the encryption and decryption of the driver. Although the result of the performance analysis shows a certain overhead due to the parsing and encryption of the SQL queries in the Dice driver, this overhead is significantly reduced by other influencing factors such as the network and parallel queries.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-09
# ADMMによる自然政策グラディエントにおけるコミュニケーション効率の向上

Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates ( http://arxiv.org/abs/2310.19807v1 )

ライセンス: Link先を確認
Guangchen Lan, Han Wang, James Anderson, Christopher Brinton, Vaneet Aggarwal(参考訳) フェデレート強化学習(FedRL)は、エージェントが個々のデータを共有することなく、グローバルなポリシーを協調的に訓練することを可能にする。 しかし、特に2次の自然政策勾配法(NPG)では、高い通信オーバーヘッドが重大なボトルネックとなっている。 本稿では,乗算器の交互方向法(ADMM)を利用してグローバルNPG方向を効率的に近似するFedNPG-ADMMフレームワークを提案する。 理論的には、ADMMに基づく勾配更新を使用することで、各イテレーションにおいて${O}({d^{2}})$から${O}({d})$に通信複雑性が減少する。 さらに、$\epsilon$-error定常収束を達成するには、${o}(\frac{1}{(1-\gamma)^{2}{\epsilon}})$のディスカウント係数$\gamma$の反復が必要であり、fednpg-admmが標準のfednpgと同じ収束率を維持していることを示している。 提案したアルゴリズムを MuJoCo 環境で評価することにより,FedNPG-ADMM が標準FedNPG の報酬性能を維持し,フェデレートエージェントの数が増えると収束率が向上することを示した。

Federated reinforcement learning (FedRL) enables agents to collaboratively train a global policy without sharing their individual data. However, high communication overhead remains a critical bottleneck, particularly for natural policy gradient (NPG) methods, which are second-order. To address this issue, we propose the FedNPG-ADMM framework, which leverages the alternating direction method of multipliers (ADMM) to approximate global NPG directions efficiently. We theoretically demonstrate that using ADMM-based gradient updates reduces communication complexity from ${O}({d^{2}})$ to ${O}({d})$ at each iteration, where $d$ is the number of model parameters. Furthermore, we show that achieving an $\epsilon$-error stationary convergence requires ${O}(\frac{1}{(1-\gamma)^{2}{\epsilon}})$ iterations for discount factor $\gamma$, demonstrating that FedNPG-ADMM maintains the same convergence rate as the standard FedNPG. Through evaluation of the proposed algorithms in MuJoCo environments, we demonstrate that FedNPG-ADMM maintains the reward performance of standard FedNPG, and that its convergence rate improves when the number of federated agents increases.
翻訳日:2023-11-05 13:43:06 公開日:2023-10-09
# 大規模言語モデルは地理的に理解できるか?

Are Large Language Models Geospatially Knowledgeable? ( http://arxiv.org/abs/2310.13002v1 )

ライセンス: Link先を確認
Prabin Bhandari, Antonios Anastasopoulos, Dieter Pfoser(参考訳) 様々な自然言語処理タスクに対するLarge Language Models (LLM) の印象的な性能にもかかわらず、地理的データの理解と地理空間的意思決定を容易にする関連能力についてはほとんど知られていない。 本稿では,これらの事前学習LLMに含まれる地理空間的知識,認識,推論能力の程度について検討する。 自己回帰型言語モデルに焦点をあてて,実験的なアプローチを考案する。 (i)地理空間知識の評価のための地理座標のためのllmの探索 (ii)地理空間的及び非地理空間的前置詞を用いてその地理空間的意識を測定すること 3)多次元スケーリング(MDS)実験を利用して,モデルの地理空間的推論能力を評価し,プロンプトに基づく都市の位置決定を行う。 以上の結果から, テキスト情報から地理空間知識を合成するには, より大きなLLMだけでなく, より高度なLCMも必要であることが確認された。 本研究は,地理空間情報を扱う上でのLLMの可能性と限界の理解に寄与する。

Despite the impressive performance of Large Language Models (LLM) for various natural language processing tasks, little is known about their comprehension of geographic data and related ability to facilitate informed geospatial decision-making. This paper investigates the extent of geospatial knowledge, awareness, and reasoning abilities encoded within such pretrained LLMs. With a focus on autoregressive language models, we devise experimental approaches related to (i) probing LLMs for geo-coordinates to assess geospatial knowledge, (ii) using geospatial and non-geospatial prepositions to gauge their geospatial awareness, and (iii) utilizing a multidimensional scaling (MDS) experiment to assess the models' geospatial reasoning capabilities and to determine locations of cities based on prompting. Our results confirm that it does not only take larger, but also more sophisticated LLMs to synthesize geospatial knowledge from textual information. As such, this research contributes to understanding the potential and limitations of LLMs in dealing with geospatial information.
翻訳日:2023-10-29 16:09:11 公開日:2023-10-09
# ドメインウォーターマーク: 有効かつ無害なデータセットの著作権保護が手元に閉鎖される

Domain Watermark: Effective and Harmless Dataset Copyright Protection is Closed at Hand ( http://arxiv.org/abs/2310.14942v1 )

ライセンス: Link先を確認
Junfeng Guo, Yiming Li, Lixu Wang, Shu-Tao Xia, Heng Huang, Cong Liu, Bo Li(参考訳) ディープニューラルネットワーク(DNN)の繁栄は、ユーザがメソッドを評価し改善できるオープンソースデータセットから大きく恩恵を受けている。 本稿では,オープンソースデータセットの著作権を保護するための唯一の有効なアプローチである,バックドアベースのデータセット所有権検証(dov)を再検討する。 これらの手法は,悪質な誤分類行為を敵のDNNにもたらしうるため,基本的に有害であることが明らかとなった。 本稿では,防犯データセット上でトレーニングされた)透かし付きモデルを用いて,良性モデルによって誤分類される「ハード」サンプルを正しく分類することにより,別の視点からdovを設計する。 この手法はdnnsの一般化特性に触発され、元のデータセットに対して \emph{hardly-generalized domain} を見つける( \emph{domain watermark} として)。 修正されたサンプルを含む保護データセットで簡単に学習できる。 具体的には、二段階最適化としてドメイン生成を定式化し、不一般化ドメインのドメイン透かしサンプルと類似した効果を持つ視覚的に区別できないクリーンラベル修正データのセットを最適化し、透かしのステルス性を確保することを提案する。 また,仮説テストによる所有権検証をドメイン透かしで設計し,その理論的解析を行う。 提案手法の有効性と潜在的な適応手法に対する耐性を検証した3つのベンチマークデータセットの大規模な実験を行った。 主な実験を再現するコードは \url{https://github.com/junfenggo/domain-watermark} で入手できる。

The prosperity of deep neural networks (DNNs) is largely benefited from open-source datasets, based on which users can evaluate and improve their methods. In this paper, we revisit backdoor-based dataset ownership verification (DOV), which is currently the only feasible approach to protect the copyright of open-source datasets. We reveal that these methods are fundamentally harmful given that they could introduce malicious misclassification behaviors to watermarked DNNs by the adversaries. In this paper, we design DOV from another perspective by making watermarked models (trained on the protected dataset) correctly classify some `hard' samples that will be misclassified by the benign model. Our method is inspired by the generalization property of DNNs, where we find a \emph{hardly-generalized domain} for the original dataset (as its \emph{domain watermark}). It can be easily learned with the protected dataset containing modified samples. Specifically, we formulate the domain generation as a bi-level optimization and propose to optimize a set of visually-indistinguishable clean-label modified data with similar effects to domain-watermarked samples from the hardly-generalized domain to ensure watermark stealthiness. We also design a hypothesis-test-guided ownership verification via our domain watermark and provide the theoretical analyses of our method. Extensive experiments on three benchmark datasets are conducted, which verify the effectiveness of our method and its resistance to potential adaptive methods. The code for reproducing main experiments is available at \url{https://github.com/JunfengGo/Domain-Watermark}.
翻訳日:2023-10-29 15:58:34 公開日:2023-10-09
# スパースマルコフ量子力学の効率的なシミュレーション

Efficient simulation of sparse Markovian quantum dynamics ( http://arxiv.org/abs/1611.05543v3 )

ライセンス: Link先を確認
Andrew M. Childs and Tongyang Li(参考訳) ハミルトン力学をシミュレートする量子アルゴリズムは広く開発されてきたが、オープン量子システムのダイナミクスをシミュレートするための量子アルゴリズムの作業ははるかに少ない。 我々は、必ずしも局所的ではないリンドブラジアンによって生成されるマルコフ量子力学をシミュレートする最初の効率的な量子アルゴリズムを与える。 スパースリンドブレディアンをシミュレートする2つの方法を紹介する。 まず,量子アルゴリズムを用いて小さな不変部分空間内で作用するリンドブラジアンをシミュレートする方法を示す。 第二に、短時間進化の列を連結することでスパースリンドブラッド作用素をシミュレートする手法を開発する。 また,ブラックボックスモデルにおけるスパース・リンドブラジアンをシミュレートするためのno-fast-forwarding定理を証明し,リンドブラジアンシミュレーションの限界を示す。

Quantum algorithms for simulating Hamiltonian dynamics have been extensively developed, but there has been much less work on quantum algorithms for simulating the dynamics of open quantum systems. We give the first efficient quantum algorithms for simulating Markovian quantum dynamics generated by Lindbladians that are not necessarily local. We introduce two approaches to simulating sparse Lindbladians. First, we show how to simulate Lindbladians that act within small invariant subspaces using a quantum algorithm to implement sparse Stinespring isometries. Second, we develop a method for simulating sparse Lindblad operators by concatenating a sequence of short-time evolutions. We also show limitations on Lindbladian simulation by proving a no-fast-forwarding theorem for simulating sparse Lindbladians in black-box models.
翻訳日:2023-10-24 16:06:57 公開日:2023-10-09
# ソフトウェア構成分析におけるセキュリティ盲点について

On the Security Blind Spots of Software Composition Analysis ( http://arxiv.org/abs/2306.05534v2 )

ライセンス: Link先を確認
Jens Dietrich, Shawn Rasheed, Alexander Jordan, Tim White(参考訳) 現代のソフトウェアはコンポーネントの使用に大きく依存している。 これらのコンポーネントは通常、中央リポジトリに公開され、依存関係を通じてビルドシステムによって管理される。 脆弱性、ライセンス、バグの伝播に関する問題により、これらの依存関係の研究が最も重要であり、この目的のために多くのソフトウェア構成分析ツールが登場した。 特定の課題は、コンポーネントからのコードが“インライン化”された場合のクローン化やシェーディングの結果である隠れた依存関係であり、シェーディングの場合、異なる名前空間に移動する。 Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。 私たちのアプローチは、カスタムインデックスの作成とメンテナンスを必要としないという点で軽量です。 割り当てられたcveとvulnerabilityプロジェクトの29の脆弱性から始め、maven centralから53万以上の潜在的な脆弱性クローンを取得しました。 このセットで解析を行った後、727個の脆弱クローン(バージョンが集約された場合86個)を検出し、それぞれに対して検証可能な脆弱性証明プロジェクトを合成する。 既存のSCAツールはこれらの露出を見逃すことがよくあります。 これらの結果が提出された時点では、GitHub Security Advisory Database(GHSA)の6つのCVEのエントリが、承認されたプルリクエストを通じて変更され、さらに待機している。

Modern software heavily relies on the use of components. Those components are usually published in central repositories, and managed by build systems via dependencies. Due to issues around vulnerabilities, licenses and the propagation of bugs, the study of those dependencies is of utmost importance, and numerous software composition analysis tools have emerged for this purpose. A particular challenge are hidden dependencies that are the result of cloning or shading where code from a component is "inlined", and, in the case of shading, moved to different namespaces. We present a novel approach to detect vulnerable clones in the Maven repository. Our approach is lightweight in that it does not require the creation and maintenance of a custom index. Starting with 29 vulnerabilities with assigned CVEs and proof-of-vulnerability projects, we retrieve over 53k potential vulnerable clones from Maven Central. After running our analysis on this set, we detect 727 confirmed vulnerable clones (86 if versions are aggregated) and synthesize a testable proof-of-vulnerability project for each of those. We demonstrate that existing SCA tools often miss those exposures. At the time of submission those results have led to changes to the entries for six CVEs in the GitHub Security Advisory Database (GHSA) via accepted pull requests, with more pending.
翻訳日:2023-10-24 04:03:33 公開日:2023-10-09
# GPTを用いた感性分析システムの品質保証:データ生成・検出の逆レビュー

Quality Assurance of A GPT-based Sentiment Analysis System: Adversarial Review Data Generation and Detection ( http://arxiv.org/abs/2310.05312v1 )

ライセンス: Link先を確認
Tinghui Ouyang, Hoang-Quoc Nguyen-Son, Huy H. Nguyen, Isao Echizen, Yoshiki Seo(参考訳) 大規模言語モデル(LLM)は、特にChatGPTの普及以降、AI研究者の注目を集めている。 しかし、LLMの複雑なアーキテクチャと膨大なパラメータのため、品質保証に関するいくつかの懸念と課題に対処する必要がある。 本稿では,AI品質分析の基準として,GPTを用いた感情分析モデルの構築と研究を行った。 そして、コンテンツベースのアプローチを用いて、適切な相手レビューコメントを誤った注釈付きデータとして生成することや、これらの異常データを検出するためのサプライズアデクシー(SA)ベースの技術を開発することを含む、データ妥当性に関する品質分析を実施する。 Amazon.comのレビューデータと微調整のGPTモデルに基づく実験が実施された。 結果は,ai品質保証の観点から徹底的に議論され,生成された逆行文データに対するllmモデルの品質分析と,データ品質保証におけるsaを用いた異常検出の有効性について述べる。

Large Language Models (LLMs) have been garnering significant attention of AI researchers, especially following the widespread popularity of ChatGPT. However, due to LLMs' intricate architecture and vast parameters, several concerns and challenges regarding their quality assurance require to be addressed. In this paper, a fine-tuned GPT-based sentiment analysis model is first constructed and studied as the reference in AI quality analysis. Then, the quality analysis related to data adequacy is implemented, including employing the content-based approach to generate reasonable adversarial review comments as the wrongly-annotated data, and developing surprise adequacy (SA)-based techniques to detect these abnormal data. Experiments based on Amazon.com review data and a fine-tuned GPT model were implemented. Results were thoroughly discussed from the perspective of AI quality assurance to present the quality analysis of an LLM model on generated adversarial textual data and the effectiveness of using SA on anomaly detection in data quality assurance.
翻訳日:2023-10-23 04:16:02 公開日:2023-10-09
# CLAID: AIとデータコレクションのループを閉じる - スマートエッジクラウドとデジタルバイオマーカーアプリケーションのための、クロスプラットフォームで透過的なコンピューティングミドルウェアフレームワーク

CLAID: Closing the Loop on AI & Data Collection -- A Cross-Platform Transparent Computing Middleware Framework for Smart Edge-Cloud and Digital Biomarker Applications ( http://arxiv.org/abs/2310.05643v1 )

ライセンス: Link先を確認
Patrick Langer, Elgar Fleisch and Filipe Barata(参考訳) スマートフォンやウェアラブル、センサを備えたIoTデバイスといった、センサ機能を強化したエッジデバイスの増加は、医療における革新的なスマートエッジアプリケーションの可能性を高めている。 これらのデバイスは大量のマルチモーダルデータを生成し、機械学習ソリューションによって活用され、洞察を導き、健康リスクを予測し、パーソナライズされた介入を可能にするデジタルバイオマーカーの実装を可能にする。 これらのモデルをトレーニングするには、エッジデバイスからデータを収集し、クラウドに集約する必要がある。 これらのモデルの検証と検証には、現実世界のシナリオでそれらを活用し、様々なコホートのデータを使ってテストすることが不可欠である。 エッジデバイス上で直接実行するには計算コストがかかりすぎるモデルもあるため、エッジとクラウド間の協調的なフレームワークが必要である。 本稿では,Android,iOS,WearOS,Linux,macOS,Windowsと互換性のある透過型コンピューティングに基づく,オープンソースのクロスプラットフォームミドルウェアフレームワークであるCLAIDを提案する。 claidは、異なるオペレーティングシステムを実行するデバイスのエッジクラウドシステムへの論理的統合を可能にし、異なるプログラミング言語で利用可能なバインディングを使用して、それらの間の通信とオフロードを容易にする。 さまざまなセンサからのデータ収集のためのモジュールと、機械学習モデルのデプロイを提供します。 さらに,クラウドからエッジデバイスへのモデル移行時に発生する問題を分析するため,デプロイされた機械学習モデルを検証するための新しい手法"ML-Model in the Loop"を提案する。 我々は,このフレームワークを3つの異なる実験で検証し,さまざまなセンサにまたがるデータ収集のための100%サンプリングカバレッジと,androidおよびiosデバイスにデプロイされたcough検出モデルの同等の性能を実現する。 我々は,フレームワークのメモリ消費とバッテリ消費を評価する。

The increasing number of edge devices with enhanced sensing capabilities, such as smartphones, wearables, and IoT devices equipped with sensors, holds the potential for innovative smart-edge applications in healthcare. These devices generate vast amounts of multimodal data, enabling the implementation of digital biomarkers which can be leveraged by machine learning solutions to derive insights, predict health risks, and allow personalized interventions. Training these models requires collecting data from edge devices and aggregating it in the cloud. To validate and verify those models, it is essential to utilize them in real-world scenarios and subject them to testing using data from diverse cohorts. Since some models are too computationally expensive to be run on edge devices directly, a collaborative framework between the edge and cloud becomes necessary. In this paper, we present CLAID, an open-source cross-platform middleware framework based on transparent computing compatible with Android, iOS, WearOS, Linux, macOS, and Windows. CLAID enables logical integration of devices running different operating systems into an edge-cloud system, facilitating communication and offloading between them, with bindings available in different programming languages. We provide Modules for data collection from various sensors as well as for the deployment of machine-learning models. Furthermore, we propose a novel methodology, "ML-Model in the Loop" for verifying deployed machine learning models, which helps to analyze problems that may occur during the migration of models from cloud to edge devices. We verify our framework in three different experiments and achieve 100% sampling coverage for data collection across different sensors as well as an equal performance of a cough detection model deployed on both Android and iOS devices. We evaluate the memory and battery consumption of our framework.
翻訳日:2023-10-23 04:02:13 公開日:2023-10-09
# 窒素空位磁気緩和法によるナノクラスターシトクロムcタンパク質中の鉄の検出

Detection of Iron in Nanoclustered Cytochrome C Proteins Using Nitrogen-Vacancy Magnetic Relaxometry ( http://arxiv.org/abs/2310.08605v1 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Rupak Timalsina, Cody Schultz, Ilja Fescenko, Kapildeb Ambal, Sy-Hwang Liou, Rebecca Y. Lai, and Abdelghani Laraoui(参考訳) 窒素空洞(NV)磁力計は、磁気感度と空間分解能の良好な組み合わせで神経細胞や細胞の鉄濃度を検出する代替手段を提供する。 ここではNV-T1緩和法を用いてシトクロムC(Cyt-C)ナノクラスター中のFeを検出する。 Cyt-Cは1つのヘム基を含む水溶性タンパク質であり、ミトコンドリアの電子輸送鎖において重要な役割を果たす。 環境条件下では、ヘム基はFe+3常磁性状態のままである。 機能性ダイヤモンドチップ上でNV-T1リラクサメトリーを行い,Cyt-C濃度を6 uMから54 uMに変化させ,T1濃度を1.2 msから150 usに低下させた。 この還元は、Cyt-Cの細胞内Feスピンに由来するスピンノイズに起因する。 吸着鉄の密度を1.44x10^6から1.7x10^7 per um^2に変化させることにより,ナノ構造ダイヤモンドチップ上でのcyt-cタンパク質のイメージングを行う。

Nitrogen-vacancy (NV) magnetometry offers an alternative tool to detect iron levels in neurons and cells with a favorable combination of magnetic sensitivity and spatial resolution. Here we employ NV-T1 relaxometry to detect Fe in cytochrome C (Cyt-C) nanoclusters. Cyt-C is a water-soluble protein that contains a single heme group and plays a vital role in the electron transport chain of mitochondria. Under ambient conditions, the heme group remains in the Fe+3 paramagnetic state. We perform NV-T1 relaxometry on a functionalized diamond chip and vary the concentration of Cyt-C from 6 uM to 54 uM, resulting in a decrease of T1 from 1.2 ms to 150 us, respectively. This reduction is attributed to spin-noise originating from the intracellular Fe spins in the Cyt-C. We perform relaxometry imaging of Cyt-C proteins on a nanostructured diamond chip by varying the density of adsorbed iron from 1.44 x 10^6 to 1.7 x 10^7 per um^2.
翻訳日:2023-10-23 02:52:40 公開日:2023-10-09
# WinSyn: 合成データのための高解像度テストベッド

WinSyn: A High Resolution Testbed for Synthetic Data ( http://arxiv.org/abs/2310.08471v1 )

ライセンス: Link先を確認
Tom Kelly, John Femiani and Peter Wonka(参考訳) 我々は,3次元モデルの高解像度写真とレンダリングからなるデータセットWinSynを,合成から現実的な研究のためのテストベッドとして提示する。 データセットは75,739枚の高精細な建物窓の写真で構成されており、その中には伝統的なデザインや現代的なデザインも含まれている。 これには、89,318の切り抜かれたwindowsのサブイメージが含まれており、そのうち9,002は意味的にラベル付けされている。 さらに, 様々なパラメータ分布と工学的アプローチを用いた実験を可能にする, ドメイン整合フォトリアリスティックプロシーデュラルモデルを提案する。 手続きモデルは21,290枚の合成画像からなる第2の対応データセットを提供する。 この共同開発したデータセットは、合成から現実の学習と合成データ生成の分野での研究を容易にするように設計されている。 WinSynは、合成データが現実世界のデータと競合することを難しくする要因を実験することができる。 合成モデルを用いたアブレーションを行い,ラベリング作業の正確性にかかわるサルエントレンダリング,材料,幾何学的要因を同定した。 私たちはwindowsをベンチマークとして選んだのは、その設計において幾何と材料の大きな変動を示し、制約のある環境で合成データ生成を研究するのに理想的だからです。 我々は、データセットはディープラーニングのための合成データ生成における将来の研究を可能にするための重要なステップであると主張している。

We present WinSyn, a dataset consisting of high-resolution photographs and renderings of 3D models as a testbed for synthetic-to-real research. The dataset consists of 75,739 high-resolution photographs of building windows, including traditional and modern designs, captured globally. These include 89,318 cropped subimages of windows, of which 9,002 are semantically labeled. Further, we present our domain-matched photorealistic procedural model which enables experimentation over a variety of parameter distributions and engineering approaches. Our procedural model provides a second corresponding dataset of 21,290 synthetic images. This jointly developed dataset is designed to facilitate research in the field of synthetic-to-real learning and synthetic data generation. WinSyn allows experimentation into the factors that make it challenging for synthetic data to compete with real-world data. We perform ablations using our synthetic model to identify the salient rendering, materials, and geometric factors pertinent to accuracy within the labeling task. We chose windows as a benchmark because they exhibit a large variability of geometry and materials in their design, making them ideal to study synthetic data generation in a constrained setting. We argue that the dataset is a crucial step to enable future research in synthetic data generation for deep learning.
翻訳日:2023-10-23 02:50:44 公開日:2023-10-09
# 感情に基づく合成意識:LLMを用いた感情確率ベクトルの推定

Towards Emotion-Based Synthetic Consciousness: Using LLMs to Estimate Emotion Probability Vectors ( http://arxiv.org/abs/2310.10673v1 )

ライセンス: Link先を確認
David Sinclair and Willem Pye(参考訳) 本稿では,LLM(Large Language Models)を用いてテキストの感情状態の要約を推定する方法について述べる。 感情状態の要約は、原文を含むプロンプトとテールを省略した感情の後に現れる単語の確率と共に感情を記述するために使われる単語の辞書である。 Amazon製品レビューの感情分析を通じて、感情記述子はPCAタイプの空間にマッピングできることを示した。 現在記述されている状態を改善するためのアクションのテキスト記述も、テールプロンプトを通じて引き起こされることが期待された。 実験によると、これは簡単には機能しないようだ。 この失敗は、現在までの感情的な反応を比較して、最良の予測結果を選択することで、行動の選択を期待した。

This paper shows how LLMs (Large Language Models) may be used to estimate a summary of the emotional state associated with piece of text. The summary of emotional state is a dictionary of words used to describe emotion together with the probability of the word appearing after a prompt comprising the original text and an emotion eliciting tail. Through emotion analysis of Amazon product reviews we demonstrate emotion descriptors can be mapped into a PCA type space. It was hoped that text descriptions of actions to improve a current text described state could also be elicited through a tail prompt. Experiment seemed to indicate that this is not straightforward to make work. This failure put our hoped for selection of action via choosing the best predict ed outcome via comparing emotional responses out of reach for the moment.
翻訳日:2023-10-23 02:20:09 公開日:2023-10-09
# CrossQ: より高効率で簡便な深層強化学習におけるバッチ正規化

CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity ( http://arxiv.org/abs/1902.05605v3 )

ライセンス: Link先を確認
Aditya Bhatt, Daniel Palenicek, Boris Belousov, Max Argus, Artemij Amiranashvili, Thomas Brox, Jan Peters(参考訳) サンプル効率は深層強化学習において重要な問題である。 REDQやDroQといった最近のアルゴリズムは、更新データ(UTD)比を環境サンプル当たりの批評家の20段階に引き上げることで、サンプル効率を改善する方法を見つけた。 しかし、これは計算コストの大幅な増大によるものである。 この計算負荷を軽減するために、cross$q$を導入する。バッチ正規化を慎重に利用し、ターゲットネットワークを除去してサンプル効率の最先端を上回りながら、utd比の低い1ドルを維持できる軽量アルゴリズムである。 特に、Cross$Q$は、現在の手法で使われる高度なバイアス還元スキームに依存しない。 そこで、Cross$Q$のコントリビューションは、(1)最先端のサンプル効率、(2)REDQやDroQに比べて計算コストが大幅に削減され、(3)実装が容易になり、SAC上にわずか数行のコードを必要とする。

Sample efficiency is a crucial problem in deep reinforcement learning. Recent algorithms, such as REDQ and DroQ, found a way to improve the sample efficiency by increasing the update-to-data (UTD) ratio to 20 gradient update steps on the critic per environment sample. However, this comes at the expense of a greatly increased computational cost. To reduce this computational burden, we introduce Cross$Q$: a lightweight algorithm that makes careful use of Batch Normalization and removes target networks to surpass the state-of-the-art in sample efficiency while maintaining a low UTD ratio of $1$. Notably, Cross$Q$ does not rely on advanced bias-reduction schemes used in current methods. Cross$Q$'s contributions are thus threefold: (1) state-of-the-art sample efficiency, (2) substantial reduction in computational cost compared to REDQ and DroQ, and (3) ease of implementation, requiring just a few lines of code on top of SAC.
翻訳日:2023-10-14 15:59:43 公開日:2023-10-09
# コンピューティングのモード

The Mode of Computing ( http://arxiv.org/abs/1903.10559v4 )

ライセンス: Link先を確認
Luis A. Pineda(参考訳) チューリングマシンは計算機のパラダイム的ケースであるが、アナログ、コネクショニスト、量子および多種多様な非伝統的な計算形式があり、それぞれが計算現象の特定の直観に基づいている。 この多様性はシステムレベルの観点から捉えることができ、ニューウェルの階層を再解釈し、一般化することができる。 この再解釈において、知識レベルは人間の知識から成り、シンボルレベルはここで計算モードと呼ばれる新しいレベルへと一般化される。 自然の脳によって行われる精神過程は、しばしば非公式に計算過程とみなされ、脳は計算機械と似ている。 しかし、もし自然コンピューティングが存在するなら、それ自身で特徴付けるべきである。 そのような効果に対する提案は、生物学的実体によって解釈が最初になされたときに自然コンピューティングが現れ、自然コンピューティングと解釈は同じ現象の2つの側面である。 計算機械の類似性により、神経回路の上部にシステムレベルが存在しなければならず、ナレッジレベルの直下には自然計算モードがある。 そのような仮定対象が存在しないことが判明すれば、心が計算プロセスであるという命題は廃止されるべきである。

The Turing Machine is the paradigmatic case of computing machines, but there are others such as analogical, connectionist, quantum and diverse forms of unconventional computing, each based on a particular intuition of the phenomenon of computing. This variety can be captured in terms of system levels, re-interpreting and generalizing Newell's hierarchy, which includes the knowledge level at the top and the symbol level immediately below it. In this re-interpretation the knowledge level consists of human knowledge and the symbol level is generalized into a new level that here is called The Mode of Computing. Mental processes performed by natural brains are often thought of informally as computing process and that the brain is alike to computing machinery. However, if natural computing does exist it should be characterized on its own. A proposal to such an effect is that natural computing appeared when interpretations were first made by biological entities, so natural computing and interpreting are two aspects of the same phenomenon, or that consciousness and experience are the manifestations of computing/interpreting. By analogy with computing machinery, there must be a system level at the top of the neural circuitry and directly below the knowledge level that is named here The mode of Natural Computing. If it turns out that such putative object does not exist the proposition that the mind is a computing process should be dropped; but characterizing it would come with solving the hard problem of consciousness.
翻訳日:2023-10-13 17:48:18 公開日:2023-10-09
# ラベルなし主成分分析と行列補完

Unlabeled Principal Component Analysis and Matrix Completion ( http://arxiv.org/abs/2101.09446v2 )

ライセンス: Link先を確認
Yunzhen Yao, Liangzu Peng and Manolis C. Tsakiris(参考訳) 本稿では、列のエントリが置換によって破損したデータ行列から頑健な主成分分析を導入し、Unlabeled principal Component Analysis (UPCA) と呼ぶ。 代数幾何学を用いて、UPCA は与えられたデータに一致する最小ランクの行列だけが基底トラス行列の行置換であり、方程式の多項式系の一意解として生じるという意味で、十分に定義された代数的問題であることを示す。 さらに,データのごく一部が置換された場合に適したUPCAのための効率的な2段階アルゴリズムパイプラインを提案する。 stage-i では、表層柱空間を推定するために outlier-robust pca 法を用いる。 列空間を備えるstage-iiは、ラベルなしセンシングの最近の手法を適用し、置換されたデータを復元する。 UPCAの置換の上位に欠落するエントリが与えられると、ラベルなし行列完備化の問題が起こり、そこで同様のフレーバーの理論とアルゴリズムが導かれる。 合成データ、顔画像、教育および医療記録の実験は、データ民営化やレコードリンクのような応用のためのアルゴリズムの可能性を明らかにする。

We introduce robust principal component analysis from a data matrix in which the entries of its columns have been corrupted by permutations, termed Unlabeled Principal Component Analysis (UPCA). Using algebraic geometry, we establish that UPCA is a well-defined algebraic problem in the sense that the only matrices of minimal rank that agree with the given data are row-permutations of the ground-truth matrix, arising as the unique solutions of a polynomial system of equations. Further, we propose an efficient two-stage algorithmic pipeline for UPCA suitable for the practically relevant case where only a fraction of the data have been permuted. Stage-I employs outlier-robust PCA methods to estimate the ground-truth column-space. Equipped with the column-space, Stage-II applies recent methods for unlabeled sensing to restore the permuted data. Allowing for missing entries on top of permutations in UPCA leads to the problem of unlabeled matrix completion, for which we derive theory and algorithms of similar flavor. Experiments on synthetic data, face images, educational and medical records reveal the potential of our algorithms for applications such as data privatization and record linkage.
翻訳日:2023-10-13 17:43:33 公開日:2023-10-09
# 教師なし領域適応におけるマイニングラベル分布ドリフト

Mining Label Distribution Drift in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2006.09565v3 )

ライセンス: Link先を確認
Peizhao Li, Zhengming Ding, Hongfu Liu(参考訳) 教師なしドメイン適応ターゲットはラベル付きソースドメインからラベルなしのターゲットドメインへタスク関連の知識を転送する。 ドメインのばらつきを最小限にするために多大な努力がなされてきたが、既存のほとんどのメソッドは、さまざまなドメインの特徴表現を調整することで部分的に管理されている。 データ分布の相違を超えて、ラベル分布のドリフトとして認識されるソースとターゲットのラベル分布のギャップは、ドメインのばらつきを高める重要な要因であり、調査が不十分である。 この観点から,まずラベル分布のドリフトが負の影響をもたらすことを明らかにする。 次に,データ分布シフトとラベル分布ドリフトを同時処理するラベル分布マッチングドメイン逆ネットワーク(lmdan)を提案する。 LMDANでは、ラベル分布のドリフトはソースサンプル重み付け戦略によって対処され、正の適応に寄与するサンプルを選択し、ミスマッチしたサンプルによる有害な影響を避ける。 実験により, LMDANはラベル分布のドリフトに優れた性能を示すことが示された。

Unsupervised domain adaptation targets to transfer task-related knowledge from labeled source domain to unlabeled target domain. Although tremendous efforts have been made to minimize domain divergence, most existing methods only partially manage by aligning feature representations from diverse domains. Beyond the discrepancy in data distribution, the gap between source and target label distribution, recognized as label distribution drift, is another crucial factor raising domain divergence, and has been under insufficient exploration. From this perspective, we first reveal how label distribution drift brings negative influence. Next, we propose Label distribution Matching Domain Adversarial Network (LMDAN) to handle data distribution shift and label distribution drift jointly. In LMDAN, label distribution drift is addressed by a source sample weighting strategy, which selects samples that contribute to positive adaptation and avoid adverse effects brought by the mismatched samples. Experiments show that LMDAN delivers superior performance under considerable label distribution drift.
翻訳日:2023-10-13 17:41:47 公開日:2023-10-09
# スコアガイドネットワークによる教師なし異常検出の強化

Enhancing Unsupervised Anomaly Detection with Score-Guided Network ( http://arxiv.org/abs/2109.04684v3 )

ライセンス: Link先を確認
Zongyuan Huang, Baohua Zhang, Guoqiang Hu, Longyuan Li, Yanyan Xu, Yaohui Jin(参考訳) 異常検出は、医療や金融システムを含む様々な現実世界のアプリケーションにおいて重要な役割を果たす。 複雑なシステムにおける異常ラベルの数が限られているため,近年,教師なし異常検出法が注目されている。 既存の教師なしメソッドが直面する2つの大きな課題は次のとおりである。 (i)正常データと異常データを高度に混合した遷移場における異常データとを区別すること。 二 表現学習者が構築した仮説空間における正規データと異常データのギャップを最大化するために有効な計量を定義すること。 そこで本研究では,正規データと異常データとの異常スコア差を学習・拡大するために,スコア誘導正規化による新しいスコアリングネットワークを提案する。 このようなスコア誘導戦略により、表現学習者は、モデルトレーニング段階、特に遷移分野のサンプルにおいて、より情報的な表現を徐々に学習することができる。 次に、スコア誘導型オートエンコーダ(SG-AE)を提案し、スコアリングネットワークをアノマ検出のためのオートエンコーダフレームワークと他の3つの最先端モデルに組み込むことにより、設計の有効性と転送性をさらに実証する。 合成および実世界の両方のデータセットに対する大規模な実験は、これらのスコア誘導モデル(SGM)の最先端性能を示す。

Anomaly detection plays a crucial role in various real-world applications, including healthcare and finance systems. Owing to the limited number of anomaly labels in these complex systems, unsupervised anomaly detection methods have attracted great attention in recent years. Two major challenges faced by the existing unsupervised methods are: (i) distinguishing between normal and abnormal data in the transition field, where normal and abnormal data are highly mixed together; (ii) defining an effective metric to maximize the gap between normal and abnormal data in a hypothesis space, which is built by a representation learner. To that end, this work proposes a novel scoring network with a score-guided regularization to learn and enlarge the anomaly score disparities between normal and abnormal data. With such score-guided strategy, the representation learner can gradually learn more informative representation during the model training stage, especially for the samples in the transition field. We next propose a score-guided autoencoder (SG-AE), incorporating the scoring network into an autoencoder framework for anomaly detection, as well as other three state-of-the-art models, to further demonstrate the effectiveness and transferability of the design. Extensive experiments on both synthetic and real-world datasets demonstrate the state-of-the-art performance of these score-guided models (SGMs).
翻訳日:2023-10-13 17:34:39 公開日:2023-10-09
# 自然言語生成におけるバックドア攻撃対策

Defending Against Backdoor Attacks in Natural Language Generation ( http://arxiv.org/abs/2106.01810v3 )

ライセンス: Link先を確認
Xiaofei Sun, Xiaoya Li, Yuxian Meng, Xiang Ao, Lingjuan Lyu, Jiwei Li and Tianwei Zhang(参考訳) ニューラルネットワークモデルの非常に脆弱な性質により、現在の自然言語生成(nlg)システムはバックドア攻撃を起こしやすくなり、セクシストや攻撃的な悪質なシーケンスを生成する。 残念なことに、バックドア攻撃が現在のNLGモデルにどのように影響するか、そしてこれらの攻撃に対する防御方法にはほとんど投資されていない。 本研究では,バックドア攻撃と防御の形式的定義を提供することで,機械翻訳とダイアログ生成という2つの重要なNLGタスクについて,この問題を考察する。 NLGモデルの本質的な性質(例えば、与えられたコンテキストのコヒーレントな単語列の生成)に照らして、攻撃に対する防御戦略を設計する。 対象とする音源の後方方向の確率をテストすることで,全ての攻撃に対して効果的な防御性能が得られ,ダイアログ生成などの多くのNLGタスクにおいて,一対多の問題に対処できることがわかった。 この取り組みは、深いNLGシステムに隠されたバックドアリスクの認識を高め、この方向に向けたより将来の作業(攻撃と防御の両方)を促すことを願っている。

The frustratingly fragile nature of neural network models make current natural language generation (NLG) systems prone to backdoor attacks and generate malicious sequences that could be sexist or offensive. Unfortunately, little effort has been invested to how backdoor attacks can affect current NLG models and how to defend against these attacks. In this work, by giving a formal definition of backdoor attack and defense, we investigate this problem on two important NLG tasks, machine translation and dialog generation. Tailored to the inherent nature of NLG models (e.g., producing a sequence of coherent words given contexts), we design defending strategies against attacks. We find that testing the backward probability of generating sources given targets yields effective defense performance against all different types of attacks, and is able to handle the {\it one-to-many} issue in many NLG tasks such as dialog generation. We hope that this work can raise the awareness of backdoor risks concealed in deep NLG systems and inspire more future work (both attack and defense) towards this direction.
翻訳日:2023-10-13 17:33:09 公開日:2023-10-09
# GraphFormers: テキストグラフによる表現学習のためのGNN対応トランスフォーマー

GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph ( http://arxiv.org/abs/2105.02605v3 )

ライセンス: Link先を確認
Junhan Yang, Zheng Liu, Shitao Xiao, Chaozhuo Li, Defu Lian, Sanjay Agrawal, Amit Singh, Guangzhong Sun, Xing Xie(参考訳) テキストグラフ上での表現学習は、個々のテキスト特徴と近隣情報に基づいてノードの低次元埋め込みを生成する。 事前訓練された言語モデルとグラフニューラルネットワークに関する最近のブレークスルーは、対応する技術の開発を推し進めている。 既存の研究は主にカスケードモデルアーキテクチャに依存しており、ノードのテキストの特徴は言語モデルによって独立に符号化され、テキストの埋め込みはその後グラフニューラルネットワークによって集約される。 しかし、上記のアーキテクチャはテキスト特徴の独立したモデリングのために制限されている。 本稿では,言語モデルのトランスフォーマーブロックとともに階層的にGNNコンポーネントをネストするGraphFormerを提案する。 提案されたアーキテクチャでは、テキストエンコーディングとグラフアグリゲーションは反復ワークフローに融合され、各ノードの意味をグローバルの観点から正確に理解する。 さらに、モデルが操作されたデータと元のデータに順次訓練され、グラフ上の情報を統合する能力を強化する『進歩的』学習戦略が導入された。 大規模な評価は3つの大規模なベンチマークデータセットで行われ、GraphFormersはSOTAベースラインを同等の実行効率で上回っている。

The representation learning on textual graph is to generate low-dimensional embeddings for the nodes based on the individual textual features and the neighbourhood information. Recent breakthroughs on pretrained language models and graph neural networks push forward the development of corresponding techniques. The existing works mainly rely on the cascaded model architecture: the textual features of nodes are independently encoded by language models at first; the textual embeddings are aggregated by graph neural networks afterwards. However, the above architecture is limited due to the independent modeling of textual features. In this work, we propose GraphFormers, where layerwise GNN components are nested alongside the transformer blocks of language models. With the proposed architecture, the text encoding and the graph aggregation are fused into an iterative workflow, {making} each node's semantic accurately comprehended from the global perspective. In addition, a {progressive} learning strategy is introduced, where the model is successively trained on manipulated data and original data to reinforce its capability of integrating information on graph. Extensive evaluations are conducted on three large-scale benchmark datasets, where GraphFormers outperform the SOTA baselines with comparable running efficiency.
翻訳日:2023-10-13 17:32:48 公開日:2023-10-09
# RescueNet: 自然災害評価のための高分解能UAVセマンティックセマンティックセグメンテーションベンチマークデータセット

RescueNet: A High Resolution UAV Semantic Segmentation Benchmark Dataset for Natural Disaster Damage Assessment ( http://arxiv.org/abs/2202.12361v2 )

ライセンス: Link先を確認
Maryam Rahnemoonfar, Tashnim Chowdhury, Robin Murphy(参考訳) 近年のコンピュータビジョンと深層学習技術の進歩は、現場理解の顕著な進歩を助長し、救助隊の正確な被害評価を支援する。 本稿では,詳細な分類と意味セグメンテーションアノテーションを含む,精巧にキュレートされた高分解能ポストディスタスターデータセットであるrescuenetを提案する。 このデータセットは、自然災害の余波を総合的に理解することを目的としている。 RescueNetは、複数の衝突地域から無人航空機(UAV)を用いて得られたハリケーン・マイケルの後に収集された災害後の画像を含んでいる。 rescuenetの独特さは、高解像度のポストディザスター画像を提供し、各画像に包括的な注釈を添えることにある。 建物などの特定のシーン要素に限定したアノテーションを提供する既存のデータセットとは異なり、rescuenetは建物、道路、プール、木などを含むすべてのクラスにピクセルレベルのアノテーションを提供する。 さらに,rescuenetに最先端のセグメンテーションモデルを実装し,既存の自然災害被害評価手法の強化にその価値を示すことにより,データセットの有用性を評価する。

Recent advancements in computer vision and deep learning techniques have facilitated notable progress in scene understanding, thereby assisting rescue teams in achieving precise damage assessment. In this paper, we present RescueNet, a meticulously curated high-resolution post-disaster dataset that includes detailed classification and semantic segmentation annotations. This dataset aims to facilitate comprehensive scene understanding in the aftermath of natural disasters. RescueNet comprises post-disaster images collected after Hurricane Michael, obtained using Unmanned Aerial Vehicles (UAVs) from multiple impacted regions. The uniqueness of RescueNet lies in its provision of high-resolution post-disaster imagery, accompanied by comprehensive annotations for each image. Unlike existing datasets that offer annotations limited to specific scene elements such as buildings, RescueNet provides pixel-level annotations for all classes, including buildings, roads, pools, trees, and more. Furthermore, we evaluate the utility of the dataset by implementing state-of-the-art segmentation models on RescueNet, demonstrating its value in enhancing existing methodologies for natural disaster damage assessment.
翻訳日:2023-10-13 17:14:23 公開日:2023-10-09
# ポリシーの安全なゾーンを見つける マルコフ決定プロセス

Finding Safe Zones of policies Markov Decision Processes ( http://arxiv.org/abs/2202.11593v2 )

ライセンス: Link先を確認
Lee Cohen, Yishay Mansour, Michal Moshkovitz(参考訳) マルコフ決定過程のポリシーが与えられた場合、私たちはSafeZoneを状態のサブセットとして定義し、政策の軌道のほとんどがこのサブセットに限定される。 SafeZoneの品質は状態の数とエスケープ確率、すなわちランダムな軌道がサブセットを離れる確率によってパラメータ化される。 SafeZonesは、少数の状態と低いエスケープ確率を持つ場合に特に興味深い。 最適なSafeZoneの発見の複雑さについて検討し、一般に計算が困難であることを示す。 我々の主な成果は、多項式サイズサンプルの複雑さを用いて、脱走確率とSafeZoneサイズの両方に約2ドルの近似係数を持つ双基準近似学習アルゴリズムである。

Given a policy of a Markov Decision Process, we define a SafeZone as a subset of states, such that most of the policy's trajectories are confined to this subset. The quality of a SafeZone is parameterized by the number of states and the escape probability, i.e., the probability that a random trajectory will leave the subset. SafeZones are especially interesting when they have a small number of states and low escape probability. We study the complexity of finding optimal SafeZones, and show that in general, the problem is computationally hard. Our main result is a bi-criteria approximation learning algorithm with a factor of almost $2$ approximation for both the escape probability and SafeZone size, using a polynomial size sample complexity.
翻訳日:2023-10-13 17:14:04 公開日:2023-10-09
# ランダムウェイトを変調する学習: 神経変調にインスパイアされたニューラルネットワークによる効率的な連続学習

Learning to Modulate Random Weights: Neuromodulation-inspired Neural Networks For Efficient Continual Learning ( http://arxiv.org/abs/2204.04297v2 )

ライセンス: Link先を確認
Jinyung Hong and Theodore P. Pavlic(参考訳) 既存の継続学習(CL)アプローチは、正規化メソッド、リプレイバッファ、タスク固有のコンポーネントを活用することで破滅的な忘れに対処することに焦点を当てている。 しかし、現実的なCLソリューションは破滅的な忘れの指標だけでなく、計算効率と実行時間によっても形成されなければならない。 本稿では,生物神経系における神経調節にインスパイアされた新しいニューラルネットワークアーキテクチャを導入し,破滅的な忘れを経済的かつ効率的に解決し,学習表現を解釈するための新たな方法を提案する。 ニューロモジュレーション(neuromodulation)は、機械学習において限られた注目を集めている生物学的メカニズムであり、異なる行動コンテキストの要求を追跡するために、リアルタイムでシナプス力学を動的に制御し、微調整する。 提案するアーキテクチャは,タスクコンテキスト毎に比較的小さなパラメータセットを学習し,入力を変換する不変でランダムな重み付けのアクティビティを \emph{neuromodulates} する。 学習可能なパラメータが極めて少ないにもかかわらず,このアプローチはタスク毎に強い学習性能を示す。 さらに、コンテキストベクトルは非常にコンパクトであるため、干渉や空間的フットプリントの少ない複数のネットワークを同時に保存することができるため、壊滅的な忘れ忘れとトレーニングプロセスの加速を完全に排除できる。

Existing Continual Learning (CL) approaches have focused on addressing catastrophic forgetting by leveraging regularization methods, replay buffers, and task-specific components. However, realistic CL solutions must be shaped not only by metrics of catastrophic forgetting but also by computational efficiency and running time. Here, we introduce a novel neural network architecture inspired by neuromodulation in biological nervous systems to economically and efficiently address catastrophic forgetting and provide new avenues for interpreting learned representations. Neuromodulation is a biological mechanism that has received limited attention in machine learning; it dynamically controls and fine tunes synaptic dynamics in real time to track the demands of different behavioral contexts. Inspired by this, our proposed architecture learns a relatively small set of parameters per task context that \emph{neuromodulates} the activity of unchanging, randomized weights that transform the input. We show that this approach has strong learning performance per task despite the very small number of learnable parameters. Furthermore, because context vectors are so compact, multiple networks can be stored concurrently with no interference and little spatial footprint, thus completely eliminating catastrophic forgetting and accelerating the training process.
翻訳日:2023-10-13 17:02:10 公開日:2023-10-09
# 対話型プロトタイプ修正による推論調整は

But that's not why: Inference adjustment by interactive prototype revision ( http://arxiv.org/abs/2203.10087v2 )

ライセンス: Link先を確認
Michael Gerstenberger, Sebastian Lapuschkin, Peter Eisert, Sebastian Bosse(参考訳) 機械学習の大幅な進歩にもかかわらず、人工エージェントの意思決定はまだ完璧ではなく、しばしばポストホックな人間の介入を必要とする。 モデルの予測が不合理な要因に依存している場合、その効果を取り除くことが望ましい。 深いインタラクティブなプロトタイプ調整により、ユーザーはヒントを与え、モデルの推論を修正できる。 本稿では,その予測がユーザによって意味的に解釈できる原型的イメージパッチに基づいているため,原型的部分モデルがこのタスクに適していることを示す。 正しい分類でさえ、データセットに変数が混ざった結果生じる不合理なプロトタイプに依存する可能性がある。 そこで,本研究では,推論調整のための簡易かつ効果的なインタラクション手法を提案する。 非対象のプロトタイプは、プロトタイプマスキングやカスタムデセレクショントレーニングによって取り除くことができる。 インタラクティブなプロトタイプの拒絶により、機械学習のna\"{i}veユーザは、精度を損なうことなく推論のロジックを調整できる。

Despite significant advances in machine learning, decision-making of artificial agents is still not perfect and often requires post-hoc human interventions. If the prediction of a model relies on unreasonable factors it is desirable to remove their effect. Deep interactive prototype adjustment enables the user to give hints and correct the model's reasoning. In this paper, we demonstrate that prototypical-part models are well suited for this task as their prediction is based on prototypical image patches that can be interpreted semantically by the user. It shows that even correct classifications can rely on unreasonable prototypes that result from confounding variables in a dataset. Hence, we propose simple yet effective interaction schemes for inference adjustment: The user is consulted interactively to identify faulty prototypes. Non-object prototypes can be removed by prototype masking or a custom mode of deselection training. Interactive prototype rejection allows machine learning na\"{i}ve users to adjust the logic of reasoning without compromising the accuracy.
翻訳日:2023-10-13 17:01:07 公開日:2023-10-09
# ガウス過程における後処理と計算の不確かさ

Posterior and Computational Uncertainty in Gaussian Processes ( http://arxiv.org/abs/2205.15449v5 )

ライセンス: Link先を確認
Jonathan Wenger, Geoff Pleiss, Marvin Pf\"ortner, Philipp Hennig, John P. Cunningham(参考訳) gaussianプロセスはデータセットのサイズによって制限的にスケールする。 これに応答して、近似誤差を必然的に導入する多くの近似法が開発されている。 この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。 したがって、実際にはgpモデルはデータに関するものと同様に近似法に関するものが多い。 そこで本研究では,観測される有限個のデータと有限個の計算量の両方から生じる組合せ不確かさを一貫した評価を行う手法を開発した。 このクラスで最も一般的なGP近似は、例えば、コレスキー分解に基づく方法、共役勾配、点の誘導などである。 このクラスの任意のメソッドに対して、我々は証明する。 i) 関連するRKHSにおける後方平均値の収束 (ii)その後続共分散を数学的・計算的共分散に分解すること、及び 三 結合分散は、メソッドの後方平均と潜在関数の間の二乗誤差に対して、厳密な最悪のケースである。 最後に、計算の不確実性を無視した結果が実証的に示され、ベンチマークデータセットの一般化性能をいかに暗黙的にモデル化するかを示す。

Gaussian processes scale prohibitively with the size of the dataset. In response, many approximation methods have been developed, which inevitably introduce approximation error. This additional source of uncertainty, due to limited computation, is entirely ignored when using the approximate posterior. Therefore in practice, GP models are often as much about the approximation method as they are about the data. Here, we develop a new class of methods that provides consistent estimation of the combined uncertainty arising from both the finite number of data observed and the finite amount of computation expended. The most common GP approximations map to an instance in this class, such as methods based on the Cholesky factorization, conjugate gradients, and inducing points. For any method in this class, we prove (i) convergence of its posterior mean in the associated RKHS, (ii) decomposability of its combined posterior covariance into mathematical and computational covariances, and (iii) that the combined variance is a tight worst-case bound for the squared error between the method's posterior mean and the latent function. Finally, we empirically demonstrate the consequences of ignoring computational uncertainty and show how implicitly modeling it improves generalization performance on benchmark datasets.
翻訳日:2023-10-13 16:52:26 公開日:2023-10-09
# 学んだ教訓: プロパティ推論攻撃に対する防御

Lessons Learned: Defending Against Property Inference Attacks ( http://arxiv.org/abs/2205.08821v4 )

ライセンス: Link先を確認
Joshua Stock (1), Jens Wettlaufer, Daniel Demmler (1) and Hannes Federrath (1) ((1) Universit\"at Hamburg)(参考訳) 本研究は,機械学習モデルに対するプライバシ攻撃であるプロパティ推論攻撃(PIA)に対する複数の防御戦略を調査し,評価する。 トレーニングされた機械学習モデルを考えると、PIAは基礎となるトレーニングデータの統計的性質を抽出することを目的としており、例えば、医療訓練データセットにおける男女比を明らかにする。 メンバーシップ推論のような他のプライバシー攻撃、防衛メカニズムに関する多くの研究が公表されているが、これはpiasに対する防御に焦点を当てた最初の仕事である。 ホワイトボックス PIA に対する汎用的緩和戦略の開発を第一目的とし,未学習の新たなアプローチを提案する。 プロパティ・アンラーニングによる大規模な実験では、特定の敵に対してターゲットモデルを守るのは非常に効果的であるが、プロパティ・アンラーニングは一般化できない。 この制限の背景にある理由を調べるため、説明可能なAIツールLIMEによる実験結果を示す。 同じ目的を持った最先端のプロパティ推論の敵が、ターゲットモデルのさまざまな部分に焦点を当てている様子を示す。 さらに,機械学習モデルにおける統計的データ特性の重大さを示すために,t-sneを用いた可視化実験を行った。 このことから,プロパティアンラーニングのようなトレーニング後の技術は,piasに対して望ましい汎用的保護を提供するのに十分ではないのではないか,という推測を展開する。 代替として、PSAの成功率に基づいて設定されたトレーニングデータセットの画像にガウスノイズを加えるなど、より単純なトレーニングデータ前処理方法の効果を検討する。 我々は、異なる防衛アプローチについて議論し、学んだ教訓を要約し、将来の仕事の方向性を提供する。

This work investigates and evaluates multiple defense strategies against property inference attacks (PIAs), a privacy attack against machine learning models. Given a trained machine learning model, PIAs aim to extract statistical properties of its underlying training data, e.g., reveal the ratio of men and women in a medical training data set. While for other privacy attacks like membership inference, a lot of research on defense mechanisms has been published, this is the first work focusing on defending against PIAs. With the primary goal of developing a generic mitigation strategy against white-box PIAs, we propose the novel approach property unlearning. Extensive experiments with property unlearning show that while it is very effective when defending target models against specific adversaries, property unlearning is not able to generalize, i.e., protect against a whole class of PIAs. To investigate the reasons behind this limitation, we present the results of experiments with the explainable AI tool LIME. They show how state-of-the-art property inference adversaries with the same objective focus on different parts of the target model. We further elaborate on this with a follow-up experiment, in which we use the visualization technique t-SNE to exhibit how severely statistical training data properties are manifested in machine learning models. Based on this, we develop the conjecture that post-training techniques like property unlearning might not suffice to provide the desirable generic protection against PIAs. As an alternative, we investigate the effects of simpler training data preprocessing methods like adding Gaussian noise to images of a training data set on the success rate of PIAs. We conclude with a discussion of the different defense approaches, summarize the lessons learned and provide directions for future work.
翻訳日:2023-10-13 16:51:10 公開日:2023-10-09
# 視覚異常検出のためのオートエンコーダによる自己教師付きトレーニング

Self-Supervised Training with Autoencoders for Visual Anomaly Detection ( http://arxiv.org/abs/2206.11723v6 )

ライセンス: Link先を確認
Alexander Bauer, Shinichi Nakajima, Klaus-Robert M\"uller(参考訳) ディープオートエンコーダは、教師なしの方法で非線形次元の減少を学習するための効果的なツールを提供する。 近年,視覚領域における異常検出作業に用いられている。 異常のない例を用いて再構成誤差を最適化することにより、対応するネットワークがアプリケーションフェーズ内の異常領域を正確に再構成できない、という考え方が一般的である。 この目標は通常、ボトルネック層のサイズを減らすか、アクティベーションに間隔制約を課すことによって、ネットワークのキャパシティを制御することで対処される。 しかし、どちらの手法も異常信号の再構成を明示的に罰しないため、しばしば検出が困難になる。 本稿では,訓練中に識別情報の使用を可能にするが,正規例のデータ多様体に焦点をあてた自己教師付き学習方式を適用することで,この問題に取り組む。 入力画像毎に1回のフォワードパスを必要とするトレーニングや予測では,このアプローチによる推論が非常に効率的であることを強調する。 MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。 特にテクスチャ・サブセットでは,近年の異常検出法を顕著な差で一貫して上回っている。

Deep autoencoders provide an effective tool for learning non-linear dimensionality reduction in an unsupervised way. Recently, they have been used for the task of anomaly detection in the visual domain. By optimizing for the reconstruction error using anomaly-free examples, the common belief is that a corresponding network should fail to accurately reconstruct anomalous regions in the application phase. This goal is typically addressed by controlling the capacity of the network, either by reducing the size of the bottleneck layer or by enforcing sparsity constraints on the activations. However, neither of these techniques does explicitly penalize reconstruction of anomalous signals often resulting in poor detection. We tackle this problem by adapting a self-supervised learning regime that allows the use of discriminative information during training but focuses on the data manifold of normal examples. We emphasize that inference with our approach is very efficient during training and prediction requiring a single forward pass for each input image. Our experiments on the MVTec AD dataset demonstrate high detection and localization performance. On the texture-subset, in particular, our approach consistently outperforms recent anomaly detection methods by a significant margin.
翻訳日:2023-10-13 16:40:14 公開日:2023-10-09
# Occupancy-MAE: Masked Occupancy Autoencoders を用いた自己学習型大規模LiDAR点雲

Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders ( http://arxiv.org/abs/2206.09900v7 )

ライセンス: Link先を確認
Chen Min and Xinli Xu and Dawei Zhao and Liang Xiao and Yiming Nie and Bin Dai(参考訳) 自動運転車の現在の認識モデルは、大規模なラベル付けされた3Dデータに大きく依存している。 本研究では,マスク付きオートエンコーダ(MAE)を用いた大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。 既存のマスク付きポイント自動符号化方式は、主に小型屋内点雲や柱型大規模屋外LiDARデータに重点を置いているが、本手法では、ボクセルベースの大規模屋外LiDAR点雲に特化して設計されたOccupancy-MAEと呼ばれる自己監督型マスク付き占有事前学習手法を導入する。 Occupancy-MAEは、屋外のLiDAR点雲の緩やかなボクセル占有構造を利用し、レンジ対応のランダムマスキング戦略と、占有予測の前提タスクを取り入れている。 Occupancy-MAEは、LiDARとの距離に基づいてボクセルをランダムにマスキングし、周囲の3Dシーン全体のマスキング占有構造を予測することにより、少数の目に見えるボクセルのみを用いて、ハイレベルなセマンティック情報を抽出し、マスクされたボクセルを再構築する。 大規模な実験は、複数の下流タスクにおけるOccupancy-MAEの有効性を示す。 3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上の車検出に必要なラベル付きデータを半減し、Waymoデータセット上のAPの約2%の小さなオブジェクト検出を改善する。 3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。 マルチオブジェクトトラッキングでは、Occupancy-MAEはAMOTAとAMOTPで約1%のトレーニングをスクラッチから強化する。 コードはhttps://github.com/chaytonmin/Occupancy-MAEで公開されている。

Current perception models in autonomous driving heavily rely on large-scale labelled 3D data, which is both costly and time-consuming to annotate. This work proposes a solution to reduce the dependence on labelled 3D training data by leveraging pre-training on large-scale unlabeled outdoor LiDAR point clouds using masked autoencoders (MAE). While existing masked point autoencoding methods mainly focus on small-scale indoor point clouds or pillar-based large-scale outdoor LiDAR data, our approach introduces a new self-supervised masked occupancy pre-training method called Occupancy-MAE, specifically designed for voxel-based large-scale outdoor LiDAR point clouds. Occupancy-MAE takes advantage of the gradually sparse voxel occupancy structure of outdoor LiDAR point clouds and incorporates a range-aware random masking strategy and a pretext task of occupancy prediction. By randomly masking voxels based on their distance to the LiDAR and predicting the masked occupancy structure of the entire 3D surrounding scene, Occupancy-MAE encourages the extraction of high-level semantic information to reconstruct the masked voxel using only a small number of visible voxels. Extensive experiments demonstrate the effectiveness of Occupancy-MAE across several downstream tasks. For 3D object detection, Occupancy-MAE reduces the labelled data required for car detection on the KITTI dataset by half and improves small object detection by approximately 2% in AP on the Waymo dataset. For 3D semantic segmentation, Occupancy-MAE outperforms training from scratch by around 2% in mIoU. For multi-object tracking, Occupancy-MAE enhances training from scratch by approximately 1% in terms of AMOTA and AMOTP. Codes are publicly available at https://github.com/chaytonmin/Occupancy-MAE.
翻訳日:2023-10-13 16:39:58 公開日:2023-10-09
# 対人対実環境モデル学習

Adversarial Counterfactual Environment Model Learning ( http://arxiv.org/abs/2206.04890v2 )

ライセンス: Link先を確認
Xiong-Hui Chen, Yang Yu, Zheng-Mao Zhu, Zhihua Yu, Zhenjun Chen, Chenghe Wang, Yinan Wu, Hongqiu Wu, Rong-Jun Qin, Ruijin Ding, Fangsheng Huang(参考訳) ロボット制御,レコメンダシステム,患者の治療選択など,多くの領域でサンプル効率の高い意思決定政策学習を実現するためには,行動効果予測のよいモデルである環境モデルが重要である。 このようなモデルで無制限の試行を行い、適切なアクションを特定することで、現実世界のクエリのコストを節約することができる。 モデルは、不正なデータを正しく処理する必要がある。 しかし、標準データフィッティング技術はそのような一般化能力を自動的に達成せず、一般的に信頼できないモデルとなる。 そこで本研究では,特定の対象とするポリシーで問合せされたデータ集合に一般化するモデル学習において,cqrm(counterfactual-query risk minimization)を導入する。 政策学習において,対象方針は多様かつ未知であるため,敵対的政策によってクエリーされた反現実的データに基づいて学習し,最終的にトラクタブルな解GALILEOを導出するCQRM目標を提案する。 また,逆CQRMは,逆モデル学習と密接に関連しており,後者の有効性が説明できる。 我々はgalileoを合成タスクと実世界のアプリケーションに適用する。 その結果、ガリレオは偽データを正確に予測し、実世界テストのポリシーを大幅に改善した。

A good model for action-effect prediction, named environment model, is important to achieve sample-efficient decision-making policy learning in many domains like robot control, recommender systems, and patients' treatment selection. We can take unlimited trials with such a model to identify the appropriate actions so that the costs of queries in the real world can be saved. It requires the model to handle unseen data correctly, also called counterfactual data. However, standard data fitting techniques do not automatically achieve such generalization ability and commonly result in unreliable models. In this work, we introduce counterfactual-query risk minimization (CQRM) in model learning for generalizing to a counterfactual dataset queried by a specific target policy. Since the target policies can be various and unknown in policy learning, we propose an adversarial CQRM objective in which the model learns on counterfactual data queried by adversarial policies, and finally derive a tractable solution GALILEO. We also discover that adversarial CQRM is closely related to the adversarial model learning, explaining the effectiveness of the latter. We apply GALILEO in synthetic tasks and a real-world application. The results show that GALILEO makes accurate predictions on counterfactual data and thus significantly improves policies in real-world testing.
翻訳日:2023-10-13 16:38:52 公開日:2023-10-09
# 事前訓練から下流作業への対向ロバスト性の伝達について

On Transfer of Adversarial Robustness from Pretraining to Downstream Tasks ( http://arxiv.org/abs/2208.03835v2 )

ライセンス: Link先を確認
Laura Fee Nern, Harsh Raj, Maurice Georgi, Yash Sharma(参考訳) 大規模トレーニング体制が普及するにつれて、下流タスクに事前訓練されたモデルを使用することが、機械学習において一般的な実践となっている。 事前トレーニングは、実際にモデルの性能を高めることが示されているが、事前トレーニングから下流タスクへのロバスト性特性の移行は、まだよく分かっていない。 本研究では,下流タスクにおける線形予測子のロバスト性は,事前学習に使用するプロトコルによらず,その基盤となる表現のロバスト性によって制約されることを示す。 証明します (i)下流の業務とは無関係に持つ損失の限度 (ii)特にロバスト分類の基準 実験の結果を実用的応用で検証し, 下流ロバスト性の期待値の校正や, 最適転校学習に有用である場合の検証を行った。 その結果,信頼度の高い適応後性能に対する表現関数の要求を特徴付けるための最初のステップが得られた。

As large-scale training regimes have gained popularity, the use of pretrained models for downstream tasks has become common practice in machine learning. While pretraining has been shown to enhance the performance of models in practice, the transfer of robustness properties from pretraining to downstream tasks remains poorly understood. In this study, we demonstrate that the robustness of a linear predictor on downstream tasks can be constrained by the robustness of its underlying representation, regardless of the protocol used for pretraining. We prove (i) a bound on the loss that holds independent of any downstream task, as well as (ii) a criterion for robust classification in particular. We validate our theoretical results in practical applications, show how our results can be used for calibrating expectations of downstream robustness, and when our results are useful for optimal transfer learning. Taken together, our results offer an initial step towards characterizing the requirements of the representation function for reliable post-adaptation performance.
翻訳日:2023-10-13 16:30:31 公開日:2023-10-09
# コントラスト視覚テキストアライメントのためのトポロジーの設計

Design of the topology for contrastive visual-textual alignment ( http://arxiv.org/abs/2209.02127v2 )

ライセンス: Link先を確認
Zhun Sun(参考訳) コサイン類似性は、対照的な視覚・テキストアライメント学習における特徴表現間の距離を測定するための一般的な選択である。 しかし, 大規模学習データでは, 学習可能なソフトマックス温度パラメータが必要となる。 本稿では,まず,埋め込み空間の位相特性からソフトマックス温度の役割について考察する。 我々は、ソフトマックス温度が、ノイズのあるトレーニングデータにおけるコントラスト学習の重要なメカニズムであると主張する。 距離範囲のスケーリング係数(例えば、コサイン類似度[-1, 1])として機能し、その学習値は、トレーニングデータのノイズレベルを示す。 次に,埋め込みアライメントのためのトポロジーの代替設計を提案する。 トランスフォーマーアーキテクチャでは複数のクラストークンを使用し、特徴表現を負の内積を距離関数として付与した斜め多様体にマップする。 この構成により、大規模データセット上で事前トレーニングされたベースラインCLIPモデルのゼロショット分類性能を平均6.1\%改善する。

Cosine similarity is the common choice for measuring the distance between the feature representations in contrastive visual-textual alignment learning. However, empirically a learnable softmax temperature parameter is required when learning on large-scale noisy training data. In this work, we first discuss the role of softmax temperature from the embedding space's topological properties. We argue that the softmax temperature is the key mechanism for contrastive learning on noisy training data. It acts as a scaling factor of the distance range (e.g. [-1, 1] for the cosine similarity), and its learned value indicates the level of noise in the training data. Then, we propose an alternative design of the topology for the embedding alignment. We make use of multiple class tokens in the transformer architecture; then map the feature representations onto an oblique manifold endowed with the negative inner product as the distance function. With this configuration, we largely improve the zero-shot classification performance of baseline CLIP models pre-trained on large-scale datasets by an average of 6.1\%.
翻訳日:2023-10-13 16:19:34 公開日:2023-10-09
# 低位正規化を用いた自己監督型デバイアス

Self-supervised debiasing using low rank regularization ( http://arxiv.org/abs/2210.05248v2 )

ライセンス: Link先を確認
Geon Yeong Park, Chanyong Jung, Sangmin Lee, Jong Chul Ye, Sang Wan Lee(参考訳) スプリアス相関はディープニューラルネットワークにおいて強いバイアスを引き起こし、一般化能力を妨げる可能性がある。 既存のデバイアス手法の多くは、スプリアス属性またはターゲットラベルの完全な監視を必要とするが、限定された両方のアノテーションからデバイアスモデルのトレーニングはまだ未解決の問題である。 この問題を解決するために、潜伏表現のスペクトル分析を用いて興味深い現象を考察する: 突発的に相関した属性は、ニューラルネットワークを低効率なランク表現を符号化する方向に誘導的にバイアスを与える。 また,ランクの正則化は,高度に相関した特徴を促進させる方法で,このバイアスを増幅できることを示した。 これらの知見を活かし,ラベルなしサンプルと互換性のある自己教師ありデバイアスフレームワークを提案する。 具体的には、まずバイアス付きエンコーダをランクの正規化とともに自己教師付きで事前訓練し、意味的ボトルネックとして、スプリアスに関連付けられた属性を学ぶようエンコーダを強制する。 このバイアスエンコーダは、下流タスクでバイアスコンフリクトサンプルを発見して重み付けするために使用され、メインモデルを効果的にデバイアスするのに役立つ。 特筆すべきは、提案された脱バイアスフレームワークは、自己教師付き学習ベースラインの一般化性能を著しく向上させ、場合によっては最先端の脱バイアスアプローチよりも優れていることである。

Spurious correlations can cause strong biases in deep neural networks, impairing generalization ability. While most existing debiasing methods require full supervision on either spurious attributes or target labels, training a debiased model from a limited amount of both annotations is still an open question. To address this issue, we investigate an interesting phenomenon using the spectral analysis of latent representations: spuriously correlated attributes make neural networks inductively biased towards encoding lower effective rank representations. We also show that a rank regularization can amplify this bias in a way that encourages highly correlated features. Leveraging these findings, we propose a self-supervised debiasing framework potentially compatible with unlabeled samples. Specifically, we first pretrain a biased encoder in a self-supervised manner with the rank regularization, serving as a semantic bottleneck to enforce the encoder to learn the spuriously correlated attributes. This biased encoder is then used to discover and upweight bias-conflicting samples in a downstream task, serving as a boosting to effectively debias the main model. Remarkably, the proposed debiasing framework significantly improves the generalization performance of self-supervised learning baselines and, in some cases, even outperforms state-of-the-art supervised debiasing approaches.
翻訳日:2023-10-13 16:11:39 公開日:2023-10-09
# フレキシブルアテンションに基づく多言語融合による高能率深層強化学習

Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2210.03729v2 )

ライセンス: Link先を確認
Zih-Yun Chiu, Yi-Lin Tuan, William Yang Wang, Michael C. Yip(参考訳) 強化学習(rl)エージェントは長い間、人間学習の効率に近づこうとしてきた。 人間は様々な情報源から外部の知識を集約することで学習できる偉大なオブザーバーであり、例えばタスクを試みている人のポリシーからの観察も含む。 RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。 しかし、これらのポリシーの任意の組み合わせと置換を行うことは、一般化と伝達可能性に不可欠な特徴である。 本稿では,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。 組込み型注意行動予測(embedd-based attentive action prediction)による知識の自由な再構成を可能にする,kian ( knowledge-inclusive attention network) のための新しいアクターアーキテクチャを提案する。 また、エントロピー不均衡(entropy imbalance)は最大エントロピーkgrlで発生し、政策分布の新しい設計を通じてエージェントが効率的に環境を探索することを妨げる問題である。 実験の結果,KIANは外部知識ポリシーを取り入れた代替手法よりも優れ,効率的かつ柔軟な学習を実現することが示された。 私たちの実装はhttps://github.com/pascalson/kgrl.gitで利用可能です。

Reinforcement learning (RL) agents have long sought to approach the efficiency of human learning. Humans are great observers who can learn by aggregating external knowledge from various sources, including observations from others' policies of attempting a task. Prior studies in RL have incorporated external knowledge policies to help agents improve sample efficiency. However, it remains non-trivial to perform arbitrary combinations and replacements of those policies, an essential feature for generalization and transferability. In this work, we present Knowledge-Grounded RL (KGRL), an RL paradigm fusing multiple knowledge policies and aiming for human-like efficiency and flexibility. We propose a new actor architecture for KGRL, Knowledge-Inclusive Attention Network (KIAN), which allows free knowledge rearrangement due to embedding-based attentive action prediction. KIAN also addresses entropy imbalance, a problem arising in maximum entropy KGRL that hinders an agent from efficiently exploring the environment, through a new design of policy distributions. The experimental results demonstrate that KIAN outperforms alternative methods incorporating external knowledge policies and achieves efficient and flexible learning. Our implementation is available at https://github.com/Pascalson/KGRL.git
翻訳日:2023-10-13 16:11:17 公開日:2023-10-09
# 信頼できるニューラルプログラム合成に向けて

Toward Trustworthy Neural Program Synthesis ( http://arxiv.org/abs/2210.00848v2 )

ライセンス: Link先を確認
Darren Key, Wen-Ding Li, Kevin Ellis(参考訳) 本研究では,大規模言語モデルからサンプルしたプログラムが正しい確率を推定する手法を開発する。 プログラム問題の自然言語記述を与えられた場合,提案手法は,プログラムの振る舞いを規定する候補述語と候補述語の両方をサンプリングする。 これにより、プログラムの正しさの確率論的予測をよく分類したモデルを学ぶことができる。 また,本システムでは,生成したコードの振る舞いを説明する上で,どの述語が有用であるかを推定し,人間は生の言語モデル出力よりもこれらを好んだ。 本手法は, 簡便で実装が容易で, 技術生成精度の維持を図っている。

We develop an approach to estimate the probability that a program sampled from a large language model is correct. Given a natural language description of a programming problem, our method samples both candidate programs as well as candidate predicates specifying how the program should behave. This allows learning a model that forms a well-calibrated probabilistic prediction of program correctness. Our system also infers which predicates are useful to explain the behavior of the generated code, and humans preferred these in a human study over raw language model outputs. Our method is simple, easy to implement, and maintains state of the art generation accuracy results.
翻訳日:2023-10-13 16:09:10 公開日:2023-10-09
# 進化戦略を用いたスポーツカメラのポースリファインメント

Sports Camera Pose Refinement Using an Evolution Strategy ( http://arxiv.org/abs/2211.02143v2 )

ライセンス: Link先を確認
Grzegorz Rype\'s\'c, Grzegorz Kurzejamski, Jacek Komorowski(参考訳) 本稿では,新しい進化戦略を用いたスポーツカメラのパラメータ最適化手法を提案する。 まず,スポーツフィールドのエッジまたはエリアベースセグメンテーションのためのニューラルネットワークアーキテクチャを開発した。 第2に,単一セグメントのスポーツフィールド画像に対して,外部カメラパラメータを改良することを目的とした進化戦略を実装した。 実世界のデータに対する最先端カメラのポーズ補正手法との比較実験により,提案アルゴリズムの優位性を実証した。 また,アブレーション研究を行い,本手法を一般化してカメラマトリックスを改良する方法を提案する。

This paper presents a robust end-to-end method for sports cameras extrinsic parameters optimization using a novel evolution strategy. First, we developed a neural network architecture for an edge or area-based segmentation of a sports field. Secondly, we implemented the evolution strategy, which purpose is to refine extrinsic camera parameters given a single, segmented sports field image. Experimental comparison with state-of-the-art camera pose refinement methods on real-world data demonstrates the superiority of the proposed algorithm. We also perform an ablation study and propose a way to generalize the method to additionally refine the intrinsic camera matrix.
翻訳日:2023-10-13 15:59:46 公開日:2023-10-09
# 抑うつ度推定のための意味的類似性モデル

Semantic Similarity Models for Depression Severity Estimation ( http://arxiv.org/abs/2211.07624v2 )

ライセンス: Link先を確認
Anxo P\'erez, Neha Warikoo, Kexin Wang, Javier Parapar, Iryna Gurevych(参考訳) うつ病は世界中で深刻な公衆衛生問題となっている。 しかし、公衆衛生システムはケース検出と診断の能力に限界がある。 この点に関して、ソーシャルメディアの広範にわたる利用は、大規模な公開情報にアクセスするための手段となった。 計算手法は、このユーザ生成ソーシャルメディアコンテンツを活用することにより、迅速なスクリーニングを支援するツールとして機能する。 本稿では,個人の抑うつ症状をソーシャルメディアの書き込みに基づいて調査するための効率的な意味パイプラインを提案する。 抑うつ症状と重度レベルに対応する代表訓練文の指標から,意味的ランキングを生成するユーザ文を選択する。 次に、これらの結果から得られた文を、ユーザの症状の重症度を予測する証拠として用いる。 そのために、症状毎に4つのBeck Depression Inventory(BDI)オプションのうちの1つに答えるための異なる集約方法を検討する。 本手法を2つのRedditベースのベンチマークで評価し,うつ病の重症度を指標として,技術の現状を30%改善した。

Depressive disorders constitute a severe public health issue worldwide. However, public health systems have limited capacity for case detection and diagnosis. In this regard, the widespread use of social media has opened up a way to access public information on a large scale. Computational methods can serve as support tools for rapid screening by exploiting this user-generated social media content. This paper presents an efficient semantic pipeline to study depression severity in individuals based on their social media writings. We select test user sentences for producing semantic rankings over an index of representative training sentences corresponding to depressive symptoms and severity levels. Then, we use the sentences from those results as evidence for predicting users' symptom severity. For that, we explore different aggregation methods to answer one of four Beck Depression Inventory (BDI) options per symptom. We evaluate our methods on two Reddit-based benchmarks, achieving 30\% improvement over state of the art in terms of measuring depression severity.
翻訳日:2023-10-13 15:49:32 公開日:2023-10-09
# ハリー・ポッターと出会う大言語モデル: 対話エージェントを文字で調整するためのバイリンガルデータセット

Large Language Models Meet Harry Potter: A Bilingual Dataset for Aligning Dialogue Agents with Characters ( http://arxiv.org/abs/2211.06869v4 )

ライセンス: Link先を確認
Nuo Chen, Yan Wang, Haiyun Jiang, Deng Cai, Yuhan Li, Ziyang Chen, Longyue Wang and Jia Li(参考訳) 近年,ChatGPT や GPT4 のような対話型大言語モデル (LLM) は,オープンドメイン対話エージェントの構築において大きな可能性を示している。 しかし、文字表現の複雑さや包括的なアノテーションの欠如から、これらのエージェントを特定の文字や個人に合わせることは依然として大きな課題である。 本稿では,対話エージェントと文字アライメントの研究を進めるために設計されたHarry Potter Dialogue (HPD)データセットを紹介する。 このデータセットはharry potterシリーズのすべての対話セッション(英語と中国語の両方)を含んでおり、対話シーン、話者、性格関係、属性など、重要な背景情報に注釈付けされている。 これらのアノテーションにより、LLMは文字駆動対話機能をアンロックすることができる。 さらに、LLMと特定の文字の整合性を評価するための普遍的なベンチマークとして機能する。 We benchmark LLMs on HPD using fine-tuning and in-context learning settings。 評価の結果、高品質でキャラクタ指向の応答を生成するための改善の余地は十分にあるものの、提案するデータセットはハリー・ポッターの性格に合致する応答へのモデル誘導に有用であることが判明した。

In recent years, Dialogue-style Large Language Models (LLMs) such as ChatGPT and GPT4 have demonstrated immense potential in constructing open-domain dialogue agents. However, aligning these agents with specific characters or individuals remains a considerable challenge due to the complexities of character representation and the lack of comprehensive annotations. In this paper, we introduce the Harry Potter Dialogue (HPD) dataset, designed to advance the study of dialogue agents and character alignment. The dataset encompasses all dialogue sessions (in both English and Chinese) from the Harry Potter series and is annotated with vital background information, including dialogue scenes, speakers, character relationships, and attributes. These extensive annotations may empower LLMs to unlock character-driven dialogue capabilities. Furthermore, it can serve as a universal benchmark for evaluating how well can a LLM aligning with a specific character. We benchmark LLMs on HPD using both fine-tuning and in-context learning settings. Evaluation results reveal that although there is substantial room for improvement in generating high-quality, character-aligned responses, the proposed dataset is valuable in guiding models toward responses that better align with the character of Harry Potter.
翻訳日:2023-10-13 15:49:18 公開日:2023-10-09
# FaiREE:Finite-Sample と Distribution-free Guarantee による公平な分類

FaiREE: Fair Classification with Finite-Sample and Distribution-Free Guarantee ( http://arxiv.org/abs/2211.15072v4 )

ライセンス: Link先を確認
Puheng Li, James Zou, Linjun Zhang(参考訳) アルゴリズム的公平性は、機械学習研究においてますます重要な役割を果たす。 いくつかのグループフェアネスの概念とアルゴリズムが提案されている。 しかし、既存の公平な分類方法の公平性保証は、多くの場合、大きなサンプルサイズを必要とする特定のデータ分布の仮定に主に依存しており、サンプルが少なからぬ数である場合には公平性に違反する可能性がある。 本稿では,有限サンプルと分布フリーな理論保証で群フェアネス制約を満たすフェア分類アルゴリズムであるfairを提案する。 FaiREEは、グループフェアネスの概念(例えば、機会の平等、平等化オッド、デモグラフィックパリティなど)を満たし、最適な精度を達成するように適応することができる。 これらの理論的保証は、合成データと実データの両方の実験によってさらに支持される。 FaiREEは最先端のアルゴリズムよりも優れた性能を示した。

Algorithmic fairness plays an increasingly critical role in machine learning research. Several group fairness notions and algorithms have been proposed. However, the fairness guarantee of existing fair classification methods mainly depends on specific data distributional assumptions, often requiring large sample sizes, and fairness could be violated when there is a modest number of samples, which is often the case in practice. In this paper, we propose FaiREE, a fair classification algorithm that can satisfy group fairness constraints with finite-sample and distribution-free theoretical guarantees. FaiREE can be adapted to satisfy various group fairness notions (e.g., Equality of Opportunity, Equalized Odds, Demographic Parity, etc.) and achieve the optimal accuracy. These theoretical guarantees are further supported by experiments on both synthetic and real data. FaiREE is shown to have favorable performance over state-of-the-art algorithms.
翻訳日:2023-10-13 15:36:15 公開日:2023-10-09
# FoldingNet AutoencoderモデルによるCityGML構築データセットの地理空間的グループ化

FoldingNet Autoencoder model to create a geospatial grouping of CityGML building dataset ( http://arxiv.org/abs/2212.13965v2 )

ライセンス: Link先を確認
Deepank Verma, Olaf Mumm, Vanessa Miriam Carlow(参考訳) 複雑なデータセットの説明可能な数値表現や潜在情報の方が解析や研究に便利である。 これらの表現は、クラスタと外れ値の識別、類似したデータポイントの評価、データの探索と補間を支援する。 3次元建築モデルのデータセットは、様々なフットプリント形状、異なる屋根の種類、壁、高さ、体積に固有の複雑さを持っている。 伝統的に、類似した建物や3D形状をグループ化するには、既知の特性と形状のメトリクスをマッチングする必要がある。 しかし、これは類似性を計算するためにそのような性質の多元性を得る必要がある。 対照的に、この研究ではオートエンコーダを用いて、距離メトリクスの助けを借りて比較、グループ化できる固定サイズのベクトル形式の形状情報を算出する。 この研究は、3DオートエンコーダであるFoldingNetを使用して、得られたLoD 2 CityGMLデータセットから各建物の潜在表現を生成する。 さらに, 自動エンコーダから得られる埋め込みの有効性を, データセット再構成, 潜伏拡散可視化, 階層クラスタリング手法を用いて解析した。 クラスタはビルドフォームのタイプに関する全体的な視点を提供するが、クラスタリングには地理空間情報が含まれない。 したがって、ジオ空間モデルは、埋め込みベクトルにおけるコサイン類似性アプローチを用いて、建物の地理的グループ化を反復的に見つけるために作成される。 ブランデンブルクとベルリンのドイツ連邦は、この方法論を試すための例として挙げられている。 アウトプットは、セマンティックトポロジカルクラスタと地理的グルーピングという形式で、ビルドフォームの詳細な概要を提供する。 このアプローチは、大規模な都市シミュレーション、都市形態学的研究、エネルギー分析、建築資材の評価など、複雑な分析に有用でスケーラブルである。

Explainable numerical representations or latent information of otherwise complex datasets are more convenient to analyze and study. These representations assist in identifying clusters and outliers, assess similar data points, and explore and interpolate data. Dataset of three-dimensional (3D) building models possesses inherent complexity in various footprint shapes, distinct roof types, walls, height, and volume. Traditionally, grouping similar buildings or 3D shapes requires matching their known properties and shape metrics with each other. However, this requires obtaining a plethora of such properties to calculate similarity. This study, in contrast, utilizes an autoencoder to compute the shape information in a fixed-size vector form that can be compared and grouped with the help of distance metrics. The study uses 'FoldingNet,' a 3D autoencoder, to generate the latent representation of each building from the obtained LoD 2 CityGML dataset. The efficacy of the embeddings obtained from the autoencoder is further analyzed by dataset reconstruction, latent spread visualization, and hierarchical clustering methods. While the clusters give an overall perspective of the type of build forms, they do not include geospatial information in the clustering. A geospatial model is therefore created to iteratively find the geographical groupings of buildings using cosine similarity approaches in embedding vectors. The German federal states of Brandenburg and Berlin are taken as an example to test the methodology. The output provides a detailed overview of the build forms in the form of semantic topological clusters and geographical groupings. This approach is beneficial and scalable for complex analytics, e.g., in large urban simulations, urban morphological studies, energy analysis, or evaluations of building stock.
翻訳日:2023-10-13 15:28:59 公開日:2023-10-09
# Booster: スペックと透明な表面の画像の深さのベンチマーク

Booster: a Benchmark for Depth from Images of Specular and Transparent Surfaces ( http://arxiv.org/abs/2301.08245v2 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Alex Costanzino, Fabio Tosi, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) 画像から深度を推定すると、領域内精度と一般化の両面で優れた結果が得られる。 しかし,この領域では,非ランベルト材料を扱うこと,高解像度画像を効果的に処理すること,という2つの課題が解決されている。 そこで本研究では,高解像度で高精度かつ高密度な地下トラスラベルを含む新しいデータセットを提案する。 我々の獲得パイプラインは、新しい時空ステレオフレームワークを活用し、サブピクセル精度で簡単かつ正確なラベリングを可能にする。 データセットは85の異なるシーンで収集された606個のサンプルで構成されており、それぞれのサンプルには高解像度のペア(12 Mpx)と、異なる解像度のセンサーを装着する現代のモバイルデバイスに典型的なアンバランスのステレオペア(12 Mpx, Right: 1.1 Mpx)の両方が含まれている。 さらに,手動でアノテートした材料セグメンテーションマスクと15Kの未ラベルサンプルも提供する。 データセットは列車セットと2つのテストセットで構成され、後者はステレオおよびモノクル深度推定ネットワークの評価に向けられている。 私たちの実験では、この分野におけるオープンチャレンジと今後の研究方向性を強調する。

Estimating depth from images nowadays yields outstanding results, both in terms of in-domain accuracy and generalization. However, we identify two main challenges that remain open in this field: dealing with non-Lambertian materials and effectively processing high-resolution images. Purposely, we propose a novel dataset that includes accurate and dense ground-truth labels at high resolution, featuring scenes containing several specular and transparent surfaces. Our acquisition pipeline leverages a novel deep space-time stereo framework, enabling easy and accurate labeling with sub-pixel precision. The dataset is composed of 606 samples collected in 85 different scenes, each sample includes both a high-resolution pair (12 Mpx) as well as an unbalanced stereo pair (Left: 12 Mpx, Right: 1.1 Mpx), typical of modern mobile devices that mount sensors with different resolutions. Additionally, we provide manually annotated material segmentation masks and 15K unlabeled samples. The dataset is composed of a train set and two test sets, the latter devoted to the evaluation of stereo and monocular depth estimation networks. Our experiments highlight the open challenges and future research directions in this field.
翻訳日:2023-10-13 15:18:50 公開日:2023-10-09
# RCPS:半監督型医用画像分割のためのコントラスト疑似擬似スーパービジョン

RCPS: Rectified Contrastive Pseudo Supervision for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2301.05500v2 )

ライセンス: Link先を確認
Xiangyu Zhao, Zengxin Qi, Sheng Wang, Qian Wang, Xuehai Wu, Ying Mao, Lichi Zhang(参考訳) 医用画像のセグメンテーション法は一般的に、モデルの性能を保証するために完全に教師されるように設計されている。 半教師付き画像セグメンテーションは、ラベル付き画像に制限のある多数のラベル付き画像を利用することで問題を緩和することができる。 しかし、擬似ラベルの潜在的なノイズや特徴空間のクラス分離性に乏しいため、多くのラベルのない画像から頑健な表現を学ぶことは、現在の半教師付きセグメンテーション手法の性能を損なう。 上記の課題に対処するために,正当性疑似監督とボクセルレベルのコントラスト学習を併用し,半教師付きセグメンテーションの有効性を向上させる,RCPS(Rectified Contrastive Pseudo Supervision)と呼ばれる新しい半教師付きセグメンテーション手法を提案する。 特に,疑似ラベルにおける雑音の影響を低減すべく,不確実性推定と一貫性正規化に基づく擬似監督法の新たな整流戦略を考案する。 さらに,ネットワークへの双方向ボクセルのコントラスト損失を導入し,セグメンテーションのクラス分離性を高める特徴空間におけるクラス内一貫性とクラス間コントラストを確保する。 RCPSセグメンテーション法は2つの公開データセットと社内臨床データセットで検証されている。 実験結果から, 半教師付き医用画像分割における最先端手法と比較して, 高いセグメンテーション性能が得られた。 ソースコードはhttps://github.com/hsiangyuzhao/rcpsで入手できる。

Medical image segmentation methods are generally designed as fully-supervised to guarantee model performance, which require a significant amount of expert annotated samples that are high-cost and laborious. Semi-supervised image segmentation can alleviate the problem by utilizing a large number of unlabeled images along with limited labeled images. However, learning a robust representation from numerous unlabeled images remains challenging due to potential noise in pseudo labels and insufficient class separability in feature space, which undermines the performance of current semi-supervised segmentation approaches. To address the issues above, we propose a novel semi-supervised segmentation method named as Rectified Contrastive Pseudo Supervision (RCPS), which combines a rectified pseudo supervision and voxel-level contrastive learning to improve the effectiveness of semi-supervised segmentation. Particularly, we design a novel rectification strategy for the pseudo supervision method based on uncertainty estimation and consistency regularization to reduce the noise influence in pseudo labels. Furthermore, we introduce a bidirectional voxel contrastive loss to the network to ensure intra-class consistency and inter-class contrast in feature space, which increases class separability in the segmentation. The proposed RCPS segmentation method has been validated on two public datasets and an in-house clinical dataset. Experimental results reveal that the proposed method yields better segmentation performance compared with the state-of-the-art methods in semi-supervised medical image segmentation. The source code is available at https://github.com/hsiangyuzhao/RCPS.
翻訳日:2023-10-13 15:17:50 公開日:2023-10-09
# 相転移による回路複雑度:量子状態形成における結果

Circuit Complexity through phase transitions: consequences in quantum state preparation ( http://arxiv.org/abs/2301.04671v3 )

ライセンス: Link先を確認
Sebasti\'an Roca-Jerat, Teresa Sancho-Lorente, Juan Rom\'an-Roche and David Zueco(参考訳) 本稿では,量子多体系の基底状態を作成するための回路複雑性の解析を行う。 特に、基底状態が量子相転移に近づくにつれて、この複雑さがどのように成長するか。 複雑性の異なる定義、すなわちフビニ・スタディ計量(Fubini-Study metric)やニールセン複雑性(Nielsen complexity)について論じる。 また、Ising、ZZXZ、Dickeといったモデルも検討しています。 さらに, 解析的, 正確な対角化技術, 断熱アルゴリズム(近距離・非近距離), 量子変量固有解法など, 様々な形態の状態準備について検討した。 位相遷移近傍の複雑性の発散(またはその欠如)は、基底状態に到達するのに使用される操作の非局所的性質に依存する。 フビニ・スタディに基づく複雑性については、普遍的性質とその臨界指数を抽出する。 実用的なアルゴリズムでは、複雑性は状態を準備する際にシステムが量子臨界点に近づくかどうかに大きく依存する。 VQEアルゴリズムとAdiabaticアルゴリズムの両方に対して、明示的な表現を提供し、それぞれシステムサイズと実行時間に関する複雑性の増大を限定する。

In this paper, we analyze the circuit complexity for preparing ground states of quantum many-body systems. In particular, how this complexity grows as the ground state approaches a quantum phase transition. We discuss different definitions of complexity, namely the one following the Fubini-Study metric or the Nielsen complexity. We also explore different models: Ising, ZZXZ or Dicke. In addition, different forms of state preparation are investigated: analytic or exact diagonalization techniques, adiabatic algorithms (with and without shortcuts), and Quantum Variational Eigensolvers. We find that the divergence (or lack thereof) of the complexity near a phase transition depends on the non-local character of the operations used to reach the ground state. For Fubini-Study based complexity, we extract the universal properties and their critical exponents. In practical algorithms, we find that the complexity depends crucially on whether or not the system passes close to a quantum critical point when preparing the state. For both VQE and Adiabatic algorithms, we provide explicit expressions and bound the growth of complexity with respect to the system size and the execution time, respectively.
翻訳日:2023-10-13 15:16:31 公開日:2023-10-09
# 最適保守オフライン強化学習におけるアクタークリティカルの重要性

Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning ( http://arxiv.org/abs/2301.12714v2 )

ライセンス: Link先を確認
Hanlin Zhu, Paria Rashidinejad and Jiantao Jiao(参考訳) データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実用的なアルゴリズムであるA-Crabを提案する。 提案アルゴリズムは,オフラインデータに対して悲観的であり,平均値(重要度重み付き)のベルマン誤差が小さいアクター(政治)の評価を返す,アクター批判パラダイムと疎結合である。 1) 一般的な関数近似器と組み合わせても、オフラインデータセットでカバーされる最高のポリシーに収束すると、$N$がオフラインデータセットのサイズである場合、$N$は1/\sqrt{N}$の最適な統計率を達成する。 2)政策カバレッジ($\ell_\infty$ single-policy concentrability)の弱い平均的な概念に依存しており、政策訪問の構造を利用している。 (3)多種多様なハイパーパラメータ上でのデータ収集行動ポリシーより優れる。 提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。

We propose A-Crab (Actor-Critic Regularized by Average Bellman error), a new practical algorithm for offline reinforcement learning (RL) in complex environments with insufficient data coverage. Our algorithm combines the marginalized importance sampling framework with the actor-critic paradigm, where the critic returns evaluations of the actor (policy) that are pessimistic relative to the offline data and have a small average (importance-weighted) Bellman error. Compared to existing methods, our algorithm simultaneously offers a number of advantages: (1) It achieves the optimal statistical rate of $1/\sqrt{N}$ -- where $N$ is the size of offline dataset -- in converging to the best policy covered in the offline dataset, even when combined with general function approximators. (2) It relies on a weaker average notion of policy coverage (compared to the $\ell_\infty$ single-policy concentrability) that exploits the structure of policy visitations. (3) It outperforms the data-collection behavior policy over a wide range of specific hyperparameters. We provide both theoretical analysis and experimental results to validate the effectiveness of our proposed algorithm.
翻訳日:2023-10-13 15:10:01 公開日:2023-10-09
# FedRC:ロバストクラスタリングによるフェデレーション学習における分散分散シフトの対処

FedRC: Tackling Diverse Distribution Shifts Challenge in Federated Learning by Robust Clustering ( http://arxiv.org/abs/2301.12379v3 )

ライセンス: Link先を確認
Yongxin Guo, Xiaoying Tang, Tao Lin(参考訳) Federated Learning(FL)は、エッジデバイス上でクライアントデータを保持することによって、プライバシを保護する機械学習パラダイムである。 しかし,学習システムの多様で異質な性質のため,実際にFLを最適化することは困難である。 近年の研究では、クライアント間での分散シフトの発生時のFLの最適化に焦点が当てられているが、機能分散シフト、ラベル分布シフト、コンセプトシフトなど、複数のタイプの分散シフトが同時に発生すると、グローバルなパフォーマンスが保証されている。 本稿では,多様な分布シフトの同時発生による学習課題を特定し,これらの課題を克服するためのクラスタリング原理を提案する。 その結果,既存の手法ではクラスタリング原理に対処できないことがわかった。 そこで本稿では,2段階最適化問題と新たな目的関数を組み込むことで,提案したクラスタリングの原理に準拠する,FedRCと呼ばれる新しいクラスタリングアルゴリズムフレームワークを提案する。 大規模な実験により、FedRCは他のSOTAクラスタベースのFL法よりも大幅に優れていた。 私たちのコードは公開されます。

Federated Learning (FL) is a machine learning paradigm that safeguards privacy by retaining client data on edge devices. However, optimizing FL in practice can be challenging due to the diverse and heterogeneous nature of the learning system. Though recent research has focused on improving the optimization of FL when distribution shifts occur among clients, ensuring global performance when multiple types of distribution shifts occur simultaneously among clients -- such as feature distribution shift, label distribution shift, and concept shift -- remain under-explored. In this paper, we identify the learning challenges posed by the simultaneous occurrence of diverse distribution shifts and propose a clustering principle to overcome these challenges. Through our research, we find that existing methods failed to address the clustering principle. Therefore, we propose a novel clustering algorithm framework, dubbed as FedRC, which adheres to our proposed clustering principle by incorporating a bi-level optimization problem and a novel objective function. Extensive experiments demonstrate that FedRC significantly outperforms other SOTA cluster-based FL methods. Our code will be publicly available.
翻訳日:2023-10-13 15:09:11 公開日:2023-10-09
# シンボリック音楽のためのバイトペア符号化

Byte Pair Encoding for Symbolic Music ( http://arxiv.org/abs/2301.11975v2 )

ライセンス: Link先を確認
Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean-Pierre Briot(参考訳) ディープラーニングで使用する場合、シンボリック・ミュージック・モダリティはしばしば言語モデルアーキテクチャと結合される。 そのためには、音楽はトークン化され、すなわち離散トークンの列に変換される必要がある。 これは、音楽が複数の属性を持つ同時音符の同時トラックで構成されているため、異なるアプローチで達成できる。 これまで、提案されたトークン化は、ノート属性と時間イベントを記述するトークンの小さな語彙に依存しており、かなり長いトークンシーケンスと、言語モデルの埋め込み空間の準最適利用をもたらす。 近年の研究では、埋め込みとトークンを組み合わせることで、全体のシーケンス長を削減する取り組みが行われている。 本稿では,自然言語に広く用いられている圧縮手法であるByte Pair Encodingが,語彙サイズを増大させながらシーケンス長を著しく減少させることを示す。 これにより、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用でき、その結果、生成および分類タスクにおけるより良い結果とより高速な推論の両方が得られる。 ソースコードは、コンパニオンwebサイトとともにgithubで共有されている。 最後に、BPEはMidiTokに直接実装されており、読み手はこの方法の恩恵を受けやすい。

When used with deep learning, the symbolic music modality is often coupled with language model architectures. To do so, the music needs to be tokenized, i.e. converted into a sequence of discrete tokens. This can be achieved by different approaches, as music can be composed of simultaneous tracks, of simultaneous notes with several attributes. Until now, the proposed tokenizations rely on small vocabularies of tokens describing the note attributes and time events, resulting in fairly long token sequences, and a sub-optimal use of the embedding space of language models. Recent research has put efforts on reducing the overall sequence length by merging embeddings or combining tokens. In this paper, we show that Byte Pair Encoding, a compression technique widely used for natural language, significantly decreases the sequence length while increasing the vocabulary size. By doing so, we leverage the embedding capabilities of such models with more expressive tokens, resulting in both better results and faster inference in generation and classification tasks. The source code is shared on Github, along with a companion website. Finally, BPE is directly implemented in MidiTok, allowing the reader to easily benefit from this method.
翻訳日:2023-10-13 15:07:52 公開日:2023-10-09
# 現実世界の機械学習システム: データ指向アーキテクチャの観点からの調査

Real-world Machine Learning Systems: A survey from a Data-Oriented Architecture Perspective ( http://arxiv.org/abs/2302.04810v2 )

ライセンス: Link先を確認
Christian Cabrera, Andrei Paleyes, Pierre Thodoroff, Neil D. Lawrence(参考訳) 機械学習モデルは、人工知能への関心が高まっている現実のシステムの一部としてデプロイされている。 このようなシステムの設計、実装、メンテナンスは、より大量の異種データを生成し、より高速なレスポンスと効率的なリソース消費を必要とする実環境環境に挑戦されている。 これらの要件は、MLベースのシステムをデプロイする際に、一般的なソフトウェアアーキテクチャを限界に押し上げる。 データ指向アーキテクチャ(DOA、Data-oriented Architecture)は、MLモデルを統合する上でシステムにより良いものを提供する新しい概念である。 DOAは、現在のアーキテクチャを拡張して、データ駆動、疎結合、分散化されたオープンシステムを作成する。 デプロイされたMLベースのシステムに関する論文では、DOAは言及されていないが、著者らは、DOAに暗黙的に従う設計決定を行った。 これらのシステムでDOAがどの程度採用されているのか、その理由は不明である。 意図的な設計決定は、実践者のDOAに関する知識を実世界でMLベースのシステムの設計に制限する。 本稿では,MLベースのシステムの実環境展開を調査し,これらの疑問に答える。 調査は、システムの設計決定と、それらを満たす要件を示している。 調査結果に基づき,MLベースのシステムの展開を容易にするための実践的アドバイスを定式化した。 最後に、MLモデルを統合するDOAベースのシステムをデプロイする際のオープンな課題について概説する。

Machine Learning models are being deployed as parts of real-world systems with the upsurge of interest in artificial intelligence. The design, implementation, and maintenance of such systems are challenged by real-world environments that produce larger amounts of heterogeneous data and users requiring increasingly faster responses with efficient resource consumption. These requirements push prevalent software architectures to the limit when deploying ML-based systems. Data-oriented Architecture (DOA) is an emerging concept that equips systems better for integrating ML models. DOA extends current architectures to create data-driven, loosely coupled, decentralised, open systems. Even though papers on deployed ML-based systems do not mention DOA, their authors made design decisions that implicitly follow DOA. The reasons why, how, and the extent to which DOA is adopted in these systems are unclear. Implicit design decisions limit the practitioners' knowledge of DOA to design ML-based systems in the real world. This paper answers these questions by surveying real-world deployments of ML-based systems. The survey shows the design decisions of the systems and the requirements these satisfy. Based on the survey findings, we also formulate practical advice to facilitate the deployment of ML-based systems. Finally, we outline open challenges to deploying DOA-based systems that integrate ML models.
翻訳日:2023-10-13 14:58:14 公開日:2023-10-09
# 機械学習研究の推論可能性に向けて

Towards Inferential Reproducibility of Machine Learning Research ( http://arxiv.org/abs/2302.04054v7 )

ライセンス: Link先を確認
Michael Hagmann, Philipp Meier and Stefan Riezler(参考訳) 機械学習評価の信頼性 -- 再現されたモデルトレーニング実行における観察された評価スコアの一貫性 -- は、測定ノイズと見なされる複数の非決定性源に影響される。 研究結果の再現性を強制するためにノイズを除去する現在の傾向は、実装レベルで固有の非決定性を無視し、アルゴリズム的ノイズ要因とデータ特性の間の重要な相互作用効果を無視している。 これはそのような実験から引き出すことができる結論の範囲を制限する。 ノイズを除去する代わりに、学習モデルの特定のインスタンスを超えて推論を引き出すことを目的とした、機械学習評価の重要度と信頼性の分析に、データ特性との相互作用を含む複数のばらつき源を組み込むことを提案する。 本稿では,線形混合効果モデル (LMEM) を用いて評価スコアを解析し,一般確率比テスト (GLRT) を用いて統計的推論を行う方法を示す。 これにより、メタパラメータの変動のような任意のノイズ源を統計的に有意なテストに組み込むことができ、データ特性に基づく性能差を評価することができる。 さらに、分散成分分析(VCA)により、ノイズ源の総合的な分散への寄与の分析と、全分散に対する実質的な比による信頼性係数の計算が可能となる。

Reliability of machine learning evaluation -- the consistency of observed evaluation scores across replicated model training runs -- is affected by several sources of nondeterminism which can be regarded as measurement noise. Current tendencies to remove noise in order to enforce reproducibility of research results neglect inherent nondeterminism at the implementation level and disregard crucial interaction effects between algorithmic noise factors and data properties. This limits the scope of conclusions that can be drawn from such experiments. Instead of removing noise, we propose to incorporate several sources of variance, including their interaction with data properties, into an analysis of significance and reliability of machine learning evaluation, with the aim to draw inferences beyond particular instances of trained models. We show how to use linear mixed effects models (LMEMs) to analyze performance evaluation scores, and to conduct statistical inference with a generalized likelihood ratio test (GLRT). This allows us to incorporate arbitrary sources of noise like meta-parameter variations into statistical significance testing, and to assess performance differences conditional on data properties. Furthermore, a variance component analysis (VCA) enables the analysis of the contribution of noise sources to overall variance and the computation of a reliability coefficient by the ratio of substantial to total variance.
翻訳日:2023-10-13 14:57:57 公開日:2023-10-09
# 一般物理理論のエントロピーとは?

Which entropy for general physical theories? ( http://arxiv.org/abs/2302.01651v2 )

ライセンス: Link先を確認
Paolo Perinotti, Alessandro Tosini, Leonardo Vaglini(参考訳) 本稿では,情報内容が漸近的到達可能な圧縮率で定義される任意の情報理論において,情報源の情報内容の定量化の問題に対処する。 古典的および量子論におけるこの問題を解決する関数は、それぞれシャノンとフォン・ノイマンのエントロピーである。 しかし、一般的な情報理論では、エントロピーの概念を拡張する3つの異なる関数が存在するため、いずれかが情報内容に対する量化器の役割を普遍的に果たせるかどうかという疑問が開かれている。 ここでは,双局所古典理論 (Bilocal Classical Theory) と呼ばれる玩具理論において,情報内容と様々なエントロピー関数を評価することによって,負の質問に答える。

We address the problem of quantifying the information content of a source for an arbitrary information theory, where the information content is defined in terms of the asymptotic achievable compression rate. The functions that solve this problem in classical and quantum theory are Shannon's and von Neumann's entropy, respectively. However, in a general information theory there are three different functions that extend the notion of entropy, and this opens the question as to whether any of them can universally play the role of the quantifier for the information content. Here we answer the question in the negative, by evaluating the information content as well as the various entropic functions in a toy theory called Bilocal Classical Theory.
翻訳日:2023-10-13 14:56:54 公開日:2023-10-09
# ZX計算によるマルチコントロール量子ゲートの切断

Cutting multi-control quantum gates with ZX calculus ( http://arxiv.org/abs/2302.00387v2 )

ライセンス: Link先を確認
Christian Ufrecht, Maniraman Periyasamy, Sebastian Rietsch, Daniel D. Scherer, Axel Plinge, Christopher Mutschler(参考訳) 量子回路を独立した分割に分解する回路切断は、ノイズ-中間スケール量子(nisq)時代のより大きな量子回路実験への有望な道筋となっている。 従来, qubitワイヤの切断や2qubitゲートの切断に重点を置いてきたが, 本研究ではマルチコントロールzゲートの切断手法を提案する。 ここでは、回路上のカット数として$K$となるサンプリングオーバーヘッドに対して、分解を構築し、上限$\mathcal{O}(6^{2K})$を証明する。 この境界は制御量子ビットの数とは独立であるが、CCZゲートの特別の場合、さらに$\mathcal{O}(4.5^{2K})$に還元できる。 さらに,ibmのハードウェアに関する提案を評価し,カット回路におけるcnotゲートの強い低減によるノイズレジリエンスを実験的に示した。

Circuit cutting, the decomposition of a quantum circuit into independent partitions, has become a promising avenue towards experiments with larger quantum circuits in the noisy-intermediate scale quantum (NISQ) era. While previous work focused on cutting qubit wires or two-qubit gates, in this work we introduce a method for cutting multi-controlled Z gates. We construct a decomposition and prove the upper bound $\mathcal{O}(6^{2K})$ on the associated sampling overhead, where $K$ is the number of cuts in the circuit. This bound is independent of the number of control qubits but can be further reduced to $\mathcal{O}(4.5^{2K})$ for the special case of CCZ gates. Furthermore, we evaluate our proposal on IBM hardware and experimentally show noise resilience due to the strong reduction of CNOT gates in the cut circuits.
翻訳日:2023-10-13 14:56:01 公開日:2023-10-09
# 中国語読解のための自然応答生成

Natural Response Generation for Chinese Reading Comprehension ( http://arxiv.org/abs/2302.08817v2 )

ライセンス: Link先を確認
Nuo Chen, Hongguang Li, Yinan Bao, Baoyuan Wang and Jia Li(参考訳) machine reading comprehension (mrc) は会話エージェントの重要な領域であり、多くの注目を集めている。 ラベル付き回答は、主に対象のコーパスから抽出された範囲か、与えられた候補の選択のいずれかであり、高品質な応答の自然な側面を無視している。 その結果、これらのデータセットでトレーニングされたMRCモデルは、実際のQAシナリオでは人間のような応答を生成できない。 そこで本研究では,MRCの研究を促進するためにPenguinという新たなデータセットを構築し,実シナリオに対する自然応答生成のためのトレーニングとテストベッドを提供する。 具体的には、Penguinは200kのトレーニングデータから成り、高品質で流動的で、インフォームドなレスポンスを持つ。 ペンギンは比較的大規模な中国のmrcにおける自然応答生成に対する最初のベンチマークである。 Penguinの課題に対処するため、エンドツーエンドと2段階のフレームワークという、2つの強力なベースラインを開発しました。 次に、Penguinでプレフィックスプロンプトを混合した事前学習された生成言語モデルを微調整するPrompt-BARTをさらに設計する。 広範な実験により、この設計の有効性が検証された。

Machine reading comprehension (MRC) is an important area of conversation agents and draws a lot of attention. However, there is a notable limitation to current MRC benchmarks: The labeled answers are mostly either spans extracted from the target corpus or the choices of the given candidates, ignoring the natural aspect of high-quality responses. As a result, MRC models trained on these datasets can not generate human-like responses in real QA scenarios. To this end, we construct a new dataset called Penguin to promote the research of MRC, providing a training and test bed for natural response generation to real scenarios. Concretely, Penguin consists of 200k training data with high-quality fluent, and well-informed responses. Penguin is the first benchmark towards natural response generation in Chinese MRC on a relatively large scale. To address the challenges in Penguin, we develop two strong baselines: end-to-end and two-stage frameworks. Following that, we further design Prompt-BART: fine-tuning the pre-trained generative language models with a mixture of prefix prompts in Penguin. Extensive experiments validated the effectiveness of this design.
翻訳日:2023-10-13 14:47:58 公開日:2023-10-09
# コンテキスト内学習支援例の探索

Finding Support Examples for In-Context Learning ( http://arxiv.org/abs/2302.13539v3 )

ライセンス: Link先を確認
Xiaonan Li, Xipeng Qiu(参考訳) さらに、文脈内例間の強い依存により、NPハードな組合せ最適化問題となり、全ての置換を列挙することは不可能である。 そこで我々はlensを提案する。lensは,この課題を2つの段階で解決するためのフィルタ・サーチ手法である。 具体的には,言語モデルのフィードバックに基づいて,サンプルの文脈内情報度を評価するための新しい指標infoscoreを提案し,さらに不規則な例をフィルタリングするプログレッシブフィルタリング手法を提案する。 次に,選択されたサンプルの順列を反復的に洗練し,評価し,タスクを完全に表現した例を探索する。 実験結果から,LENSは幅広いベースラインよりも有意に優れていた。

Additionally, the strong dependency among in-context examples makes it an NP-hard combinatorial optimization problem and enumerating all permutations is infeasible. Hence we propose LENS, a fiLter-thEN-Search method to tackle this challenge in two stages: First we filter the dataset to obtain informative in-context examples individually. Specifically, we propose a novel metric, InfoScore, to evaluate the example's in-context informativeness based on the language model's feedback, and further propose a progressive filtering process to filter out uninformative examples. Then we propose diversity-guided example search which iteratively refines and evaluates the selected example permutations, to find examples that fully depict the task. The experimental results show that LENS significantly outperforms a wide range of baselines.
翻訳日:2023-10-13 14:38:22 公開日:2023-10-09
# 量子ステアリングによる量子コンピュータの状態形成

State Preparation on Quantum Computers via Quantum Steering ( http://arxiv.org/abs/2302.13518v3 )

ライセンス: Link先を確認
Daniel Volya and Prabhat Mishra(参考訳) 量子コンピュータを実現するための主要な構成要素の1つは、コンピュータを既知の状態(状態準備)に初期化する能力である。 本稿では,現代のディジタル量子コンピュータにおける測定誘導ステアリングによる状態準備法を示す。 ancilla qubitsおよびsystem qubitsを委譲することにより、(1)指定されたsystem-ancilla entangling回路の実行、(2)ancilla qubitsの測定、(3)ancilla qubitsをアクティブリセットにより既知の状態に再初期化する、というステップを繰り返し実行することにより、システム状態が作成される。 アンシラ量子ビットは既知の状態に測定および再初期化されるが、システム量子ビットは任意の初期状態から望ましい最終状態へとステアリングされる。 任意のキュービット状態と3レベル状態を作成することで,提案手法の結果を示す。 また,ancilla qubitsの読み出しを利用してプロトコルをアクティブにガイドすることにより,状態収束を促進できることを示す。 このプロトコルは、qubitの再利用(qubit reset)、エンタングリング回路、測定などの重要な操作を組み込んで特徴付ける非自明な例として機能する。 これらの操作は、近未来のノイズの多い中間規模量子(NISQ)アプリケーションに欠かせないだけでなく、将来のエラー訂正コードの実現にも不可欠である。

One of the major components for realizing quantum computers is the ability to initialize the computer to a known fiducial state, also known as state preparation. We demonstrate a state preparation method via measurement-induced steering on contemporary, digital quantum computers. By delegating ancilla qubits and systems qubits, the system state is prepared by repeatedly performing the following steps: (1) executing a designated system-ancilla entangling circuit, (2) measuring the ancilla qubits, and (3) re-initializing ancilla qubits to known states through active reset. While the ancilla qubits are measured and reinitialized to known states, the system qubits are steered from arbitrary initial states to desired final states. We show results of the method by preparing arbitrary qubit states and qutrit (three-level) states. We also demonstrate that the state convergence can be accelerated by utilizing the readouts of the ancilla qubits to guide the protocol in an active manner. This protocol serves as a nontrivial example that incorporates and characterizes essential operations such as qubit reuse (qubit reset), entangling circuits, and measurement. These operations are not only vital for near-term noisy intermediate-scale quantum (NISQ) applications but are also crucial for realizing future error-correcting codes.
翻訳日:2023-10-13 14:38:09 公開日:2023-10-09
# 因果不整形変分オートエンコーダ

Causally Disentangled Generative Variational AutoEncoder ( http://arxiv.org/abs/2302.11737v2 )

ライセンス: Link先を確認
Seunghwan An, Kyungwoo Song, Jong-June Jeon(参考訳) 本稿では、因果不整合表現を学習し、因果不整合結果を同時に生成できる変分自動エンコーダ(VAE)の新しい教師付き学習手法を提案する。 このアプローチをcdg(causally disentangled generation)と呼んでいる。 CDGは因果不整合表現に基づいて出力を正確に復号する生成モデルである。 本研究は,cdgを用いた生成モデルを実現するには,コーダのみに教師付き正規化を加えるだけでは不十分であることを示す。 そこで我々は,特定のモデル内でcdgを実現するための必要十分条件を検討する。 さらに,生成モデルの因果的絡み合いを評価するための普遍的指標を導入する。 画像と表データの両方からの経験的な結果は、我々の発見を支持しています。

We present a new supervised learning technique for the Variational AutoEncoder (VAE) that allows it to learn a causally disentangled representation and generate causally disentangled outcomes simultaneously. We call this approach Causally Disentangled Generation (CDG). CDG is a generative model that accurately decodes an output based on a causally disentangled representation. Our research demonstrates that adding supervised regularization to the encoder alone is insufficient for achieving a generative model with CDG, even for a simple task. Therefore, we explore the necessary and sufficient conditions for achieving CDG within a specific model. Additionally, we introduce a universal metric for evaluating the causal disentanglement of a generative model. Empirical results from both image and tabular datasets support our findings.
翻訳日:2023-10-13 14:37:14 公開日:2023-10-09
# 方向刺激法による大規模言語モデルの誘導

Guiding Large Language Models via Directional Stimulus Prompting ( http://arxiv.org/abs/2302.11520v4 )

ライセンス: Link先を確認
Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Yan(参考訳) 我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデル(例えばT5)を用いて、入力インスタンス毎に補助的な指向性刺激プロンプトを生成する。 これらの方向刺激は、生成された要約に特定のキーワードを含めるなど、所望の結果を生成するためにLSMをガイドする、ニュアンスでインスタンス固有のヒントやヒントとして振舞う。 提案手法は,llmを望ましい行動に合わせる方向刺激プロンプトを探索するために,政策モデルを最適化することで,直接llmチューニングの課題を回避している。 ポリシーモデルは最適化できる 1)ラベル付きデータを用いた教師付き微調整 2) llmの出力に基づくオフラインまたはオンライン報酬からの強化学習。 本手法は,要約,対話応答生成,思考連鎖推論タスクを通じて評価する。 実験の結果、最小ラベル付きデータを用いて、これらの教師付きタスクにおけるLLM(ChatGPT, Codex, InstructGPT)の性能を継続的に改善することが示された。 特に、MultiWOZデータセット上の80のダイアログを使用することで、ChatGPTのパフォーマンスを41.4%向上させ、完全に教師付きされたスタートオブザアーティモデルに適合または超えるようにした。 さらに,本手法により生成された事例特異的チェーン・オブ・シークレット・プロンプトは,人造または自動生成プロンプトと比較してインストラクションGPTの推論精度を向上する。 コードとデータは \url{https://github.com/Leezekun/Directional-Stimulus-Prompting} で公開されている。

We introduce Directional Stimulus Prompting, a novel framework for guiding black-box large language models (LLMs) toward specific desired outputs. Instead of directly adjusting LLMs, our method employs a small tunable policy model (e.g., T5) to generate an auxiliary directional stimulus prompt for each input instance. These directional stimulus prompts act as nuanced, instance-specific hints and clues to guide LLMs in generating desired outcomes, such as including specific keywords in the generated summary. Our approach sidesteps the challenges of direct LLM tuning by optimizing the policy model to explore directional stimulus prompts that align LLMs with desired behaviors. The policy model can be optimized through 1) supervised fine-tuning using labeled data and 2) reinforcement learning from offline or online rewards based on the LLM's output. We assess our method across summarization, dialogue response generation, and chain-of-thought reasoning tasks. Our experiments demonstrate that the framework consistently improves LLMs' (e.g., ChatGPT, Codex, InstructGPT) performance on these supervised tasks using minimal labeled data. Notably, using just 80 dialogues on the MultiWOZ dataset, our approach enhances ChatGPT's performance by an impressive 41.4%, matching or surpassing some fully supervised start-of-the-art models. Additionally, the instance-specific chain-of-thought prompt generated by our approach improves InstructGPT's reasoning accuracy compared to human-crafted or automatically generated prompts. The code and data are publicly available at \url{https://github.com/Leezekun/Directional-Stimulus-Prompting}.
翻訳日:2023-10-13 14:36:22 公開日:2023-10-09
# 視覚的説明の定量的評価のコヒーレンスについて

On The Coherence of Quantitative Evaluation of Visual Explanations ( http://arxiv.org/abs/2302.10764v4 )

ライセンス: Link先を確認
Benjamin Vandersmissen, Jose Oramas(参考訳) 近年,視覚的説明を通じてニューラルネットワークの予測を正当化する手法の開発が進んでいる。 これらの説明は、通常、入力画像の各画素にサリエンシー(または関連)値を割り当てるヒートマップの形式をとり、そのピクセルがラベルの予測にどの程度関係しているかを表現する。 この開発を補完し、このような説明の「良さ」を評価する評価手法が提案されている。 一方、これらの手法のいくつかは合成データセットに依存している。 しかし、これはより現実的な設定で適用性に制限があるという弱点をもたらす。 一方で、客観的評価のためのメトリクスに依存する手法もある。 しかし,これらの評価手法のいくつかが相互に作用する程度は定かではない。 このことを考慮し、imagenet-1kバリデーションセットのサブセットを包括的に研究し、一連の評価方法に従って、複数の異なるよく使われる説明方法を評価する。 本研究は,評価手法の信頼性と特徴が評価方法に与える影響を調査する手段として,評価手法の健全性チェックを補完するものである。 本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。 さらに,性能に有意な影響を及ぼす可能性のある空間性など,説明のいくつかの特徴を明らかにした。

Recent years have shown an increased development of methods for justifying the predictions of neural networks through visual explanations. These explanations usually take the form of heatmaps which assign a saliency (or relevance) value to each pixel of the input image that expresses how relevant the pixel is for the prediction of a label. Complementing this development, evaluation methods have been proposed to assess the "goodness" of such explanations. On the one hand, some of these methods rely on synthetic datasets. However, this introduces the weakness of having limited guarantees regarding their applicability on more realistic settings. On the other hand, some methods rely on metrics for objective evaluation. However the level to which some of these evaluation methods perform with respect to each other is uncertain. Taking this into account, we conduct a comprehensive study on a subset of the ImageNet-1k validation set where we evaluate a number of different commonly-used explanation methods following a set of evaluation methods. We complement our study with sanity checks on the studied evaluation methods as a means to investigate their reliability and the impact of characteristics of the explanations on the evaluation methods. Results of our study suggest that there is a lack of coherency on the grading provided by some of the considered evaluation methods. Moreover, we have identified some characteristics of the explanations, e.g. sparsity, which can have a significant effect on the performance.
翻訳日:2023-10-13 14:35:15 公開日:2023-10-09
# 不確実性推定のためのウィンドウベース早期実行カスケード:深部アンサンブルが単一モデルよりも効率的である場合

Window-Based Early-Exit Cascades for Uncertainty Estimation: When Deep Ensembles are More Efficient than Single Models ( http://arxiv.org/abs/2303.08010v3 )

ライセンス: Link先を確認
Guoxuan Xia and Christos-Savvas Bouganis(参考訳) Deep Ensemblesは、ディープラーニングアプローチの予測性能と不確実性の両方を改善するための、シンプルで信頼性が高く効果的な方法である。 しかし、複数の独立したモデルをデプロイする必要があるため、計算コストが高いと広く批判されている。 最近の研究は、予測精度において、アンサンブルはアーキテクチャファミリ内の単一モデルをスケーリングするよりも、より計算効率(推論時)が高いことを示している。 これは初期のアプローチでアンサンブルメンバーをカスケードすることで達成される。 本研究では,これらの効率向上を不確実性推定に関連するタスクに拡張することを検討する。 このようなタスクの多く、例えば選択的分類はバイナリ分類であり、我々の重要な洞察は、バイナリ決定境界に近いウィンドウ内でのみサンプルを後続のカスケードステージに渡すことである。 複数のネットワークアーキテクチャと不確実性タスクにわたるimagenetスケールデータの実験により、提案するウィンドウベースのアーリーエクイットアプローチが、単一モデルのスケーリングよりも優れた不確実性-計算トレードオフを達成できることが示されている。 例えば、カスケードされたEfficientNet-B2アンサンブルは、MAC数の30%以下の単一のEfficientNet-B4と同様のカバレッジを5%のリスクで達成することができる。 また、カスケード/アンサンブルはOODデータに対して、スケールアップモデルよりも信頼性の高い改善を提供します。 この作業のコードは、https://github.com/guoxoug/window-early-exitで入手できる。

Deep Ensembles are a simple, reliable, and effective method of improving both the predictive performance and uncertainty estimates of deep learning approaches. However, they are widely criticised as being computationally expensive, due to the need to deploy multiple independent models. Recent work has challenged this view, showing that for predictive accuracy, ensembles can be more computationally efficient (at inference) than scaling single models within an architecture family. This is achieved by cascading ensemble members via an early-exit approach. In this work, we investigate extending these efficiency gains to tasks related to uncertainty estimation. As many such tasks, e.g. selective classification, are binary classification, our key novel insight is to only pass samples within a window close to the binary decision boundary to later cascade stages. Experiments on ImageNet-scale data across a number of network architectures and uncertainty tasks show that the proposed window-based early-exit approach is able to achieve a superior uncertainty-computation trade-off compared to scaling single models. For example, a cascaded EfficientNet-B2 ensemble is able to achieve similar coverage at 5% risk as a single EfficientNet-B4 with <30% the number of MACs. We also find that cascades/ensembles give more reliable improvements on OOD data vs scaling models up. Code for this work is available at: https://github.com/Guoxoug/window-early-exit.
翻訳日:2023-10-13 14:29:20 公開日:2023-10-09
# slca:事前学習モデルを用いた連続学習のための分類器アライメント付き遅い学習者

SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained Model ( http://arxiv.org/abs/2303.05118v4 )

ライセンス: Link先を確認
Gengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei(参考訳) 連続学習の目的は、逐次到達データ学習における認識モデルの性能を向上させることである。 既存の作品の多くはスクラッチから学ぶという前提で構築されているが、事前学習の利点を取り入れることに努力が注がれている。 しかし、その一般化性を維持しつつ、各漸進的なタスクに対する事前学習された知識を適応的に活用する方法は、未解決の問題である。 本研究では,事前学習モデル (CLPM) を用いた継続学習の広範な解析を行い,その課題を進歩的オーバーフィッティング問題に帰着させる。 学習率を選択的に減少させることで、この問題を表現層でほぼ解決することができることを観察し、クラスワイズ分布をモデル化し、ポストホックな方法で分類層を整列させることにより、分類層をさらに改善するSlow Learner with Classifier Alignment (SLCA) という、シンプルだが極めて効果的なアプローチを提案する。 さまざまなシナリオにおいて、当社の提案はCLPMの大幅な改善(例えば、Split CIFAR-100、Split ImageNet-R、Split CUB-200、Split Cars-196で最大49.76%、50.05%、44.69%、40.16%)を提供し、その結果、最先端のアプローチを大きなマージンで上回っている。 このような強いベースラインに基づいて、重要な要因と有望な方向性を詳細に分析し、その後の研究を促進する。 コードはhttps://github.com/GengDavid/SLCA.comで公開されている。

The goal of continual learning is to improve the performance of recognition models in learning sequentially arrived data. Although most existing works are established on the premise of learning from scratch, growing efforts have been devoted to incorporating the benefits of pre-training. However, how to adaptively exploit the pre-trained knowledge for each incremental task while maintaining its generalizability remains an open question. In this work, we present an extensive analysis for continual learning on a pre-trained model (CLPM), and attribute the key challenge to a progressive overfitting problem. Observing that selectively reducing the learning rate can almost resolve this issue in the representation layer, we propose a simple but extremely effective approach named Slow Learner with Classifier Alignment (SLCA), which further improves the classification layer by modeling the class-wise distributions and aligning the classification layers in a post-hoc fashion. Across a variety of scenarios, our proposal provides substantial improvements for CLPM (e.g., up to 49.76%, 50.05%, 44.69% and 40.16% on Split CIFAR-100, Split ImageNet-R, Split CUB-200 and Split Cars-196, respectively), and thus outperforms state-of-the-art approaches by a large margin. Based on such a strong baseline, critical factors and promising directions are analyzed in-depth to facilitate subsequent research. Code has been made available at: https://github.com/GengDavid/SLCA.
翻訳日:2023-10-13 14:28:16 公開日:2023-10-09
# 再構成型状態空間モデルによる時系列異常検出

Time series anomaly detection with reconstruction-based state-space models ( http://arxiv.org/abs/2303.03324v3 )

ライセンス: Link先を確認
Fan Wang, Keli Wang, Boyu Yao(参考訳) 最近のデジタル化の進歩により、様々なドメインで多変量時系列データが利用可能になり、操作のリアルタイム監視が可能になった。 これらのシナリオにおける異常なデータパターンの特定と潜在的な障害の検出は、かなり困難である。 本研究では,時系列データに対する新しい教師なし異常検出手法を提案する。 提案手法は観測モデルと動的モデルとを共同で学習し, 標準試料からモデル不確かさを推定する。 具体的には、長い短期記憶(LSTM)ベースのエンコーダデコーダを採用し、観測空間と潜時空間のマッピングを表現する。 状態の双方向遷移は、後方および前方の時間情報を利用して同時にモデル化される。 潜在空間の正規化は正常なサンプルの状態に制約を与え、マハラノビス距離は異常レベルを評価するために用いられる。 合成および実世界のデータセットに関する実証研究は、異常検出タスクにおいて提案手法の優れた性能を示す。

Recent advances in digitization have led to the availability of multivariate time series data in various domains, enabling real-time monitoring of operations. Identifying abnormal data patterns and detecting potential failures in these scenarios are important yet rather challenging. In this work, we propose a novel unsupervised anomaly detection method for time series data. The proposed framework jointly learns the observation model and the dynamic model, and model uncertainty is estimated from normal samples. Specifically, a long short-term memory (LSTM)-based encoder-decoder is adopted to represent the mapping between the observation space and the latent space. Bidirectional transitions of states are simultaneously modeled by leveraging backward and forward temporal information. Regularization of the latent space places constraints on the states of normal samples, and Mahalanobis distance is used to evaluate the abnormality level. Empirical studies on synthetic and real-world datasets demonstrate the superior performance of the proposed method in anomaly detection tasks.
翻訳日:2023-10-13 14:27:24 公開日:2023-10-09
# StylerDALLE:大規模生成モデルのベクトル量子化トケナイザを用いた言語ガイド型変換

StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model ( http://arxiv.org/abs/2303.09268v2 )

ライセンス: Link先を確認
Zipeng Xu, Enver Sangineto, Nicu Sebe(参考訳) スタイル転送タスクの進歩にもかかわらず、以前のほとんどの作品は、色やテクスチャのような比較的単純な特徴のみを転送することに集中し、全体的なアート表現や画家特有の特徴のようなより抽象的な概念を欠いている。 しかし、これらの抽象的なセマンティクスは、画像とテキストドキュメントの巨大なデータセットを使用してトレーニングされたDALL-EやCLIPのようなモデルによってキャプチャできる。 本稿では,これら2つのモデルを活用し,自然言語を用いて抽象的アートスタイルを記述するスタイル転送手法であるstylerdalleを提案する。 具体的には、DALL-Eの離散変分自動エンコーダ(dVAE)などの大規模事前学習ベクトル量子化トークン化器の離散潜時空間において、入力コンテンツ画像から出力されたスタイリング画像への非自己回帰トークンシーケンス変換として言語誘導型転送タスクを定式化する。 スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案し,スタイリゼーションとコンテンツ保存を同時に行う。 実験により,異なる粒度で言語指示を用いたアートスタイルを効果的に転送できる手法の優位性を示す。 コードはhttps://github.com/zipengxuc/stylerdalleで入手できる。

Despite the progress made in the style transfer task, most previous work focus on transferring only relatively simple features like color or texture, while missing more abstract concepts such as overall art expression or painter-specific traits. However, these abstract semantics can be captured by models like DALL-E or CLIP, which have been trained using huge datasets of images and textual documents. In this paper, we propose StylerDALLE, a style transfer method that exploits both of these models and uses natural language to describe abstract art styles. Specifically, we formulate the language-guided style transfer task as a non-autoregressive token sequence translation, i.e., from input content image to output stylized image, in the discrete latent space of a large-scale pretrained vector-quantized tokenizer, e.g., the discrete variational auto-encoder (dVAE) of DALL-E. To incorporate style information, we propose a Reinforcement Learning strategy with CLIP-based language supervision that ensures stylization and content preservation simultaneously. Experimental results demonstrate the superiority of our method, which can effectively transfer art styles using language instructions at different granularities. Code is available at https://github.com/zipengxuc/StylerDALLE.
翻訳日:2023-10-13 14:16:55 公開日:2023-10-09
# 観測データによる公正なオフポリティ学習

Fair Off-Policy Learning from Observational Data ( http://arxiv.org/abs/2303.08516v2 )

ライセンス: Link先を確認
Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel(参考訳) アルゴリズムによる意思決定は、法的、倫理的、社会的理由により公平でなければならない。 これを達成するために、先行研究は機械学習の予測における公正性を保証する様々なアプローチに貢献している。 本稿では、公正性の概念の異なる観察データから意思決定ルールを学習し、観察データが異なる潜在的差別的行動ポリシーの下で収集されたと明確に仮定する、公正でない学習のための新しい枠組みを提案する。 このために、我々はまず、非政治学習のための異なる公正概念を定式化する。 次に、異なる公正概念の下で最適なポリシーを学ぶニューラルネットワークベースのフレームワークを提案する。 さらに、フレームワークの有限サンプルバージョンに対する一般化境界の形での理論的な保証を提供する。 シミュレーションデータと実世界データの両方を用いて, 広範囲な数値実験を行い, フレームワークの有効性を実証する。 全体として,公平性が確保されなければならない幅広い実践的応用において,アルゴリズムによる意思決定を可能にする。

Algorithmic decision-making in practice must be fair for legal, ethical, and societal reasons. To achieve this, prior research has contributed various approaches that ensure fairness in machine learning predictions, while comparatively little effort has focused on fairness in decision-making, specifically off-policy learning. In this paper, we propose a novel framework for fair off-policy learning: we learn decision rules from observational data under different notions of fairness, where we explicitly assume that observational data were collected under a different potentially discriminatory behavioral policy. For this, we first formalize different fairness notions for off-policy learning. We then propose a neural network-based framework to learn optimal policies under different fairness notions. We further provide theoretical guarantees in the form of generalization bounds for the finite-sample version of our framework. We demonstrate the effectiveness of our framework through extensive numerical experiments using both simulated and real-world data. Altogether, our work enables algorithmic decision-making in a wide array of practical applications where fairness must be ensured.
翻訳日:2023-10-13 14:14:49 公開日:2023-10-09
# ビュー整合テキストから3d生成のための2次元拡散のデバイアススコアとプロンプト

Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation ( http://arxiv.org/abs/2303.15413v3 )

ライセンス: Link先を確認
Susung Hong, Donghoon Ahn, Seungryong Kim(参考訳) 既存の有望なテキストから3D生成技術は、しばしば不整合性の問題に遭遇する。 最も注目すべき問題の1つは、オブジェクトの最も標準的なビュー(\textit{e.g})であるJanus問題である。 顔や頭)が他の見方に現れる。 本研究では,2次元拡散モデルの埋め込みバイアスであるビューの不整合問題の主な原因を,スコア蒸留テキストから3次元生成のための既存のフレームワークを探索する。 これらの知見に基づき、ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。 スコアデバイアスと呼ばれる最初のアプローチは、2次元拡散モデルによって推定されるスコアをカットし、最適化プロセスを通じて徐々に切り下げ値を増やすことです。 我々の2つ目のアプローチは、プロンプトデバイアスと呼ばれ、言語モデルを用いてユーザプロンプトとビュープロンプトの相反する単語を特定し、ビュープロンプトとオブジェクトの表示方向の相違を調整する。 提案手法は,2次元拡散モデルに対する忠実性と,オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現することにより,生成した3次元オブジェクトのリアリズムを向上させることを実証した。 プロジェクトのページは~\url{https://susunghong.github.io/debiased-score-distillation-sampling/}で閲覧できます。

Existing score-distilling text-to-3D generation techniques, despite their considerable promise, often encounter the view inconsistency problem. One of the most notable issues is the Janus problem, where the most canonical view of an object (\textit{e.g}., face or head) appears in other views. In this work, we explore existing frameworks for score-distilling text-to-3D generation and identify the main causes of the view inconsistency problem -- the embedded bias of 2D diffusion models. Based on these findings, we propose two approaches to debias the score-distillation frameworks for view-consistent text-to-3D generation. Our first approach, called score debiasing, involves cutting off the score estimated by 2D diffusion models and gradually increasing the truncation value throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts using a language model, and adjusts the discrepancy between view prompts and the viewing direction of an object. Our experimental results show that our methods improve the realism of the generated 3D objects by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead. Our project page is available at~\url{https://susunghong.github.io/Debiased-Score-Distillation-Sampling/}.
翻訳日:2023-10-13 14:07:33 公開日:2023-10-09
# 視覚言語基礎モデルの同変類似性

Equivariant Similarity for Vision-Language Foundation Models ( http://arxiv.org/abs/2303.14465v2 )

ライセンス: Link先を確認
Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang(参考訳) 本研究は,視覚言語基礎モデル(VLM)における等価性の概念を考察し,下流タスクをサポートするためのコアデリバリだけでなく,主要なトレーニング目的であるマルチモーダル類似性関数に焦点をあてる。 一致した対と一致しない対を相似としか分類しない既存の画像-テキスト類似性目的とは異なり、同値性は意味的変化に応じて忠実に変化するように類似性を必要とする。 これにより、VLMはニュアンスや見えないマルチモーダル合成をより一般化することができる。 しかし,意味変化の根底にある真理は収集が難しいため,同値のモデル化は困難である。 例えば、犬に関する画像とテキストのペアを考えると、犬から猫にピクセルが変化したときの類似性がどの程度変化するかは明らかではない。 そこで本研究では,2組の学習ペアから効率的に計算でき,既存の画像テキスト検索の微調整に容易にプラグインできる正規化損失であるeqsimを提案する。 一方, vlms の等価性をさらに診断するために, 新たな挑戦的ベンチマーク eqben を提案する。 既存の評価セットと比較すると、EqBenは"視覚的最小限の変化"にフォーカスした最初のものである。 大規模な実験は、現在のVLMに等価性の欠如を示し、EqSimの有効性を検証する。 コードはhttps://github.com/Wangt-CN/EqBen.comで入手できる。

This study explores the concept of equivariance in vision-language foundation models (VLMs), focusing specifically on the multimodal similarity function that is not only the major training objective but also the core delivery to support downstream tasks. Unlike the existing image-text similarity objective which only categorizes matched pairs as similar and unmatched pairs as dissimilar, equivariance also requires similarity to vary faithfully according to the semantic changes. This allows VLMs to generalize better to nuanced and unseen multimodal compositions. However, modeling equivariance is challenging as the ground truth of semantic change is difficult to collect. For example, given an image-text pair about a dog, it is unclear to what extent the similarity changes when the pixel is changed from dog to cat? To this end, we propose EqSim, a regularization loss that can be efficiently calculated from any two matched training pairs and easily pluggable into existing image-text retrieval fine-tuning. Meanwhile, to further diagnose the equivariance of VLMs, we present a new challenging benchmark EqBen. Compared to the existing evaluation sets, EqBen is the first to focus on "visual-minimal change". Extensive experiments show the lack of equivariance in current VLMs and validate the effectiveness of EqSim. Code is available at https://github.com/Wangt-CN/EqBen.
翻訳日:2023-10-13 14:07:10 公開日:2023-10-09
# 人間のコラボレーションはllm生成のディープフェイクテキストの識別精度を高めるか?

Does Human Collaboration Enhance the Accuracy of Identifying LLM-Generated Deepfake Texts? ( http://arxiv.org/abs/2304.01002v3 )

ライセンス: Link先を確認
Adaku Uchendu, Jooyoung Lee, Hua Shen, Thai Le, Ting-Hao 'Kenneth' Huang, Dongwon Lee(参考訳) 大きな言語モデル(gpt-4、llamaなど)の進歩は、人間の文章に似たコヒーレント文の生成を大規模に改善し、いわゆるディープフェイクテキストの作成に繋がった。 しかし、この進歩はセキュリティとプライバシーの懸念をもたらし、ディープフェイクテキストと人間の書いたテキストを区別するための効果的なソリューションを必要としている。 先行研究は、人間のディープフェイクテキストの検出能力を研究したが、人間の「コラボレーション」がディープフェイクテキストの検出を改善するかどうかについては、誰も調査していない。 本研究では,深層文の理解のギャップに対処するため,(1)AMTプラットフォームからの非専門的個人と(2)Upworkプラットフォームからのエキスパートの執筆という2つのグループで実験を行った。 その結果、人間同士のコラボレーションによって、両方のグループのディープフェイクテキストの検出が改善される可能性が示唆され、非専門家では6.36%、専門家では12.76%増加した。 さらに、人間がディープフェイクテキストとしてテキストを検出するのに使った説明を分析し、ディープフェイクテキストの最も強い指標は一貫性と一貫性の欠如であることを示す。 本研究は,deepfakeテキストの協調的検出を容易にするために,今後のツールやフレームワーク設計に有用な知見を提供する。 実験データセットとAMTの実装は、https://github.com/huashen218/llm-deepfake- Human-study.gitで利用可能である。

Advances in Large Language Models (e.g., GPT-4, LLaMA) have improved the generation of coherent sentences resembling human writing on a large scale, resulting in the creation of so-called deepfake texts. However, this progress poses security and privacy concerns, necessitating effective solutions for distinguishing deepfake texts from human-written ones. Although prior works studied humans' ability to detect deepfake texts, none has examined whether "collaboration" among humans improves the detection of deepfake texts. In this study, to address this gap of understanding on deepfake texts, we conducted experiments with two groups: (1) nonexpert individuals from the AMT platform and (2) writing experts from the Upwork platform. The results demonstrate that collaboration among humans can potentially improve the detection of deepfake texts for both groups, increasing detection accuracies by 6.36% for non-experts and 12.76% for experts, respectively, compared to individuals' detection accuracies. We further analyze the explanations that humans used for detecting a piece of text as deepfake text, and find that the strongest indicator of deepfake texts is their lack of coherence and consistency. Our study provides useful insights for future tools and framework designs to facilitate the collaborative human detection of deepfake texts. The experiment datasets and AMT implementations are available at: https://github.com/huashen218/llm-deepfake-human-study.git
翻訳日:2023-10-13 13:55:46 公開日:2023-10-09
# サイバー犯罪予測のための機械学習の最近の進歩

Recent Advancements in Machine Learning For Cybercrime Prediction ( http://arxiv.org/abs/2304.04819v2 )

ライセンス: Link先を確認
Lavanya Elluri, Varun Mandalapu, Piyush Vyas, Nirmalya Roy(参考訳) サイバー犯罪は世界中の組織や個人にとって脅威となり、犯罪者は高度な技術を使ってセキュリティシステムに侵入し、機密データを盗む。 本稿では,サイバー犯罪予測の最新の進歩を包括的に調査し,関連する研究を取り上げる。 この目的のために,150以上の研究論文をレビューし,最新の50件について検討した。 サイバー犯罪者が使用する標準的な方法からレビューを開始し、異常な行動を検出し潜在的な脅威を識別する最新の機械学習技術とディープラーニング技術に焦点を当てます。 また、あるデータセットでトレーニングされたモデルを別のデータセットで使用するために適合させることができる転送学習についても論じる。 次に,サイバー犯罪予測のアルゴリズム研究の一環として,能動的・強化学習に焦点を当てた。 最後に,サイバー犯罪予測における重要なイノベーション,研究ギャップ,今後の研究機会について論じる。 本稿では,最先端開発と公開データセットの全体像を示す。

Cybercrime is a growing threat to organizations and individuals worldwide, with criminals using sophisticated techniques to breach security systems and steal sensitive data. This paper aims to comprehensively survey the latest advancements in cybercrime prediction, highlighting the relevant research. For this purpose, we reviewed more than 150 research articles and discussed 50 most recent and appropriate ones. We start the review with some standard methods cybercriminals use and then focus on the latest machine and deep learning techniques, which detect anomalous behavior and identify potential threats. We also discuss transfer learning, which allows models trained on one dataset to be adapted for use on another dataset. We then focus on active and reinforcement learning as part of early-stage algorithmic research in cybercrime prediction. Finally, we discuss critical innovations, research gaps, and future research opportunities in Cybercrime prediction. This paper presents a holistic view of cutting-edge developments and publicly available datasets.
翻訳日:2023-10-13 13:47:42 公開日:2023-10-09
# 忠実な要約生成のためのChatGPTによる抽出要約

Extractive Summarization via ChatGPT for Faithful Summary Generation ( http://arxiv.org/abs/2304.04193v2 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) 抽出要約は自然言語処理において重要な課題であり,文を直接抽出することで,長い文書を短いバージョンにまとめることを目的としている。 最近の大規模言語モデルの導入は、幅広い下流タスクにおける顕著なパフォーマンスのために、NLPコミュニティに大きな関心を集めている。 本稿ではまず,ChatGPTの抽出要約における性能を徹底的に評価し,様々なベンチマークデータセットにおける従来の微調整手法と比較する。 実験結果から,chatgptは従来の教師付きシステムに比べて抽出総和性能が劣るが,llmに基づく評価基準により高い性能が得られることが明らかとなった。 さらに,その性能向上のための文脈内学習と連鎖推論の有効性について検討した。 さらに,ChatGPTを用いた抽出列生成パイプラインの適用により,要約忠実度の観点から抽象的ベースラインよりも顕著な性能向上が得られた。 これらの観察は、2段階のアプローチによる忠実な要約におけるChatGPTの能力向上の潜在的方向性を明らかにする。

Extractive summarization is a crucial task in natural language processing that aims to condense long documents into shorter versions by directly extracting sentences. The recent introduction of large language models has attracted significant interest in the NLP community due to its remarkable performance on a wide range of downstream tasks. This paper first presents a thorough evaluation of ChatGPT's performance on extractive summarization and compares it with traditional fine-tuning methods on various benchmark datasets. Our experimental analysis reveals that ChatGPT exhibits inferior extractive summarization performance in terms of ROUGE scores compared to existing supervised systems, while achieving higher performance based on LLM-based evaluation metrics. In addition, we explore the effectiveness of in-context learning and chain-of-thought reasoning for enhancing its performance. Furthermore, we find that applying an extract-then-generate pipeline with ChatGPT yields significant performance improvements over abstractive baselines in terms of summary faithfulness. These observations highlight potential directions for enhancing ChatGPT's capabilities in faithful summarization using two-stage approaches.
翻訳日:2023-10-13 13:46:44 公開日:2023-10-09
# LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー

LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2304.01933v3 )

ライセンス: Link先を確認
Zhiqiang Hu, Lei Wang, Yihuai Lan, Wanyu Xu, Ee-Peng Lim, Lidong Bing, Xing Xu, Soujanya Poria, Roy Ka-Wei Lee(参考訳) GPT-4やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(ChatDoctorなど)や命令データ(Alpacaなど)でオープンアクセス LLM を微調整することで、コスト効率が高くアクセスしやすい代替品の開発につながった。 様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。 LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。 このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。 さらに, アダプタ型, 配置位置, ハイパーパラメータの影響について, 各アダプタ方式の最適設計について, 広範囲にわたる実証的研究を行った。 算術推論と常識推論という2つの異なる推論タスクから,14個のデータセットに対するアダプタの有効性を評価した。 その結果,小型のLDM (7B) にアダプタベースのPEFTを用いることで,訓練可能なパラメータが少ない場合と,両方の推論タスクにおいてゼロショット推論において,強力なLDM (175B) よりも優れた性能が得られることがわかった。

The success of large language models (LLMs), like GPT-4 and ChatGPT, has led to the development of numerous cost-effective and accessible alternatives that are created by finetuning open-access LLMs with task-specific data (e.g., ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly one of the most attractive topics, as it only requires fine-tuning a few external parameters instead of the entire LLMs while achieving comparable or even better performance. To enable further research on PEFT methods of LLMs, this paper presents LLM-Adapters, an easy-to-use framework that integrates various adapters into LLMs and can execute these adapter-based PEFT methods of LLMs for different tasks. The framework includes state-of-the-art open-access LLMs such as LLaMA, BLOOM, and GPT-J, as well as widely used adapters such as Series adapters, Parallel adapter, Prompt-based learning and Reparametrization-based methods. Moreover, we conduct extensive empirical studies on the impact of adapter types, placement locations, and hyper-parameters to the best design for each adapter-based methods. We evaluate the effectiveness of the adapters on fourteen datasets from two different reasoning tasks, Arithmetic Reasoning and Commonsense Reasoning. The results demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra trainable parameters yields comparable, and in some cases superior, performance to powerful LLMs (175B) in zero-shot inference on both reasoning tasks.
翻訳日:2023-10-13 13:44:59 公開日:2023-10-09
# transhp:階層的プロンプトによる画像分類

TransHP: Image Classification with Hierarchical Prompting ( http://arxiv.org/abs/2304.06385v3 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Wei Li, Yi Yang(参考訳) 本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。 従来のhicメソッドと異なり、私たちの階層的プロンプトは、祖先クラス識別の恩恵を受けるトークン化されたヒントとして、祖先クラス情報を明示的に注入する最初の方法です。 これは人間の視覚認識をよく模倣している、すなわち、人間は祖先のクラスを、子孫のクラス間の微妙な違いに焦点を合わせるための手掛かりとして使うかもしれない。 このプロンプト機構を階層型プロンプト(transhp)によるトランスフォーマーにモデル化する。 TransHPは3つのステップから構成される。 1)粗い(祖先)クラスを表現するために一連のプロンプトトークンを学ぶ。 2)中間ブロックにおける入力画像の粗いクラスをオンザフライで予測する。 3) 予測された粗いクラスのプロンプトトークンを中間機能に注入する。 transhpのパラメータは、全ての入力画像で同じだが、注入された粗クラスプロンプト条件は、次の特徴抽出を修飾し、後続クラス間の比較的微妙な違いに動的に焦点を合わせる。 広範な実験により、transhpは精度(例えば、vit-b/16を+2.83%のimagenet分類精度で改善)、トレーニングデータ効率(例えば、10%のimagenetトレーニングデータで+12.69%改善)、モデル説明可能性の向上が示されている。 さらに、TransHPは従来のHIC手法に対して良好に動作し、TransHPが階層的な情報をうまく活用していることを示す。

This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information.
翻訳日:2023-10-13 13:34:50 公開日:2023-10-09
# 例外的非ヘルミティクスをもつ量子スピン鎖における$\mathcal{pt}$-symmetry breaking

$\mathcal{PT}$-Symmetry breaking in quantum spin chains with exceptional non-Hermiticities ( http://arxiv.org/abs/2304.10064v2 )

ライセンス: Link先を確認
Jacob Muldoon and Yogesh N. Joglekar(参考訳) パリティ時間(PT)対称性を持つ非エルミートハミルトニアンによって記述された量子系の実現以来、非エルミート的、量子多体モデルへの関心は着実に成長してきた。 ほとんどの研究は、モデルパラメータを複雑または純粋に虚数にすることから生じる非ハーモニティ性を持つ伝統的な量子スピンモデルに最新にマッピングする。 ここでは、エルミート項を2つのジョルダン正規形式に分割して生成した非ハーミティー性を持つ新しいモデルの集合を示し、摂動は1つまたは2つの部位に制限される。 このようなモデルにおけるpt-thresholdの正確な対角化結果を示し,数値解析のための解析的アプローチを提案する。 驚くべきことに、非エルミートポテンシャルは2つまたは1つの部位に制限されているため、量子スピン鎖のサイズに敏感に思える強いPTしきい値が見つかる。 この結果は、多体効果と非ハーミティティー効果の一致を観察できる実験で実現可能な非エルミティアン量子スピン鎖の経路を提供する。

Since the realization of quantum systems described by non-Hermitian Hamiltonians with parity-time (PT) symmetry, interest in non-Hermitian, quantum many-body models has steadily grown. Most studies to-date map to traditional quantum spin models with a non-Hermiticity that arises from making the model parameters complex or purely imaginary. Here, we present a new set of models with non-Hermiticity generated by splitting a Hermitian term into two Jordan-normal form parts, and the perturbations are confined to one or two sites. We present exact diagonalization results for the PT-threshold in such models, and provide an analytical approach for understanding the numerical results. Surprisingly, with non-Hermitian potentials confined to two or even a single site, we find a robust PT threshold that seems insensitive to the size of the quantum spin chain. Our results provide a pathway to experimentally feasible non-Hermitian quantum spin chains where the confluence of many-body effects and non-Hermiticity effects can be observed.
翻訳日:2023-10-13 13:24:38 公開日:2023-10-09
# アバターの知識蒸留:不確かさを自称する教師パラダイム

Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty ( http://arxiv.org/abs/2305.02722v3 )

ライセンス: Link先を確認
Yuan Zhang, Weihua Chen, Yichen Lu, Tao Huang, Xiuyu Sun, Jian Cao(参考訳) 知識蒸留はpocket-sizeモデルのパフォーマンスを高める効果的なパラダイムであり、特に複数の教師モデルが利用可能であれば、生徒は再び上限を破る。 しかし、使い捨て蒸留のために多様な教師モデルを訓練するのは経済的ではない。 本稿では,教師から導かれた推論アンサンブルモデルである蒸留用アバターという新しい概念を提案する。 具体的には,(1)蒸留訓練の各イテレーションにおいて,摂動変換によって様々なアバターが生成される。 我々は,教師モデルから多様で受容的な知識の視点を学習する学生モデルを支援するために,アバターが作業能力と教育能力の上限が高いことを検証した。 2) 蒸留において, バニラ教師とアバターの統計的差異のばらつきから, アバターの知識伝達に対する貢献を適応的に調整する不確実性認識因子を提案する。 Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。 包括的実験により,高濃度予測のための最先端蒸留法を,計算コストを増すことなく洗練するアバター機構の有効性が実証された。 AKDはCOCO 2017では0.7AP、セマンティックセグメンテーションでは1.83mIoU、セマンティックセグメンテーションでは1.83mIoUとなっている。

Knowledge distillation is an effective paradigm for boosting the performance of pocket-size model, especially when multiple teacher models are available, the student would break the upper limit again. However, it is not economical to train diverse teacher models for the disposable distillation. In this paper, we introduce a new concept dubbed Avatars for distillation, which are the inference ensemble models derived from the teacher. Concretely, (1) For each iteration of distillation training, various Avatars are generated by a perturbation transformation. We validate that Avatars own higher upper limit of working capacity and teaching ability, aiding the student model in learning diverse and receptive knowledge perspectives from the teacher model. (2) During the distillation, we propose an uncertainty-aware factor from the variance of statistical differences between the vanilla teacher and Avatars, to adjust Avatars' contribution on knowledge transfer adaptively. Avatar Knowledge Distillation AKD is fundamentally different from existing methods and refines with the innovative view of unequal training. Comprehensive experiments demonstrate the effectiveness of our Avatars mechanism, which polishes up the state-of-the-art distillation methods for dense prediction without more extra computational cost. The AKD brings at most 0.7 AP gains on COCO 2017 for Object Detection and 1.83 mIoU gains on Cityscapes for Semantic Segmentation, respectively.
翻訳日:2023-10-13 13:15:57 公開日:2023-10-09
# 多段階深層登録の構成による逆一貫性

Inverse Consistency by Construction for Multistep Deep Registration ( http://arxiv.org/abs/2305.00087v2 )

ライセンス: Link先を確認
Hastings Greer, Lin Tian, Francois-Xavier Vialard, Roland Kwitt, Sylvain Bouix, Raul San Jose Estepar, Richard Rushmore, and Marc Niethammer(参考訳) 逆一貫性は画像登録に望ましい特性である。 そこで我々は,Lie 群による出力変換をパラメータ化すれば,構成によってニューラルネットワークを逆整合させる簡単な手法を提案する。 我々は、この手法を多段階の神経登録に拡張し、このようなネットワークを逆一貫性を保ちながら構成する。 この多段階のアプローチは、逆一貫性の粗さを微妙に登録することを可能にする。 我々は,合成2次元データと4つの3次元医用画像登録タスクについて評価し,逆整合性を確保しつつ優れた登録精度を得る。

Inverse consistency is a desirable property for image registration. We propose a simple technique to make a neural registration network inverse consistent by construction, as a consequence of its structure, as long as it parameterizes its output transform by a Lie group. We extend this technique to multi-step neural registration by composing many such networks in a way that preserves inverse consistency. This multi-step approach also allows for inverse-consistent coarse to fine registration. We evaluate our technique on synthetic 2-D data and four 3-D medical image registration tasks and obtain excellent registration accuracy while assuring inverse consistency.
翻訳日:2023-10-13 13:13:42 公開日:2023-10-09
# 個人やエンティティ中心の知識グラフのための表現学習:医療への応用

Representation Learning for Person or Entity-centric Knowledge Graphs: An Application in Healthcare ( http://arxiv.org/abs/2305.05640v3 )

ライセンス: Link先を確認
Christos Theodoropoulos, Natasha Mulligan, Thaddeus Stappenbeck, Joao Bettencourt-Silva(参考訳) 知識グラフ(KG)はオントロジーやスキーマに基づいて情報を整理する一般的な方法であり、検索からレコメンデーションまでさまざまなシナリオで使用されている。 KGの進歩にも拘わらず、知識の表現は産業間での非自明な作業であり、エンティティ間の複雑な相互依存関係、異質性、標準化の欠如、データのスパース性などにより、医療分野や医療分野において特に困難である。 KGは、疾患に関連する遺伝子の診断や優先順位付けに使用されるが、それらはしばしば、ノードや人のような関心のあるエンティティを中心としていないスキーマに依存する。 エンティティ中心のkgは比較的探索的ではないが、中央ノードに接続された重要なファセットを表現し、グラフ埋め込みの生成や、幅広い予測タスクのためのグラフニューラルネットワークのトレーニングなど、グラフのトラバーサルや推論を越えて下流タスクをアンロックする。 本稿では、構造化データと非構造化データからエンティティ中心のKGを抽出するエンドツーエンド表現学習フレームワークを提案する。 我々は、人の複数の面を表す星形オントロジーを導入し、それをKG生成のガイドに利用する。 グラフのコンパクト表現はグラフニューラルネットワークを利用して作成され、異質性や明示性の異なるレベルを用いて実験が行われる。 提案するフレームワークの結果を評価するために,可読性予測タスクを用いて,ベースラインの機械学習分類器よりも優れた安定なシステムと,欠落データに対する堅牢性を示す。 このアプローチにはいくつかの潜在的なアプリケーションがあり、オープンソースであることを強調します。 最後に、我々は、実際にフレームワークを採用するための教訓、挑戦、そして次のステップについて話し合う。

Knowledge graphs (KGs) are a popular way to organise information based on ontologies or schemas and have been used across a variety of scenarios from search to recommendation. Despite advances in KGs, representing knowledge remains a non-trivial task across industries and it is especially challenging in the biomedical and healthcare domains due to complex interdependent relations between entities, heterogeneity, lack of standardization, and sparseness of data. KGs are used to discover diagnoses or prioritize genes relevant to disease, but they often rely on schemas that are not centred around a node or entity of interest, such as a person. Entity-centric KGs are relatively unexplored but hold promise in representing important facets connected to a central node and unlocking downstream tasks beyond graph traversal and reasoning, such as generating graph embeddings and training graph neural networks for a wide range of predictive tasks. This paper presents an end-to-end representation learning framework to extract entity-centric KGs from structured and unstructured data. We introduce a star-shaped ontology to represent the multiple facets of a person and use it to guide KG creation. Compact representations of the graphs are created leveraging graph neural networks and experiments are conducted using different levels of heterogeneity or explicitness. A readmission prediction task is used to evaluate the results of the proposed framework, showing a stable system, robust to missing data, that outperforms a range of baseline machine learning classifiers. We highlight that this approach has several potential applications across domains and is open-sourced. Lastly, we discuss lessons learned, challenges, and next steps for the adoption of the framework in practice.
翻訳日:2023-10-13 13:06:48 公開日:2023-10-09
# mot:chatgptの自己改善を可能にするメモリ・オブ・マインド

MoT: Memory-of-Thought Enables ChatGPT to Self-Improve ( http://arxiv.org/abs/2305.05181v2 )

ライセンス: Link先を確認
Xiaonan Li, Xipeng Qiu(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示している。 しかし、基本的には高品質なデータセットや計算コストの高い微調整に依存する。 逆に人間は、外部リソースを使わずに、自己思考と記憶によって容易に自己改善できる。 本稿では,注釈付きデータセットやパラメータ更新を使わずに,LCMがMemory-of-Thoughtを通じて自己改善できるフレームワークであるMoTを提案する。 具体的には、MoTは2つの段階に分けられる。 1. テストステージの前に、llmはラベルのないデータセットを事前に考え、信頼性の高い考えを外部記憶として保存する。 2. テスト段階では、テスト質問が与えられたとき、llmは関連する記憶を思い出し、それを推論し、答える。 実験結果から,算術的推論,常識推論,事実推論,自然言語推論におけるChatGPTの能力向上に寄与することが示唆された。 さらに分析したところ、各コンポーネントは改善に決定的に寄与し、MoTは様々なCoTメソッドやLLM間で一貫した改善をもたらすことが示された。

Large Language Models (LLMs) have shown impressive abilities in various tasks. However, fundamentally improving them depends on high-quality datasets or computationally expensive fine-tuning. On the contrary, humans can easily improve themselves by self-thinking and memory, without external resources. In this paper, we propose a framework, MoT, to let the LLM self-improve through Memory-of-Thought, without annotated datasets and parameter updates. Specifically, MoT is divided into two stages: 1. before the test stage, the LLM pre-thinks on the unlabeled dataset and saves the high-confidence thoughts as external memory; 2. During the test stage, given a test question, the LLM recalls relevant memory to help itself reason and answer it. Experimental results show that MoT can help ChatGPT significantly improve its abilities in arithmetic reasoning, commonsense reasoning, factual reasoning, and natural language inference. Further analyses show that each component contributes critically to the improvements and MoT can lead to consistent improvements across various CoT methods and LLMs.
翻訳日:2023-10-13 13:05:58 公開日:2023-10-09
# CLIP-VG: Visual GroundingのためのCLIPの自己ペーストカリキュラム適応

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding ( http://arxiv.org/abs/2305.08685v3 )

ライセンス: Link先を確認
Linhui Xiao, Xiaoshan Yang, Fang Peng, Ming Yan, Yaowei Wang, Changsheng Xu(参考訳) 視覚的グラウンドリング(VG)は視覚と言語において重要なトピックであり、画像内の表現によって記述された特定の領域を特定する。 手動ラベルデータへの依存を減らすために,疑似ラベルを用いた領域同定のための教師なし手法が開発されている。 しかし、既存の教師なし手法の性能は擬似ラベルの品質に大きく依存しており、これらの手法は常に多様性に制限のある問題に遭遇する。 視覚と言語を事前学習したモデルを用いて基礎問題に対処し,疑似ラベルを合理的に活用するために,CLIPを擬似言語ラベルに適応させる新しい手法であるCLIP-VGを提案する。 本稿では,CLIPの視覚的基盤への転送を実現するための,シンプルで効率的なエンドツーエンドネットワークアーキテクチャを提案する。 クリップベースアーキテクチャに基づき,より信頼性の高い疑似ラベルを徐々に見つけて最適なモデルを学習し,疑似言語ラベルの信頼性と多様性のバランスを図るための,単元・複数ソースのカリキュラム適応アルゴリズムを提案する。 提案手法は,RefCOCO/+/gデータセットの単一ソースシナリオとマルチソースシナリオの両方で,それぞれ6.78%から10.67%,11.39%から14.87%に改善した。 さらに,本手法は既存の弱教師付き手法よりも優れている。 コードとモデルはhttps://github.com/linhuixiao/CLIP-VGで公開されている。

Visual Grounding (VG) is a crucial topic in the field of vision and language, which involves locating a specific region described by expressions within an image. To reduce the reliance on manually labeled data, unsupervised methods have been developed to locate regions using pseudo-labels. However, the performance of existing unsupervised methods is highly dependent on the quality of pseudo-labels and these methods always encounter issues with limited diversity. In order to utilize vision and language pre-trained models to address the grounding problem, and reasonably take advantage of pseudo-labels, we propose CLIP-VG, a novel method that can conduct self-paced curriculum adapting of CLIP with pseudo-language labels. We propose a simple yet efficient end-to-end network architecture to realize the transfer of CLIP to the visual grounding. Based on the CLIP-based architecture, we further propose single-source and multi-source curriculum adapting algorithms, which can progressively find more reliable pseudo-labels to learn an optimal model, thereby achieving a balance between reliability and diversity for the pseudo-language labels. Our method outperforms the current state-of-the-art unsupervised method by a significant margin on RefCOCO/+/g datasets in both single-source and multi-source scenarios, with improvements ranging from 6.78% to 10.67% and 11.39% to 14.87%, respectively. Furthermore, our approach even outperforms existing weakly supervised methods. The code and models are available at https://github.com/linhuixiao/CLIP-VG.
翻訳日:2023-10-13 12:56:12 公開日:2023-10-09
# 大規模言語モデルによるテキスト分類

Text Classification via Large Language Models ( http://arxiv.org/abs/2305.08377v3 )

ライセンス: Link先を確認
Xiaofei Sun, Xiaoya Li, Jiwei Li, Fei Wu, Shangwei Guo, Tianwei Zhang and Guoyin Wang(参考訳) GPT-3のような大規模言語モデル(LLM)の顕著な成功にもかかわらず、その性能はテキスト分類のタスクにおいて微調整モデルよりも著しく劣っている。 これは、(1)複雑な言語現象(例えば、強調、コントラスト、皮肉など)に対処する推論能力の欠如、(2)文脈内学習で許されるトークンの数に制限があるためである。 本稿では,Clue And Reasoning Prompting (CARP)を紹介する。 CARPは、テキスト分類に関わる複雑な言語現象に対処するのに適したプログレッシブ推論戦略を採用する: CARPは、最終決定のために診断推論プロセスが誘導される表面的手がかり(キーワード、トーン、セマンティックリレーション、参照など)を見つけるようLLMに促す。 限定的な問題に対処するため、CARPは教師付きデータセット上の細調整されたモデルを使用して、コンテキスト内学習における$k$NNのデモ検索を行い、LLMの一般化能力と完全なラベル付きデータセットが提供するタスク固有のエビデンスの両方を活用することができる。 驚くべきことに、carpは広く使われている5つのテキスト分類ベンチマークのうち4つ、97.39 (+1.24) はsst-2、96.40 (+0.72) はagnews、98.78 (+0.25) はr8、96.95 (+0.6) はr52で、som on mr (92.39 v.s. 93.3) と同等の性能を持つ。 さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。 具体的には、クラス毎に16の例を使用して、CARPはクラス毎に1,024の例を持つ教師付きモデルに匹敵するパフォーマンスを達成する。

Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce Clue And Reasoning Prompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM's generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.
翻訳日:2023-10-13 12:55:18 公開日:2023-10-09
# マルチアーム付きバンディットを用いたマルチタスクコンビナラシャルニューラルネットワークの効率的な学習

Efficient Training of Multi-task Combinarotial Neural Solver with Multi-armed Bandits ( http://arxiv.org/abs/2305.06361v2 )

ライセンス: Link先を確認
Chenguang Wang, Tianshu Yu(参考訳) 様々な組合せ最適化問題(COP)に対するマルチタスクニューラルソルバの効率的なトレーニングは、これまであまり研究されていない。 本稿では,マルチアームバンディットに基づく汎用的かつ効率的なトレーニングパラダイムを提案し,統合型組合せ型マルチタスクニューラルソルバを提案する。 このために、エンコーダ・デコーダ・フレームワークの下での複数のタスクの理論的損失分解に頼り、タスク内インフルエンサ・マトリックスを介して、適切なバンディット・タスクサンプリングアルゴリズムによるより効率的なトレーニングを可能にする。 本手法は,他のマルチタスク大規模モデルの効率的なトレーニングを推奨できる標準トレーニングスケジュールと比較して,限られたトレーニング予算と同一のトレーニングエポックのいずれにおいても,総合的なパフォーマンスを実現する。 さらに、影響行列は、学習の最適化分野におけるいくつかの一般的な実践の実証的な証拠を提供することができ、それによって、我々のアプローチの有効性が裏付けられる。

Efficiently training a multi-task neural solver for various combinatorial optimization problems (COPs) has been less studied so far. In this paper, we propose a general and efficient training paradigm based on multi-armed bandits to deliver a unified combinarotial multi-task neural solver. To this end, we resort to the theoretical loss decomposition for multiple tasks under an encoder-decoder framework, which enables more efficient training via proper bandit task-sampling algorithms through an intra-task influence matrix. Our method achieves much higher overall performance with either limited training budgets or the same training epochs, compared to standard training schedules, which can be promising for advising efficient training of other multi-task large models. Additionally, the influence matrix can provide empirical evidence of some common practices in the area of learning to optimize, which in turn supports the validity of our approach.
翻訳日:2023-10-13 12:53:41 公開日:2023-10-09
# MVマップ:マルチビュー一貫性を持つオフボードHDマップ生成

MV-Map: Offboard HD-Map Generation with Multi-view Consistency ( http://arxiv.org/abs/2305.08851v3 )

ライセンス: Link先を確認
Ziyang Xie and Ziqi Pang and Yu-Xiong Wang(参考訳) 鳥の目視(BEV)知覚モデルは、人間の労働力が少ない高精細地図(HD-Maps)を構築するのに有用であるが、それらの結果は信頼できないことが多く、異なる視点から予測されたHD-Mapsに顕著な矛盾を示す。 これは、BEVの知覚が一般に「オンボード」な方法で設定されるためであり、計算を制限し、アルゴリズムが複数のビューを同時に推論することを防ぐ。 本稿では,これらの制約を克服し,hd-mapが一般的にデータセンタにオフラインで構築される再利用可能なインフラストラクチャであるという事実に基づいて,計算制約を解消する,より実用的な'オフボード'なhd-map生成設定を提唱する。 そこで本研究では,マルチビューの一貫性を活かし,任意のフレーム数を扱うことのできるmv-mapと呼ばれる新しいオフボードパイプラインを提案する。 MV-Mapでは、対象のHD-Mapは、"不確実性ネットワーク"によって割り当てられた信頼スコアによって重み付けられた、オンボード予測のすべてのフレームを集約することによって作成される。 マルチビューの整合性を高めるため,ボクセル化ニューラルラジアンス場(Voxel-NeRF)によって最適化されたグローバルな3次元構造を持つ不確実性ネットワークを構築した。 nuScenesの大規模な実験により,我々のMV-MapはHD-Mapsの品質を大幅に改善し,HD-Maps生成のためのオフボード手法の重要性を強調した。

While bird's-eye-view (BEV) perception models can be useful for building high-definition maps (HD-Maps) with less human labor, their results are often unreliable and demonstrate noticeable inconsistencies in the predicted HD-Maps from different viewpoints. This is because BEV perception is typically set up in an 'onboard' manner, which restricts the computation and consequently prevents algorithms from reasoning multiple views simultaneously. This paper overcomes these limitations and advocates a more practical 'offboard' HD-Map generation setup that removes the computation constraints, based on the fact that HD-Maps are commonly reusable infrastructures built offline in data centers. To this end, we propose a novel offboard pipeline called MV-Map that capitalizes multi-view consistency and can handle an arbitrary number of frames with the key design of a 'region-centric' framework. In MV-Map, the target HD-Maps are created by aggregating all the frames of onboard predictions, weighted by the confidence scores assigned by an 'uncertainty network'. To further enhance multi-view consistency, we augment the uncertainty network with the global 3D structure optimized by a voxelized neural radiance field (Voxel-NeRF). Extensive experiments on nuScenes show that our MV-Map significantly improves the quality of HD-Maps, further highlighting the importance of offboard methods for HD-Map generation.
翻訳日:2023-10-13 12:45:33 公開日:2023-10-09
# MVマップ:マルチビュー一貫性を持つオフボードHDマップ生成

MV-Map: Offboard HD-Map Generation with Multi-view Consistency ( http://arxiv.org/abs/2305.08851v2 )

ライセンス: Link先を確認
Ziyang Xie and Ziqi Pang and Yu-Xiong Wang(参考訳) 鳥の目視(BEV)知覚モデルは、人間の労働力が少ない高精細地図(HD-Maps)を構築するのに有用であるが、それらの結果は信頼できないことが多く、異なる視点から予測されたHD-Mapsに顕著な矛盾を示す。 これは、BEVの知覚が一般に「オンボード」な方法で設定されるためであり、計算を制限し、アルゴリズムが複数のビューを同時に推論することを防ぐ。 本稿では,これらの制約を克服し,hd-mapが一般的にデータセンタにオフラインで構築される再利用可能なインフラストラクチャであるという事実に基づいて,計算制約を解消する,より実用的な'オフボード'なhd-map生成設定を提唱する。 そこで本研究では,マルチビューの一貫性を活かし,任意のフレーム数を扱うことのできるmv-mapと呼ばれる新しいオフボードパイプラインを提案する。 MV-Mapでは、対象のHD-Mapは、"不確実性ネットワーク"によって割り当てられた信頼スコアによって重み付けられた、オンボード予測のすべてのフレームを集約することによって作成される。 マルチビューの整合性を高めるため,ボクセル化ニューラルラジアンス場(Voxel-NeRF)によって最適化されたグローバルな3次元構造を持つ不確実性ネットワークを構築した。 nuScenesの大規模な実験により,我々のMV-MapはHD-Mapsの品質を大幅に改善し,HD-Maps生成のためのオフボード手法の重要性を強調した。

While bird's-eye-view (BEV) perception models can be useful for building high-definition maps (HD-Maps) with less human labor, their results are often unreliable and demonstrate noticeable inconsistencies in the predicted HD-Maps from different viewpoints. This is because BEV perception is typically set up in an 'onboard' manner, which restricts the computation and consequently prevents algorithms from reasoning multiple views simultaneously. This paper overcomes these limitations and advocates a more practical 'offboard' HD-Map generation setup that removes the computation constraints, based on the fact that HD-Maps are commonly reusable infrastructures built offline in data centers. To this end, we propose a novel offboard pipeline called MV-Map that capitalizes multi-view consistency and can handle an arbitrary number of frames with the key design of a 'region-centric' framework. In MV-Map, the target HD-Maps are created by aggregating all the frames of onboard predictions, weighted by the confidence scores assigned by an 'uncertainty network'. To further enhance multi-view consistency, we augment the uncertainty network with the global 3D structure optimized by a voxelized neural radiance field (Voxel-NeRF). Extensive experiments on nuScenes show that our MV-Map significantly improves the quality of HD-Maps, further highlighting the importance of offboard methods for HD-Map generation.
翻訳日:2023-10-13 12:45:01 公開日:2023-10-09
# llmプロンプトによる解釈可能な組込みの学習

Learning Interpretable Style Embeddings via Prompting LLMs ( http://arxiv.org/abs/2305.12696v2 )

ライセンス: Link先を確認
Ajay Patel, Delip Rao, Ansh Kothary, Kathleen McKeown, Chris Callison-Burch(参考訳) スタイル表現学習はテキストで著者スタイルのコンテンツに依存しない表現を構築する。 テクストのスタイル分析であるスティロメトリは、専門家の法言語学者によってしばしば行われ、トレーニングのための多くのスタイル的アノテーションのデータセットは存在しない。 現在のスタイル表現学習では、ニューラルネットワークを使ってコンテンツからスタイルを分離してスタイルベクトルを生成するが、これらのアプローチは解釈不能な表現となり、監査や説明が重要な下流アプリケーションでの使用を複雑にする。 本研究では,多数のテキストのスタイメトリーを用いて合成データセットを作成し,LISA埋め込みと呼ばれる人間の解釈可能なスタイル表現を訓練する。 合成スタイメトリデータセットと解釈可能なスタイルモデルをリソースとしてリリースする。

Style representation learning builds content-independent representations of author style in text. Stylometry, the analysis of style in text, is often performed by expert forensic linguists and no large dataset of stylometric annotations exists for training. Current style representation learning uses neural methods to disentangle style from content to create style vectors, however, these approaches result in uninterpretable representations, complicating their usage in downstream applications like authorship attribution where auditing and explainability is critical. In this work, we use prompting to perform stylometry on a large number of texts to create a synthetic dataset and train human-interpretable style representations we call LISA embeddings. We release our synthetic stylometry dataset and our interpretable style models as resources.
翻訳日:2023-10-13 12:34:27 公開日:2023-10-09
# 特定のシナリオに対するllamaのマルチタスク命令チューニング:書き込み支援に関する予備的検討

Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance ( http://arxiv.org/abs/2305.13225v2 )

ライセンス: Link先を確認
Yue Zhang and Leyang Cui and Deng Cai and Xinting Huang and Tao Fang and Wei Bi(参考訳) ChatGPTのようなプロプライエタリなLarge Language Models (LLM) は、様々なタスクを扱うのに異常な能力があることから、大きな注目を集めている。 近年の研究では、7BサイズのLLaMAのようなオープンソースの小さな基礎モデルでも、インストラクション駆動データを用いて微調整を行う場合、多様なタスクに対処する能力が顕著であることが示されている。 本研究は、汎用的な指示よりも1つまたは複数の特定のタスクに主眼を置いている現実的な問題について検討し、そのようなシナリオに対してLLMが有用でさらに改善できるかどうかを考察する。 7つの書き込みタスクを含むテストベッドとして、書き込み補助シナリオを選択します。 我々はこれらのタスクのトレーニングデータを収集し、命令追従形式に再構成し、その後、命令チューニングによりLLaMAを洗練する。 実験結果から,命令データに対する微調整LLaMAはタスク作成能力を大幅に向上することがわかった。 また、特定のシナリオを効果的に微調整するllamaに関する今後の作業に対する洞察を提供するために、より多くの実験と分析を行っています。 最後に,1つの目標タスクのみにLLMを採用することの必要性について,チューニングに必要な労力と,デプロイメント中に消費されるリソースを考慮に入れた議論を開始する。

Proprietary Large Language Models (LLMs), such as ChatGPT, have garnered significant attention due to their exceptional capabilities in handling a diverse range of tasks. Recent studies demonstrate that open-sourced smaller foundational models, such as 7B-size LLaMA, can also display remarkable proficiency in tackling diverse tasks when fine-tuned using instruction-driven data. In this work, we investigate a practical problem setting where the primary focus is on one or a few particular tasks rather than general-purpose instruction following, and explore whether LLMs can be beneficial and further improved for such targeted scenarios. We choose the writing-assistant scenario as the testbed, which includes seven writing tasks. We collect training data for these tasks, reframe them in an instruction-following format, and subsequently refine the LLM, specifically LLaMA, via instruction tuning. Experimental results show that fine-tuning LLaMA on writing instruction data significantly improves its ability on writing tasks. We also conduct more experiments and analyses to offer insights for future work on effectively fine-tuning LLaMA for specific scenarios. Finally, we initiate a discussion regarding the necessity of employing LLMs for only one targeted task, taking into account the efforts required for tuning and the resources consumed during deployment.
翻訳日:2023-10-13 12:23:30 公開日:2023-10-09
# SummIt: ChatGPTによる反復的なテキスト要約

SummIt: Iterative Text Summarization via ChatGPT ( http://arxiv.org/abs/2305.14835v2 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) テキスト要約システムは近年大きく進歩しているが、通常は1つのステップで要約を生成する。 しかし、生成した要約には幻覚が含まれたり、読者の興味にかかわる重要な詳細を見落としたりする可能性があるため、ワンショットの要約設定は不適切であることがある。 本稿では,ChatGPT のような大規模言語モデルに基づく反復的なテキスト要約フレームワーク SummIt を提案する。 このフレームワークにより,生成した要約を自己評価とフィードバックを通じて反復的に洗練することができる。 さらに,本フレームワークに知識とトピック抽出器を統合することにより,要約忠実度と可制御性を向上する可能性についても検討する。 3つのベンチマーク要約データセット上で,フレームワークの性能を自動評価する。 また,反復的改良の有効性を検証し,過補正の潜在的な問題を特定するために人的評価を行う。

Text summarization systems have made significant progress in recent years, but typically generate summaries in one single step. However, the one-shot summarization setting is sometimes inadequate, as the generated summary may contain hallucinations or overlook essential details related to the reader's interests. This paper addresses this limitation by proposing SummIt, an iterative text summarization framework based on large language models like ChatGPT. Our framework enables the model to refine the generated summary iteratively through self-evaluation and feedback, resembling humans' iterative process when drafting and revising summaries. Furthermore, we explore the potential benefits of integrating knowledge and topic extractors into the framework to enhance summary faithfulness and controllability. We automatically evaluate the performance of our framework on three benchmark summarization datasets. We also conduct a human evaluation to validate the effectiveness of the iterative refinements and identify a potential issue of over-correction.
翻訳日:2023-10-13 12:14:25 公開日:2023-10-09
# Sophia: 言語モデル事前トレーニングのためのスケーラブルな確率的2次最適化

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training ( http://arxiv.org/abs/2305.14342v2 )

ライセンス: Link先を確認
Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma(参考訳) 言語モデルの事前学習の膨大なコストを考えると、最適化アルゴリズムの非自明な改善は、トレーニングの時間とコストの物質的削減につながるだろう。 アダムとその変種は長年最先端であり、より洗練された第2次最適化(ヘシアンベース)はしばしばステップ毎のオーバーヘッドを負う。 本稿では,対角ヘッシアンの軽量推定を前提条件として用いた,スケーラブルな2次最適化手法であるソフィアを提案する。 この更新は、推定されたヘッセンの移動平均で分割された勾配の移動平均であり、次いで要素ワイドクリッピングである。 クリップは最悪のケースの更新サイズを制御し、非凸性の悪影響と軌道に沿ったヘッセンの急速な変化を和らげる。 sophiaは一握りのイテレーションで対角ヘッシアンを見積もるだけで、ステップ毎の平均時間とメモリオーバーヘッドは無視できる。 125mから1.5bまでのサイズのgptモデルを用いた言語モデリングでは、sophiaはステップ数、計算総数、壁時計時間においてadamと比較して2倍のスピードアップを達成し、50%のステップ数、計算総数、壁時計時間の短縮で同じパープレキシティを達成する。 理論的には、ソフィアはより単純化された設定で、異なるパラメータ次元のヘテロジニアス曲率に適応し、損失の条件数に依存しない実行時境界を持つことを示す。

Given the massive cost of language model pre-training, a non-trivial improvement of the optimization algorithm would lead to a material reduction on the time and cost of training. Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead. On language modeling with GPT models of sizes ranging from 125M to 1.5B, Sophia achieves a 2x speed-up compared to Adam in the number of steps, total compute, and wall-clock time, achieving the same perplexity with 50% fewer steps, less total compute, and reduced wall-clock time. Theoretically, we show that Sophia, in a much simplified setting, adapts to the heterogeneous curvatures in different parameter dimensions, and thus has a run-time bound that does not depend on the condition number of the loss.
翻訳日:2023-10-13 12:12:27 公開日:2023-10-09
# INSTRUCTSCORE:きめ細かいフィードバックによる説明可能なテキスト生成評価

INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback ( http://arxiv.org/abs/2305.14282v2 )

ライセンス: Link先を確認
Wenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag, William Yang Wang, Lei Li(参考訳) 言語生成の品質を自動評価することが重要である。 近年の学習指標は人間の判断と高い相関性を示すが、これらの指標は評価を説明できないし、結果が生成したテキストの欠陥と関連付けることもできない。 この制限に対処するために,テキスト生成のための説明可能な評価指標であるinstructscoreを提案する。 GPT-4の明示的な人的指導と暗黙的な知識の両方を活用することで、LLaMAに基づくテキスト評価基準を微調整し、生成されたテキストのスコアと可読性診断レポートの両方を生成する。 翻訳,キャプション,データ・ツー・テキスト,コモンセンス生成など,様々な生成タスクにおいてinstructscoreを評価する。 実験の結果、我々の7Bモデルは175B GPT-3 や GPT-4 など、他の教師なしの指標を上回ることがわかった。 驚いたことに、私たちのInstructScoreは、人間の評価データを直接監督しなくても、人間の評価に基づいて微調整されたCOMET22のような最先端のメトリクスと同等のパフォーマンスレベルを達成する。

Automatically evaluating the quality of language generation is critical. Although recent learned metrics show high correlation with human judgement, these metrics can not explain their verdict or associate the scores with defects in generated text. To address this limitation, we present InstructScore, an explainable evaluation metric for text generation. By harnessing both explicit human instruction and the implicit knowledge of GPT-4, we fine-tune a text evaluation metric based on LLaMA, producing both a score for generated text and a human readable diagnostic report. We evaluate InstructScore on a variety of generation tasks, including translation, captioning, data-to-text and commonsense generation. Experiments show that our 7B model surpasses all other unsupervised metrics, including those based on 175B GPT-3 and GPT-4. Surprisingly, our InstructScore, even without direct supervision from human-rated data, achieves performance levels on par with state-of-the-art metrics like COMET22, which were fine-tuned on human ratings.
翻訳日:2023-10-13 12:11:38 公開日:2023-10-09
# 認知理論に基づく交通行動予測モデルを用いた事例研究

Using Models Based on Cognitive Theory to Predict Human Behavior in Traffic: A Case Study ( http://arxiv.org/abs/2305.15187v2 )

ライセンス: Link先を確認
Julian F. Schumann, Aravinda Ramakrishnan Srinivasan, Jens Kober, Gustav Markkula, Arkady Zgonnikov(参考訳) 自動走行車の開発は輸送に革命をもたらす可能性があるが、現在、安全で時間効率のよい運転スタイルを保証することはできない。 人間の行動を予測する信頼できるモデルは、この問題を克服するために不可欠である。 データ駆動モデルは一般的にこの目的に使用されるが、安全クリティカルなエッジケースでは脆弱である。 これは認知理論を組み込んだモデルに関心を寄せてきたが、そのようなモデルは説明目的のために一般的に開発されているため、行動予測におけるこのアプローチの有効性は、これまでほとんどテストされていない。 本稿では,人間の認知,意思決定,運動制御の最新の理論を取り入れた,車線変化や交差点など多くの重要な交通相互作用を伴うギャップ受容シナリオにおける人間の行動予測モデルである「emph{Commotions} モデル」の有用性について検討する。 このモデルは、いくつかの自然主義的データセットをまたいで、確立されたデータ駆動予測モデルと競合したり、さらに優れることを示す。 これらの結果は、自動運転車の行動予測モデルに認知理論を組み込むことの可能性を実証する。

The development of automated vehicles has the potential to revolutionize transportation, but they are currently unable to ensure a safe and time-efficient driving style. Reliable models predicting human behavior are essential for overcoming this issue. While data-driven models are commonly used to this end, they can be vulnerable in safety-critical edge cases. This has led to an interest in models incorporating cognitive theory, but as such models are commonly developed for explanatory purposes, this approach's effectiveness in behavior prediction has remained largely untested so far. In this article, we investigate the usefulness of the \emph{Commotions} model -- a novel cognitively plausible model incorporating the latest theories of human perception, decision-making, and motor control -- for predicting human behavior in gap acceptance scenarios, which entail many important traffic interactions such as lane changes and intersections. We show that this model can compete with or even outperform well-established data-driven prediction models across several naturalistic datasets. These results demonstrate the promise of incorporating cognitive theory in behavior prediction models for automated vehicles.
翻訳日:2023-10-13 12:04:36 公開日:2023-10-09
# 変圧器における常識の編集

Editing Common Sense in Transformers ( http://arxiv.org/abs/2305.14956v2 )

ライセンス: Link先を確認
Anshita Gupta, Debanjan Mondal, Akshay Krishna Sheshadri, Wenlong Zhao, Xiang Lorraine Li, Sarah Wiegreffe, Niket Tandon(参考訳) Transformersでモデルパラメータを直接編集することで、再トレーニングなしでブラックボックスモデルの更新が可能になる(Meng et al., 2023)。 しかし,これらの編集手法は,百科事典の知識を1つの正解で記述した上でのみ評価されている。 リンゴは緑か赤であるが透明ではないなど、複数の正解を持つ常識知識は研究されていないが、トランスフォーマーの信頼性と有用性を高めるのに不可欠である。 本稿では,コモンセンス判断が変圧器の局所化・編集可能なパラメータと因果関係にあるかどうかを調査し,肯定的な回答を与える。 我々は,MEMIT編集アルゴリズムを直接適用することにより,サブパー性能が向上し,コモンセンス領域の編集トークンが変化し,層選択戦略,すなわち$MEMIT_{CSK}$が向上することを発見した。 GPT-2 大規模なXLモデルは$MEMIT_{CSK}$で編集され、PEP3kと20Qデータセットで10.97%、F1スコアが10.73%向上した。 さらに, 影響を受けない地域, 影響のあるパラフレーズ, 影響のある推論課題を含む新しい評価データセット PROBE SET を提案する。 memit_{csk}$はメトリクス全体でうまく動作し、微調整されたベースラインは影響を受けないメトリクスと影響を受けるメトリクスの間の大きなトレードオフを示しています。 これらの結果は、直接モデル編集により、トランスフォーマーに常識に関するフィードバックを組み込むための説得力のある将来の方向性を示唆する。

Editing model parameters directly in Transformers makes updating black-box models possible without re-training (Meng et al., 2023). However, these editing methods have only been evaluated on statements about encyclopedic knowledge with a single correct answer. Commonsense knowledge with multiple correct answers, e.g., an apple can be green or red but not transparent, has not been studied but is as essential for enhancing transformers' reliability and usefulness. In this paper, we investigate whether commonsense judgments are causally associated with localized, editable parameters in Transformers, and we provide an affirmative answer. We find that directly applying the MEMIT editing algorithm results in sub-par performance and improve it for the commonsense domain by varying edit tokens and improving the layer selection strategy, i.e., $MEMIT_{CSK}$. GPT-2 Large and XL models edited using $MEMIT_{CSK}$ outperform best-fine-tuned baselines by 10.97% and 10.73% F1 scores on PEP3k and 20Q datasets. In addition, we propose a novel evaluation dataset, PROBE SET, that contains unaffected and affected neighborhoods, affected paraphrases, and affected reasoning challenges. $MEMIT_{CSK}$ performs well across the metrics while fine-tuning baselines show significant trade-offs between unaffected and affected metrics. These results suggest a compelling future direction for incorporating feedback about common sense into Transformers through direct model editing.
翻訳日:2023-10-13 12:03:17 公開日:2023-10-09
# DSFFNet:3Dポッド転送のためのデュアルサイド機能融合ネットワーク

DSFFNet: Dual-Side Feature Fusion Network for 3D Pose Transfer ( http://arxiv.org/abs/2305.14951v2 )

ライセンス: Link先を確認
Jue Liu(参考訳) 既存手法におけるポーズ特徴の前方伝播におけるポーズ歪みを解決するために,ポーズ伝達のためのデュアルサイド特徴融合ネットワーク(DSFFNet)を提案する。 Firstly, a fixed-length pose code is extracted from the source mesh by a pose encoder and combined with the target vertices to form a mixed feature; Then, a Feature Fusion Adaptive Instance Normalization module (FFAdaIN) is designed, which can process both pose and identity features simultaneously, so that the pose features can be compensated in layer-by-layer for-ward propagation, thus solving the pose distortion problem; Finally, using the mesh decoder composed of this module, the pose are gradually transferred to the target mesh. smpl, smal, faust, multigarmentデータセットを用いた実験の結果, dsffnetはより強力なポーズ転送能力とより高速な収束速度でより小さなネットワーク構造を維持しつつ, ポーズ歪み問題をうまく解決でき, 頂点数の異なるメッシュに適応できることがわかった。 コードはhttps://github.com/YikiDragon/DSFFNetで入手できる。

To solve the problem of pose distortion in the forward propagation of pose features in existing methods, this pa-per proposes a Dual-Side Feature Fusion Network for pose transfer (DSFFNet). Firstly, a fixed-length pose code is extracted from the source mesh by a pose encoder and combined with the target vertices to form a mixed feature; Then, a Feature Fusion Adaptive Instance Normalization module (FFAdaIN) is designed, which can process both pose and identity features simultaneously, so that the pose features can be compensated in layer-by-layer for-ward propagation, thus solving the pose distortion problem; Finally, using the mesh decoder composed of this module, the pose are gradually transferred to the target mesh. Experimental results on SMPL, SMAL, FAUST and MultiGarment datasets show that DSFFNet successfully solves the pose distortion problem while maintaining a smaller network structure with stronger pose transfer capability and faster convergence speed, and can adapt to meshes with different numbers of vertices. Code is available at https://github.com/YikiDragon/DSFFNet
翻訳日:2023-10-13 12:02:49 公開日:2023-10-09
# 信頼による生成:ブラックボックス大言語モデルの不確実性定量化

Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models ( http://arxiv.org/abs/2305.19187v2 )

ライセンス: Link先を確認
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) 自然言語生成(NLG)に特化した大規模言語モデル(LLM)は、最近、様々な領域で有望な能力を示すようになった。 しかし、LSMsが生み出す応答の信頼性を追求することは、NLGの不確実性定量化(UQ)の研究が限られており、未解決の課題である。 さらに、既存の文献では言語モデルへのホワイトボックスアクセスを前提としており、これは最新のLCMのクローズソースの性質や計算上の制約によって非現実的になっている。 本研究では,NLG におけるブラックボックス LLM の UQ について検討する。 我々はまず、不確実性と信頼を区別する: 前者は、固定された入力に対する潜在的な予測の「分散」、後者は特定の予測/世代に対する信頼を指す。 次に,いくつかの信頼度/不確実性指標を提案し比較し,信頼できない結果が無視されるか,あるいはさらなる評価を行うことができる選択的nlgに適用する。 質問応答データセット(評価目的)について,いくつかのLLMを用いて実験を行った。 その結果, 意味的分散の簡易な指標は, LLMの応答品質の信頼性の高い予測因子となり, LLMを採用する際の不確実性管理の実践者にとって貴重な知見となることがわかった。 実験を再現するコードはhttps://github.com/zlin7/UQ-NLG.comで公開されている。

Large language models (LLMs) specializing in natural language generation (NLG) have recently started exhibiting promising capabilities across a variety of domains. However, gauging the trustworthiness of responses generated by LLMs remains an open challenge, with limited research on uncertainty quantification (UQ) for NLG. Furthermore, existing literature typically assumes white-box access to language models, which is becoming unrealistic either due to the closed-source nature of the latest LLMs or computational constraints. In this work, we investigate UQ in NLG for black-box LLMs. We first differentiate uncertainty vs confidence: the former refers to the "dispersion" of the potential predictions for a fixed input, and the latter refers to the confidence on a particular prediction/generation. We then propose and compare several confidence/uncertainty metrics, applying them to selective NLG where unreliable results could either be ignored or yielded for further assessment. Experiments were carried out with several popular LLMs on question-answering datasets (for evaluation purposes). Results reveal that a simple metric for the semantic dispersion can be a reliable predictor of the quality of LLM responses, providing valuable insights for practitioners on uncertainty management when adopting LLMs. The code to replicate our experiments is available at https://github.com/zlin7/UQ-NLG.
翻訳日:2023-10-13 11:54:35 公開日:2023-10-09
# 近位初期化による拡散モデルの効率的なメンバーシップ推論攻撃

An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization ( http://arxiv.org/abs/2305.18355v2 )

ライセンス: Link先を確認
Fei Kong, Jinhao Duan, RuiPeng Ma, Hengtao Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu(参考訳) 近年,拡散モデルが画像や音声などのタスク生成に多大な成功を収めている。 しかし、他の生成モデルと同様に、拡散モデルはプライバシーの問題を引き起こす。 本稿では,$t=0$で初期化される$\epsilon$で得られた基底軌道を利用して,メンバシップを推定する,効率的なクエリベースメンバシップ推論攻撃(mia),すなわち近位初期化攻撃(pia)を提案する。 実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。 さらに,従来の拡散モデルのプライバシに関する研究は,音声タスクを考慮せずに視覚タスクに焦点を合わせてきた。 そこで本研究では,音声生成タスクであるTTSタスクにおいて,MIAへの拡散モデルの堅牢性についても検討する。 我々の知る限り、この研究は、TSタスクにおけるMIAへの拡散モデルのロバスト性を研究する最初のものである。 実験の結果,Mel-spectrogram (image-like)出力のモデルはMIAに対して脆弱であり,オーディオ出力のモデルはMIAに対して比較的堅牢であることがわかった。 {Code は \url{https://github.com/kong13661/PIA}} で利用できる。

Recently, diffusion models have achieved remarkable success in generating tasks, including image and audio generation. However, like other generative models, diffusion models are prone to privacy issues. In this paper, we propose an efficient query-based membership inference attack (MIA), namely Proximal Initialization Attack (PIA), which utilizes groundtruth trajectory obtained by $\epsilon$ initialized in $t=0$ and predicted point to infer memberships. Experimental results indicate that the proposed method can achieve competitive performance with only two queries on both discrete-time and continuous-time diffusion models. Moreover, previous works on the privacy of diffusion models have focused on vision tasks without considering audio tasks. Therefore, we also explore the robustness of diffusion models to MIA in the text-to-speech (TTS) task, which is an audio generation task. To the best of our knowledge, this work is the first to study the robustness of diffusion models to MIA in the TTS task. Experimental results indicate that models with mel-spectrogram (image-like) output are vulnerable to MIA, while models with audio output are relatively robust to MIA. {Code is available at \url{https://github.com/kong13661/PIA}}.
翻訳日:2023-10-13 11:53:21 公開日:2023-10-09
# 言語モデルファインチューニングのための優先接地型トークンレベルガイダンス

Preference-grounded Token-level Guidance for Language Model Fine-tuning ( http://arxiv.org/abs/2306.00398v2 )

ライセンス: Link先を確認
Shentao Yang, Shujian Zhang, Congying Xia, Yihao Feng, Caiming Xiong, Mingyuan Zhou(参考訳) 言語モデル(lms)と選好の整合は自然言語生成において重要な問題である。 重要な課題は、通常、選好は *sequence レベル* で提供され、lm トレーニングと生成は *token レベル* で行われる。 したがって、好みとLMトレーニング損失との間には*粒度ミスマッチ*が存在し、学習問題を複雑化する可能性がある。 本稿では,シーケンスレベルの選好をトークンレベルのトレーニング指導に着地し,学習した指導でlmを改善するという,新たなトレーニングプロセスを開発することで,この問題に対処した。 誘導学習のために, 模倣学習におけるペアワイズ・プリファレンス学習を可変長lm生成と複数世代間の選好利用の両方に拡張するフレームワークを設計した。 lmトレーニングでは,教師データ量に基づいて,学習指導を利用した2つの*ミニマリスト*学習目標を示す。 実験では、2つの異なるLMタスク(離散プロンプト生成とテキスト要約)で競合的に動作する。

Aligning language models (LMs) with preferences is an important problem in natural language generation. A key challenge is that preferences are typically provided at the *sequence level* while LM training and generation both occur at the *token level*. There is, therefore, a *granularity mismatch* between the preference and the LM training losses, which may complicate the learning problem. In this paper, we address this issue by developing an alternate training process, where we iterate between grounding the sequence-level preference into token-level training guidance, and improving the LM with the learned guidance. For guidance learning, we design a framework that extends the pairwise-preference learning in imitation learning to both variable-length LM generation and the utilization of the preference among multiple generations. For LM training, based on the amount of supervised data, we present two *minimalist* learning objectives that utilize the learned guidance. In experiments, our method performs competitively on two distinct representative LM tasks -- discrete-prompt generation and text summarization.
翻訳日:2023-10-13 11:14:26 公開日:2023-10-09
# DiffusionShield: 生成拡散モデルに対する著作権保護のための透かし

DiffusionShield: A Watermark for Copyright Protection against Generative Diffusion Models ( http://arxiv.org/abs/2306.04642v2 )

ライセンス: Link先を確認
Yingqian Cui, Jie Ren, Han Xu, Pengfei He, Hui Liu, Lichao Sun, Yue Xing, Jiliang Tang(参考訳) 近年,GDM(Generative Diffusion Models)は,画像の学習と生成において顕著な能力を示した。 GDMの大規模なコミュニティが自然に出現し、様々な分野におけるGDMの多様化が促進されている。 しかし、この制限のない増殖は著作権保護に関する深刻な懸念を引き起こした。 例えば、画家や写真家などのアーティストは、GDMが許可なく独自のクリエイティブ作品を自由に複製できるのではないかと懸念している。 これらの課題に対応して,GDMに適した新しい透かし方式DiffusionShieldを導入する。 DiffusionShieldは、所有権情報を認識不能な透かしにエンコードして画像に注入することで、GDMによる著作権侵害から画像を保護する。 その透かしはGDMによって容易に学習でき、生成した画像で再現される。 生成された画像から透かしを検出することにより、著作権侵害を証拠として露呈することができる。 diffusionshieldは、透かしの均一性と統合最適化方法の利点により、元の画像の歪みが少なく、透かし検出性能が高く、長いメッセージを埋め込むことができる。 我々は,GDMによる侵害防止におけるDiffusionShieldの有効性と従来の透かし法よりも優れていることを示すために,厳密で包括的な実験を行った。

Recently, Generative Diffusion Models (GDMs) have showcased their remarkable capabilities in learning and generating images. A large community of GDMs has naturally emerged, further promoting the diversified applications of GDMs in various fields. However, this unrestricted proliferation has raised serious concerns about copyright protection. For example, artists including painters and photographers are becoming increasingly concerned that GDMs could effortlessly replicate their unique creative works without authorization. In response to these challenges, we introduce a novel watermarking scheme, DiffusionShield, tailored for GDMs. DiffusionShield protects images from copyright infringement by GDMs through encoding the ownership information into an imperceptible watermark and injecting it into the images. Its watermark can be easily learned by GDMs and will be reproduced in their generated images. By detecting the watermark from generated images, copyright infringement can be exposed with evidence. Benefiting from the uniformity of the watermarks and the joint optimization method, DiffusionShield ensures low distortion of the original image, high watermark detection performance, and the ability to embed lengthy messages. We conduct rigorous and comprehensive experiments to show the effectiveness of DiffusionShield in defending against infringement by GDMs and its superiority over traditional watermarking methods.
翻訳日:2023-10-13 09:10:07 公開日:2023-10-09
# L-C2ST:シミュレーションによる後部近似の局所診断

L-C2ST: Local Diagnostics for Posterior Approximations in Simulation-Based Inference ( http://arxiv.org/abs/2306.03580v2 )

ライセンス: Link先を確認
Julia Linhart, Alexandre Gramfort, Pedro L. C. Rodrigues(参考訳) シミュレーションベース推論(SBI)における最近の多くの研究は、複雑で高次元の後方分布を近似する深層生成モデルに依存している。 しかし、これらの近似が信頼できるかどうかの評価は依然として課題である。 ほとんどのアプローチでは、後方推定器は観測空間上の期待でのみ評価される。 これにより解釈可能性が制限され、近似が信頼できるか改善されるべきかを特定できない。 有名な分類器2サンプル試験(C2ST)に基づいて,任意の観測で後部推定器の局所的な評価を可能にする新しい手法であるL-C2STを導入する。 理論的に根拠があり、簡単に解釈できる -- グラフィカルな -- 診断を提供するが、C2STとは異なり、真の後部からのサンプルにアクセスする必要はない。 フローベース後部推定器の正規化の場合、L-C2STは計算効率が良く、より優れた統計パワーを提供するために特殊化することができる。 標準的なSBIベンチマークでは、L-C2STはC2STに匹敵する結果を提供し、最大予測密度(HPD)に基づいたカバレッジテストのような他のローカルアプローチよりも優れている。 さらに,L-C2STの局所的評価の重要性と,計算神経科学からの挑戦的応用に対する解釈可能性の利点を強調した。

Many recent works in simulation-based inference (SBI) rely on deep generative models to approximate complex, high-dimensional posterior distributions. However, evaluating whether or not these approximations can be trusted remains a challenge. Most approaches evaluate the posterior estimator only in expectation over the observation space. This limits their interpretability and is not sufficient to identify for which observations the approximation can be trusted or should be improved. Building upon the well-known classifier two-sample test (C2ST), we introduce L-C2ST, a new method that allows for a local evaluation of the posterior estimator at any given observation. It offers theoretically grounded and easy to interpret -- e.g. graphical -- diagnostics, and unlike C2ST, does not require access to samples from the true posterior. In the case of normalizing flow-based posterior estimators, L-C2ST can be specialized to offer better statistical power, while being computationally more efficient. On standard SBI benchmarks, L-C2ST provides comparable results to C2ST and outperforms alternative local approaches such as coverage tests based on highest predictive density (HPD). We further highlight the importance of local evaluation and the benefit of interpretability of L-C2ST on a challenging application from computational neuroscience.
翻訳日:2023-10-13 09:09:32 公開日:2023-10-09
# Vital Videos: PPGと血圧グラウンドの真実による顔ビデオのデータセット

Vital Videos: A dataset of face videos with PPG and blood pressure ground truths ( http://arxiv.org/abs/2306.11891v2 )

ライセンス: Link先を確認
Pieter-Jan Toye(参考訳) 900近いユニークな参加者からなる大規模なデータセットを収集しました。 参加者全員に30秒の未圧縮ビデオ、ppg波形の同期、血圧測定を2回記録した。 性別、年齢、肌の色も各参加者に登録された。 データセットには、ほぼ同数の男女とあらゆる年齢の参加者が含まれている。 肌の色分布はバランスが良かったかもしれないが、データセットにはすべての肌の色から個人が含まれている。 データはさまざまな場所で収集され、さまざまな背景や照明条件が確保された。 遠隔バイタルサイン測定の研究と開発を支援するために、私たちはこのデータセットへのアクセスを開放しています。

We collected a large dataset consisting of nearly 900 unique participants. For every participant we recorded two 30 second uncompressed videos, synchronized PPG waveforms and a single blood pressure measurement. Gender, age and skin color were also registered for every participant. The dataset includes roughly equal numbers of males and females, as well as participants of all ages. While the skin color distribution could have been more balanced, the dataset contains individuals from every skin color. The data was collected in a diverse set of locations to ensure a wide variety of backgrounds and lighting conditions. In an effort to assist in the research and development of remote vital sign measurement we are now opening up access to this dataset.
翻訳日:2023-10-13 08:51:05 公開日:2023-10-09
# NLPタスクにおけるChatGPTの限界を押す

Pushing the Limits of ChatGPT on NLP Tasks ( http://arxiv.org/abs/2306.09719v2 )

ライセンス: Link先を確認
Xiaofei Sun, Linfeng Dong, Xiaoya Li, Zhen Wan, Shuhe Wang, Tianwei Zhang, Jiwei Li, Fei Cheng, Lingjuan Lyu, Fei Wu, Guoyin Wang(参考訳) ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。 本研究では,(1)プロンプトのトークン制限が教師付きデータセットの完全利用を許さないこと,(2)chatgptの生成特性とnlpタスクのミスマッチ,(3)幻覚などのllmsモデルの本質的落とし穴,など,いくつかのキーワードに重きを置くこと,などが原因であることを明らかにした。 本研究では,これらの問題に対処する汎用モジュールの集合を提案し,NLPタスクにおけるChatGPTの限界を推し進める。 Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. 質問応答,コモンセンス推論,自然言語推論,感情分析,名前付きエンティティ認識,エンティティ関係抽出,イベント抽出,依存関係解析,セマンティクスロールラベリング,part-of-speech tagingなど,代表的な10のnlpタスクの21のデータセットについて実験を行った。 提案手法を用いて、選択したNLPタスクにおけるChatGPTの性能を大幅に向上させ、教師付きベースラインや既存のSOTAパフォーマンスに匹敵する性能を達成することができる。

Despite the success of ChatGPT, its performances on most NLP tasks are still well below the supervised baselines. In this work, we looked into the causes, and discovered that its subpar performance was caused by the following factors: (1) token limit in the prompt does not allow for the full utilization of the supervised datasets; (2) mismatch between the generation nature of ChatGPT and NLP tasks; (3) intrinsic pitfalls of LLMs models, e.g., hallucination, overly focus on certain keywords, etc. In this work, we propose a collection of general modules to address these issues, in an attempt to push the limits of ChatGPT on NLP tasks. Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. We conduct experiments on 21 datasets of 10 representative NLP tasks, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging. Using the proposed assemble of techniques, we are able to significantly boost the performance of ChatGPT on the selected NLP tasks, achieving performances comparable to or better than supervised baselines, or even existing SOTA performances.
翻訳日:2023-10-13 08:50:55 公開日:2023-10-09
# 破滅的なAIリスクの概観

An Overview of Catastrophic AI Risks ( http://arxiv.org/abs/2306.12001v6 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika, Thomas Woodside(参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、ますます高度なAIシステムが破滅的なリスクをもたらす可能性を懸念する声が高まっている。 多数のリスクが別々に詳述されているが、組織的な議論と、それらを軽減する努力をより良い情報化するための潜在的な危険の例示の必要性が差し迫っている。 This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. リスクのカテゴリごとに,特定のハザードを記述し,図解的なストーリーを提示し,理想的なシナリオを想定し,これらのハザードを緩和するための実践的提案を提案する。 私たちの目標は、これらのリスクを包括的に理解し、AIが安全な方法で開発され、デプロイされることを保証するために、集団的かつ積極的な取り組みを促すことです。 最終的には、破滅的な結果の可能性を最小化しながら、この強力な技術のメリットを実現することができることを願っています。

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. For each category of risk, we describe specific hazards, present illustrative stories, envision ideal scenarios, and propose practical suggestions for mitigating these dangers. Our goal is to foster a comprehensive understanding of these risks and inspire collective and proactive efforts to ensure that AIs are developed and deployed in a safe manner. Ultimately, we hope this will allow us to realize the benefits of this powerful technology while minimizing the potential for catastrophic outcomes.
翻訳日:2023-10-13 08:40:35 公開日:2023-10-09
# 量子分類器を用いた複数分類タスクに対する普遍的逆摂動

Universal adversarial perturbations for multiple classification tasks with quantum classifiers ( http://arxiv.org/abs/2306.11974v2 )

ライセンス: Link先を確認
Yun-Zhong Qiu(参考訳) 量子敵対機械学習は、量子学習システムの脆弱性を敵の摂動に対して研究し、防御戦略を開発する新興分野である。 量子普遍的逆転摂動は小さな摂動であり、異なる入力サンプルを与えられた量子分類器を欺く可能性のある逆転例にすることができる。 なぜなら、普遍的な摂動は悪意のある攻撃を大いに単純化し、量子機械学習モデルに予期せぬ破壊をもたらす可能性があるからだ。 本稿では,不均質な分類タスクの文脈において,量子普遍摂動を探求する。 特に、2つの異なる分類タスクでほぼ最先端の精度を達成する量子分類器は、2つの注意深く作られた普遍的な摂動によって決定的に欺くことができる。 この結果は、破滅的な忘れ込みを避けるために、弾性重み付け法を用いたよく設計された量子連続学習モデルと、手書きの数字と医療MRI画像からの実生活における異種データセットで明確に示されている。 この結果から,不均一な分類課題に対する普遍的摂動を簡便かつ効率的に生成し,将来の量子学習技術に有用なガイダンスを提供することができた。

Quantum adversarial machine learning is an emerging field that studies the vulnerability of quantum learning systems against adversarial perturbations and develops possible defense strategies. Quantum universal adversarial perturbations are small perturbations, which can make different input samples into adversarial examples that may deceive a given quantum classifier. This is a field that was rarely looked into but worthwhile investigating because universal perturbations might simplify malicious attacks to a large extent, causing unexpected devastation to quantum machine learning models. In this paper, we take a step forward and explore the quantum universal perturbations in the context of heterogeneous classification tasks. In particular, we find that quantum classifiers that achieve almost state-of-the-art accuracy on two different classification tasks can be both conclusively deceived by one carefully-crafted universal perturbation. This result is explicitly demonstrated with well-designed quantum continual learning models with elastic weight consolidation method to avoid catastrophic forgetting, as well as real-life heterogeneous datasets from hand-written digits and medical MRI images. Our results provide a simple and efficient way to generate universal perturbations on heterogeneous classification tasks and thus would provide valuable guidance for future quantum learning technologies.
翻訳日:2023-10-13 08:40:17 公開日:2023-10-09
# 意味:ゼロショットセマンティックセマンティックセグメンテーションのマルチドメイン評価

What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2306.15521v2 )

ライセンス: Link先を確認
Benedikt Blumenstiel, Johannes Jakubik, Hilde K\"uhne and Michael V\"ossing(参考訳) セマンティックセグメンテーションは過去にも大幅に改善されてきたが、いまだに重要なラベル付けの取り組みがあり、訓練中に存在しないクラスへの限定的な一般化の問題がある。 この問題を解決するために、ゼロショットセマンティックセグメンテーションは大きな自己教師付き視覚言語モデルを使用し、ゼロショットを見えないクラスに転送することができる。 本研究では、医学、工学、地球観測、生物学、農業など、幅広い分野にまたがるデータセットを対象とした総合的なパフォーマンス分析を可能にする意味セグメンテーション(mess)の多領域評価のためのベンチマークを構築した。 そこで我々は,120のデータセットをレビューし,分類法を開発し,開発した分類法に従ってデータセットを分類した。 我々は、22のデータセットからなる代表サブセットを選択し、MESSベンチマークとして提案する。 本研究では,提案するメッセベンチマークの8つのモデルを評価し,ゼロショット転送モデルの性能特性を解析した。 ツールキットはhttps://github.com/blumenstiel/MESSで入手できる。

While semantic segmentation has seen tremendous improvements in the past, there are still significant labeling efforts necessary and the problem of limited generalization to classes that have not been present during training. To address this problem, zero-shot semantic segmentation makes use of large self-supervised vision-language models, allowing zero-shot transfer to unseen classes. In this work, we build a benchmark for Multi-domain Evaluation of Semantic Segmentation (MESS), which allows a holistic analysis of performance across a wide range of domain-specific datasets such as medicine, engineering, earth monitoring, biology, and agriculture. To do this, we reviewed 120 datasets, developed a taxonomy, and classified the datasets according to the developed taxonomy. We select a representative subset consisting of 22 datasets and propose it as the MESS benchmark. We evaluate eight recently published models on the proposed MESS benchmark and analyze characteristics for the performance of zero-shot transfer models. The toolkit is available at https://github.com/blumenstiel/MESS.
翻訳日:2023-10-13 08:28:27 公開日:2023-10-09
# MIMIC:画像対応による仮面画像モデリング

MIMIC: Masked Image Modeling with Image Correspondences ( http://arxiv.org/abs/2306.15128v3 )

ライセンス: Link先を確認
Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna(参考訳) 大規模なマルチビューデータセットが利用できないため、大規模なピクセル固有表現学習はボトルネックとなっている。 効果的な事前トレーニングデータセットを構築する現在の方法は、シミュレーション環境から注釈付き3dメッシュ、ポイントクラウド、カメラパラメータに大きく依存しており、メタデータが不足している現実世界のデータソースからデータセットを構築することができない。 追加アノテーションを必要としない事前学習型データセットキュレーション手法を提案する。 本手法により,実世界ビデオと大規模シミュレーション環境の両方からマルチビューデータセットを生成することができる。 具体的には、1.3MのMIMIC-1Mと3.1MのMIMIC-3Mの2つのスケールで実験を行った。 クラウドソースデータセット(imagenet-1k)と合成環境(multiview-habitat)から学んだもの(nyuv2の深さ推定(1.7%)とタスクノミーの表面正常推定(2.05%)の2つの密集した幾何学的タスクで学習したモデル(multiview-habitat)よりも、自動生成された模倣3mでトレーニングされた表現の方が優れています。 オブジェクトの理解も必要となる密集したタスクに対しては、ADE20KのセマンティックセグメンテーションにおいてMultiVIEW-HABITATを上回り(3.89%)、MSCOCO(9.4%)を推定し、オブジェクト中心の高価なImageNet-1Kで事前訓練されたモデルとのギャップを減らす。 表現が凍結され、下流のトレーニングデータが数ショットに制限された場合でもパフォーマンスが向上します。 より大規模なデータセット(MIMIC-3M)は、より大規模なデータセットを生成するために任意にスケールできるので、パフォーマンスが大幅に向上する。 MIMICコード、データセット、トレーニング済みモデルはhttps://github.com/RAIVNLab/MIMICでオープンソース化されている。

Dense pixel-specific representation learning at scale has been bottlenecked due to the unavailability of large-scale multi-view datasets. Current methods for building effective pretraining datasets heavily rely on annotated 3D meshes, point clouds, and camera parameters from simulated environments, preventing them from building datasets from real-world data sources where such metadata is lacking. We propose a pretraining dataset-curation approach that does not require any additional annotations. Our method allows us to generate multi-view datasets from both real-world videos and simulated environments at scale. Specifically, we experiment with two scales: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs. We train multiple models with different masked image modeling objectives to showcase the following findings: Representations trained on our automatically generated MIMIC-3M outperform those learned from expensive crowdsourced datasets (ImageNet-1K) and those learned from synthetic environments (MULTIVIEW-HABITAT) on two dense geometric tasks: depth estimation on NYUv2 (1.7%), and surface normals estimation on Taskonomy (2.05%). For dense tasks which also require object understanding, we outperform MULTIVIEW-HABITAT, on semantic segmentation on ADE20K (3.89%), pose estimation on MSCOCO (9.4%), and reduce the gap with models pre-trained on the object-centric expensive ImageNet-1K. We outperform even when the representations are frozen, and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
翻訳日:2023-10-13 08:27:39 公開日:2023-10-09
# RECAP-KG:プライマリケアにおけるリモートCOVID-19評価のための生GPノートからの知識グラフのマイニング

RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19 Assessment in Primary Care ( http://arxiv.org/abs/2306.17175v2 )

ライセンス: Link先を確認
Rakhilya Lee Mekhtieva, Brandon Forbes, Dalal Alrajeh, Brendan Delaney, Alessandra Russo(参考訳) 臨床意思決定は患者に適切なケアを提供するための基本的な段階である。 近年,このプロセスで臨床医を支援するための意思決定システムが開発されている。 しかし、現在使われている技術的解決策は、単純な回帰モデルに基づいており、患者年齢、既存条件、喫煙者ステータスなど、単純な事前定義された多重選択機能しか考慮できない。 患者データの特定のソースとして、利用可能な意思決定システムが処理できないのは、患者相談GPノートの収集である。 これらは、最終決定を下し、患者を適切なケアに導くために臨床医が使用する重要な兆候と症状を含んでいる。 GPノートから情報を抽出することは技術的に難しい問題であり、省略やタイポ、不完全文を含む傾向がある。 このオープンな課題に対処する。 本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。 SNOMEDオントロジーから抽出したサポートフレーズや、RECAP(REmote COVID-19 Assessment in Primary Care)患者リスク予測ツールで用いられる値から予め定義されたサポート事実を頼りに、我々のグラフ生成フレームワークは、コンサルテーションノートが書かれた高度に構造化されていない一貫性のないフォーマットから構造化知識グラフを抽出することができる。 私たちの知識グラフには、既存の患者の症状、持続時間、重症度に関する情報が含まれています。 本フレームワークは,英国におけるCOVID-19クリニカルアセスメント・サーベイ(CCAS)患者データセットのコンサルテーションノートに応用する。 提案手法は従来のNLP法よりも精度が高く,患者に対する質問に答える上で有効であることを示す。

Clinical decision-making is a fundamental stage in delivering appropriate care to patients. In recent years several decision-making systems designed to aid the clinician in this process have been developed. However, technical solutions currently in use are based on simple regression models and are only able to take into account simple pre-defined multiple-choice features, such as patient age, pre-existing conditions, smoker status, etc. One particular source of patient data, that available decision-making systems are incapable of processing is the collection of patient consultation GP notes. These contain crucial signs and symptoms - the information used by clinicians in order to make a final decision and direct the patient to the appropriate care. Extracting information from GP notes is a technically challenging problem, as they tend to include abbreviations, typos, and incomplete sentences. This paper addresses this open challenge. We present a framework that performs knowledge graph construction from raw GP medical notes written during or after patient consultations. By relying on support phrases mined from the SNOMED ontology, as well as predefined supported facts from values used in the RECAP (REmote COVID-19 Assessment in Primary Care) patient risk prediction tool, our graph generative framework is able to extract structured knowledge graphs from the highly unstructured and inconsistent format that consultation notes are written in. Our knowledge graphs include information about existing patient symptoms, their duration, and their severity. We apply our framework to consultation notes of COVID-19 patients in the UK COVID-19 Clinical Assesment Servcie (CCAS) patient dataset. We provide a quantitative evaluation of the performance of our framework, demonstrating that our approach has better accuracy than traditional NLP methods when answering questions about patients.
翻訳日:2023-10-13 08:19:25 公開日:2023-10-09
# Sparse Model Soups: モデル平均化によるプルニング改善のためのレシピ

Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging ( http://arxiv.org/abs/2306.16788v2 )

ライセンス: Link先を確認
Max Zimmer, Christoph Spiegel, Sebastian Pokutta(参考訳) ニューラルネットワークはプルーニングによって著しく圧縮され、予測性能を維持しながら、ストレージと計算要求を低減したスパースモデルが得られる。 モデルスープ(Wortsman et al., 2022)は、複数のモデルのパラメータを1つに平均化することで一般化とアウト・オブ・ディストリビューション(OOD)性能を向上させる。 しかし、任意のスパースモデルの平均化がスパース接続性の違いによる全体の疎度を減少させるため、スパース率とパラメータ平均化の両立は困難である。 この研究は、バッチ順序やウェイト崩壊といった様々なハイパーパラメータ構成を持つ反復的マグニチュード・プルーニング(IMP)の1つの再トレーニングフェーズを探索することで、平均化に適したモデルが得られることを示した。 これらのモデルの平均化は、個々のモデルよりも一般化とOODパフォーマンスを大幅に向上させる。 これに基づいて,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することによりスパースモデルをマージする新しい手法であるスパース・モデル・スープ(SMS)を導入する。 smsはスパーシティを保ち、スパースネットワークの利点を活用し、モジュール化され、完全に並列化でき、impのパフォーマンスが大幅に向上する。 さらに、SMSが最先端のプルーニング訓練アプローチに適応できることを実証する。

Neural networks can be significantly compressed by pruning, yielding sparse models with reduced storage and computational demands while preserving predictive performance. Model soups (Wortsman et al., 2022) enhance generalization and out-of-distribution (OOD) performance by averaging the parameters of multiple models into a single one, without increasing inference time. However, achieving both sparsity and parameter averaging is challenging as averaging arbitrary sparse models reduces the overall sparsity due to differing sparse connectivities. This work addresses these challenges by demonstrating that exploring a single retraining phase of Iterative Magnitude Pruning (IMP) with varied hyperparameter configurations such as batch ordering or weight decay yields models suitable for averaging, sharing identical sparse connectivity by design. Averaging these models significantly enhances generalization and OOD performance over their individual counterparts. Building on this, we introduce Sparse Model Soups (SMS), a novel method for merging sparse models by initiating each prune-retrain cycle with the averaged model from the previous phase. SMS preserves sparsity, exploits sparse network benefits, is modular and fully parallelizable, and substantially improves IMP's performance. We further demonstrate that SMS can be adapted to enhance state-of-the-art pruning-during-training approaches.
翻訳日:2023-10-13 08:18:11 公開日:2023-10-09
# To Spike or Not To Spike:Deep Learning Accelerationのデジタルハードウェアの展望

To Spike or Not To Spike: A Digital Hardware Perspective on Deep Learning Acceleration ( http://arxiv.org/abs/2306.15749v3 )

ライセンス: Link先を確認
Fabrizio Ottati, Chang Gao, Qinyu Chen, Giovanni Brignone, Mario R. Casu, Jason K. Eshraghian, Luciano Lavagno(参考訳) ディープラーニングモデルの規模が拡大するにつれて、コンピュータビジョンから自然言語処理に至るまでの領域で競争力が高まる一方で、メモリとコンピューティングのパワーがますます必要になるため、効率が犠牲になる。 生物学的脳のパワー効率は、いかなる大規模ディープラーニング(DL)モデルよりも優れており、ニューロモルフィックコンピューティングは、スパイクベースの情報処理のような脳の操作を模倣して、DLモデルの効率を向上させる。 効率的な情報伝達、高密度神経インターコネクト、計算と記憶の同時配置といった脳の利点にもかかわらず、利用可能な生物学的基質は生物学的脳の進化を厳しく制限している。 電子ハードウェアは同じ制約を持たないため、スパイクニューラルネットワーク(snn)のモデル化はパズルの1つのピースを明らかにする可能性があるが、snsの効率的なハードウェアバックエンドの設計にはさらなる調査が必要である。 そのため、いつ新しいハードウェアを設計しながら脳を見るのが賢明なのか、いつ無視されるべきなのか? そこで本研究では,ANNとSNNのデジタルハードウェアアクセラレーション技術とプラットフォームを定量的に比較する。

As deep learning models scale, they become increasingly competitive from domains spanning computer vision to natural language processing; however, this happens at the expense of efficiency since they require increasingly more memory and computing power. The power efficiency of the biological brain outperforms the one of any large-scale deep learning (DL) model; thus, neuromorphic computing tries to mimic the brain operations, such as spike-based information processing, to improve the efficiency of DL models. Despite the benefits of the brain, such as efficient information transmission, dense neuronal interconnects, and the co-location of computation and memory, the available biological substrate has severely constrained the evolution of biological brains. Electronic hardware does not have the same constraints; therefore, while modeling spiking neural networks (SNNs) might uncover one piece of the puzzle, the design of efficient hardware backends for SNNs needs further investigation, potentially taking inspiration from the available work done on the artificial neural networks (ANN s) side. As such, when is it wise to look at the brain while designing new hardware, and when should it be ignored? To answer this question, we quantitatively compare the digital hardware acceleration techniques and platforms of ANNs and SNNs.
翻訳日:2023-10-13 08:16:55 公開日:2023-10-09
# 医用画像解析における不確実性定量化の展望:確率的および非確率的方法

A review of uncertainty quantification in medical image analysis: probabilistic and non-probabilistic methods ( http://arxiv.org/abs/2310.06873v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Yucheng Xing, Mengling Feng(参考訳) 臨床における機械学習医療モデルの包括的な統合は、文献に報告されているハイパフォーマンスなソリューションの急増にもかかわらず、依然として最適ではない。 広く普及を妨げる主要な要因は、上記のモデルの信頼性を裏付ける証拠の不足である。 近年,機械学習モデルの信頼性を定量化し,結果の解釈性と受容性を高める潜在的な解決策として不確実性定量化手法が提案されている。 本稿では,様々な医療画像タスクのために開発された機械学習モデルに固有の不確実性を定量化する手法について概説する。 確率的手法にのみ焦点をあてた以前のレビューとは対照的に、このレビューは非確率的アプローチを探求し、マシンラーニングモデルの不確実性定量化に関連する研究をより全体論的に調査する。 医用画像解析における不確実性に関する具体的な課題に焦点をあて,医療応用の要約と議論,およびそれに対応する不確実性評価プロトコルについて述べる。 最終的には今後の研究の可能性を強調します。 本総説は,医療画像解析機械学習モデルにおける不確実性定量化の研究について,臨床および技術的な背景から,迅速かつ詳細な理解を得ることを目的としている。

The comprehensive integration of machine learning healthcare models within clinical practice remains suboptimal, notwithstanding the proliferation of high-performing solutions reported in the literature. A predominant factor hindering widespread adoption pertains to an insufficiency of evidence affirming the reliability of the aforementioned models. Recently, uncertainty quantification methods have been proposed as a potential solution to quantify the reliability of machine learning models and thus increase the interpretability and acceptability of the result. In this review, we offer a comprehensive overview of prevailing methods proposed to quantify uncertainty inherent in machine learning models developed for various medical image tasks. Contrary to earlier reviews that exclusively focused on probabilistic methods, this review also explores non-probabilistic approaches, thereby furnishing a more holistic survey of research pertaining to uncertainty quantification for machine learning models. Analysis of medical images with the summary and discussion on medical applications and the corresponding uncertainty evaluation protocols are presented, which focus on the specific challenges of uncertainty in medical image analysis. We also highlight some potential future research work at the end. Generally, this review aims to allow researchers from both clinical and technical backgrounds to gain a quick and yet in-depth understanding of the research in uncertainty quantification for medical image analysis machine learning models.
翻訳日:2023-10-13 08:07:40 公開日:2023-10-09
# 動作状態依存型動的モデル選択

Action-State Dependent Dynamic Model Selection ( http://arxiv.org/abs/2307.04754v2 )

ライセンス: Link先を確認
Francesco Cordoni and Alessio Sancetta(参考訳) 多くの人のうちのモデルは、世界の特定の州においてのみ最善である。 モデルから別のモデルへの切り替えもコストがかかります。 このような状況下でモデルを動的に選択する手順を見つけるには、複雑な推定手順と動的計画問題を解く必要がある。 強化学習アルゴリズムは、この動的プログラミング問題の最適解としてデータから近似して推定するために用いられる。 このアルゴリズムは、一組の共変量に基づいて異なるモデルを選択することができる最適なポリシーを一貫して推定する。 典型的な例は、マクロ経済情報を用いて、再バランスコストの下で異なるポートフォリオモデルを切り替えることである。 マクロ経済変数と価格データの集合を用いることで、前述のポートフォリオ問題に対する経験的応用は、後から見て最高のポートフォリオモデルを選択することよりも優れたパフォーマンスを示す。

A model among many may only be best under certain states of the world. Switching from a model to another can also be costly. Finding a procedure to dynamically choose a model in these circumstances requires to solve a complex estimation procedure and a dynamic programming problem. A Reinforcement learning algorithm is used to approximate and estimate from the data the optimal solution to this dynamic programming problem. The algorithm is shown to consistently estimate the optimal policy that may choose different models based on a set of covariates. A typical example is the one of switching between different portfolio models under rebalancing costs, using macroeconomic information. Using a set of macroeconomic variables and price data, an empirical application to the aforementioned portfolio problem shows superior performance to choosing the best portfolio model with hindsight.
翻訳日:2023-10-13 08:06:53 公開日:2023-10-09
# 関連性への注意の移り変わり : 大規模言語モデルの不確実性推定に向けて

Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models ( http://arxiv.org/abs/2307.01379v2 )

ライセンス: Link先を確認
Jinhao Duan, Hao Cheng, Shiqi Wang, Alex Zavalny, Chenan Wang, Renjing Xu, Bhavya Kailkhura, Kaidi Xu(参考訳) 大規模言語モデル (LLM) は、自然言語の生成と指示に顕著な可能性を示しているが、持続的な課題は、その出力に対する信頼を損なう「幻覚」への感受性にある。 不確実性定量化(UQ)は有望な解であるが、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。 この重要な障害に対処するために、我々の研究は基本的なヒューリスティックな洞察からきている: 自己回帰的LLM生成テキスト中のトークンは、基礎となる意味を等しく反映しない。 いくつかのトークンは「言語的冗長性」という現象のため、他のトークンよりも関連性や代表性が強く、選択されたキーワードが長文の本質を伝えるのに十分である。 既存の方法論は、これらの固有の生成的不平等を無視して、不確実性を推定するときに、すべてのトークンを同等に重要視している。 意味的重要性が限定された多数のトークン(および文)は、不確実性推定中に等量あるいは過度な重み付けを受ける。 このバイアスを正すために,トークンレベルと文レベルの両方において,より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。 我々は、Vicuna、WizardLM、LLaMA-2-chatのような命令調整型LLMや、OPTやLLaMAのような事前訓練型LLMを含む、一般的な「既製の」LLMの幅広い実験を行い、モデルサイズを最大33Bパラメータまで拡張した。 我々は,読解,理科Q&A,医学Q&Aなどの領域を網羅した,自由形式の質問応答タスクの評価を行う。 LLMの領域における不確実性推定の課題に対するSARの優れた性能を示す実験結果を得た。

While Large Language Models (LLMs) have demonstrated remarkable potential in natural language generation and instruction following, a persistent challenge lies in their susceptibility to "hallucinations", which erodes trust in their outputs. Although Uncertainty Quantification (UQ) presents a promising solution, its accurate implementation within the context of LLMs remains a significant hurdle. To address this critical roadblock, our research originates from a fundamental heuristic insight: tokens within auto-regressive LLM-generated text do not equally reflect the underlying meaning. Some tokens carry greater relevance and representativeness than others, owing to the phenomenon of "linguistic redundancy", wherein a select few keywords suffice to convey the essence of lengthy sentences. Regrettably, existing methodologies treat all tokens with equal importance when estimating uncertainty, disregarding these inherent generative inequalities. Our analysis reveals a significant issue with state-of-the-art: numerous tokens (and sentences) of limited semantic significance receive equal or even excessive weighting during uncertainty estimation. To rectify this bias, we propose to jointly Shifting Attention to more Relevant (SAR) components, at both the token- and the sentence-levels for accurate uncertainty estimation. We conduct extensive experiments involving a range of popular "off-the-shelf" LLMs, including instruction-tuned LLMs such as Vicuna, WizardLM, and LLaMA-2-chat, as well as pretrained LLMs like OPT and LLaMA, with model sizes extending up to 33B parameters. We carry out evaluation across various free-form question-answering tasks, encompassing domains such as reading comprehension, science Q&A, and medical Q&A. Our experimental results demonstrate the superior performance of SAR in addressing the challenges of uncertainty estimation within the realm of LLMs.
翻訳日:2023-10-13 08:05:21 公開日:2023-10-09
# 演算子分割法と深部ニューラルネットワークの接続と画像分割への応用

Connections between Operator-splitting Methods and Deep Neural Networks with Applications in Image Segmentation ( http://arxiv.org/abs/2307.09052v2 )

ライセンス: Link先を確認
Hao Liu, Xue-Cheng Tai, Raymond Chan(参考訳) ディープニューラルネットワークは多くのタスクに強力なツールである。 なぜそれが成功し、数学的説明を提供するのかを理解することは重要な問題であり、過去数年間で人気のある研究の方向性であった。 ディープニューラルネットワークの数学的解析の文献では、表現理論の確立に多くの研究が費やされている。 ディープニューラルネットワークと数学的アルゴリズムの接続方法はまだ開発中だ。 本稿では,深層ニューラルネットワーク,特に演算子分割との関連について,アルゴリズムによる説明を行う。 特定の分割戦略により、演算子分割法はネットワークと同じ構造を持つことを示す。 この接続とPottsモデルを用いて,演算子分割法に着想を得た2つのネットワークを提案する。 2つのネットワークは、Pottsモデルを解く2つの演算子分割アルゴリズムである。 提案するネットワークの有効性を実証するために数値実験を行った。

Deep neural network is a powerful tool for many tasks. Understanding why it is so successful and providing a mathematical explanation is an important problem and has been one popular research direction in past years. In the literature of mathematical analysis of deep neural networks, a lot of works is dedicated to establishing representation theories. How to make connections between deep neural networks and mathematical algorithms is still under development. In this paper, we give an algorithmic explanation for deep neural networks, especially in their connections with operator splitting. We show that with certain splitting strategies, operator-splitting methods have the same structure as networks. Utilizing this connection and the Potts model for image segmentation, two networks inspired by operator-splitting methods are proposed. The two networks are essentially two operator-splitting algorithms solving the Potts model. Numerical experiments are presented to demonstrate the effectiveness of the proposed networks.
翻訳日:2023-10-13 05:49:22 公開日:2023-10-09
# 大統領は先週どこに訪れましたか。 ニュース記事から有名人の旅行を検知する

Where Did the President Visit Last Week? Detecting Celebrity Trips from News Articles ( http://arxiv.org/abs/2307.08721v2 )

ライセンス: Link先を確認
Kai Peng, Ying Zhang, Shuai Ling, Zhaoru Ke, Haipeng Zhang(参考訳) 有名人の居場所は広く重要である。 例えば、政治家の出入り頻度、出会っている人などには、地政学的にも経済的にも大きな影響がある。 ニュース記事にはセレブの旅行情報が含まれているが,自動検出ツールの欠如により大規模かつネットワーク的な分析は不可能である。 このようなツールを設計するには, ニュース記事の異質性の難しさを克服する必要がある。1) 関連のない人や場所,特に記事が長い場合には, 一つの記事が騒々しい。 2)複数の項目を一つにまとめて特定の旅行を決定するのに役立ちますが,重要セマンティクスは様々なノイズに絡み合ったさまざまな項目に分散しており,効果的にまとめるのが困難である。 3) 記事の20%以上は、有名人の旅行を間接的に参照し、正確な有名人名や場所名を使う代わりに、通常の検出アルゴリズムから逃れる旅行の大部分を導く。 各候補の場所に関連する記事間のテキストコンテンツをグラフとしてモデル化し,本質的情報を関連付け,ノイズをキャンセルする。 さらに,注意機構とノード類似性に基づく特別なプーリング層を設計し,より長い記事から無関係な情報を減らす。 間接的な言及から得られた情報不足を補うため、名前付きエンティティ(人、組織、施設など)の知識サブグラフを構築します。 具体的には、事前トレーニングされたイベント表現ではキャプチャされないイベントのプロパティ(日付と場所)が毎回変化するため、ニュース記述からg7 summitのようなイベントエンティティの埋め込みを動的に更新する。 提案されたceletripは、これらモジュールを共同でトレーニングし、すべてのベースラインモデルを上回り、f1メトリックで82.53%を達成する。

Celebrities' whereabouts are of pervasive importance. For instance, where politicians go, how often they visit, and who they meet, come with profound geopolitical and economic implications. Although news articles contain travel information of celebrities, it is not possible to perform large-scale and network-wise analysis due to the lack of automatic itinerary detection tools. To design such tools, we have to overcome difficulties from the heterogeneity among news articles: 1)One single article can be noisy, with irrelevant people and locations, especially when the articles are long. 2)Though it may be helpful if we consider multiple articles together to determine a particular trip, the key semantics are still scattered across different articles intertwined with various noises, making it hard to aggregate them effectively. 3)Over 20% of the articles refer to the celebrities' trips indirectly, instead of using the exact celebrity names or location names, leading to large portions of trips escaping regular detecting algorithms. We model text content across articles related to each candidate location as a graph to better associate essential information and cancel out the noises. Besides, we design a special pooling layer based on attention mechanism and node similarity, reducing irrelevant information from longer articles. To make up the missing information resulted from indirect mentions, we construct knowledge sub-graphs for named entities (person, organization, facility, etc.). Specifically, we dynamically update embeddings of event entities like the G7 summit from news descriptions since the properties (date and location) of the event change each time, which is not captured by the pre-trained event representations. The proposed CeleTrip jointly trains these modules, which outperforms all baseline models and achieves 82.53% in the F1 metric.
翻訳日:2023-10-13 05:48:52 公開日:2023-10-09
# イミテーションは必要か? デュアルフェーズトレーニングによる一般化意思決定

Is Imitation All You Need? Generalized Decision-Making with Dual-Phase Training ( http://arxiv.org/abs/2307.07909v3 )

ライセンス: Link先を確認
Yao Wei and Yanchao Sun and Ruijie Zheng and Sai Vemprala and Rogerio Bonatti and Shuhang Chen and Ratnesh Madaan and Zhongjie Ba and Ashish Kapoor and Shuang Ma(参考訳) 本稿では,現在の手法が抱える課題,例えば過剰適合行動やタスク固有の微調整に依存する問題に対処する,さまざまな意思決定タスクに取り組むためのジェネラリストエージェントであるdualmindを紹介する。 DualMindは、人間が世界でどのように行動するかをエミュレートする新しい「デュアルフェーズ」トレーニング戦略を使用している。 モデルはまず、制御タスク用に調整された自己教師付き目標を通じて基本的な共通知識を学び、その後、与えられたプロンプトに基づいて条件づけされた行動を模倣して、異なるコンテキストに基づいて意思決定を行う方法を学ぶ。 DualMindは1セットのモデル重みだけで、ドメイン、シーン、実施状況のタスクを処理でき、タスク固有の微調整を必要とせずにゼロショットプロンプトを実行することができる。 我々は,MetaWorld と Habitat の DualMind を広範囲な実験により評価し,従来の手法に比べて優れた一般化性を示し,Habitat と MetaWorld の 70$\% 以上のジェネラリストエージェントをそれぞれ50$\% 以上上回った。 MetaWorldの45のタスクでは、DualMindは90$\%の成功率で30以上のタスクを達成している。

We introduce DualMind, a generalist agent designed to tackle various decision-making tasks that addresses challenges posed by current methods, such as overfitting behaviors and dependence on task-specific fine-tuning. DualMind uses a novel "Dual-phase" training strategy that emulates how humans learn to act in the world. The model first learns fundamental common knowledge through a self-supervised objective tailored for control tasks and then learns how to make decisions based on different contexts through imitating behaviors conditioned on given prompts. DualMind can handle tasks across domains, scenes, and embodiments using just a single set of model weights and can execute zero-shot prompting without requiring task-specific fine-tuning. We evaluate DualMind on MetaWorld and Habitat through extensive experiments and demonstrate its superior generalizability compared to previous techniques, outperforming other generalist agents by over 50$\%$ and 70$\%$ on Habitat and MetaWorld, respectively. On the 45 tasks in MetaWorld, DualMind achieves over 30 tasks at a 90$\%$ success rate.
翻訳日:2023-10-13 05:48:07 公開日:2023-10-09
# シーンテキスト認識のためのコンテキスト知覚並列デコーダ

Context Perception Parallel Decoder for Scene Text Recognition ( http://arxiv.org/abs/2307.12270v2 )

ライセンス: Link先を確認
Yongkun Du and Zhineng Chen and Caiyan Jia and Xiaoting Yin and Chenxia Li and Yuning Du and Yu-Gang Jiang(参考訳) Scene Text Recognition (STR) 法は高い精度と高速な推論速度を達成するのに苦労している。 自己回帰型(ar)ベースのモデルは文字毎の認識を実装し、精度は優れているが推論速度は遅い。 あるいは、パラレルデコード(PD)ベースのモデルは1つのデコードパスで全ての文字を推測し、推論速度は速いが、一般的には精度は悪い。 まず、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを発見した。 その結果、PDパスの文字列を予測するためにコンテキスト知覚並列デコーダ(CPPD)を提案する。 CPPDは、各文字の発生回数を推測する文字カウントモジュールと、コンテンツフリー読取順序及びプレースホルダーを推定する文字注文モジュールとを考案する。 一方、文字予測タスクは、プレースホルダーと文字を関連付ける。 彼らは包括的な認識コンテキストを構築します。 我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。 英語と中国語のベンチマークの実験では、CPPDモデルはARベースのベンチマークの約8倍の速度で実行しながら、高い競争精度を実現している。 さらに, プラグモデルにより精度が向上した。 コードは \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{this https URL} にある。

Scene text recognition (STR) methods have struggled to attain high accuracy and fast inference speed. Autoregressive (AR)-based models implement the recognition in a character-by-character manner, showing superiority in accuracy but with slow inference speed. Alternatively, parallel decoding (PD)-based models infer all characters in a single decoding pass, offering faster inference speed but generally worse accuracy. We first present an empirical study of AR decoding in STR, and discover that the AR decoder not only models linguistic context, but also provides guidance on visual context perception. Consequently, we propose Context Perception Parallel Decoder (CPPD) to predict the character sequence in a PD pass. CPPD devises a character counting module to infer the occurrence count of each character, and a character ordering module to deduce the content-free reading order and placeholders. Meanwhile, the character prediction task associates the placeholders with characters. They together build a comprehensive recognition context. We construct a series of CPPD models and also plug the proposed modules into existing STR decoders. Experiments on both English and Chinese benchmarks demonstrate that the CPPD models achieve highly competitive accuracy while running approximately 8x faster than their AR-based counterparts. Moreover, the plugged models achieve significant accuracy improvements. Code is at \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{this https URL}.
翻訳日:2023-10-13 05:32:39 公開日:2023-10-09
# 整数値OneMax関数の時間境界の実行

Run Time Bounds for Integer-Valued OneMax Functions ( http://arxiv.org/abs/2307.11855v2 )

ライセンス: Link先を確認
Jonathan Gadea Harder, Timo K\"otzing, Xiaoyue Li, Aishwarya Radhakrishnan(参考訳) 離散ランダム化探索ヒューリスティックのほとんどの理論的実行時間解析は有限探索空間に焦点を当てているが、探索空間 $\mathbb{z}^n$ を考える。 これは、多値決定変数 $\{0,\ldots,r-1\}^n$ の探索空間のさらなる一般化である。 フィットネス関数として、(単調な)非ゼロの最適な$a$($l_1$-metricに基づく)と、変化が決定される各コンポーネントにステップ操作を適用することによって変化する \ooea までの距離を考える。 $\pm 1$ で変更する場合、期待される最適化時間は$\theta(n \cdot (|a|_{\infty} + \log(|a|_h))$である。 特に、時間は最適な$a$の最大値において線形である。 期待値が無限であるような分布からステップサイズを選択する異なるステップ演算子を用いて、最適化時間は$O(n \cdot \log^2 (|a|_1) \cdot \left(\log (\log (|a|_1))\right)^{1 + \epsilon})$である。 さらに、ステップサイズ適応を持つrlsは$\theta(n \cdot \log(|a|_1))$の最適化時間を達成する。 本稿では,これらのアルゴリズムを離散探索空間に対するCMA-ESの変種と比較し,実験的な解析を行った。

While most theoretical run time analyses of discrete randomized search heuristics focused on finite search spaces, we consider the search space $\mathbb{Z}^n$. This is a further generalization of the search space of multi-valued decision variables $\{0,\ldots,r-1\}^n$. We consider as fitness functions the distance to the (unique) non-zero optimum $a$ (based on the $L_1$-metric) and the \ooea which mutates by applying a step-operator on each component that is determined to be varied. For changing by $\pm 1$, we show that the expected optimization time is $\Theta(n \cdot (|a|_{\infty} + \log(|a|_H)))$. In particular, the time is linear in the maximum value of the optimum $a$. Employing a different step operator which chooses a step size from a distribution so heavy-tailed that the expectation is infinite, we get an optimization time of $O(n \cdot \log^2 (|a|_1) \cdot \left(\log (\log (|a|_1))\right)^{1 + \epsilon})$. Furthermore, we show that RLS with step size adaptation achieves an optimization time of $\Theta(n \cdot \log(|a|_1))$. We conclude with an empirical analysis, comparing the above algorithms also with a variant of CMA-ES for discrete search spaces.
翻訳日:2023-10-13 05:31:31 公開日:2023-10-09
# セマンティクス看護の改善のために注意を分割・結合する

Divide & Bind Your Attention for Improved Generative Semantic Nursing ( http://arxiv.org/abs/2307.10864v2 )

ライセンス: Link先を確認
Yumeng Li, Margret Keuper, Dan Zhang, Anna Khoreva(参考訳) 大規模テキストから画像への生成モデル、例えばstable diffusion (sd)は、高い忠実度で圧倒的な結果を示している。 素晴らしい進歩にもかかわらず、現在の最先端モデルは入力プロンプトに完全に付着した画像を生成するのに依然として苦労している。 Attend & Exciteは、推論時間におけるクロスアテンションを最適化し、セマンティックスをよりうまく組み込むことを目的として、ジェネレーティブセマンティック・ナーシング(GSN)の概念を導入した。 これは単純なプロンプト、例えば 'a cat and a dog'' を生成する上で有望な結果を示す。 しかし、その有効性はより複雑なプロンプトを扱う際に低下し、不適切な属性結合の問題に明示的に対処しない。 複雑なプロンプトや複数のエンティティを含むシナリオによって生じる課題に対処し、属性バインディングの改善を実現するため、division & bindを提案する。 GSNの新たな損失目標として,新規の出席損失と結合損失の2つを紹介する。 提案手法は、複雑なプロンプトからの属性アライメントを改善した所望のオブジェクトを忠実に合成し、複数の評価ベンチマークで優れた性能を示す。

Emerging large-scale text-to-image generative models, e.g., Stable Diffusion (SD), have exhibited overwhelming results with high fidelity. Despite the magnificent progress, current state-of-the-art models still struggle to generate images fully adhering to the input prompt. Prior work, Attend & Excite, has introduced the concept of Generative Semantic Nursing (GSN), aiming to optimize cross-attention during inference time to better incorporate the semantics. It demonstrates promising results in generating simple prompts, e.g., ``a cat and a dog''. However, its efficacy declines when dealing with more complex prompts, and it does not explicitly address the problem of improper attribute binding. To address the challenges posed by complex prompts or scenarios involving multiple entities and to achieve improved attribute binding, we propose Divide & Bind. We introduce two novel loss objectives for GSN: a novel attendance loss and a binding loss. Our approach stands out in its ability to faithfully synthesize desired objects with improved attribute alignment from complex prompts and exhibits superior performance across multiple evaluation benchmarks.
翻訳日:2023-10-13 05:30:40 公開日:2023-10-09
# カリブ海の屋根分類のためのVHR後航空画像とLiDARデータの利用

Fusing VHR Post-disaster Aerial Imagery and LiDAR Data for Roof Classification in the Caribbean ( http://arxiv.org/abs/2307.16177v4 )

ライセンス: Link先を確認
Isabelle Tingzon, Nuala Margaret Cowan, Pierre Chrzanowski(参考訳) 建築特性の正確かつ最新の情報は、脆弱性評価に不可欠であるが、災害リスク管理に必要な重要な露光データセットを得るには、従来の調査実施に伴う高コストと長期の時間枠が障害となる可能性がある。 本研究では,2017年のハリケーン・マリアに続いてドミニカで得られた高解像度の正光線と空中LiDARデータから屋根特性の自動分類に深層学習技術を活用する。 マルチモーダル地球観測データの融合は、単一のデータソースのみを使用するよりも優れていることを示す。 提案手法を用いて, 屋根材分類におけるF1スコアの0.93と0.92をそれぞれ達成した。 この研究は、政府がカリブ海の回復力と災害対応を改善するための、よりタイムリーな情報構築を支援することを目的としている。

Accurate and up-to-date information on building characteristics is essential for vulnerability assessment; however, the high costs and long timeframes associated with conducting traditional field surveys can be an obstacle to obtaining critical exposure datasets needed for disaster risk management. In this work, we leverage deep learning techniques for the automated classification of roof characteristics from very high-resolution orthophotos and airborne LiDAR data obtained in Dominica following Hurricane Maria in 2017. We demonstrate that the fusion of multimodal earth observation data performs better than using any single data source alone. Using our proposed methods, we achieve F1 scores of 0.93 and 0.92 for roof type and roof material classification, respectively. This work is intended to help governments produce more timely building information to improve resilience and disaster response in the Caribbean.
翻訳日:2023-10-13 05:24:00 公開日:2023-10-09
# 言語適応による非英語への大言語モデル外挿

Extrapolating Large Language Models to Non-English by Aligning Languages ( http://arxiv.org/abs/2308.04948v2 )

ライセンス: Link先を確認
Wenhao Zhu, Yunzhe Lv, Qingxiu Dong, Fei Yuan, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li(参考訳) 既存の大規模言語モデルは、トレーニングデータの不均衡のため、異なる言語間で異なる能力を示す。 英語のタスクでの彼らのパフォーマンスは、しばしば他の言語のタスクよりも強い。 本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。 まず、LLaMA上で言語間命令チューニング(CoIT)を行い、翻訳タスクデータと言語間汎用タスクデータとを調整して言語間モデル(x-LLaMA)を得る。 次に、混合資源を用いた多言語命令チューニング(MuIT)を行い、多言語 m-LLaMA を構築する。 また、リソース制約のある設定でデータ割り当てを最適化するために、スケーリング法則をどのように活用するかを説明します。 XQUAD と MLQA によるクロスランガルベンチマーク実験の結果、x-LLaMA は6つの非英語言語で平均27.83% の差で英語の命令付き言語 (Alpaca) を上回っている。 翻訳データセットFlores-101の評価結果は、x-LLaMAが以前のLLaMAモデルよりも平均18.89%優れていたことを示している。 m-LLaMAは、個々の言語でx-LLaMAに匹敵する性能を達成し、多言語命令に従う能力を示す。 応答内容と表現空間のさらなる解析は、m-LLaMAの中層における多言語意味空間のアライメントを明らかにする。

Existing large language models show disparate capability across different languages, due to the imbalance in the training data. Their performances on English tasks are often stronger than on tasks of other languages. In this paper, we empower pre-trained LLMs on non-English languages by building semantic alignment across languages. We start from targeting individual languages by performing cross-lingual instruction-tuning (CoIT) on LLaMA, i.e. tuning it with translation task data and cross-lingual general task data to obtain cross-lingual models (x-LLaMAs), and formulate underlying scaling laws to investigate the advantages of using scalable translation data. Then we perform multilingual instruction-tuning (MuIT) with mixed resources to build multilingual m-LLaMA. We also illustrate how we leverage the scaling laws to optimize data allocation in a resource-constrained setting. Experiment results on cross-lingual benchmarks XQUAD and MLQA show that x-LLaMAs surpass the English instruction-tuned counterpart (Alpaca) by an average of 27.83% across six non-English languages. Evaluation results on translation dataset Flores-101 show that x-LLaMAs outperform previous LLaMA-based models by an average of 18.89%. Encouragingly, m-LLaMA achieves comparable performance to x-LLaMAs on individual languages and demonstrates the ability to follow multilingual instructions. Further analysis on response content and representation space reveals the alignment of the multilingual semantic space within the middle layers of m-LLaMA.
翻訳日:2023-10-13 05:13:07 公開日:2023-10-09
# AntGPT:大規模言語モデルはビデオからの長期的な行動予測に役立つか?

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? ( http://arxiv.org/abs/2307.16368v2 )

ライセンス: Link先を確認
Qi Zhao, Shijie Wang, Ce Zhang, Changcheng Fu, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun(参考訳) 現在の行動(例えば卵のひび割れなど)の後、よく起こることを知ることで、俳優の将来的な行動(卵の混合など)を予測できるだろうか? 俳優の長期目標(例:米の卵揚げ)も知っていれば? 長期的行動予測(LTA)タスクは,映像観察から動詞と名詞のシーケンスの形式での行動を予測することを目的としており,人間と機械の相互作用に不可欠である。 本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。 我々は,手順テキストデータ(レシピ,ハウツーなど)に基づいて事前訓練された大規模言語モデル (LLM) が,両視点からLTAを支援する可能性を持っていると仮定する。 それは、考えられる次のアクションについて事前の知識を提供し、それぞれの手順の観測された部分の目標を推測するのに役立つ。 LLMを活用するために,我々は2段階のフレームワークAntGPTを提案する。 まず、観察されたビデオで既に実行されたアクションを認識し、LLMに条件付き生成を介して将来のアクションを予測するか、あるいはチェーン・オブ・シンセサイティングによってゴールを推測し、手順全体を計画するように要求する。 Ego4D LTA v1 と v2 ベンチマーク EPIC-Kitchens-55 と EGTEA GAZE+ の実証実験により,提案手法の有効性が示された。 antgptは上述のすべてのベンチマークで最先端のパフォーマンスを達成し、目標を推測し、質的分析を通じて目標条件付き「実効的」予測を行うことができる。 コードとモデルはhttps://brown-palm.github.io/AntGPTでリリースされる

Can we better anticipate an actor's future actions (e.g. mix eggs) by knowing what commonly happens after his/her current action (e.g. crack eggs)? What if we also know the longer-term goal of the actor (e.g. making egg fried rice)? The long-term action anticipation (LTA) task aims to predict an actor's future behavior from video observations in the form of verb and noun sequences, and it is crucial for human-machine interaction. We propose to formulate the LTA task from two perspectives: a bottom-up approach that predicts the next actions autoregressively by modeling temporal dynamics; and a top-down approach that infers the goal of the actor and plans the needed procedure to accomplish the goal. We hypothesize that large language models (LLMs), which have been pretrained on procedure text data (e.g. recipes, how-tos), have the potential to help LTA from both perspectives. It can help provide the prior knowledge on the possible next actions, and infer the goal given the observed part of a procedure, respectively. To leverage the LLMs, we propose a two-stage framework, AntGPT. It first recognizes the actions already performed in the observed videos and then asks an LLM to predict the future actions via conditioned generation, or to infer the goal and plan the whole procedure by chain-of-thought prompting. Empirical results on the Ego4D LTA v1 and v2 benchmarks, EPIC-Kitchens-55, as well as EGTEA GAZE+ demonstrate the effectiveness of our proposed approach. AntGPT achieves state-of-the-art performance on all above benchmarks, and can successfully infer the goal and thus perform goal-conditioned "counterfactual" prediction via qualitative analysis. Code and model will be released at https://brown-palm.github.io/AntGPT
翻訳日:2023-10-13 05:09:24 公開日:2023-10-09
# 一般化可能なソースフリードメイン適応のための一貫性規則化

Consistency Regularization for Generalizable Source-free Domain Adaptation ( http://arxiv.org/abs/2308.01587v2 )

ライセンス: Link先を確認
Longxiang Tang, Kai Li, Chunming He, Yulun Zhang, Xiu Li(参考訳) source-free domain adaptation (sfda) は、ソースデータセットにアクセスせずに、十分に訓練されたソースモデルをラベルなしのターゲットドメインに適応させることを目的としている。 既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。 この監視は問題をオーバーフィットさせ、モデルの一般化能力を制約する。 本稿では、より一般化可能なSFDA法を開発するための一貫性規則化フレームワークを提案し、ターゲットトレーニングとテストデータセットの両方におけるモデル性能を同時に向上する。 本手法は,弱い強調画像から生成された軟質な擬似ラベルを利用して,強い強調画像の監視を行い,モデルトレーニングプロセスの容易化と適応モデルの一般化能力の向上を図る。 より有用な監視手法として,サンプルベースの擬似ラベル選択戦略を提案し,ドメインシフトの厳しいサンプルを考慮に入れた。 さらに,グローバルクラス分布と特徴クラスタ情報を活用したグローバル指向キャリブレーション手法を導入し,適応プロセスをさらに改善した。 広範囲な実験により,sfdaベンチマークにおいて最先端のパフォーマンスを達成し,未発見のテストデータセットに堅牢性を示す。

Source-free domain adaptation (SFDA) aims to adapt a well-trained source model to an unlabelled target domain without accessing the source dataset, making it applicable in a variety of real-world scenarios. Existing SFDA methods ONLY assess their adapted models on the target training set, neglecting the data from unseen but identically distributed testing sets. This oversight leads to overfitting issues and constrains the model's generalization ability. In this paper, we propose a consistency regularization framework to develop a more generalizable SFDA method, which simultaneously boosts model performance on both target training and testing datasets. Our method leverages soft pseudo-labels generated from weakly augmented images to supervise strongly augmented images, facilitating the model training process and enhancing the generalization ability of the adapted model. To leverage more potentially useful supervision, we present a sampling-based pseudo-label selection strategy, taking samples with severer domain shift into consideration. Moreover, global-oriented calibration methods are introduced to exploit global class distribution and feature cluster information, further improving the adaptation process. Extensive experiments demonstrate our method achieves state-of-the-art performance on several SFDA benchmarks, and exhibits robustness on unseen testing datasets.
翻訳日:2023-10-13 05:00:23 公開日:2023-10-09
# 一般化二次代入問題に対する遺伝的アルゴリズムのメタヒューリスティック

A Genetic Algorithm Meta-Heuristic for a Generalized Quadratic Assignment Problem ( http://arxiv.org/abs/2308.07828v2 )

ライセンス: Link先を確認
Mojtaba A. Farahani, Alan McKendall(参考訳) 一般化二次代入問題(GQAP)は、運用研究分野において最も解決が難しい問題の1つである。 本研究で取り組んだGQAPは、一組の施設を一組の場所に割り当てる際の割り当てと輸送コストを最小化するタスクとして定義される。 施設は異なる空間要件を持ち、場所は異なる空間容量を持つ。 スペース容量に違反しない場合、複数の施設が各場所に割り当てられる。 本稿では,異なる状況におけるgqapの3つの例を示す。 そして、GQAPインスタンスを解決するために遺伝的アルゴリズムを開発する。 最後に、最急降下戦略を有する局所近傍探索を構築し、gaで得られる最終解に適用し、mpl/cplexソフトウェアおよび参照論文で得られた最良解と比較する。 その結果,GAヒューリスティックはGQAPの解法に有効であることが示唆された。

The generalized quadratic assignment problem (GQAP) is one of the hardest problems to solve in the operations research area. The GQAP addressed in this work is defined as the task of minimizing the assignment and transportation costs of assigning a set of facilities to a set of locations. The facilities have different space requirements, and the locations have different space capacities. Multiple facilities can be assigned to each location if the space capacity is not violated. In this work, three instances of GQAP in different situations are presented. Then, a genetic algorithm is developed to solve the GQAP instances. Finally, the local neighborhood search with the steepest descend strategy is constructed and applied to the final solution obtained by the GA, and the final solution is compared with the best solution found by MPL/CPLEX software and reference papers. The results show that the developed GA heuristic is effective for solving the GQAP.
翻訳日:2023-10-13 04:50:38 公開日:2023-10-09
# nefl:異種顧客のための入れ子型フェデレート学習

NeFL: Nested Federated Learning for Heterogeneous Clients ( http://arxiv.org/abs/2308.07761v2 )

ライセンス: Link先を確認
Honggu Kang, Seohyeon Cha, Jinwoo Shin, Jongmyeong Lee, Joonhyuk Kang(参考訳) 連合学習(federated learning、fl)は、プライバシを維持する分散学習において有望なアプローチである。 しかしながら、flのトレーニングパイプラインの間、遅いまたは不可能なクライアント(すなわちストラグラー)は、全体のトレーニング時間を遅くし、パフォーマンスを低下させる。 異種コンピューティングやネットワーク帯域幅を含むシステム不均一性は、ストラグラーの影響を軽減するために対処されてきた。 従来の研究は、モデルをサブモデルに分割することでシステムの不均一性に取り組むが、モデルアーキテクチャの観点からは自由度は低い。 本稿では,奥行きスケーリングと幅方向スケーリングの両方を用いて,モデルを効率的にサブモデルに分割する汎用フレームワークであるnested federated learning (nefl)を提案する。 NeFLは、モデルの前方伝播を通常の微分方程式(ODE)を適応的なステップサイズで解くものとして解釈することで実現される。 異なるアーキテクチャの複数のサブモデルをトレーニングする際に生じる矛盾に対処するため、各サブモデルのパラメータからいくつかのパラメータを分離する。 NeFLはリソース制約のあるクライアントがFLパイプラインとモデルを効果的に結合し、大量のデータでトレーニングすることを可能にする。 一連の実験を通して、NeFLは特に最悪のサブモデルにおいて、大幅な性能向上をもたらすことを示した。 さらに, FLの事前学習モデルと統計的不均一性について, FLにおける最近の研究とNeFLの整合性を示す。

Federated learning (FL) is a promising approach in distributed learning keeping privacy. However, during the training pipeline of FL, slow or incapable clients (i.e., stragglers) slow down the total training time and degrade performance. System heterogeneity, including heterogeneous computing and network bandwidth, has been addressed to mitigate the impact of stragglers. Previous studies tackle the system heterogeneity by splitting a model into submodels, but with less degree-of-freedom in terms of model architecture. We propose nested federated learning (NeFL), a generalized framework that efficiently divides a model into submodels using both depthwise and widthwise scaling. NeFL is implemented by interpreting forward propagation of models as solving ordinary differential equations (ODEs) with adaptive step sizes. To address the inconsistency that arises when training multiple submodels of different architecture, we decouple a few parameters from parameters being trained for each submodel. NeFL enables resource-constrained clients to effectively join the FL pipeline and the model to be trained with a larger amount of data. Through a series of experiments, we demonstrate that NeFL leads to significant performance gains, especially for the worst-case submodel. Furthermore, we demonstrate NeFL aligns with recent studies in FL, regarding pre-trained models of FL and the statistical heterogeneity.
翻訳日:2023-10-13 04:50:25 公開日:2023-10-09
# 大規模・未ラベル自然画像を用いた医療AIモデルのネットワーク初期化の促進

Enhancing Network Initialization for Medical AI Models Using Large-Scale, Unlabeled Natural Images ( http://arxiv.org/abs/2308.07688v2 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Leo Misera, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) ImageNetのような事前トレーニングデータセットは、医療画像分析におけるゴールドスタンダードとなっている。 しかし、ラベルのないデータを利用して堅牢な特徴を学習する自己教師付き学習(SSL)の出現は、集中的なラベリングプロセスをバイパスする機会を与える。 本研究では,非医用画像に対する事前トレーニングのためのSSLが胸部X線写真に適用可能か,非医用画像および医用画像に対する教師付き事前トレーニングとの比較を行った。 視覚トランスフォーマーを利用して 重みを初期化しました (i)自然画像によるSSL事前トレーニング(DINOv2) (ii)自然画像(画像Netデータセット)におけるSL事前学習 3)MIMIC-CXRデータベースからの胸部X線写真によるSL事前訓練 我々は6つの大きなグローバルデータセットから800,000以上の胸部X線撮影を行い、20以上の異なる画像所見を診断した。 我々のSSL事前トレーニングは、ImageNetベースの事前トレーニング(P<0.001)に勝るだけでなく、MIMIC-CXRデータセット上のSLを上回りました。 以上の結果から,適切な事前トレーニング戦略,特にSSLを選択することは,医用画像における人工知能(AI)の診断精度の向上に重要であることが示唆された。 胸部x線写真解析におけるsslの有望性を示すことで、医療画像におけるより効率的で正確なaiモデルへの転換を示唆する。

Pre-training datasets, like ImageNet, have become the gold standard in medical image analysis. However, the emergence of self-supervised learning (SSL), which leverages unlabeled data to learn robust features, presents an opportunity to bypass the intensive labeling process. In this study, we explored if SSL for pre-training on non-medical images can be applied to chest radiographs and how it compares to supervised pre-training on non-medical images and on medical images. We utilized a vision transformer and initialized its weights based on (i) SSL pre-training on natural images (DINOv2), (ii) SL pre-training on natural images (ImageNet dataset), and (iii) SL pre-training on chest radiographs from the MIMIC-CXR database. We tested our approach on over 800,000 chest radiographs from six large global datasets, diagnosing more than 20 different imaging findings. Our SSL pre-training on curated images not only outperformed ImageNet-based pre-training (P<0.001 for all datasets) but, in certain cases, also exceeded SL on the MIMIC-CXR dataset. Our findings suggest that selecting the right pre-training strategy, especially with SSL, can be pivotal for improving artificial intelligence (AI)'s diagnostic accuracy in medical imaging. By demonstrating the promise of SSL in chest radiograph analysis, we underline a transformative shift towards more efficient and accurate AI models in medical imaging.
翻訳日:2023-10-13 04:50:03 公開日:2023-10-09
# PlatoLM: ソクラティック質問ユーザシミュレータによるLLM教育

PlatoLM: Teaching LLMs via a Socratic Questioning User Simulator ( http://arxiv.org/abs/2308.11534v3 )

ライセンス: Link先を確認
Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang(参考訳) クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。 しかし、人間の参加に関わる会話を集める上での課題から、BaizeやUltraChatといった現在の取り組みは、会話データを自動的に生成することを目指している。 彼らは主に、人間からの本物の学習ではなく、指示に基づいて人間の行動をシミュレートするために、チャットgptを実行することに頼り、スコープが限られ、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如した。 上記の課題に対処するため,真の人間機械会話から抽出した人間の質問を学習目標とし,「ソクラティック」と呼ばれるユーザシミュレーターを訓練し,高品質な人間中心の合成会話データセットを作成する。 その後、このデータセットを使用して、"PlatoLM"という名前のアシスタントモデルをトレーニングしました。 実験により,platolmは,等価なトレーニングセットサイズを考慮した場合の対数比較により,vicuna-benchおよびmt-benchのベースラインモデルを上回った。 興味深いことに、最新のLLaMA 2モデルで微調整されたPlatoLMは、MT-BenchベンチマークとAlpaca-Evalベンチマークで7Bモデル(LLaMA-2-13B-chatやGPT-3.5など)のSOTA性能を達成した。 さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。 コードはhttps://github.com/FreedomIntelligence/PlatoLMで公開されている。

The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT conversations, as evidenced by Vicuna. However, due to challenges in gathering conversations involving human participation, current endeavors like Baize and UltraChat aim to automatically generate conversational data. They primarily rely on ChatGPT conducting roleplay to simulate human behaviors based on instructions rather than genuine learning from humans, resulting in limited scope, diminished diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we target human questions extracted from genuine human-machine conversations as a learning goal and train a user simulator called `Socratic' to produce a high-quality human-centric synthetic conversation dataset. Subsequently, this dataset was used to train our assistant model, named `PlatoLM'. Experimentally, PlatoLM outpaces baseline models in both Vicuna-Bench and MT-Bench by pairwise comparison when considering equivalent training set sizes, and manual evaluation also shows that our model is highly competitive. Impressively, when fine-tuned with the latest LLaMA 2 model, PlatoLM achieves the SOTA performance among 7B models (including LLaMA-2-7B-chat and Vicuna-7B) in MT-Bench benchmark and in Alpaca-Eval benchmark, it ranks second among 7B models, even beating some larger scale models (including LLaMA-2-13B-chat and GPT-3.5). Further in-depth analysis demonstrates the scalability and transferability of our approach. The code is available at https://github.com/FreedomIntelligence/PlatoLM.
翻訳日:2023-10-13 04:42:31 公開日:2023-10-09
# 大規模言語モデルのためのインストラクションチューニング:サーベイ

Instruction Tuning for Large Language Models: A Survey ( http://arxiv.org/abs/2308.10792v4 )

ライセンス: Link先を確認
Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu and Guoyin Wang(参考訳) 本稿では,大規模言語モデル(LLM)の能力と制御性を向上するための重要な技術である,命令チューニング(IT)の急速な発展分野における研究成果について調査する。 インストラクションチューニング(インストラクションチューニング)とは、LLMの次の単語予測目標と、LLMを人間の指示に従わせるというユーザの目的とのギャップを埋める、教師付き方式で、‘textsc{(インストラクション、アウトプット)’ペアからなるデータセット上で、LLMをさらに訓練するプロセスを指す。 本研究は、ITの一般的な方法論、ITデータセットの構築、ITモデルの構築、異なるモダリティ、ドメイン、アプリケーションへのアプリケーション、およびITの結果に影響を与える側面(例えば、命令出力の生成、命令データセットのサイズなど)に関する分析を含む、文献の体系的なレビューを行う。 また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。 プロジェクトページ:github.com/xiaoya-li/Instruction-Tuning-Survey

This paper surveys research works in the quickly advancing field of instruction tuning (IT), a crucial technique to enhance the capabilities and controllability of large language models (LLMs). Instruction tuning refers to the process of further training LLMs on a dataset consisting of \textsc{(instruction, output)} pairs in a supervised fashion, which bridges the gap between the next-word prediction objective of LLMs and the users' objective of having LLMs adhere to human instructions. In this work, we make a systematic review of the literature, including the general methodology of IT, the construction of IT datasets, the training of IT models, and applications to different modalities, domains and applications, along with an analysis on aspects that influence the outcome of IT (e.g., generation of instruction outputs, size of the instruction dataset, etc). We also review the potential pitfalls of IT along with criticism against it, along with efforts pointing out current deficiencies of existing strategies and suggest some avenues for fruitful research. Project page: github.com/xiaoya-li/Instruction-Tuning-Survey
翻訳日:2023-10-13 04:41:23 公開日:2023-10-09
# ニューラルネットワークのためのテンソル圧縮バックプロパゲーションフリートレーニング

Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed) Neural Networks ( http://arxiv.org/abs/2308.09858v2 )

ライセンス: Link先を確認
Yequan Zhao, Xinling Yu, Zhixiong Chen, Ziyue Liu, Sijia Liu and Zheng Zhang(参考訳) 後方伝播(BP)はニューラルネットワークトレーニングの勾配を計算するために広く用いられている。 しかし,ハードウェアやソフトウェアリソースが不足しているため,エッジデバイス上でbpを実装することは困難である。 これは、オンデバイストレーニングアクセラレータの設計の複雑さと市場投入時間を大幅に増加させた。 本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする完全BPフリーフレームワークを提案する。 私たちの技術貢献は3倍です。 まず,ゼロ次最適化(zo)のスケーラビリティを大幅に向上させるために,テンソル圧縮分散低減手法を提案する。 次に,ZO訓練の効率化を目的としたハイブリッド勾配評価手法を提案する。 最後に、BPを用いずに損失関数の導関数を推定するスパースグリッドアプローチを提案することにより、BPフリートレーニングフレームワークを物理学情報ニューラルネットワーク(PINN)に拡張する。 BPフリートレーニングは、標準の1次トレーニングと比較して、MNISTデータセットではほとんど精度が低下しない。 また,20dim Hamiltonian-Jacobi-Bellman PDEを解くためにPINNのトレーニングに成功した。 このメモリ効率とBPフリーのアプローチは、多くのリソース制約のあるプラットフォーム(FPGA、ASIC、マイクロコントローラ、フォトニックチップなど)における、近い将来のオンデバイストレーニングの基礎となる。

Backward propagation (BP) is widely used to compute the gradients in neural network training. However, it is hard to implement BP on edge devices due to the lack of hardware and software resources to support automatic differentiation. This has tremendously increased the design complexity and time-to-market of on-device training accelerators. This paper presents a completely BP-free framework that only requires forward propagation to train realistic neural networks. Our technical contributions are three-fold. Firstly, we present a tensor-compressed variance reduction approach to greatly improve the scalability of zeroth-order (ZO) optimization, making it feasible to handle a network size that is beyond the capability of previous ZO approaches. Secondly, we present a hybrid gradient evaluation approach to improve the efficiency of ZO training. Finally, we extend our BP-free training framework to physics-informed neural networks (PINNs) by proposing a sparse-grid approach to estimate the derivatives in the loss function without using BP. Our BP-free training only loses little accuracy on the MNIST dataset compared with standard first-order training. We also demonstrate successful results in training a PINN for solving a 20-dim Hamiltonian-Jacobi-Bellman PDE. This memory-efficient and BP-free approach may serve as a foundation for the near-future on-device training on many resource-constraint platforms (e.g., FPGA, ASIC, micro-controllers, and photonic chips).
翻訳日:2023-10-13 04:40:45 公開日:2023-10-09
# U字型並列スプリット学習のための最適資源配分

Optimal Resource Allocation for U-Shaped Parallel Split Learning ( http://arxiv.org/abs/2308.08896v3 )

ライセンス: Link先を確認
Song Lyu, Zheng Lin, Guanqiao Qu, Xianhao Chen, Xiaoxia Huang, and Pan Li(参考訳) Split Learning(SL)は、データ所有者の生データサンプルを明らかにすることなく、モデルトレーニングのための有望なアプローチとして登場した。 しかし、従来のSLは必然的にラベルのプライバシをリークし、(最後のレイヤを持つ)テールモデルがサーバに置かれるべきである。 この制限を克服するために、有望な解決策の1つは、u字型アーキテクチャを使用して、初期層と最後の層の両方をユーザー側に残すことである。 本稿では,新しい並列u字型分割学習法を開発し,エッジネットワークの性能向上のための最適資源最適化手法を考案する。 提案フレームワークでは,複数のユーザがSL用のエッジサーバと通信する。 学習過程における各クライアントのエンドツーエンド遅延を分析し, LSCRAと呼ばれる効率的な資源割当アルゴリズムを設計し, 最適計算資源割当と分割層を求める。 実験の結果,ラベルのプライバシを保ちながら,LSCRAの有効性と,U字型並列分割学習が他のSLベースラインと同等の性能を発揮することが示された。 インデックス用語:U字型ネットワーク、分割学習、ラベルプライバシ、リソース割り当て、5G/6Gエッジネットワーク。

Split learning (SL) has emerged as a promising approach for model training without revealing the raw data samples from the data owners. However, traditional SL inevitably leaks label privacy as the tail model (with the last layers) should be placed on the server. To overcome this limitation, one promising solution is to utilize U-shaped architecture to leave both early layers and last layers on the user side. In this paper, we develop a novel parallel U-shaped split learning and devise the optimal resource optimization scheme to improve the performance of edge networks. In the proposed framework, multiple users communicate with an edge server for SL. We analyze the end-to-end delay of each client during the training process and design an efficient resource allocation algorithm, called LSCRA, which finds the optimal computing resource allocation and split layers. Our experimental results show the effectiveness of LSCRA and that U-shaped parallel split learning can achieve a similar performance with other SL baselines while preserving label privacy. Index Terms: U-shaped network, split learning, label privacy, resource allocation, 5G/6G edge networks.
翻訳日:2023-10-13 04:40:07 公開日:2023-10-09
# U字型並列スプリット学習のための最適資源配分

Optimal Resource Allocation for U-Shaped Parallel Split Learning ( http://arxiv.org/abs/2308.08896v2 )

ライセンス: Link先を確認
Song Lyu, Zheng Lin, Guanqiao Qu, Xianhao Chen, Xiaoxia Huang, and Pan Li(参考訳) Split Learning(SL)は、データ所有者の生データサンプルを明らかにすることなく、モデルトレーニングのための有望なアプローチとして登場した。 しかし、従来のSLは必然的にラベルのプライバシをリークし、(最後のレイヤを持つ)テールモデルがサーバに置かれるべきである。 この制限を克服するために、有望な解決策の1つは、u字型アーキテクチャを使用して、初期層と最後の層の両方をユーザー側に残すことである。 本稿では,新しい並列u字型分割学習法を開発し,エッジネットワークの性能向上のための最適資源最適化手法を考案する。 提案フレームワークでは,複数のユーザがSL用のエッジサーバと通信する。 学習過程における各クライアントのエンドツーエンド遅延を分析し, LSCRAと呼ばれる効率的な資源割当アルゴリズムを設計し, 最適計算資源割当と分割層を求める。 実験の結果,ラベルのプライバシを保ちながら,LSCRAの有効性と,U字型並列分割学習が他のSLベースラインと同等の性能を発揮することが示された。 インデックス用語:U字型ネットワーク、分割学習、ラベルプライバシ、リソース割り当て、5G/6Gエッジネットワーク。

Split learning (SL) has emerged as a promising approach for model training without revealing the raw data samples from the data owners. However, traditional SL inevitably leaks label privacy as the tail model (with the last layers) should be placed on the server. To overcome this limitation, one promising solution is to utilize U-shaped architecture to leave both early layers and last layers on the user side. In this paper, we develop a novel parallel U-shaped split learning and devise the optimal resource optimization scheme to improve the performance of edge networks. In the proposed framework, multiple users communicate with an edge server for SL. We analyze the end-to-end delay of each client during the training process and design an efficient resource allocation algorithm, called LSCRA, which finds the optimal computing resource allocation and split layers. Our experimental results show the effectiveness of LSCRA and that U-shaped parallel split learning can achieve a similar performance with other SL baselines while preserving label privacy. Index Terms: U-shaped network, split learning, label privacy, resource allocation, 5G/6G edge networks.
翻訳日:2023-10-13 04:39:47 公開日:2023-10-09
# 臨床研究のための大規模言語モデルストリームライン自動機械学習

Large Language Models Streamline Automated Machine Learning for Clinical Studies ( http://arxiv.org/abs/2308.14120v3 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Tianyu Han, Mahshad Lotfinia, Christiane Kuhl, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) 知識ギャップは、機械学習開発者(例えばデータサイエンティスト)と実践者(例えば臨床医)の間で持続し、臨床データ分析におけるMLの完全な利用を妨げる。 GPT-4の拡張であるChatGPT Advanced Data Analysis (ADA) の可能性を検討した。 各種医療専門分野にわたる大規模な臨床試験の実際の臨床データセットと研究の詳細をChatGPT ADAに提示した。 ChatGPT ADAは、がんの発生、がんの進行、合併症、病原性遺伝子配列などのバイオマーカーなどの臨床結果を予測するために、オリジナルの研究のトレーニングデータに基づく最先端MLモデルを自律的に開発した。 公開モデルの再実装と最適化により,chatgpt ada製mlモデルと手作業によるmlモデルの比較では,従来のパフォーマンス指標に有意差は認められなかった(p>0.474)。 興味深いことに、ChatGPT ADAで製作されたMLモデルは、しばしばそのモデルよりも優れていた。 結論として、chatgpt adaは、複雑なデータ分析をシンプルにすることで、医学におけるmlを民主化する有望な方法を提供しているが、医療研究と実践における幅広い応用を促進するために、専門的なトレーニングとリソースを強化すべきではない。

A knowledge gap persists between machine learning (ML) developers (e.g., data scientists) and practitioners (e.g., clinicians), hampering the full utilization of ML for clinical data analysis. We investigated the potential of the ChatGPT Advanced Data Analysis (ADA), an extension of GPT-4, to bridge this gap and perform ML analyses efficiently. Real-world clinical datasets and study details from large trials across various medical specialties were presented to ChatGPT ADA without specific guidance. ChatGPT ADA autonomously developed state-of-the-art ML models based on the original study's training data to predict clinical outcomes such as cancer development, cancer progression, disease complications, or biomarkers such as pathogenic gene sequences. Following the re-implementation and optimization of the published models, the head-to-head comparison of the ChatGPT ADA-crafted ML models and their respective manually crafted counterparts revealed no significant differences in traditional performance metrics (P>0.474). Strikingly, the ChatGPT ADA-crafted ML models often outperformed their counterparts. In conclusion, ChatGPT ADA offers a promising avenue to democratize ML in medicine by simplifying complex data analyses, yet should enhance, not replace, specialized training and resources, to promote broader applications in medical research and practice.
翻訳日:2023-10-13 04:20:56 公開日:2023-10-09
# マスクネットワークのアンサンブル

Ensemble Mask Networks ( http://arxiv.org/abs/2309.06382v2 )

ライセンス: Link先を確認
Jonny Luntzel(参考訳) $\mathbb{R}^n\rightarrow \mathbb{R}^n$ feedforward network learn matrix-vector multiplication? 本研究では,マトリックス入力を取るためのフレキシブルマスキングと,マスクの依存性構造を尊重するユニークなネットワークプルーニングという2つのメカニズムを導入する。 ネットワークは行列ベクトル乗法 $\phi(A,x) \rightarrow Ax$ のような固定演算を近似することができ、リトマステストの依存関係やグラフベースのモデルでの相互作用順序に対する応用によって導入されたメカニズムを動機付ける。

Can an $\mathbb{R}^n\rightarrow \mathbb{R}^n$ feedforward network learn matrix-vector multiplication? This study introduces two mechanisms - flexible masking to take matrix inputs, and a unique network pruning to respect the mask's dependency structure. Networks can approximate fixed operations such as matrix-vector multiplication $\phi(A,x) \rightarrow Ax$, motivating the mechanisms introduced with applications towards litmus-testing dependencies or interaction order in graph-based models.
翻訳日:2023-10-13 04:12:04 公開日:2023-10-09
# 複合学習構造-流体関係を考慮した総合的な3次元鉱物探査モデルのためのマルチモーダル学習フレームワーク

A Multimodal Learning Framework for Comprehensive 3D Mineral Prospectivity Modeling with Jointly Learned Structure-Fluid Relationships ( http://arxiv.org/abs/2309.02911v2 )

ライセンス: Link先を確認
Yang Zheng, Hao Deng, Ruisheng Wang, Jingjie Wu(参考訳) 本研究では,3次元鉱物分布図(3D MPM)のための新しい多モード融合モデルを提案し,深層ネットワークアーキテクチャを通して構造情報と流体情報を効果的に統合する。 畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)を利用するモデルでは、標準相関解析(CCA)を用いてマルチモーダル特徴の整合と融合を行う。 Jiaojia金鉱床データセットの厳密な評価は、鉱床のインスタンスを識別し、鉱泉の確率を予測し、結果分析において他のモデルよりも優れた性能を示す。 アブレーション研究は、関節機能利用とCAAの活用の利点をさらに明らかにしている。 この研究は鉱物の予測モデリングを進歩させるだけでなく、データ統合と機能アライメントの重要な役割を強調する。

This study presents a novel multimodal fusion model for three-dimensional mineral prospectivity mapping (3D MPM), effectively integrating structural and fluid information through a deep network architecture. Leveraging Convolutional Neural Networks (CNN) and Multilayer Perceptrons (MLP), the model employs canonical correlation analysis (CCA) to align and fuse multimodal features. Rigorous evaluation on the Jiaojia gold deposit dataset demonstrates the model's superior performance in distinguishing ore-bearing instances and predicting mineral prospectivity, outperforming other models in result analyses. Ablation studies further reveal the benefits of joint feature utilization and CCA incorporation. This research not only advances mineral prospectivity modeling but also highlights the pivotal role of data integration and feature alignment for enhanced exploration decision-making.
翻訳日:2023-10-13 04:11:30 公開日:2023-10-09
# テンソル化によるディープラーニングモデルの強化: 包括的調査とフレームワーク

Enhancing Deep Learning Models through Tensorization: A Comprehensive Survey and Framework ( http://arxiv.org/abs/2309.02428v3 )

ライセンス: Link先を確認
Manal Helal(参考訳) パブリックドメインデータの急成長とディープラーニングモデルアーキテクチャの複雑さの増大は、より効率的なデータ表現と分析技術の必要性を浮き彫りにした。 この論文は(Helal, 2023)の成果に動機付けられ, テンソル化の包括的概要を示すことを目的としている。 この変換的アプローチは、データの本質的に多次元の性質と線形代数ベースの機械学習アルゴリズムで一般的に使用される単純化された2次元行列の間のギャップを埋める。 本稿では, テンソル化, 多次元データソース, 様々な多方向解析手法, およびこれらの手法の利点について考察する。 2次元アルゴリズムとPythonのマルチウェイアルゴリズムを比較したBlind Source separation(BSS)の小さな例を示す。 その結果,多方向解析の方が表現力が高いことがわかった。 次元の呪いの直感とは対照的に、多次元のデータセットを原形に利用し、多線型代数を基底とした多次元解析手法を適用すると、様々な次元の複雑な相互関係を捉える重要な能力が明らかとなり、驚くほど、モデルのパラメータの減少と処理の高速化が図られる。 異なるアプリケーション領域のケーススタディを用いて,多元的解析手法と様々な深層ニューラルネットワークモデルとの統合に関する調査を行った。

The burgeoning growth of public domain data and the increasing complexity of deep learning model architectures have underscored the need for more efficient data representation and analysis techniques. This paper is motivated by the work of (Helal, 2023) and aims to present a comprehensive overview of tensorization. This transformative approach bridges the gap between the inherently multidimensional nature of data and the simplified 2-dimensional matrices commonly used in linear algebra-based machine learning algorithms. This paper explores the steps involved in tensorization, multidimensional data sources, various multiway analysis methods employed, and the benefits of these approaches. A small example of Blind Source Separation (BSS) is presented comparing 2-dimensional algorithms and a multiway algorithm in Python. Results indicate that multiway analysis is more expressive. Contrary to the intuition of the dimensionality curse, utilising multidimensional datasets in their native form and applying multiway analysis methods grounded in multilinear algebra reveal a profound capacity to capture intricate interrelationships among various dimensions while, surprisingly, reducing the number of model parameters and accelerating processing. A survey of the multi-away analysis methods and integration with various Deep Neural Networks models is presented using case studies in different application domains.
翻訳日:2023-10-13 04:10:38 公開日:2023-10-09
# 古典的到着時間の運動変形

Moyal deformation of the classical arrival time ( http://arxiv.org/abs/2309.00222v2 )

ライセンス: Link先を確認
Dean Alvin L. Pablico and Eric A. Galapon(参考訳) 到着の量子時間(TOA)問題は、粒子の初期状態のみを仮定して測定された到着時間の統計を必要とする。 量子論の標準的な枠組みに従うと、この問題は古典的到着時間である$\mathcal{t}_c(q,p)$の適切な量子画像を見つけることに変換され、通常演算子形式は$\hat{\mathrm{t}}$となる。 本稿では、量子力学の位相空間定式化における問題を新たに考察する。 得られた量子画像は実数値で時間反転対称関数 $\mathcal{T}_M(q,p)$ の形式的級数$\hbar^2$ であり、古典的到着時刻を主項とする。 これはハミルトニアン系とのモヤルブラケット関係から直接得られ、したがって古典的TOAのモヤル変形として解釈される。 その性質について検討し、$\mathcal{T}_M(q,p)$ と[Eur で構築されたヒルベルト空間 TOA 作用素の間の同型を示すことによって、既知の障害物を量子化にバイパスする方法について議論する。 Phys J. Plus \textbf{138}, 153 (2023)] は任意の解析ポテンシャルに対して常に時間-エネルギーの正準交換関係(TECCR)を満たす。

The quantum time of arrival (TOA) problem requires statistics of the measured arrival times given only the initial state of a particle. Following the standard framework of quantum theory, the problem translates into finding an appropriate quantum image of the classical arrival time $\mathcal{T}_C(q,p)$, usually in operator form $\hat{\mathrm{T}}$. In this paper, we consider the problem anew within the phase space formulation of quantum mechanics. The resulting quantum image is a real-valued and time-reversal symmetric function $\mathcal{T}_M(q,p)$ in formal series of $\hbar^2$ with the classical arrival time as the leading term. It is obtained directly from the Moyal bracket relation with the system Hamiltonian and is hence interpreted as a Moyal deformation of the classical TOA. We investigate its properties and discuss how it bypasses the known obstructions to quantization by showing the isomorphism between $\mathcal{T}_M(q,p)$ and the rigged Hilbert space TOA operator constructed in [Eur. Phys. J. Plus \textbf{138}, 153 (2023)] which always satisfy the time-energy canonical commutation relation (TECCR) for arbitrary analytic potentials.
翻訳日:2023-10-13 04:09:07 公開日:2023-10-09
# RAIN: 言語モデルは微調整なしでテーマを調整できる

RAIN: Your Language Models Can Align Themselves without Finetuning ( http://arxiv.org/abs/2309.07124v2 )

ライセンス: Link先を確認
Yuhui Li, Fangyun Wei, Jinjing Zhao, Chao Zhang, Hongyang Zhang(参考訳) 大型言語モデル(LLM)は人間の好みと矛盾することが多い。 従来の研究は人間の嗜好データを収集し、強化学習や指導調律を用いて事前訓練されたモデルを整列させた。 対照的に、アライメントデータを必要としない凍結LDMのアライメントはより魅力的である。 この研究は、後者の設定の可能性を探求する。 自己評価とリワインド機構を統合することで,非整合llmは自己ブーストを通じて,人間の嗜好と一致した応答を直接生成できることを見出した。 本稿では,事前学習したLLMが自身の生成を評価し,評価結果を用いて,AIの安全性を誘導する新しい推論手法であるRewindable Auto-Regressive Inference(RAIN)を提案する。 特にrainは、モデルアライメントのための余分なデータなしで動作し、トレーニング、勾配計算、パラメータ更新は不要である。 GPT-4およびヒトで評価された実験結果から,LLaMA30Bの無害化率をバニラ推定82%から97%に改善し,有用性を維持した。 TruthfulQAデータセットでは、すでに整列しているLLaMA-2-chat 13Bモデルの真偽を5%改善する。

Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research typically gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, a.k.a. the finetuning step. In contrast, aligning frozen LLMs without requiring alignment data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide rewind and generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B from 82% of vanilla inference to 97%, while maintaining the helpfulness rate. On the TruthfulQA dataset, RAIN improves the truthfulness of the already-well-aligned LLaMA-2-chat 13B model by 5%.
翻訳日:2023-10-13 04:02:33 公開日:2023-10-09
# 優先順位付き体験リプレイの注意損失調整

Attention Loss Adjusted Prioritized Experience Replay ( http://arxiv.org/abs/2309.06684v2 )

ライセンス: Link先を確認
Zhuoying Chen, Huiping Li, Rizhong Wang(参考訳) 優先経験リプレイ(PER)は、より知識量の多い経験サンプルを選択し、ニューラルネットワークのトレーニング率を向上させることによって、深層強化学習の技術的手段である。 しかし、PERで使用される一様サンプリングは必然的に状態-作用空間分布をシフトさせ、Q値関数の推定誤差をもたらす。 本稿では,ALAP(Attention Loss Adjusted Prioritized (ALAP) Experience Replayアルゴリズムを提案する。このアルゴリズムは改良されたセルフアテンションネットワークとダブルサンプリング機構を統合し,重み付け重みを調整し,PERによる推定誤差を除去する。 アルゴリズムの有効性と汎用性を検証するため,OPENAI体育館において,ALAP を値関数ベース,ポリシー勾配ベース,マルチエージェント強化学習アルゴリズムを用いて検証し,提案したトレーニングフレームワークの利点と有効性を検証する。

Prioritized Experience Replay (PER) is a technical means of deep reinforcement learning by selecting experience samples with more knowledge quantity to improve the training rate of neural network. However, the non-uniform sampling used in PER inevitably shifts the state-action space distribution and brings the estimation error of Q-value function. In this paper, an Attention Loss Adjusted Prioritized (ALAP) Experience Replay algorithm is proposed, which integrates the improved Self-Attention network with Double-Sampling mechanism to fit the hyperparameter that can regulate the importance sampling weights to eliminate the estimation error caused by PER. In order to verify the effectiveness and generality of the algorithm, the ALAP is tested with value-function based, policy-gradient based and multi-agent reinforcement learning algorithms in OPENAI gym, and comparison studies verify the advantage and efficiency of the proposed training framework.
翻訳日:2023-10-13 04:02:09 公開日:2023-10-09
# FusionFormer:3次元物体検出のための鳥の視点と時間一貫性変換器の多感覚融合

FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection ( http://arxiv.org/abs/2309.05257v3 )

ライセンス: Link先を確認
Chunyong Hu, Hang Zheng, Kun Li, Jianyun Xu, Weibo Mao, Maochun Luo, Lingxuan Wang, Mingxia Chen, Qihao Peng, Kaixuan Liu, Yiru Zhao, Peihan Hao, Minzhe Liu, Kaicheng Yu(参考訳) マルチセンサーモーダルフュージョンは、3dオブジェクト検出タスクにおいて強力なアドバンテージを示している。 しかし、マルチモーダルな特徴を融合させる既存の方法は、鳥の視線空間に特徴を変換し、z軸に関する特定の情報を失う可能性があるため、性能が低下する。 そこで,本稿では,核融合符号化モジュール内に変形可能な注意と残留構造を組み込んだ,エンド・ツー・エンドのマルチモーダル核融合トランスフォーマフレームワークであるfusionformerを提案する。 具体的には、2次元画像と3次元ボクセルの特徴を自発的にサンプリングしやすくすることで、柔軟な適応性を活用し、特徴連結プロセス中に鳥の目視空間への明示的な変換を避けることができる。 さらに,入力モダリティを欠く場合にモデルのロバスト性を保証するため,特徴エンコーダの残差構造を実装した。 一般的な自律走行ベンチマークデータセットであるnuScenesの広範な実験を通じて,テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAPと75.1% NDSの最先端の単一モデル性能を実現する。

Multi-sensor modal fusion has demonstrated strong advantages in 3D object detection tasks. However, existing methods that fuse multi-modal features require transforming features into the bird's eye view space and may lose certain information on Z-axis, thus leading to inferior performance. To this end, we propose a novel end-to-end multi-modal fusion transformer-based framework, dubbed FusionFormer, that incorporates deformable attention and residual structures within the fusion encoding module. Specifically, by developing a uniform sampling strategy, our method can easily sample from 2D image and 3D voxel features spontaneously, thus exploiting flexible adaptability and avoiding explicit transformation to the bird's eye view space during the feature concatenation process. We further implement a residual structure in our feature encoder to ensure the model's robustness in case of missing an input modality. Through extensive experiments on a popular autonomous driving benchmark dataset, nuScenes, our method achieves state-of-the-art single model performance of 72.6% mAP and 75.1% NDS in the 3D object detection task without test time augmentation.
翻訳日:2023-10-13 04:01:32 公開日:2023-10-09
# FusionFormer:3次元物体検出のための鳥の視点と時間一貫性変換器の多感覚融合

FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection ( http://arxiv.org/abs/2309.05257v2 )

ライセンス: Link先を確認
Chunyong Hu, Hang Zheng, Kun Li, Jianyun Xu, Weibo Mao, Maochun Luo, Lingxuan Wang, Mingxia Chen, Qihao Peng, Kaixuan Liu, Yiru Zhao, Peihan Hao, Minzhe Liu, Kaicheng Yu(参考訳) マルチセンサーモーダルフュージョンは、3dオブジェクト検出タスクにおいて強力なアドバンテージを示している。 しかし、マルチモーダルな特徴を融合させる既存の方法は、鳥の視線空間に特徴を変換し、z軸に関する特定の情報を失う可能性があるため、性能が低下する。 そこで,本稿では,核融合符号化モジュール内に変形可能な注意と残留構造を組み込んだ,エンド・ツー・エンドのマルチモーダル核融合トランスフォーマフレームワークであるfusionformerを提案する。 具体的には、2次元画像と3次元ボクセルの特徴を自発的にサンプリングしやすくすることで、柔軟な適応性を活用し、特徴連結プロセス中に鳥の目視空間への明示的な変換を避けることができる。 さらに,入力モダリティを欠く場合にモデルのロバスト性を保証するため,特徴エンコーダの残差構造を実装した。 一般的な自律走行ベンチマークデータセットであるnuScenesの広範な実験を通じて,テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAPと75.1% NDSの最先端の単一モデル性能を実現する。

Multi-sensor modal fusion has demonstrated strong advantages in 3D object detection tasks. However, existing methods that fuse multi-modal features require transforming features into the bird's eye view space and may lose certain information on Z-axis, thus leading to inferior performance. To this end, we propose a novel end-to-end multi-modal fusion transformer-based framework, dubbed FusionFormer, that incorporates deformable attention and residual structures within the fusion encoding module. Specifically, by developing a uniform sampling strategy, our method can easily sample from 2D image and 3D voxel features spontaneously, thus exploiting flexible adaptability and avoiding explicit transformation to the bird's eye view space during the feature concatenation process. We further implement a residual structure in our feature encoder to ensure the model's robustness in case of missing an input modality. Through extensive experiments on a popular autonomous driving benchmark dataset, nuScenes, our method achieves state-of-the-art single model performance of 72.6% mAP and 75.1% NDS in the 3D object detection task without test time augmentation.
翻訳日:2023-10-13 04:01:10 公開日:2023-10-09
# ニューラルネットワークにおける言語のメタ予測学習モデル

Meta predictive learning model of languages in neural circuits ( http://arxiv.org/abs/2309.04106v2 )

ライセンス: Link先を確認
Chan Li and Junbin Qiu and Haiping Huang(参考訳) 自己認識機構に基づく大規模言語モデルは、自然言語自体だけでなく、様々な性質のタスクにおいて驚くべきパフォーマンスを達成した。 しかし、言語処理に関しては、人間の脳は同じ原理で動作しないかもしれない。 次に, 大規模言語モデルにおける脳計算と人工的自己スーパービジョンの関係について議論する。 脳計算における最も影響力のある仮説の1つは、局所学習による予測誤差を最小化する予測符号化フレームワークである。 しかし、言語処理における予測符号化と関連するクレジット割り当ての役割は未だ不明である。 本稿では,各接続のシナプス重みがスパイクとスラブ分布に従うことを前提として,予測符号化フレームワーク内の平均場学習モデルを提案する。 このメタ予測学習は、連続してネットワークに画素が入力される手書き桁の分類に成功し、さらに玩具や実言語コーパスにも有効である。 我々のモデルでは、ほとんどの接続は学習後に決定論的になるが、出力接続はより高いばらつきを持つ。 結果として得られるネットワークアンサンブルのパフォーマンスは、データ負荷とともに継続的に変化し、大規模言語モデルの創発的振る舞いと類似して、より多くのトレーニングデータにより改善される。 したがって,本モデルは,脳計算,次世代予測,汎用知能の関連を調べるための出発点となる。

Large language models based on self-attention mechanisms have achieved astonishing performances not only in natural language itself, but also in a variety of tasks of different nature. However, regarding processing language, our human brain may not operate using the same principle. Then, a debate is established on the connection between brain computation and artificial self-supervision adopted in large language models. One of most influential hypothesis in brain computation is the predictive coding framework, which proposes to minimize the prediction error by local learning. However, the role of predictive coding and the associated credit assignment in language processing remains unknown. Here, we propose a mean-field learning model within the predictive coding framework, assuming that the synaptic weight of each connection follows a spike and slab distribution, and only the distribution, rather than specific weights, is trained. This meta predictive learning is successfully validated on classifying handwritten digits where pixels are input to the network in sequence, and moreover on the toy and real language corpus. Our model reveals that most of the connections become deterministic after learning, while the output connections have a higher level of variability. The performance of the resulting network ensemble changes continuously with data load, further improving with more training data, in analogy with the emergent behavior of large language models. Therefore, our model provides a starting point to investigate the connection among brain computation, next-token prediction and general intelligence.
翻訳日:2023-10-13 04:00:47 公開日:2023-10-09
# 地理空間研究におけるグラフ理論の応用

Graph Theory Applications in Advanced Geospatial Research ( http://arxiv.org/abs/2309.03249v2 )

ライセンス: Link先を確認
Surajit Ghosh, Archita Mallick, Anuva Chowdhury, Kounik De Sarkar(参考訳) 地理空間科学(geospatial sciences)には、環境監視輸送からインフラ計画、位置ベースの分析やサービスまで、幅広い応用が含まれている。 数学におけるグラフ理論のアルゴリズムは、空間的関係を効率的にモデル化し分析する能力から、これらの領域において欠かせないツールとして登場してきた。 本稿では,地理空間科学におけるグラフ理論アルゴリズムの適用について考察し,ネットワーク解析,空間接続性,地理情報システム,およびデジタルツインなどの空間問題解決シナリオにおけるその役割を明らかにする。 この記事では、地理空間モデリングプロセスと現実世界の地理空間的課題と機会に関する洞察を支援するグラフ理論の重要な概念とアルゴリズムについて包括的アイデアを提供する。 この領域で実装された広範な研究、革新的技術、方法論を列挙する。

Geospatial sciences include a wide range of applications, from environmental monitoring transportation to infrastructure planning, as well as location-based analysis and services. Graph theory algorithms in mathematics have emerged as indispensable tools in these domains due to their capability to model and analyse spatial relationships efficiently. This article explores the applications of graph theory algorithms in geospatial sciences, highlighting their role in network analysis, spatial connectivity, geographic information systems, and various other spatial problem-solving scenarios like digital twin. The article provides a comprehensive idea about graph theory's key concepts and algorithms that assist the geospatial modelling processes and insights into real-world geospatial challenges and opportunities. It lists the extensive research, innovative technologies and methodologies implemented in this domain.
翻訳日:2023-10-13 03:59:35 公開日:2023-10-09
# アルコールの影響下での運転行動と運転性能の視覚的分析

Vision-based Analysis of Driver Activity and Driving Performance Under the Influence of Alcohol ( http://arxiv.org/abs/2309.08021v2 )

ライセンス: Link先を確認
Ross Greer, Akshay Gopalkrishnan, Sumega Mandadi, Pujitha Gunaratne, Mohan M. Trivedi, Thomas D. Marcotte(参考訳) 米国での交通事故死者の約30%は飲酒運転者であり、飲酒運転の防止は、飲酒の影響を受けながら運転の頻度が高い米国や他の地域での自動車の安全性に準じている。 運転障害は、アクティブなセンサーの使用によって監視できる(運転者は、車両の機器に呼吸サンプルを提供するよう依頼される時や、警察官によって引き渡される時)が、より受動的で堅牢なセンシングメカニズムにより、飲酒運転事故を減らすインテリジェントシステムの採用と利益がより広まる可能性がある。 これは、運転前に、または運転プロセスの初期段階(事故や法執行機関による検出前)に障害のあるドライバーを特定するのに役立つ。 本研究では,視覚・熱・音響・化学センサのマルチモーダルアンサンブルを適用し,(1)運転シミュレータにおける急性アルコール投与が運転性能に及ぼす影響を検証し,(2)アルコールの影響下での運転を検知するためのデータ駆動手法を同定した。 本稿では,運転者の顔を熱画像で分析するためのコンピュータビジョンと機械学習モデルについて述べるとともに,関連する機械学習現象の議論を含む,さまざまなアルコール度レベルの運転者から収集したデータに基づいて,将来の実験設計に役立つパイプラインを導入する。

About 30% of all traffic crash fatalities in the United States involve drunk drivers, making the prevention of drunk driving paramount to vehicle safety in the US and other locations which have a high prevalence of driving while under the influence of alcohol. Driving impairment can be monitored through active use of sensors (when drivers are asked to engage in providing breath samples to a vehicle instrument or when pulled over by a police officer), but a more passive and robust mechanism of sensing may allow for wider adoption and benefit of intelligent systems that reduce drunk driving accidents. This could assist in identifying impaired drivers before they drive, or early in the driving process (before a crash or detection by law enforcement). In this research, we introduce a study which adopts a multi-modal ensemble of visual, thermal, audio, and chemical sensors to (1) examine the impact of acute alcohol administration on driving performance in a driving simulator, and (2) identify data-driven methods for detecting driving under the influence of alcohol. We describe computer vision and machine learning models for analyzing the driver's face in thermal imagery, and introduce a pipeline for training models on data collected from drivers with a range of breath-alcohol content levels, including discussion of relevant machine learning phenomena which can help in future experiment design for related studies.
翻訳日:2023-10-13 03:48:40 公開日:2023-10-09
# 潜在領域の背景特徴分離と抑制に基づく道路病検出

Road Disease Detection based on Latent Domain Background Feature Separation and Suppression ( http://arxiv.org/abs/2309.07616v2 )

ライセンス: Link先を確認
Juwu Zheng and Jiangtao Ren(参考訳) 対象地域における道路損傷の少なさや、ドメイン情報の多い多様な背景から、道路疾患の検出は困難であり、また、疾患の分類は類似度が高く、検出が困難である。 本稿では,LDBFSS ネットワークと YOLOv5 モデルを組み合わせることで,道路疾患検出の精度を高めるために,背景情報の分離と抑制をドメインの監督なしに行うことができる新しい LDBFSS (Latent Domain background Feature separation and Suppression) ネットワークを提案する。 ldbfssネットワークの構成要素として,まず潜在ドメイン発見モジュールとドメイン逆学習モジュールを設計し,教師なし手法による擬似ドメインラベルを得る。 さらに,コントラスト学習モジュールを導入し,k-instanceのコントラスト損失をデザインし,クラス間距離を増加させることで疾患の特徴表現を最適化し,オブジェクト特徴のクラス内距離を削減した。 GRDDCとCNRDDの2つの道路疾患検出データセットについて実験を行い、他のモデルと比較すると、最適モデルと比較してGRDDCでは4%近く増加し、CNRDDでは4.6%増加した。 実験の結果,本モデルの有効性と優越性が証明された。

Road disease detection is challenging due to the the small proportion of road damage in target region and the diverse background,which introduce lots of domain information.Besides, disease categories have high similarity,makes the detection more difficult. In this paper, we propose a new LDBFSS(Latent Domain Background Feature Separation and Suppression) network which could perform background information separation and suppression without domain supervision and contrastive enhancement of object features.We combine our LDBFSS network with YOLOv5 model to enhance disease features for better road disease detection. As the components of LDBFSS network, we first design a latent domain discovery module and a domain adversarial learning module to obtain pseudo domain labels through unsupervised method, guiding domain discriminator and model to train adversarially to suppress background information. In addition, we introduce a contrastive learning module and design k-instance contrastive loss, optimize the disease feature representation by increasing the inter-class distance and reducing the intra-class distance for object features. We conducted experiments on two road disease detection datasets, GRDDC and CNRDD, and compared with other models,which show an increase of nearly 4% on GRDDC dataset compared with optimal model, and an increase of 4.6% on CNRDD dataset. Experimental results prove the effectiveness and superiority of our model.
翻訳日:2023-10-13 03:47:59 公開日:2023-10-09
# metamath: 大きな言語モデルのための数学的質問をブートストラップする

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models ( http://arxiv.org/abs/2309.12284v3 )

ライセンス: Link先を確認
Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu(参考訳) 大規模言語モデル(llm)は自然言語理解の限界を押し上げ、優れた問題解決能力を示した。 大きな成功にもかかわらず、既存のオープンソース LLM (例: LLaMA-2) は、複雑な推論手順による数学的問題の解決にはまだ満足できない。 このギャップを埋めるために,数学的推論を専門とする微調整言語モデルMetaMathを提案する。 具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始めます。 次に、メタマスQA上でLLaMA-2モデルを微調整する。 数学的推論のための2つの人気のあるベンチマーク(GSM8KとMATH)の実験結果によると、MetaMathはオープンソースのLLMのスイートよりも大幅に優れていた。 我々のMetaMath-7Bモデルは、GSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルの11.5%と8.7%を上回った。 特にMetaMath-70BはGSM8Kで82.3%の精度を達成しており、GPT-3.5-Turboより若干優れている。 私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。

Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (e.g., LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called MetaMathQA. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (i.e., GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, MetaMath-70B achieves an accuracy of 82.3% on GSM8K, slightly better than GPT-3.5-Turbo. We release all the MetaMathQA dataset, the MetaMath models with different model sizes and the training code for public use.
翻訳日:2023-10-13 03:41:41 公開日:2023-10-09
# SlimPajama-DC: LLMトレーニングのためのデータ組み合わせを理解する

SlimPajama-DC: Understanding Data Combinations for LLM Training ( http://arxiv.org/abs/2309.10818v2 )

ライセンス: Link先を確認
Zhiqiang Shen and Tianhua Tao and Liqun Ma and Willie Neiswanger and Zhengzhong Liu and Hongyi Wang and Bowen Tan and Joel Hestness and Natalia Vassilieva and Daria Soboleva and Eric Xing(参考訳) 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせ(Webテキスト,wikipedia,github,書籍など)の影響を理解することを目的とする。 SlimPajamaは厳格に非重複化されたマルチソースデータセットで、共用する1.2TトークンのRedPajamaデータセットから627Bトークンに切り離された。 SlimPajama-DCは、大規模な言語モデルのトレーニングにSlimPajamaを採用する際の基本的な特徴とベストプラクティスを明らかにするための実証分析です。 slimpajamaを用いた研究で,(1)グローバル重複と局所重複の2つの重要な観察が得られた。 我々は、グローバル(データセットのさまざまなソース)とローカル(データセットの単一ソース)の重複が、トレーニングされたモデルのパフォーマンスにどのように影響するかを分析し、議論する。 2) 組み合わさった高品質・高精度なマルチソースデータセットの提案 そこで本研究では,SlimPajamaデータセットの6つの構成を構築し,AlibiとSwiGLUを用いた1.3B Cerebras-GPTモデルを用いて個々の構成を訓練する。 私たちの最高の構成は、RedPajamaでトレーニングされた1.3Bモデルで、同じ数のトレーニングトークンをかなりのマージンでパフォーマンスします。 すべての1.3bモデルは、bf16混合精度で合計80pflop/sのcerebras 16$\times$ cs-2クラスタでトレーニングされています。 大規模なバッチサイズトレーニングを備えた7Bモデル上での発見をさらに拡張する(例えば、グローバルデデューケーション後のデータの多様性の向上は不可欠である)。 私たちのモデルとSlimPajama-DCデータセットは、https://huggingface.co/MBzuAI-LLMとhttps://huggingface.co/datasets/cerebras/SlimPajama-627Bで利用可能です。

This paper aims to understand the impacts of various data combinations (e.g., web text, wikipedia, github, books) on the training of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T tokens RedPajama dataset contributed by Together. We've termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of high-quality/highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations of SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our models and the separate SlimPajama-DC datasets are available at: https://huggingface.co/MBZUAI-LLM and https://huggingface.co/datasets/cerebras/SlimPajama-627B.
翻訳日:2023-10-13 03:40:10 公開日:2023-10-09
# データソンのデータの扱い方

How to Data in Datathons ( http://arxiv.org/abs/2309.09770v3 )

ライセンス: Link先を確認
Carlos Mougan, Richard Plant, Clare Teng, Marya Bazzi, Alvaro Cabrejas-Egea, Ryan Sze-Yin Chan, David Salvador Jasin, Martin Stoffel, Kirstie Jane Whitaker, Jules Manser(参考訳) datathonsはdataまたはdata scienceハッカソンとしても知られ、短い時間枠で協力し、学び、革新するプラットフォームを提供している。 潜在的なメリットがあるにもかかわらず、組織はしばしば、潜在的な問題に対して明確なガイドラインとベストプラクティスが欠如しているため、データを扱うのに苦労する。 2016年以降、60以上の提携組織で80以上のデータthonチャレンジを組織した経験と洞察をもとに、オーガナイザがデータthonのデータ関連の複雑さをナビゲートするためのリソースとして役立つガイドラインとレコメンデーションを提供しています。 提案フレームワークを10のケーススタディに適用する。

The rise of datathons, also known as data or data science hackathons, has provided a platform to collaborate, learn, and innovate in a short timeframe. Despite their significant potential benefits, organizations often struggle to effectively work with data due to a lack of clear guidelines and best practices for potential issues that might arise. Drawing on our own experiences and insights from organizing >80 datathon challenges with >60 partnership organizations since 2016, we provide guidelines and recommendations that serve as a resource for organizers to navigate the data-related complexities of datathons. We apply our proposed framework to 10 case studies.
翻訳日:2023-10-13 03:38:41 公開日:2023-10-09
# 在庫管理における需要の不確実性と変動に対処する複数独立DEM最適化

Multiple Independent DE Optimizations to Tackle Uncertainty and Variability in Demand in Inventory Management ( http://arxiv.org/abs/2309.13095v2 )

ライセンス: Link先を確認
Sarit Maitra, Sukanya Kundu, Vivek Mishra(参考訳) 確率的需要の文脈における在庫管理(IM)に対するメタヒューリスティック微分進化最適化戦略の有効性を決定するため,本研究は徹底的な調査を行う。 主な目的は、不確かな需要パターンの文脈において在庫コストを最小化するための最も効果的な戦略を見極めることである。 在庫コストとは、企業内の在庫を保有・管理する際の費用を指す。 このアプローチは、IMポリシーの継続的なレビューとモンテカルロシミュレーション(MCS)を組み合わせる。 この最適解を見つけるために、研究はメタヒューリスティックなアプローチに焦点を当て、複数のアルゴリズムを比較する。 その結果、差分進化(DE)アルゴリズムは、IMの最適化において、そのアルゴリズムよりも優れていることが明らかとなった。 パラメータを微調整するために、この研究はラテンハイパーキューブサンプリング(LHS)統計法を用いている。 最終解を決定するために、複数の独立DEM最適化の結果を組み合わせて、それぞれ異なるランダム初期条件で開始する手法を用いる。 このアプローチは在庫管理の分野に新規で有望な次元を導入し、特に確率的な需要パターンの存在下で、パフォーマンスとコスト効率の潜在的な拡張を提供する。

To determine the effectiveness of metaheuristic Differential Evolution optimization strategy for inventory management (IM) in the context of stochastic demand, this empirical study undertakes a thorough investigation. The primary objective is to discern the most effective strategy for minimizing inventory costs within the context of uncertain demand patterns. Inventory costs refer to the expenses associated with holding and managing inventory within a business. The approach combines a continuous review of IM policies with a Monte Carlo Simulation (MCS). To find the optimal solution, the study focuses on meta-heuristic approaches and compares multiple algorithms. The outcomes reveal that the Differential Evolution (DE) algorithm outperforms its counterparts in optimizing IM. To fine-tune the parameters, the study employs the Latin Hypercube Sampling (LHS) statistical method. To determine the final solution, a method is employed in this study which combines the outcomes of multiple independent DE optimizations, each initiated with different random initial conditions. This approach introduces a novel and promising dimension to the field of inventory management, offering potential enhancements in performance and cost efficiency, especially in the presence of stochastic demand patterns.
翻訳日:2023-10-13 03:28:55 公開日:2023-10-09
# 再構成画像のプライバシー評価:既存の評価基準は人間の知覚に忠実か?

Privacy Assessment on Reconstructed Images: Are Existing Evaluation Metrics Faithful to Human Perception? ( http://arxiv.org/abs/2309.13038v2 )

ライセンス: Link先を確認
Xiaoxiao Sun, Nidham Gazagnadou, Vivek Sharma, Lingjuan Lyu, Hongdong Li, Liang Zheng(参考訳) PSNRやSSIMなどの手作り画像品質指標は、リコンストラクション攻撃時のモデルプライバシリスクを評価するために一般的に使用される。 これらの指標の下では、元のものに似ていると判断された再構成された画像は、一般的によりプライバシーの漏洩を示す。 一方、全体的な類似点として決定された画像は、攻撃に対してより高い堅牢性を示している。 しかし、これらの指標が人間の意見をよく反映しているという保証はなく、モデルプライバシーリークの判断として、より信頼に値するものである。 本稿では,これらの手作りメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に包括的に研究する。 自然画像や顔から細粒度クラスまで,5つのデータセットにおいて,既存の4つの攻撃手法を用いて,様々な分類モデルから画像を再構成し,各再構成画像に対して,その画像が認識可能かどうかを複数の人間注釈者に対して評価する。 我々の研究によると、手作りのメトリクスは、人間のプライバシー漏洩評価と弱い相関しか持たず、これらの指標自体もしばしば矛盾している。 これらの観察は、コミュニティにおける現在のメトリクスのリスクを示唆している。 この潜在的なリスクに対処するために,SemSimと呼ばれる学習ベースの尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。 SemSimは、元のイメージをアンカーとして、認識可能な再構成イメージの1つを正のサンプルとして、認識できないイメージを負のサンプルとして、標準的な三重項損失で訓練されている。 人間のアノテーションをトレーニングすることで、SemSimはセマンティックレベルでのプライバシー漏洩をより深く反映する。 semsimは,既存の指標と比較して,人間の判断と有意に高い相関関係を示す。 さらに、この強い相関関係は、見えないデータセット、モデル、攻撃メソッドに一般化する。

Hand-crafted image quality metrics, such as PSNR and SSIM, are commonly used to evaluate model privacy risk under reconstruction attacks. Under these metrics, reconstructed images that are determined to resemble the original one generally indicate more privacy leakage. Images determined as overall dissimilar, on the other hand, indicate higher robustness against attack. However, there is no guarantee that these metrics well reflect human opinions, which, as a judgement for model privacy leakage, are more trustworthy. In this paper, we comprehensively study the faithfulness of these hand-crafted metrics to human perception of privacy information from the reconstructed images. On 5 datasets ranging from natural images, faces, to fine-grained classes, we use 4 existing attack methods to reconstruct images from many different classification models and, for each reconstructed image, we ask multiple human annotators to assess whether this image is recognizable. Our studies reveal that the hand-crafted metrics only have a weak correlation with the human evaluation of privacy leakage and that even these metrics themselves often contradict each other. These observations suggest risks of current metrics in the community. To address this potential risk, we propose a learning-based measure called SemSim to evaluate the Semantic Similarity between the original and reconstructed images. SemSim is trained with a standard triplet loss, using an original image as an anchor, one of its recognizable reconstructed images as a positive sample, and an unrecognizable one as a negative. By training on human annotations, SemSim exhibits a greater reflection of privacy leakage on the semantic level. We show that SemSim has a significantly higher correlation with human judgment compared with existing metrics. Moreover, this strong correlation generalizes to unseen datasets, models and attack methods.
翻訳日:2023-10-13 03:28:17 公開日:2023-10-09
# 深層顔の修復に関する調査 : 非盲点から盲点まで

Survey on Deep Face Restoration: From Non-blind to Blind and Beyond ( http://arxiv.org/abs/2309.15490v2 )

ライセンス: Link先を確認
Wenjie Li, Mei Wang, Kai Zhang, Juncheng Li, Xiaoming Li, Yuhang Zhang, Guangwei Gao, Weihong Deng and Chia-Wen Lin(参考訳) 顔復元(FR)は、低品質 (LQ) の顔画像を高品質 (HQ) の顔画像に復元することを目的とした、画像復元の専門分野である。 近年のディープラーニング技術の進歩はFR法に大きな進歩をもたらした。 本稿では,実世界のLQ画像の原因となる要因について検討し,LQ画像の合成に用いる劣化技術を紹介する。 また、この分野でよく使われる注目すべきベンチマークについても論じる。 次に、異なるタスクに基づいてFR法を分類し、時間とともにその進化を説明する。 さらに, 修復過程において一般的に用いられる各種顔面前野を探索し, その効果を高めるための戦略について検討した。 実験では,各タスクにおける最先端FR法の性能を,統一ベンチマークを用いて徹底的に評価した。 我々はそのパフォーマンスを異なる観点から分析する。 最後に、frの分野における課題を議論し、今後の発展に向けた潜在的な方向性を提案する。 この作業に対応するオープンソースリポジトリはhttps:// github.com/ 24wenjie-li/ Awesome-Face-Restorationにある。

Face restoration (FR) is a specialized field within image restoration that aims to recover low-quality (LQ) face images into high-quality (HQ) face images. Recent advances in deep learning technology have led to significant progress in FR methods. In this paper, we begin by examining the prevalent factors responsible for real-world LQ images and introduce degradation techniques used to synthesize LQ images. We also discuss notable benchmarks commonly utilized in the field. Next, we categorize FR methods based on different tasks and explain their evolution over time. Furthermore, we explore the various facial priors commonly utilized in the restoration process and discuss strategies to enhance their effectiveness. In the experimental section, we thoroughly evaluate the performance of state-of-the-art FR methods across various tasks using a unified benchmark. We analyze their performance from different perspectives. Finally, we discuss the challenges faced in the field of FR and propose potential directions for future advancements. The open-source repository corresponding to this work can be found at https:// github.com/ 24wenjie-li/ Awesome-Face-Restoration.
翻訳日:2023-10-13 03:08:40 公開日:2023-10-09
# maptree:ベイズ決定木で"最適"決定木を破る

MAPTree: Beating "Optimal" Decision Trees with Bayesian Decision Trees ( http://arxiv.org/abs/2309.15312v2 )

ライセンス: Link先を確認
Colin Sullivan, Mo Tiwari, Sebastian Thrun(参考訳) 決定木は今日でも最も人気のある機械学習モデルの1つであり、その主な原因は、アウト・オブ・ボックスのパフォーマンスと解釈性にある。 本研究では,木上の後方分布の最大後方推定による決定木誘導に対するベイズ的アプローチを提案する。 まず,決定木の最大後方推定とAND/OR探索の関連性を示す。 この接続を用いて,MAPTree と呼ばれる最大木を復元できるAND/OR探索アルゴリズムを提案する。 最後に, 合成データと実世界環境の両方において, 最大後葉樹の実証的性能を実証した。 16の実世界のデータセットでは、MAPTreeはベースラインを上回るか、同等のパフォーマンスを示すが、ツリーははるかに小さい。 合成データセット上では、MAPTreeは既存のアプローチよりもノイズに対する堅牢性とより優れた一般化を示す。 最後に、MAPTreeは、既存のサンプリング手法よりも早く、最大木を復元し、それらのアルゴリズムとは対照的に、最適な証明を提供することができる。 実験のコードはhttps://github.com/ThrunGroup/maptree.orgで公開されている。

Decision trees remain one of the most popular machine learning models today, largely due to their out-of-the-box performance and interpretability. In this work, we present a Bayesian approach to decision tree induction via maximum a posteriori inference of a posterior distribution over trees. We first demonstrate a connection between maximum a posteriori inference of decision trees and AND/OR search. Using this connection, we propose an AND/OR search algorithm, dubbed MAPTree, which is able to recover the maximum a posteriori tree. Lastly, we demonstrate the empirical performance of the maximum a posteriori tree both on synthetic data and in real world settings. On 16 real world datasets, MAPTree either outperforms baselines or demonstrates comparable performance but with much smaller trees. On a synthetic dataset, MAPTree also demonstrates greater robustness to noise and better generalization than existing approaches. Finally, MAPTree recovers the maxiumum a posteriori tree faster than existing sampling approaches and, in contrast with those algorithms, is able to provide a certificate of optimality. The code for our experiments is available at https://github.com/ThrunGroup/maptree.
翻訳日:2023-10-13 03:08:22 公開日:2023-10-09
# InternLM-XComposer:高度なテキストイメージ理解と構成のための視覚言語大モデル

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition ( http://arxiv.org/abs/2309.15112v4 )

ライセンス: Link先を確認
Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Wenwei Zhang, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang(参考訳) InternLM-XComposerは、高度な画像テキスト理解と合成を可能にする視覚言語大モデルである。 私たちのモデルの革新的な性質は、3つの魅力的な性質によって強調される。 1)Interleaved Text- Image composition: InternLM-XComposerは、画像をシームレスに統合し、より魅力的で没入的な読書体験を提供するコヒーレントで文脈的な記事を生成することができる。 タイトルを提供すれば、システムは対応する原稿を生成します。 画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。 2) リッチ多言語知識の理解: テキストイメージの理解は,多言語多言語概念の訓練によって強化され,戦略を慎重に構築し,視覚的内容の理解を深める。 3)最先端性能:我々のモデルは、MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench(中国文化ベンチマーク)など、ビジョンベースモデルの様々な主要なベンチマークにおいて、常に最先端の結果を達成する。 集合的に、InternLM-XComposerは高度なテキストイメージの理解と構成をシームレスにブレンドし、視覚と言語間の相互作用を革新し、新たな洞察と機会を提供する。 7Bパラメータを持つInternLM-XComposerモデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

We propose InternLM-XComposer, a vision-language large model that enables advanced image-text comprehension and composition. The innovative nature of our model is highlighted by three appealing properties: 1) Interleaved Text-Image Composition: InternLM-XComposer can effortlessly generate coherent and contextual articles that seamlessly integrate images, providing a more engaging and immersive reading experience. Simply provide a title, and our system will generate the corresponding manuscript. It can intelligently identify the areas in the text where images would enhance the content and automatically insert the most appropriate visual candidates. 2) Comprehension with Rich Multilingual Knowledge: The text-image comprehension is empowered by training on extensive multi-modal multilingual concepts with carefully crafted strategies, resulting in a deep understanding of visual content. 3) State-of-the-art Performance: Our model consistently achieves state-of-the-art results across various mainstream benchmarks for vision-language foundational models, including MME Benchmark, MMBench, MMBench-CN, Seed-Bench, and CCBench (Chinese Cultural Benchmark). Collectively, InternLM-XComposer seamlessly blends advanced text-image comprehension and composition, revolutionizing vision-language interaction and offering new insights and opportunities. The InternLM-XComposer model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2023-10-13 03:07:48 公開日:2023-10-09
# QA-LoRA:大規模言語モデルの量子化を考慮した低ランク適応

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models ( http://arxiv.org/abs/2309.14717v2 )

ライセンス: Link先を確認
Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhengsu Chen, Xiaopeng Zhang, Qi Tian(参考訳) 近年、大規模言語モデル(LLM)の急速な発展が見られた。 多くの言語理解タスクにおいて強力な能力があるにもかかわらず、計算の重荷は特にエッジデバイスにそれらをデプロイする必要がある場合にllmの適用をほとんど制限している。 本稿では,量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。 モチベーションは量子化と適応の自由の不均衡の度合いにあり、解は、適応の度合いを減少させながら量子化の自由度を増大させる群ワイズ作用素を使うことである。 QA-LoRAは数行のコードで簡単に実装でき、オリジナルのLoRAには2倍の能力がある。 i) 微調整中、LLMの重みは時間とメモリ使用量を減らすために定量化される(例:INT4)。 2) 微調整後, LLMおよび補助重量は, 精度を損なうことなく自然に量子化モデルに統合される。 我々は、LLaMAおよびLLaMA2モデルファミリーにQA-LoRAを適用し、異なる微調整データセットと下流シナリオでの有効性を検証する。 コードはhttps://github.com/yuhuixu1993/qa-loraで入手できる。

Recently years have witnessed a rapid development of large language models (LLMs). Despite the strong ability in many language-understanding tasks, the heavy computational burden largely restricts the application of LLMs especially when one needs to deploy them onto edge devices. In this paper, we propose a quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies in the imbalanced degrees of freedom of quantization and adaptation, and the solution is to use group-wise operators which increase the degree of freedom of quantization meanwhile decreasing that of adaptation. QA-LoRA is easily implemented with a few lines of code, and it equips the original LoRA with two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized (e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the LLM and auxiliary weights are naturally integrated into a quantized model without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model families and validate its effectiveness in different fine-tuning datasets and downstream scenarios. Code will be made available at https://github.com/yuhuixu1993/qa-lora.
翻訳日:2023-10-13 03:06:00 公開日:2023-10-09
# 鳥の視線を通した同時破壊的協調知覚

Asynchrony-Robust Collaborative Perception via Bird's Eye View Flow ( http://arxiv.org/abs/2309.16940v2 )

ライセンス: Link先を確認
Sizhe Wei, Yuxi Wei, Yue Hu, Yifan Lu, Yiqi Zhong, Siheng Chen, Ya Zhang(参考訳) 協調的知覚は、複数のエージェント間のコミュニケーションを容易にすることで、各エージェントの知覚能力を大幅に向上させることができる。 しかし、エージェント間の時間的同期は、通信遅延、割り込み、時計の不一致により、現実世界では避けられない。 この問題は、マルチエージェント融合中に情報ミスマッチを引き起こし、コラボレーションの基礎をひどく揺るがす。 この問題に対処するために,鳥の目視(BEV)の流れをベースとした非同期ロバスト協調認識システムであるCoBEVFlowを提案する。 CoBEVFlowの重要な直感は、複数のエージェントが送信した非同期コラボレーションメッセージを調整するために、モーションを補償することである。 シーン内の動きをモデル化するために,各空間位置に対応する動きベクトルの集合であるBEVフローを提案する。 BEVフローに基づいて、非同期の知覚的特徴を適切な位置に割り当て、非同期性の影響を軽減することができる。 CoBEVFlowには2つの利点がある。 (i)CoBEVFlowは、不規則かつ連続したタイムスタンプで送信される非同期の協調メッセージを識別することなく処理することができる。 (ii) BEVフローでは、CoBEVFlowは、新しい知覚機能を生成する代わりに、元の知覚機能のみを輸送し、追加のノイズを避ける。 CoBEVFlowの有効性を検証するために、実世界の様々なシナリオをシミュレートする様々な時間軸索を持つ最初の合成協調認識データセットIRV2V(IRV2V)を作成する。 IRV2Vと実世界のデータセットであるDAIR-V2Xで実施された大規模な実験は、CoBEVFlowが他のベースラインを一貫して上回り、非常に非同期な設定で堅牢であることを示している。 コードはhttps://github.com/MediaBrain-SJTU/CoBEVFlowで入手できる。

Collaborative perception can substantially boost each agent's perception ability by facilitating communication among multiple agents. However, temporal asynchrony among agents is inevitable in the real world due to communication delays, interruptions, and clock misalignments. This issue causes information mismatch during multi-agent fusion, seriously shaking the foundation of collaboration. To address this issue, we propose CoBEVFlow, an asynchrony-robust collaborative perception system based on bird's eye view (BEV) flow. The key intuition of CoBEVFlow is to compensate motions to align asynchronous collaboration messages sent by multiple agents. To model the motion in a scene, we propose BEV flow, which is a collection of the motion vector corresponding to each spatial location. Based on BEV flow, asynchronous perceptual features can be reassigned to appropriate positions, mitigating the impact of asynchrony. CoBEVFlow has two advantages: (i) CoBEVFlow can handle asynchronous collaboration messages sent at irregular, continuous time stamps without discretization; and (ii) with BEV flow, CoBEVFlow only transports the original perceptual features, instead of generating new perceptual features, avoiding additional noises. To validate CoBEVFlow's efficacy, we create IRregular V2V(IRV2V), the first synthetic collaborative perception dataset with various temporal asynchronies that simulate different real-world scenarios. Extensive experiments conducted on both IRV2V and the real-world dataset DAIR-V2X show that CoBEVFlow consistently outperforms other baselines and is robust in extremely asynchronous settings. The code is available at https://github.com/MediaBrain-SJTU/CoBEVFlow.
翻訳日:2023-10-13 02:46:26 公開日:2023-10-09
# AdaptNet:物理に基づく文字制御のためのポリシー適応

AdaptNet: Policy Adaptation for Physics-Based Character Control ( http://arxiv.org/abs/2310.00239v2 )

ライセンス: Link先を確認
Pei Xu, Kaixiang Xie, Sheldon Andrews, Paul G. Kry, Michael Neff, Morgan McGuire, Ioannis Karamouzas, Victor Zordan(参考訳) そこで本研究では,既存の政策の潜伏空間を改良し,新しい行動がスクラッチから学習するのに比べて,タスクから素早く学習できるようにするアプローチであるAdaptNetを提案する。 AdaptNetは、与えられた強化学習コントローラの上に構築され、元の状態の埋め込みを強化する2層階層を使用して、振る舞いの穏やかな変更をサポートし、さらにポリシーネットワーク層を変更して、より実質的な変更を行う。 この技術は、既存の物理系コントローラを、移動、新しいタスクターゲット、キャラクター形態の変化、環境の変化など、幅広い新しいスタイルに適応させるのに有効であることが示されている。 さらに、スクラッチからのトレーニングや、既存のポリシーを変更する他のアプローチを使用する場合と比較して、トレーニング時間の大幅な短縮が示されるように、学習効率が大幅に向上する。 コードはhttps://motion-lab.github.io/adaptnet。

Motivated by humans' ability to adapt skills in the learning of new ones, this paper presents AdaptNet, an approach for modifying the latent space of existing policies to allow new behaviors to be quickly learned from like tasks in comparison to learning from scratch. Building on top of a given reinforcement learning controller, AdaptNet uses a two-tier hierarchy that augments the original state embedding to support modest changes in a behavior and further modifies the policy network layers to make more substantive changes. The technique is shown to be effective for adapting existing physics-based controllers to a wide range of new styles for locomotion, new task targets, changes in character morphology and extensive changes in environment. Furthermore, it exhibits significant increase in learning efficiency, as indicated by greatly reduced training times when compared to training from scratch or using other approaches that modify existing policies. Code is available at https://motion-lab.github.io/AdaptNet.
翻訳日:2023-10-13 02:39:03 公開日:2023-10-09
# 低予算で最適化する:black-box optimization benchmarking suiteとopenai gymの比較

Optimizing with Low Budgets: a Comparison on the Black-box Optimization Benchmarking Suite and OpenAI Gym ( http://arxiv.org/abs/2310.00077v2 )

ライセンス: Link先を確認
Elena Raponi, Nathanael Rakotonirina Carraz, J\'er\'emy Rapin, Carola Doerr, Olivier Teytaud(参考訳) 機械学習(ML)の普及により、ブラックボックス最適化(BBO)など、コンピュータ科学の様々な分野に参入するようになった。 近年の研究は特にベイズ最適化(BO)に関係している。 BOベースのアルゴリズムは、ハイパーパラメータ最適化やより一般的にアルゴリズム構成に使用されるため、MLコミュニティで人気がある。 しかし,問題の次元性や評価予算が増加するにつれて,効率は低下する。 一方、デリバティブフリー最適化手法は、最適化コミュニティにおいて独立して進化してきた。 そこで我々は,ML と BBO の2つのコミュニティ間の交配可能かどうか,すなわちML で多用されているアルゴリズムが BBO でも有効か,その逆かを理解することを望む。 比較実験は、しばしば比較的小さなベンチマークを伴い、ベースラインの初期化の低さ、問題固有のハイパーパラメータの設定による過度な適合、統計的重要性の低さなど、実験的な設定において目に見える問題を示す。 本稿では,2013年にhutterらによって発表された比較研究の更新と拡張を行う。 まず、coco環境から有名なbbobベンチマークスイート、次に強化学習ベンチマークであるopenai gymの直接ポリシー検索について、bbo tools for mlとより古典的なヒューリスティックスを比較した。 提案手法は,予算が限られている場合と,計算コストが高い場合と,評価予算が大きくなる場合と,他の家庭のアルゴリズムに比較して,両ベンチマークで良好に動作することが確認された。 また、BBOコミュニティのアルゴリズムがMLタスクで驚くほどうまく機能していることも示している。

The growing ubiquity of machine learning (ML) has led it to enter various areas of computer science, including black-box optimization (BBO). Recent research is particularly concerned with Bayesian optimization (BO). BO-based algorithms are popular in the ML community, as they are used for hyperparameter optimization and more generally for algorithm configuration. However, their efficiency decreases as the dimensionality of the problem and the budget of evaluations increase. Meanwhile, derivative-free optimization methods have evolved independently in the optimization community. Therefore, we urge to understand whether cross-fertilization is possible between the two communities, ML and BBO, i.e., whether algorithms that are heavily used in ML also work well in BBO and vice versa. Comparative experiments often involve rather small benchmarks and show visible problems in the experimental setup, such as poor initialization of baselines, overfitting due to problem-specific setting of hyperparameters, and low statistical significance. With this paper, we update and extend a comparative study presented by Hutter et al. in 2013. We compare BBO tools for ML with more classical heuristics, first on the well-known BBOB benchmark suite from the COCO environment and then on Direct Policy Search for OpenAI Gym, a reinforcement learning benchmark. Our results confirm that BO-based optimizers perform well on both benchmarks when budgets are limited, albeit with a higher computational cost, while they are often outperformed by algorithms from other families when the evaluation budget becomes larger. We also show that some algorithms from the BBO community perform surprisingly well on ML tasks.
翻訳日:2023-10-13 02:36:35 公開日:2023-10-09
# グラフニューラルネットワークは最適な近似アルゴリズムか?

Are Graph Neural Networks Optimal Approximation Algorithms? ( http://arxiv.org/abs/2310.00526v3 )

ライセンス: Link先を確認
Morris Yau, Eric Lu, Nikolaos Karalias, Jessica Xu, Stefanie Jegelka(参考訳) 本研究では,半定義型プログラミング(sdp)の強力なアルゴリズムツールを用いて,組合せ最適化問題に対する最適近似アルゴリズムを得るためのグラフニューラルネットワークアーキテクチャを設計する。 具体的には, 多項式サイズのメッセージパッシングアルゴリズムは, ユニクゲーム・コンジェクチャを仮定した最大制約満足度問題に対して, 最も強力な多項式時間アルゴリズムを表現できることを示す。 この結果を利用して効率的なグラフニューラルネットワークアーキテクチャOpsGNNを構築し、マックスカットや最大独立集合のようなランドマーク組合せ最適化問題に対する高品質な近似解を得る。 我々のアプローチは、ニューラルネットワークと古典アルゴリズムの両方に対して、広範囲の現実世界および合成データセットに対して強力な経験的結果を得る。 最後に, コンベックス緩和を捉えた OptGNN の機能を利用して, 学習した OptGNN の埋め込みから最適性(最適解のバウンド)の二重証明を生成するアルゴリズムを設計する。

In this work we design graph neural network architectures that can be used to obtain optimal approximation algorithms for a large class of combinatorial optimization problems using powerful algorithmic tools from semidefinite programming (SDP). Concretely, we prove that polynomial-sized message passing algorithms can represent the most powerful polynomial time algorithms for Max Constraint Satisfaction Problems assuming the Unique Games Conjecture. We leverage this result to construct efficient graph neural network architectures, OptGNN, that obtain high-quality approximate solutions on landmark combinatorial optimization problems such as Max Cut and maximum independent set. Our approach achieves strong empirical results across a wide range of real-world and synthetic datasets against both neural baselines and classical algorithms. Finally, we take advantage of OptGNN's ability to capture convex relaxations to design an algorithm for producing dual certificates of optimality (bounds on the optimal solution) from the learned embeddings of OptGNN.
翻訳日:2023-10-13 02:27:18 公開日:2023-10-09
# テンソルプログラムvi:無限深層ニューラルネットワークにおける特徴学習

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks ( http://arxiv.org/abs/2310.02244v4 )

ライセンス: Link先を確認
Greg Yang, Dingli Yu, Chen Zhu, Soufiane Hayou(参考訳) 無限幅のニューラルネットワークを分類し、 *optimal* 限界を識別することで、テンソルプログラム iv と v は *widthwise hyperparameter transfer* に対して $\mu$p と呼ばれる普遍的な方法、すなわち狭いものから広いニューラルネットワークの最適ハイパーパラメータを予測することを証明した。 ここでは、深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。 我々はブロック乗数と学習率の深さ方向のパラメトリゼーションを、その無限幅とその深度制限によって分類する。 各ブロックが1つの層しか持たないresnetsでは、深さ-$\mu$pと呼ばれる一意な最適パラメトリゼーションを識別し、深さ方向のハイパーパラメータ転送を経験的に示す。 深さ-$\mu$p は、特徴の学習と特徴の多様性の両方を最大化することが特徴である。 これを実行すると、すべての均質な非線形性の中で絶対値が特徴の多様性を最大化し、実際に経験的に性能が著しく向上することがわかった。 しかし、各ブロックがより深い(現代の変圧器のような)場合、そのようなパラメトリゼーションの可能な無限深度制限の基本的な制限を見つけ、これは理論上も経験的にも単純なネットワーク上でも、Common Crawlで訓練されたメガトロン変換器と同様に説明できる。

By classifying infinite-width neural networks and identifying the *optimal* limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P, for *widthwise hyperparameter transfer*, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for *depthwise parametrizations* of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In resnets where each block has only one layer, we identify a unique optimal parametrization, called Depth-$\mu$P that extends $\mu$P and show empirically it admits depthwise hyperparameter transfer. We identify *feature diversity* as a crucial factor in deep networks, and Depth-$\mu$P can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significantly better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.
翻訳日:2023-10-13 02:10:23 公開日:2023-10-09
# マトリックスセンシングにおける過度パラメータ化の緩やかさ:対称性と初期化の曲線

How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization ( http://arxiv.org/abs/2310.01769v2 )

ライセンス: Link先を確認
Nuoya Xiong, Lijun Ding, Simon S. Du(参考訳) 本稿では,非等方性線形測定から未知の低位接地面行列を回収することを目的とした行列センシング問題において,過パラメータ化が勾配降下(gd)の収束挙動をどのように変化させるかを示す。 まず、対称パラメータ化を持つ対称集合を考える: $m^* \in \mathbb{r}^{n \times n}$ はランク $r \ll n$ の正の半定値未知行列であり、対称パラメータ化 $xx^\top$ を用いて $m^*$ を学ぶ。 ここで、$X \in \mathbb{R}^{n \times k}$ with $k > r$ は因子行列である。 オーバーパラメータ化されたケース(k >r$)に対して、新しい$\Omega (1/T^2)$ ランダムに初期化された GD の下限を与える。 これは、収束率が$\exp (-\Omega (T))$である正確なパラメータ化シナリオ(k=r$)とは対照的である。 次に、$m^* \in \mathbb{r}^{n_1 \times n_2}$ をランク $r \ll \min\{n_1,n_2\}$ の未知行列とし、非対称パラメータ化 $fg^\top$ を用いて $m^*$ を学習し、$f \in \mathbb{r}^{n_1 \times k}$ と $g \in \mathbb{r}^{n_2 \times k}$ を学習する非対称な設定について検討する。 先行研究に基づいて、$\exp (-\Omega(T))$ rateの正確なパラメータ化の場合(k=r$)に対してランダムに初期化されたGDのグローバルな正確な収束結果を与える。 さらに、オーバーパラメータ化の場合(k>r$)に対して、$\exp(-\Omega(\alpha^2T))$レートで最初の大域的正確な収束結果を与える。 この線形収束は、非対称なパラメータ化を対称性の設定に適用し、$\Omega (1/T^2)$から線形収束に高速化することができるため、特に重要である。 一方,gdの一段階のみを修正し,$\alpha$に依存しない収束率を求め,正確なパラメータ化の場合の収束率を回復する新しい手法を提案する。

This paper rigorously shows how over-parameterization changes the convergence behaviors of gradient descent (GD) for the matrix sensing problem, where the goal is to recover an unknown low-rank ground-truth matrix from near-isotropic linear measurements. First, we consider the symmetric setting with the symmetric parameterization where $M^* \in \mathbb{R}^{n \times n}$ is a positive semi-definite unknown matrix of rank $r \ll n$, and one uses a symmetric parameterization $XX^\top$ to learn $M^*$. Here $X \in \mathbb{R}^{n \times k}$ with $k > r$ is the factor matrix. We give a novel $\Omega (1/T^2)$ lower bound of randomly initialized GD for the over-parameterized case ($k >r$) where $T$ is the number of iterations. This is in stark contrast to the exact-parameterization scenario ($k=r$) where the convergence rate is $\exp (-\Omega (T))$. Next, we study asymmetric setting where $M^* \in \mathbb{R}^{n_1 \times n_2}$ is the unknown matrix of rank $r \ll \min\{n_1,n_2\}$, and one uses an asymmetric parameterization $FG^\top$ to learn $M^*$ where $F \in \mathbb{R}^{n_1 \times k}$ and $G \in \mathbb{R}^{n_2 \times k}$. Building on prior work, we give a global exact convergence result of randomly initialized GD for the exact-parameterization case ($k=r$) with an $\exp (-\Omega(T))$ rate. Furthermore, we give the first global exact convergence result for the over-parameterization case ($k>r$) with an $\exp(-\Omega(\alpha^2 T))$ rate where $\alpha$ is the initialization scale. This linear convergence result in the over-parameterization case is especially significant because one can apply the asymmetric parameterization to the symmetric setting to speed up from $\Omega (1/T^2)$ to linear convergence. On the other hand, we propose a novel method that only modifies one step of GD and obtains a convergence rate independent of $\alpha$, recovering the rate in the exact-parameterization case.
翻訳日:2023-10-13 02:09:33 公開日:2023-10-09
# 分割とマージ: 大きな言語モデルに基づくエミュレータにおける位置バイアスの調整

Split and Merge: Aligning Position Biases in Large Language Model based Evaluators ( http://arxiv.org/abs/2310.01432v2 )

ライセンス: Link先を確認
Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Shuai Wang, Cuiyun Gao, Yang Liu(参考訳) 大規模言語モデル(llm)は、aiシステムによって生成される答えの品質を評価する自動評価器として約束されている。 しかし、これらのllmベースの評価器は、対比較で候補の回答を評価する際に位置バイアスまたは不一致を示し、コンテンツに関係なく第1または第2の回答を好む。 この制限に対処するために,人間同士の比較戦略を模倣して位置バイアスを軽量かつ効果的な方法で校正するアライメントベースシステムportiaを提案する。 具体的には、Portiaは回答を複数のセグメントに分割し、類似したコンテンツを候補の回答に並べて、LSMによる評価のために単一のプロンプトにマージする。 11,520対の回答対を評価するために6種類のLSMを用いて広範囲に実験を行った。 その結果, Portia は全てのモデルと比較形態の整合性を著しく向上させ,47.46% の平均相対的改善を実現した。 注目すべきは、Portiaは、最先端のGPT-4モデルとの88%の合意を、わずか10%のコストで達成できるようにすることである。 さらに、gpt-4モデルにおける位置バイアスインスタンスの約80%を補正し、一貫性率を最大98%まで向上させる。 その後の人的評価は、Portia-enhanced GPT-3.5モデルが、人的評価器との整合性の観点から、スタンドアロンのGPT-4よりも優れていることを示している。 これらの知見は,Portiaが位置バイアスを補正し,LCMの整合性を改善し,コスト効率を維持しながら性能を向上させる能力を強調した。 これは、様々なアプリケーションにわたる自動評価のために、より信頼性が高くスケーラブルなLLMの使用に向けた貴重なステップである。

Large language models (LLMs) have shown promise as automated evaluators for assessing the quality of answers generated by AI systems. However, these LLM-based evaluators exhibit position bias, or inconsistency, when used to evaluate candidate answers in pairwise comparisons, favoring either the first or second answer regardless of content. To address this limitation, we propose PORTIA, an alignment-based system designed to mimic human comparison strategies to calibrate position bias in a lightweight yet effective manner. Specifically, PORTIA splits the answers into multiple segments, aligns similar content across candidate answers, and then merges them back into a single prompt for evaluation by LLMs. We conducted extensive experiments with six diverse LLMs to evaluate 11,520 answer pairs. Our results show that PORTIA markedly enhances the consistency rates for all the models and comparison forms tested, achieving an average relative improvement of 47.46%. Remarkably, PORTIA enables less advanced GPT models to achieve 88% agreement with the state-of-the-art GPT-4 model at just 10% of the cost. Furthermore, it rectifies around 80% of the position bias instances within the GPT-4 model, elevating its consistency rate up to 98%. Subsequent human evaluations indicate that the PORTIA-enhanced GPT-3.5 model can even surpass the standalone GPT-4 in terms of alignment with human evaluators. These findings highlight PORTIA's ability to correct position bias, improve LLM consistency, and boost performance while keeping cost-efficiency. This represents a valuable step toward a more reliable and scalable use of LLMs for automated evaluations across diverse applications.
翻訳日:2023-10-13 02:06:35 公開日:2023-10-09
# データソースとしてのAI生成画像:合成時代の幕開け

AI-Generated Images as Data Source: The Dawn of Synthetic Era ( http://arxiv.org/abs/2310.01830v2 )

ライセンス: Link先を確認
Zuhao Yang, Fangneng Zhan, Kunhao Liu, Muyu Xu, Shijian Lu(参考訳) ビジュアルインテリジェンスの進歩は、本質的にデータの可用性に繋がる。 並行して、生成的人工知能(AI)は、現実世界の写真によく似た合成画像を作成する可能性を解き放った。 本稿では、これらのai生成画像を新たなデータソースとして活用する革新的な概念を探求し、従来のモデルパラダイムをビジュアルインテリジェンスに再構成する。 実際のデータとは対照的に、AIが生成するデータソースには、未整合のアビデンスとスケーラビリティ、膨大なデータセットの高速生成、エッジケースの無力なシミュレーションなど、大きなメリットがある。 生成型aiモデルの成功に基づいて、機械学習モデルのトレーニングから、計算モデリング、テスト、検証のためのシナリオのシミュレーションまで、さまざまなアプリケーションで生成されたデータの可能性を調べます。 我々は、この変革的なパラダイムシフトに伴う倫理的、法律的、実践的な考察を深く議論する中で、生成AIの利用を支える技術基盤を探求する。 本稿では,現在の技術と応用の徹底的な調査を通じて,視覚知能における合成時代の包括的展望を示す。 この論文に関連するプロジェクトは、https://github.com/mwxely/AIGS で見ることができる。

The advancement of visual intelligence is intrinsically tethered to the availability of data. In parallel, generative Artificial Intelligence (AI) has unlocked the potential to create synthetic images that closely resemble real-world photographs, which prompts a compelling inquiry: how visual intelligence benefit from the advance of generative AI? This paper explores the innovative concept of harnessing these AI-generated images as a new data source, reshaping traditional model paradigms in visual intelligence. In contrast to real data, AI-generated data sources exhibit remarkable advantages, including unmatched abundance and scalability, the rapid generation of vast datasets, and the effortless simulation of edge cases. Built on the success of generative AI models, we examines the potential of their generated data in a range of applications, from training machine learning models to simulating scenarios for computational modeling, testing, and validation. We probe the technological foundations that support this groundbreaking use of generative AI, engaging in an in-depth discussion on the ethical, legal, and practical considerations that accompany this transformative paradigm shift. Through an exhaustive survey of current technologies and applications, this paper presents a comprehensive view of the synthetic era in visual intelligence. A project associated with this paper can be found at https://github.com/mwxely/AIGS .
翻訳日:2023-10-13 01:56:33 公開日:2023-10-09
# スパース回帰、Lp規則化、および自動モデル発見について

On sparse regression, Lp-regularization, and automated model discovery ( http://arxiv.org/abs/2310.06872v1 )

ライセンス: Link先を確認
Jeremy A. McCulloch, Skyler R. St. Pierre, Kevin Linka, Ellen Kuhl(参考訳) スパース回帰と特徴抽出は、大量のデータから知識発見の基盤となる。 彼らの目標は、科学変数間の単純な関係を提供する解釈可能で予測可能なモデルを見つけることである。 モデル発見のための統計ツールは線形回帰の文脈で十分に確立されているが、物質モデリングにおける非線形回帰への一般化は問題固有であり、十分に理解されていない。 ここでは、モデルの自動発見のためのニューラルネットワークの可能性を探り、正規化と物理的制約という2つの戦略を組み合わせたハイブリッドアプローチによりスパーシリティを誘導する。 我々は,Lp正則化の概念を,運動学と熱力学の分野知識を活用する構成的ニューラルネットワークと統合する。 L2正則化またはリッジ回帰はモデル発見には適さない; L1正則化またはラッソは疎性を促進するが、強いバイアスを引き起こす; L0正則化だけが、解釈可能性と予測可能性、単純性、正確性、偏見と偏見のトレードオフを透過的に微調整することができる。 これらの知見により、Lp正規化構成型ニューラルネットワークは、解釈可能なモデルと物理的に有意なパラメータの両方を同時に検出できることを示した。 我々の発見はスパースやシンボリックレグレッションといった代替発見技術や、生物学、化学、医学といった他の分野に一般化することを期待している。 データから物質モデルを自動的に発見する能力は、生成材料設計や、物質を操作する新たな機会、既存の材料の性質の変更、ユーザー定義プロパティによる新しい材料発見に多大な応用をもたらす可能性がある。

Sparse regression and feature extraction are the cornerstones of knowledge discovery from massive data. Their goal is to discover interpretable and predictive models that provide simple relationships among scientific variables. While the statistical tools for model discovery are well established in the context of linear regression, their generalization to nonlinear regression in material modeling is highly problem-specific and insufficiently understood. Here we explore the potential of neural networks for automatic model discovery and induce sparsity by a hybrid approach that combines two strategies: regularization and physical constraints. We integrate the concept of Lp regularization for subset selection with constitutive neural networks that leverage our domain knowledge in kinematics and thermodynamics. We train our networks with both, synthetic and real data, and perform several thousand discovery runs to infer common guidelines and trends: L2 regularization or ridge regression is unsuitable for model discovery; L1 regularization or lasso promotes sparsity, but induces strong bias; only L0 regularization allows us to transparently fine-tune the trade-off between interpretability and predictability, simplicity and accuracy, and bias and variance. With these insights, we demonstrate that Lp regularized constitutive neural networks can simultaneously discover both, interpretable models and physically meaningful parameters. We anticipate that our findings will generalize to alternative discovery techniques such as sparse and symbolic regression, and to other domains such as biology, chemistry, or medicine. Our ability to automatically discover material models from data could have tremendous applications in generative material design and open new opportunities to manipulate matter, alter properties of existing materials, and discover new materials with user-defined properties.
翻訳日:2023-10-13 01:48:03 公開日:2023-10-09
# 弱分布不変性を用いたマルチドメイン因果表現学習

Multi-Domain Causal Representation Learning via Weak Distributional Invariances ( http://arxiv.org/abs/2310.02854v2 )

ライセンス: Link先を確認
Kartik Ahuja, Amin Mansouri, Yixin Wang(参考訳) 因果表現学習は因果機械学習研究における行動の中心として現れてきた。 特に、マルチドメインデータセットは、標準の教師なし表現学習よりも因果表現学習の利点を示す自然な機会を提供する。 最近の研究は因果表現を学習するための重要なステップを採っているが、データに関する仮定を過度に単純化するため、マルチドメインデータセットの適用性に欠けることが多い。 この研究では、これらの仮定を緩和し、次の観察に乗じる: 特定の分布特性(例えば、支持、分散)が領域間で安定であるラテントのサブセットがしばしば存在する; この性質は、例えば、各領域が多重ノード不完全干渉から来るときに成り立つ。 このような不変性を組み込んだオートエンコーダは、他の様々な設定で安定な潜在子集合を識別できることを実証できる。

Causal representation learning has emerged as the center of action in causal machine learning research. In particular, multi-domain datasets present a natural opportunity for showcasing the advantages of causal representation learning over standard unsupervised representation learning. While recent works have taken crucial steps towards learning causal representations, they often lack applicability to multi-domain datasets due to over-simplifying assumptions about the data; e.g. each domain comes from a different single-node perfect intervention. In this work, we relax these assumptions and capitalize on the following observation: there often exists a subset of latents whose certain distributional properties (e.g., support, variance) remain stable across domains; this property holds when, for example, each domain comes from a multi-node imperfect intervention. Leveraging this observation, we show that autoencoders that incorporate such invariances can provably identify the stable set of latents from the rest across different settings.
翻訳日:2023-10-13 01:45:50 公開日:2023-10-09
# ctrl-room: レイアウト制約付き制御可能なテキストから3次元ルームメッシュ

Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints ( http://arxiv.org/abs/2310.03602v2 )

ライセンス: Link先を確認
Chuan Fang, Xiaotao Hu, Kunming Luo, Ping Tan(参考訳) テキスト駆動の屋内シーン生成は、ゲーム、映画産業、AR/VRアプリケーションに有用である。 しかし、既存の手法では、部屋のレイアウトを忠実に捉えたり、部屋内の個々のオブジェクトを柔軟に編集したりすることはできない。 これらの問題に対処するために、Ctrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成することができる。 さらにctrl-roomでは,個々の家具項目のリサイズや移動など,多彩なインタラクティブな編集操作が可能だ。 私たちの重要な洞察は、レイアウトと外観のモデリングを分離することです。 % シーンテクスチャと幾何学の両方を同時に考慮した部屋をモデル化する方法。 この目的のために,提案手法は「レイアウト生成段階」と「出現生成段階」の2つの段階からなる。 layout generation stage'は、テキスト-条件拡散モデルを訓練して、総合的なシーンコードパラメータ化でレイアウト分布を学習します。 次に、3Dシーンレイアウトとテキストプロンプトでガイドされた部屋の鮮明なパノラマ画像を生成するために、制御ネットを微調整した。 このように,レイアウトやテクスチャを説得力のある高品質な3d空間を実現する。 シーンコードパラメータ化の利点は、高価な編集専用トレーニングを必要とせずに、マスク誘導編集モジュールを通じて生成されたルームモデルを編集することである。 structured3dデータセットに関する広範な実験により、自然言語プロンプトからより合理的で、ビュー一貫性があり、編集可能な3dルームを生成する方法が、既存の方法よりも優れていることが証明された。

Text-driven 3D indoor scene generation could be useful for gaming, film industry, and AR/VR applications. However, existing methods cannot faithfully capture the room layout, nor do they allow flexible editing of individual objects in the room. To address these problems, we present Ctrl-Room, which is able to generate convincing 3D rooms with designer-style layouts and high-fidelity textures from just a text prompt. Moreover, Ctrl-Room enables versatile interactive editing operations such as resizing or moving individual furniture items. Our key insight is to separate the modeling of layouts and appearance. %how to model the room that takes into account both scene texture and geometry at the same time. To this end, Our proposed method consists of two stages, a `Layout Generation Stage' and an `Appearance Generation Stage'. The `Layout Generation Stage' trains a text-conditional diffusion model to learn the layout distribution with our holistic scene code parameterization. Next, the `Appearance Generation Stage' employs a fine-tuned ControlNet to produce a vivid panoramic image of the room guided by the 3D scene layout and text prompt. In this way, we achieve a high-quality 3D room with convincing layouts and lively textures. Benefiting from the scene code parameterization, we can easily edit the generated room model through our mask-guided editing module, without expensive editing-specific training. Extensive experiments on the Structured3D dataset demonstrate that our method outperforms existing methods in producing more reasonable, view-consistent, and editable 3D rooms from natural language prompts.
翻訳日:2023-10-12 19:33:43 公開日:2023-10-09
# 非線形生成圧縮センシングにおける一様信号復元のための統一フレームワーク

A Unified Framework for Uniform Signal Recovery in Nonlinear Generative Compressed Sensing ( http://arxiv.org/abs/2310.03758v2 )

ライセンス: Link先を確認
Junren Chen, Jonathan Scarlett, Michael K. Ng, Zhaoqiang Liu(参考訳) 生成圧縮センシング(GCS)では、生成前の$\mathbf{x}^*\in G(\mathbb{B}_2^k(r))$を使って、$m$の測定から信号 $\mathbf{x}^* \in \mathbb{R}^n$を回復したい。 非線形測定では、ほとんどの先行結果は非一様であり、すなわち、すべての$\mathbf{x}^*$ に対してではなく、固定された$\mathbf{x}^*$ に対して高い確率を持つ。 本稿では,観測モデルが非線形で不連続あるいは不明な非線形GCSに対して,一様回復を保証する統一的な枠組みを構築する。 本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。 具体的には、センシングアンサンブルと一般化ラッソの単一の実現を用いて、{em all} $\mathbf{x}^*\in g(\mathbb{b}_2^k(r))$ は、およそ$\tilde{o}({k}/{\epsilon^2})$ のサンプルを用いて、最大$\epsilon$ で$\ell_2$-error まで回復でき、省略された対数因子は $\log l$ で支配される。 特に、これは対数因子による既存の非一様保証とほぼ一致するため、一様性のコストは極めて少ない。 技術的貢献の一環として、不連続観測モデルを扱うためにリプシッツ近似を導入する。 また、指標集合が計量エントロピーが低い製品プロセスに対してより厳密な境界を生み出す濃度不等式も開発する。 我々の理論を裏付ける実験結果が提示される。

In generative compressed sensing (GCS), we want to recover a signal $\mathbf{x}^* \in \mathbb{R}^n$ from $m$ measurements ($m\ll n$) using a generative prior $\mathbf{x}^*\in G(\mathbb{B}_2^k(r))$, where $G$ is typically an $L$-Lipschitz continuous generative model and $\mathbb{B}_2^k(r)$ represents the radius-$r$ $\ell_2$-ball in $\mathbb{R}^k$. Under nonlinear measurements, most prior results are non-uniform, i.e., they hold with high probability for a fixed $\mathbf{x}^*$ rather than for all $\mathbf{x}^*$ simultaneously. In this paper, we build a unified framework to derive uniform recovery guarantees for nonlinear GCS where the observation model is nonlinear and possibly discontinuous or unknown. Our framework accommodates GCS with 1-bit/uniformly quantized observations and single index models as canonical examples. Specifically, using a single realization of the sensing ensemble and generalized Lasso, {\em all} $\mathbf{x}^*\in G(\mathbb{B}_2^k(r))$ can be recovered up to an $\ell_2$-error at most $\epsilon$ using roughly $\tilde{O}({k}/{\epsilon^2})$ samples, with omitted logarithmic factors typically being dominated by $\log L$. Notably, this almost coincides with existing non-uniform guarantees up to logarithmic factors, hence the uniformity costs very little. As part of our technical contributions, we introduce the Lipschitz approximation to handle discontinuous observation models. We also develop a concentration inequality that produces tighter bounds for product processes whose index sets have low metric entropy. Experimental results are presented to corroborate our theory.
翻訳日:2023-10-12 19:19:20 公開日:2023-10-09
# 人気度に基づく合理化とキュリキュラム加熱による正確なコールドスタートバンドルレコメンデーション

Accurate Cold-start Bundle Recommendation via Popularity-based Coalescence and Curriculum Heating ( http://arxiv.org/abs/2310.03813v2 )

ライセンス: Link先を確認
Hyunsik Jeon, Jong-eun Lee, Jeongin Yun, U Kang(参考訳) コールドスタートバンドルをユーザに正確に推奨するには,どうすればよいのでしょう? バンドルレコメンデーションのコールドスタート問題は、さまざまなマーケティング目的で新しいバンドルが継続的に作成されるため、実用的なシナリオでは極めて重要である。 その重要性にもかかわらず、以前の研究では、コールドスタートバンドルレコメンデーションに対処していない。 さらに, 従来の冷間開始項目推薦手法は, 不人気バンドルであっても, 歴史的情報に過度に依存しており, 高度に歪んだバンドル間相互作用の分散に対処できない。 本研究では,コールドスタートバンドルの推奨に対する正確なアプローチであるCoHeat (Popularity-based Coalescence and Curriculum Heating)を提案する。 coheatは、ユーザとバンドルの関係を推定する際に、そのバンドルの人気に基づいて履歴情報とアフィリエーション情報の両方を組み込むことで、バンドル相互作用の高度に歪んだ分布に取り組む。 さらに、CoHeatはカリキュラム学習とコントラスト学習を利用して、潜在表現を効果的に学習する。 CoHeatはコールドスタートバンドルレコメンデーションにおいて優れたパフォーマンスを示しており、最高の競合相手に比べて193%高いnDCG@20を実現している。

How can we accurately recommend cold-start bundles to users? The cold-start problem in bundle recommendation is critical in practical scenarios since new bundles are continuously created for various marketing purposes. Despite its importance, no previous studies have addressed cold-start bundle recommendation. Moreover, existing methods for cold-start item recommendation overly rely on historical information, even for unpopular bundles, failing to tackle the primary challenge of the highly skewed distribution of bundle interactions. In this work, we propose CoHeat (Popularity-based Coalescence and Curriculum Heating), an accurate approach for the cold-start bundle recommendation. CoHeat tackles the highly skewed distribution of bundle interactions by incorporating both historical and affiliation information based on the bundle's popularity when estimating the user-bundle relationship. Furthermore, CoHeat effectively learns latent representations by exploiting curriculum learning and contrastive learning. CoHeat demonstrates superior performance in cold-start bundle recommendation, achieving up to 193% higher nDCG@20 compared to the best competitor.
翻訳日:2023-10-12 19:12:04 公開日:2023-10-09
# 人気度に基づく合理化とキュリキュラム加熱による正確なコールドスタートバンドルレコメンデーション

Accurate Cold-start Bundle Recommendation via Popularity-based Coalescence and Curriculum Heating ( http://arxiv.org/abs/2310.03813v1 )

ライセンス: Link先を確認
Hyunsik Jeon, Jong-eun Lee, Jeongin Yun, U Kang(参考訳) コールドスタートバンドルをユーザに正確に推奨するには,どうすればよいのでしょう? バンドルレコメンデーションのコールドスタート問題は、さまざまなマーケティング目的で新しいバンドルが継続的に作成されるため、実用的なシナリオでは極めて重要である。 その重要性にもかかわらず、以前の研究では、コールドスタートバンドルレコメンデーションに対処していない。 さらに, 従来の冷間開始項目推薦手法は, 不人気バンドルであっても, 歴史的情報に過度に依存しており, 高度に歪んだバンドル間相互作用の分散に対処できない。 本研究では,コールドスタートバンドルの推奨に対する正確なアプローチであるCoHeat (Popularity-based Coalescence and Curriculum Heating)を提案する。 coheatは、ユーザとバンドルの関係を推定する際に、そのバンドルの人気に基づいて履歴情報とアフィリエーション情報の両方を組み込むことで、バンドル相互作用の高度に歪んだ分布に取り組む。 さらに、CoHeatはカリキュラム学習とコントラスト学習を利用して、潜在表現を効果的に学習する。 CoHeatはコールドスタートバンドルレコメンデーションにおいて優れたパフォーマンスを示しており、最高の競合相手に比べて193%高いnDCG@20を実現している。

How can we accurately recommend cold-start bundles to users? The cold-start problem in bundle recommendation is critical in practical scenarios since new bundles are continuously created for various marketing purposes. Despite its importance, no previous studies have addressed cold-start bundle recommendation. Moreover, existing methods for cold-start item recommendation overly rely on historical information, even for unpopular bundles, failing to tackle the primary challenge of the highly skewed distribution of bundle interactions. In this work, we propose CoHeat (Popularity-based Coalescence and Curriculum Heating), an accurate approach for the cold-start bundle recommendation. CoHeat tackles the highly skewed distribution of bundle interactions by incorporating both historical and affiliation information based on the bundle's popularity when estimating the user-bundle relationship. Furthermore, CoHeat effectively learns latent representations by exploiting curriculum learning and contrastive learning. CoHeat demonstrates superior performance in cold-start bundle recommendation, achieving up to 193% higher nDCG@20 compared to the best competitor.
翻訳日:2023-10-12 19:11:43 公開日:2023-10-09
# AUTOPARLLM:大規模言語モデルを用いたGNNによる自動コード並列化

AUTOPARLLM: GNN-Guided Automatic Code Parallelization using Large Language Models ( http://arxiv.org/abs/2310.04047v2 )

ライセンス: Link先を確認
Quazi Ishtiaque Mahmud, Ali TehraniJamsaz, Hung D Phan, Nesreen K. Ahmed and Ali Jannesari(参考訳) 逐次的なプログラムの並列化は難しい課題である。 経験豊富な開発者でさえ、並列処理の機会を見つけ、実際にシーケンシャルに書かれたプログラムの並列バージョンを書くのにかなりの時間を費やす必要がある。 この問題に対処するために,並列性を自動的に発見し,シーケンシャルに記述されたプログラムの並列バージョンを生成するフレームワークであるautoparllmを提案する。 私たちのフレームワークは2つの主要なコンポーネントで構成されています。 一 並列性発見及び並列パターン検出モジュールを用いた異種グラフニューラルネットワーク(gnn) 二 逐次プログラムの並列対応を生成するための、llmベースのコードジェネレータ 我々は,プログラムのフロー認識特性を学習し,シーケンシャルプログラムにおける並列領域を識別し,LLM ベースのジェネレータに対して GNN の結果を用いて拡張プロンプトを構築し,シーケンシャルプログラムの並列領域を最終的に生成する。 NAS Parallel Benchmark と Rodinia Benchmark という,よく知られたベンチマークスイートの 11 つのアプリケーション上で AUTOPARLLM を評価する。 その結果,マルチコード生成メトリクスを用いた並列コード生成作業において,autoparllmは最先端llmベースモデルの改善に有効であることがわかった。 autoparllmはまた、最先端llmで生成された並列コードの平均ランタイムを、nas並列ベンチマークとrodiniaベンチマークでそれぞれ3.4%と2.9%改善した。 さらに、並列コードの品質を評価するために、翻訳評価のためのよく知られたメトリクスが最適化されていない問題を克服するために、生成されたコードの品質を評価するためのOMPScoreを提案する。 我々は,OMPScoreが既存の指標よりも人間の判断に優れた相関性を示し,スピアマン相関を最大75%改善することを示した。

Parallelizing sequentially written programs is a challenging task. Even experienced developers need to spend considerable time finding parallelism opportunities and then actually writing parallel versions of sequentially written programs. To address this issue, we present AUTOPARLLM, a framework for automatically discovering parallelism and generating the parallel version of the sequentially written program. Our framework consists of two major components: i) a heterogeneous Graph Neural Network (GNN) based parallelism discovery and parallel pattern detection module, and ii) an LLM-based code generator to generate the parallel counterpart of the sequential programs. We use the GNN to learn the flow-aware characteristics of the programs to identify parallel regions in sequential programs and then construct an enhanced prompt using the GNN's results for the LLM-based generator to finally produce the parallel counterparts of the sequential programs. We evaluate AUTOPARLLM on 11 applications of 2 well-known benchmark suites: NAS Parallel Benchmark and Rodinia Benchmark. Our results show that AUTOPARLLM is indeed effective in improving the state-of-the-art LLM-based models for the task of parallel code generation in terms of multiple code generation metrics. AUTOPARLLM also improves the average runtime of the parallel code generated by the state-of-the-art LLMs by as high as 3.4% and 2.9% for the NAS Parallel Benchmark and Rodinia Benchmark respectively. Additionally, to overcome the issue that well-known metrics for translation evaluation have not been optimized to evaluate the quality of the generated parallel code, we propose OMPScore for evaluating the quality of the generated code. We show that OMPScore exhibits a better correlation with human judgment than existing metrics, measured by up to 75% improvement of Spearman correlation.
翻訳日:2023-10-12 18:53:11 公開日:2023-10-09
# ルックライクなクラスタリングによる匿名学習:モデル一般化の高精度解析

Anonymous Learning via Look-Alike Clustering: A Precise Analysis of Model Generalization ( http://arxiv.org/abs/2310.04015v2 )

ライセンス: Link先を確認
Adel Javanmard and Vahab Mirrokni(参考訳) パーソナライズされたレコメンデーションシステムはますます人気を博しているが、これらの学習システムの開発においてユーザーデータ保護が最大の関心事である。 プライバシを強化する一般的なアプローチは、個別のデータではなく匿名データを使用したトレーニングモデルである。 本稿では,クラスタの平均値に個人の特徴を置き換える,‘emph{look-alike clustering’と呼ばれる自然な手法について検討する。 匿名クラスタセンターを用いたトレーニングモデルが一般化能力にどのように影響するかを正確に分析する。 我々は,訓練集合の大きさが特徴次元に比例して増加する漸近的構造に注目した。 解析は Convex Gaussian Minimax Theorem (CGMT) に基づいており、一般化誤差における異なるモデル成分の役割を理論的に理解することができる。 さらに,特定の高次元環境において,匿名クラスタセンタでのトレーニングが正規化として作用し,訓練モデルの一般化誤差が向上することを示す。 最後に、サンプルサイズが数百のオーダーしかない場合に完全な一致を観測する有限サンプル数値実験によって漸近理論を補足する。

While personalized recommendations systems have become increasingly popular, ensuring user data protection remains a top concern in the development of these learning systems. A common approach to enhancing privacy involves training models using anonymous data rather than individual data. In this paper, we explore a natural technique called \emph{look-alike clustering}, which involves replacing sensitive features of individuals with the cluster's average values. We provide a precise analysis of how training models using anonymous cluster centers affects their generalization capabilities. We focus on an asymptotic regime where the size of the training set grows in proportion to the features dimension. Our analysis is based on the Convex Gaussian Minimax Theorem (CGMT) and allows us to theoretically understand the role of different model components on the generalization error. In addition, we demonstrate that in certain high-dimensional regimes, training over anonymous cluster centers acts as a regularization and improves generalization error of the trained models. Finally, we corroborate our asymptotic theory with finite-sample numerical experiments where we observe a perfect match when the sample size is only of order of a few hundreds.
翻訳日:2023-10-12 18:52:42 公開日:2023-10-09
# 思考伝播:大規模言語モデルを用いた複雑な推論に対する類推的アプローチ

Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models ( http://arxiv.org/abs/2310.03965v2 )

ライセンス: Link先を確認
Junchi Yu, Ran He, Rex Ying(参考訳) 大規模言語モデル(LLM)は、プロンプトメソッドの開発に伴うタスクの推論において顕著な成功を収めた。 しかしながら、既存のプロンプトアプローチでは、同様の問題を解決する洞察を再利用することはできず、複数ステップの推論において累積エラーに苦しむ。 これらの問題に対処するため,我々は,類似問題を探索し,それらの解を利用してllmの複雑な推論能力を高めることを目的とした \textbf{\textit{thought propagation} (tp)} を提案する。 これらの類似問題は、再利用可能な解と問題解決戦略を持つ入力問題と関係している。 したがって、以前の類似問題を解く洞察を広め、新しい問題解決を促すことが期待されている。 これを実現するため,TP は LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 そして、TPは、類似問題の結果を再利用して、新しい解を直接生成するか、あるいは、スクラッチから得られた初期解を修正するための知識集約的な実行計画を導出する。 TPは既存のプロンプトアプローチと互換性があり、タスク固有のプロンプトエンジニアリングに多くの労力をかけることなく、プラグイン・アンド・プレイの一般化と幅広いタスクの強化を可能にする。 3つの課題にわたる実験により、TPは、最短経路推論における最適解の発見における平均12倍の絶対的な増加、創造的記述における人間の嗜好の13倍の改善、LLM-Agent Planningのタスク完了率の15倍の強化により、ベースラインよりも大幅に改善されていることを示した。

Large Language Models (LLMs) have achieved remarkable success in reasoning tasks with the development of prompting methods. However, existing prompting approaches cannot reuse insights of solving similar problems and suffer from accumulated errors in multi-step reasoning, since they prompt LLMs to reason \textit{from scratch}. To address these issues, we propose \textbf{\textit{Thought Propagation} (TP)}, which explores the analogous problems and leverages their solutions to enhance the complex reasoning ability of LLMs. These analogous problems are related to the input one, with reusable solutions and problem-solving strategies. Thus, it is promising to propagate insights of solving previous analogous problems to inspire new problem-solving. To achieve this, TP first prompts LLMs to propose and solve a set of analogous problems that are related to the input one. Then, TP reuses the results of analogous problems to directly yield a new solution or derive a knowledge-intensive plan for execution to amend the initial solution obtained from scratch. TP is compatible with existing prompting approaches, allowing plug-and-play generalization and enhancement in a wide range of tasks without much labor in task-specific prompt engineering. Experiments across three challenging tasks demonstrate TP enjoys a substantial improvement over the baselines by an average of 12\% absolute increase in finding the optimal solutions in Shortest-path Reasoning, 13\% improvement of human preference in Creative Writing, and 15\% enhancement in the task completion rate of LLM-Agent Planning.
翻訳日:2023-10-12 18:52:23 公開日:2023-10-09
# 大規模言語モデル非基底幻覚の低減のための自然言語推論の連鎖

Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations ( http://arxiv.org/abs/2310.03951v2 )

ライセンス: Link先を確認
Deren Lei, Yaxi Li, Mengya Hu, Mingyu Wang, Vincent Yun, Emily Ching, Eslam Kamal(参考訳) 大規模言語モデル(llm)は、関連する文書が背景のコンテキストとして与えられると、流れる自然言語テキストを生成することができる。 この能力はLLMの産業応用に多大な関心を集めている。 しかし、LSMは提供されたソースがサポートしていない幻覚を生成する傾向にある。 本稿では,このような幻覚を検出・緩和するための階層的枠組みを提案する。 本フレームワークでは, 後編集による幻覚の検出と幻覚の低減に, 自然言語推論の連鎖 (CoNLI) を用いる。 提案手法は幻覚検出の最先端性能を実現し,微調整やドメイン固有のプロンプトエンジニアリングを使わずに書き直しによるテキスト品質の向上を実現する。 この単純なプラグ・アンド・プレイ・フレームワークは幻覚の検出と軽減に有効な選択肢となり、様々な文脈で競争的パフォーマンスを達成することができる。

Large language models (LLMs) can generate fluent natural language texts when given relevant documents as background context. This ability has attracted considerable interest in developing industry applications of LLMs. However, LLMs are prone to generate hallucinations that are not supported by the provided sources. In this paper, we propose a hierarchical framework to detect and mitigate such ungrounded hallucination. Our framework uses Chain of Natural Language Inference (CoNLI) for hallucination detection and hallucination reduction via post-editing. Our approach achieves state-of-the-art performance on hallucination detection and enhances text quality through rewrite, using LLMs without any fine-tuning or domain-specific prompt engineering. We show that this simple plug-and-play framework can serve as an effective choice for hallucination detection and reduction, achieving competitive performance across various contexts.
翻訳日:2023-10-12 18:51:52 公開日:2023-10-09
# RTDK-BO:Reinforced Transformer Deep kernelを用いた高次元ベイズ最適化

RTDK-BO: High Dimensional Bayesian Optimization with Reinforced Transformer Deep kernels ( http://arxiv.org/abs/2310.03912v2 )

ライセンス: Link先を確認
Alexander Shmakov, Avisek Naug, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna Gutierrez, Ashwin Ramesh Babu, Antonio Guillen and Soumyendu Sarkar(参考訳) gaussian process (gp) surrogates によって導かれたベイズ最適化 (bo) は、効率的で高次元のブラックボックス最適化のための貴重な技術であり、産業設計や科学計算のような多くの応用に固有の重要な問題である。 近年、単機能最適化と多目的最適化の両方において最適化性能を向上させるために強化学習(RL)を導入している。 しかし、数発のテクニックでさえ、密接に関連する目的間で共有される類似性を活用できない。 本稿では,近年のDeep Kernel Learning(DKL)とアテンションベースのTransformerモデルを組み合わせて,GPサロゲートとメタラーニングのモデリング能力を向上させる。 本稿では,dklに注意機構を組み込んで,boプロセス中に収集した文脈情報に適応させる新しいメタラーニングboサロゲート改善手法を提案する。 このトランスフォーマーディープカーネルと,連続的ソフトアクタ-クリティック強化学習を訓練した学習獲得関数を組み合わせることで,探索を支援する。 この強化変圧器ディープカーネル(rtdk-bo)アプローチは、最先端の結果を連続的な高次元最適化問題に導く。

Bayesian Optimization (BO), guided by Gaussian process (GP) surrogates, has proven to be an invaluable technique for efficient, high-dimensional, black-box optimization, a critical problem inherent to many applications such as industrial design and scientific computing. Recent contributions have introduced reinforcement learning (RL) to improve the optimization performance on both single function optimization and \textit{few-shot} multi-objective optimization. However, even few-shot techniques fail to exploit similarities shared between closely related objectives. In this paper, we combine recent developments in Deep Kernel Learning (DKL) and attention-based Transformer models to improve the modeling powers of GP surrogates with meta-learning. We propose a novel method for improving meta-learning BO surrogates by incorporating attention mechanisms into DKL, empowering the surrogates to adapt to contextual information gathered during the BO process. We combine this Transformer Deep Kernel with a learned acquisition function trained with continuous Soft Actor-Critic Reinforcement Learning to aid in exploration. This Reinforced Transformer Deep Kernel (RTDK-BO) approach yields state-of-the-art results in continuous high-dimensional optimization problems.
翻訳日:2023-10-12 18:51:20 公開日:2023-10-09
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル

PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v2 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna Guti\'errez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar(参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。 高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。 この追求における重要な課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルな熱データセンターモデルがないことである。 データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。 本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。 ベクトル化熱計算を用いることで、pydcmのオーダーは現在のエネルギーとモデリングの実装よりも30倍速くなり、cpuの数とサブリニアにスケールできる。 また、pydcmは、gymnasiumラッパーを介して深層強化学習を使用してデータセンターの冷却を最適化し、様々なデータセンター設計プロトタイプをテストするユーザフレンドリーなプラットフォームを提供する。

The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes.
翻訳日:2023-10-12 18:50:47 公開日:2023-10-09
# 正規化定数推定のためのアニーリングの有用性:重要度サンプリング、ノイズコントラスト推定など

Provable benefits of annealing for estimating normalizing constants: Importance Sampling, Noise-Contrastive Estimation, and beyond ( http://arxiv.org/abs/2310.03902v2 )

ライセンス: Link先を確認
Omar Chehab, Aapo Hyvarinen, Andrej Risteski(参考訳) 近年の研究では、アニーリングのアイデアに基づいて正規化定数(分割関数)を推定するモンテカルロ法が開発されている。 これは、トラクタブルな「固有」分布と非正規化された「ターゲット」分布とを補間する分布の経路から連続的にサンプリングすることを意味する。 このファミリーの著名な推定者は、アニールの重要性のサンプリングとアニールされたノイズコントラスト推定 (nce) である。 このような手法は、どの推定器を使うか、どの分布の経路を使うか、どの経路を使うか、といった多くの設計上の選択に依存している。 本稿では,その設計選択を漸近的推定誤差によって評価する。 まず,NCE の使用はサンプリングの重要度よりも効率的であることを示すが,無限小経路ステップの制限により差は消える。 第2に,幾何学的経路を用いることで,指数関数から対象と提案分布との間のパラメータ距離の多項式関数への推定誤差を低減できることがわかった。 第3に、算術パスはめったに使われないが、普遍的に使用される幾何学パス上で最適性を提供することができる。 実際、特定の極限において、最適経路は算術である。 この理論に基づいて,最適経路を効率的に近似する2段階推定器を提案する。

Recent research has developed several Monte Carlo methods for estimating the normalization constant (partition function) based on the idea of annealing. This means sampling successively from a path of distributions that interpolate between a tractable "proposal" distribution and the unnormalized "target" distribution. Prominent estimators in this family include annealed importance sampling and annealed noise-contrastive estimation (NCE). Such methods hinge on a number of design choices: which estimator to use, which path of distributions to use and whether to use a path at all; so far, there is no definitive theory on which choices are efficient. Here, we evaluate each design choice by the asymptotic estimation error it produces. First, we show that using NCE is more efficient than the importance sampling estimator, but in the limit of infinitesimal path steps, the difference vanishes. Second, we find that using the geometric path brings down the estimation error from an exponential to a polynomial function of the parameter distance between the target and proposal distributions. Third, we find that the arithmetic path, while rarely used, can offer optimality properties over the universally-used geometric path. In fact, in a particular limit, the optimal path is arithmetic. Based on this theory, we finally propose a two-step estimator to approximate the optimal path in an efficient way.
翻訳日:2023-10-12 18:49:58 公開日:2023-10-09
# 大規模市場価格異常検出システム

A Marketplace Price Anomaly Detection System at Scale ( http://arxiv.org/abs/2310.04367v2 )

ライセンス: Link先を確認
Akshit Sarpal, Qiwen Kang, Fangping Huang, Yang Song, Lijie Wan(参考訳) オンラインマーケットプレイスは、プラットフォーム上で毎日個々のマーケットプレイス販売者が開始する大量の価格更新を実行する。 この価格の民主化は、データ品質に関する課題の増加を伴う。 従来のオンライン小売業者が利用できる集中型ガードレールの欠如は、不正確な価格がウェブサイトに掲載される可能性が高く、顧客体験の貧弱さと収益損失の可能性をもたらす。 我々はmoatplus (maked optimal anchors using trees, near-based labeling and unsupervised statistical-features) というマーケットプレースプラットフォーム向けのスケーラブルな価格異常検出フレームワークを提案する。 目標は、教師なしの統計的特徴から近接性と歴史的価格トレンドを活用して、上限価格を発生させることである。 我々は価格ベースの機能の不規則性を検出し、不規則な機能を排除し、リアルタイム価格パイプラインに縛られた信頼性の高い価格を構築するために最適化された重み付けスキームを使用するモデルを構築します。 提案手法により, 高精度アンカーカバレッジを46.6%向上させることができた。

Online marketplaces execute large volume of price updates that are initiated by individual marketplace sellers each day on the platform. This price democratization comes with increasing challenges with data quality. Lack of centralized guardrails that are available for a traditional online retailer causes a higher likelihood for inaccurate prices to get published on the website, leading to poor customer experience and potential for revenue loss. We present MoatPlus (Masked Optimal Anchors using Trees, Proximity-based Labeling and Unsupervised Statistical-features), a scalable price anomaly detection framework for a growing marketplace platform. The goal is to leverage proximity and historical price trends from unsupervised statistical features to generate an upper price bound. We build an ensemble of models to detect irregularities in price-based features, exclude irregular features and use optimized weighting scheme to build a reliable price bound in real-time pricing pipeline. We observed that our approach improves precise anchor coverage by up to 46.6% in high-vulnerability item subsets
翻訳日:2023-10-12 18:40:10 公開日:2023-10-09
# 機能幾何誘導タンパク質配列と骨格構造共設計

Functional Geometry Guided Protein Sequence and Backbone Structure Co-Design ( http://arxiv.org/abs/2310.04343v2 )

ライセンス: Link先を確認
Zhenqiao Song, Yunlong Zhao, Wenxian Shi, Yang Yang, Lei Li(参考訳) タンパク質は、ほとんどすべての生物に必須の機能を持つ高分子である。 望ましい機能を持つ合理的なタンパク質を設計することは重要である。 タンパク質の配列と構造は強く相関し、その機能を共に決定する。 本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルであるNAEProを提案する。 NAEProは、注目層と同変層の相互結合ネットワークによって、全配列のグローバルな相関と、3次元の3D空間における最も近いアミノ酸からの局所的な影響を捉えることができる。 このようなアーキテクチャは2つのレベルで効果的だが経済的なメッセージ転送を促進する。 2つのタンパク質データセットである$\beta$-lactamase と myoglobin のモデルといくつかの強力なベースラインを評価した。 実験の結果, 本モデルでは, 高いアミノ酸回収率, tm-score, および最も低いrmsdが得られることがわかった。 これらの知見は、タンパク質の配列や構造が自然に類似していることを示すものである。 さらに, 詳細な分析により, 対象のメタロコファクターに結合可能な高効率なタンパク質を生成できることが確認された。 Githubではコード、データ、モデルを提供しています。

Proteins are macromolecules responsible for essential functions in almost all living organisms. Designing reasonable proteins with desired functions is crucial. A protein's sequence and structure are strongly correlated and they together determine its function. In this paper, we propose NAEPro, a model to jointly design Protein sequence and structure based on automatically detected functional sites. NAEPro is powered by an interleaving network of attention and equivariant layers, which can capture global correlation in a whole sequence and local influence from nearest amino acids in three dimensional (3D) space. Such an architecture facilitates effective yet economic message passing at two levels. We evaluate our model and several strong baselines on two protein datasets, $\beta$-lactamase and myoglobin. Experimental results show that our model consistently achieves the highest amino acid recovery rate, TM-score, and the lowest RMSD among all competitors. These findings prove the capability of our model to design protein sequences and structures that closely resemble their natural counterparts. Furthermore, in-depth analysis further confirms our model's ability to generate highly effective proteins capable of binding to their target metallocofactors. We provide code, data and models in Github.
翻訳日:2023-10-12 18:39:53 公開日:2023-10-09
# 大規模マルチタスクデータセットにおける分子学習の基礎モデルに向けて

Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets ( http://arxiv.org/abs/2310.04292v2 )

ライセンス: Link先を確認
Dominique Beaini, Shenyang Huang, Joao Alex Cunha, Gabriela Moisescu-Pareja, Oleksandr Dymov, Samuel Maddrell-Mander, Callum McLean, Frederik Wenkel, Luis M\"uller, Jama Hussein Mohamud, Ali Parviz, Michael Craig, Micha{\l} Koziarski, Jiarui Lu, Zhaocheng Zhu, Cristian Gabellini, Kerstin Klaser, Josef Dean, Cas Wognum, Maciej Sypetkowski, Guillaume Rabusseau, Reihaneh Rabbany, Jian Tang, Christopher Morris, Ioannis Koutis, Mirco Ravanelli, Guy Wolf, Prudencio Tossou, Hadrien Mary, Therence Bois, Andrew Fitzgibbon, B{\l}a\.zej Banaszewski, Chad Martin, Dominic Masters(参考訳) 近年、事前訓練された基礎モデルによって、複数の分野で大きな進歩がもたらされている。 しかし、分子機械学習では、しばしばデータセットが手作業で計算されるため、通常は小さくなっているため、ラベル付き特徴を持つデータセットやそれらのデータセットを管理するコードベースが欠如しているため、基礎モデルの開発が妨げられている。 本研究では,ToyMix,Large,UltraLargeの3つのカテゴリに分類した7つの新しいデータセットを提案する。 これらのデータセットは、分子学習のための教師付きラベルのスケールと多様性の両方の境界を押し上げる。 それらは1億近い分子と3000あまりの小さなタスクをカバーし、合計130億個以上の量子と生物のラベルがある。 比較すると、我々のデータセットは、広く使われているOGB-LSC PCQM4Mv2データセットの300倍のデータポイントを含み、量子のみのQM1Bデータセットの13倍である。 さらに,提案するデータセットに基づく基礎モデルの開発を支援するために,マルチタスクおよびマルチレベル分子データセットのための分子機械学習モデルの構築とトレーニングのプロセスを簡素化するgraphium graph machine learning libraryを提案する。 最後に,これらのデータセット上でのマルチタスクおよびマルチレベルトレーニングの出発点として,ベースライン結果の範囲を提案する。 実験により、低リソースの生物データセットの性能は、大量の量子データをトレーニングすることで改善されることを示した。 これは、基礎モデルのマルチタスクおよびマルチレベルトレーニングと、リソース制約された下流タスクへの微調整の可能性を示唆している。

Recently, pre-trained foundation models have enabled significant advancements in multiple fields. In molecular machine learning, however, where datasets are often hand-curated, and hence typically small, the lack of datasets with labeled features, and codebases to manage those datasets, has hindered the development of foundation models. In this work, we present seven novel datasets categorized by size into three distinct categories: ToyMix, LargeMix and UltraLarge. These datasets push the boundaries in both the scale and the diversity of supervised labels for molecular learning. They cover nearly 100 million molecules and over 3000 sparsely defined tasks, totaling more than 13 billion individual labels of both quantum and biological nature. In comparison, our datasets contain 300 times more data points than the widely used OGB-LSC PCQM4Mv2 dataset, and 13 times more than the quantum-only QM1B dataset. In addition, to support the development of foundational models based on our proposed datasets, we present the Graphium graph machine learning library which simplifies the process of building and training molecular machine learning models for multi-task and multi-level molecular datasets. Finally, we present a range of baseline results as a starting point of multi-task and multi-level training on these datasets. Empirically, we observe that performance on low-resource biological datasets show improvement by also training on large amounts of quantum data. This indicates that there may be potential in multi-task and multi-level training of a foundation model and fine-tuning it to resource-constrained downstream tasks.
翻訳日:2023-10-12 18:39:35 公開日:2023-10-09
# 非視覚環境における補助課題による強化学習効率の向上:比較

Improving Reinforcement Learning Efficiency with Auxiliary Tasks in Non-Visual Environments: A Comparison ( http://arxiv.org/abs/2310.04241v2 )

ライセンス: Link先を確認
Moritz Lange, Noah Krystiniak, Raphael C. Engelhardt, Wolfgang Konen, Laurenz Wiskott(参考訳) 実世界の強化学習(RL)環境は、ロボット工学でも工業でも、しばしば非視覚的な観察を伴い、効率的だけでなく信頼性も必要であり、解釈可能で柔軟なRLアプローチを必要とする。 視覚的観察の文脈において,補助的なタスクで状態表現学習を行うエージェントが広く研究されている。 しかし、実世界の問題では、RLエージェントから切り離された専用表現学習モジュールの方が要求を満たすのに適している。 本研究は,低次元非視覚観察のための唯一の非結合表現学習法である知識に基づいて,共通の補助タスクを比較した。 我々は,単純な振り子から複雑なシミュレーションロボットタスクまで幅広い環境において,サンプル効率とリターンの潜在的な改善を評価する。 本研究は,補助タスクによる表現学習が,十分に複雑な環境でのパフォーマンス向上に留まらず,学習環境のダイナミクスが報酬の予測に好適であることを示す。 これらの知見は、非視覚的観察のための解釈可能な表現学習アプローチの今後の発展に寄与し、実世界のシナリオにおけるRLソリューションの利用を前進させる。

Real-world reinforcement learning (RL) environments, whether in robotics or industrial settings, often involve non-visual observations and require not only efficient but also reliable and thus interpretable and flexible RL approaches. To improve efficiency, agents that perform state representation learning with auxiliary tasks have been widely studied in visual observation contexts. However, for real-world problems, dedicated representation learning modules that are decoupled from RL agents are more suited to meet requirements. This study compares common auxiliary tasks based on, to the best of our knowledge, the only decoupled representation learning method for low-dimensional non-visual observations. We evaluate potential improvements in sample efficiency and returns for environments ranging from a simple pendulum to a complex simulated robotics task. Our findings show that representation learning with auxiliary tasks only provides performance gains in sufficiently complex environments and that learning environment dynamics is preferable to predicting rewards. These insights can inform future development of interpretable representation learning approaches for non-visual observations and advance the use of RL solutions in real-world scenarios.
翻訳日:2023-10-12 18:38:50 公開日:2023-10-09
# フラッド検出のための動的関係付きグラフニューラルネットワーク

Dynamic Relation-Attentive Graph Neural Networks for Fraud Detection ( http://arxiv.org/abs/2310.04171v2 )

ライセンス: Link先を確認
Heehyeon Kim, Jinhyeok Choi, Joyce Jiyoung Whang(参考訳) 不正検出は、例えば偽レビューを残したり、異常な取引を行ったりすることで、他人を欺いた詐欺師を見つけることを目的としている。 グラフベースの不正検出手法は、このタスクを2つのクラス(詐欺または正常)の分類問題と見なしている。 グラフニューラルネットワーク (gnns) を用いて, 動的関係結合機構を提案することでこの問題に対処した。 多くの実世界のグラフが異なる関係を持つという観測に基づいて、関係ごとにノード表現を学習し、各関係に異なる注意係数を割り当てる学習可能な注意関数を用いてノード表現を集約する。 さらに,異なるレイヤからのノード表現を組み合わせることで,対象ノードの局所的および大域的な構造を考慮し,ヘテロフィリによるグラフ上の不正検出性能の向上に寄与する。 すべての集約プロセスで動的グラフの注意力を利用することにより,各ノードの注意力係数を適応的に計算する。 実験の結果,本手法のDRAGは,実世界のベンチマークデータセットにおいて,最先端の不正検出手法よりも優れていた。

Fraud detection aims to discover fraudsters deceiving other users by, for example, leaving fake reviews or making abnormal transactions. Graph-based fraud detection methods consider this task as a classification problem with two classes: frauds or normal. We address this problem using Graph Neural Networks (GNNs) by proposing a dynamic relation-attentive aggregation mechanism. Based on the observation that many real-world graphs include different types of relations, we propose to learn a node representation per relation and aggregate the node representations using a learnable attention function that assigns a different attention coefficient to each relation. Furthermore, we combine the node representations from different layers to consider both the local and global structures of a target node, which is beneficial to improving the performance of fraud detection on graphs with heterophily. By employing dynamic graph attention in all the aggregation processes, our method adaptively computes the attention coefficients for each node. Experimental results show that our method, DRAG, outperforms state-of-the-art fraud detection methods on real-world benchmark datasets.
翻訳日:2023-10-12 18:38:30 公開日:2023-10-09
# 低温基板上の浮遊電子を用いた量子コンピューティングの可能性と課題

Quantum computing using floating electrons on cryogenic substrates: Potential And Challenges ( http://arxiv.org/abs/2310.04119v2 )

ライセンス: Link先を確認
Ash Jennings, Xianjing Zhou, Ivan Grytsenko, and Erika Kawakami(参考訳) 本稿では,比較的新しいqubitプラットフォームであるfloating-electron-based qubitsを紹介する。 液体ヘリウムや固体ネオンの表面上に真空に浮かぶ電子は、特に長いコヒーレンス時間のために、量子ビットの候補として期待される。 初期段階にあるにもかかわらず、様々なグループによる最近の実験は、この役割にかなりの可能性を示している。 スピン状態と電荷状態がハイブリダイゼーションされている量子状態としてスピン状態を使うことに主眼を置き,理論的な提案と最近の実験について検討した。 これらの提案と実験を通じて、電荷状態はLC共振器に結合され、人工的に導入されたスピンチャージカップリングによってスピン状態の制御と読み出しの機構が促進される。

In this review, we introduce a relatively new qubit platform: floating-electron-based qubits. Electrons floating in vacuum above the surface of liquid helium or solid neon emerge as promising candidates for qubits, especially due to their expected long coherence times. Despite being in the early stages, a variety of recent experiments from different groups have shown substantial potential in this role. We survey a range of theoretical proposals and recent experiments, primarily focusing on the use of the spin state as the qubit state, wherein the spin and charge states are hybridized. Throughout these proposals and experiments, the charge state is coupled to an LC resonator, which facilitates both the control and readout mechanisms for the spin state via an artificially introduced spin-charge coupling.
翻訳日:2023-10-12 18:38:13 公開日:2023-10-09
# SteerLM: RLHFの代替(ユーザステアブル)としての属性条件付きSFT

SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF ( http://arxiv.org/abs/2310.05344v1 )

ライセンス: Link先を確認
Yi Dong, Zhilin Wang, Makesh Narsimhan Sreedhar, Xianchao Wu, Oleksii Kuchaiev(参考訳) 人間の好みに沿ったモデルアライメントは、大きな言語モデル(llm)を人間の価値と調和させる上で不可欠なステップである。 典型的には、教師付き微調整(SFT)と人間フィードバック(RLHF)段階からの強化学習からなる。 しかし、RLHFは複雑なトレーニング設定に起因する固有の制限に直面しており、その傾向は、エンドユーザーが実行時に制御できない暗黙の値とモデルを整合させる傾向がある。 さらに、rlhfステージの報酬モデルは、通常、有用性、ユーモア、毒性などの特性を示す明示的で多面的な信号とは対照的に、単次元のフィードバックに依存する。 このような制約に対処するために,エンドユーザーが推論中に応答を制御するための教師付き微調整手法であるSteerLMを提案する。 SteerLM条件は、明示的に定義された多次元の属性セットに応答するので、カスタマイズ性を維持しながら、有用な高品質なレスポンスを生成できるステアブルAIが強化される。 実験によると、オープンソースのデータセットでトレーニングされたSteerLMは、RLHFでトレーニングされた多くの最先端ベースラインに対して、人間や自動評価者が好む応答を生成する。 try SteerLM at https://huggingface.co/nvidia/SteerLM-llama2-13B

Model alignment with human preferences is an essential step in making Large Language Models (LLMs) helpful and consistent with human values. It typically consists of supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) stages. However, RLHF faces inherent limitations stemming from a complex training setup and its tendency to align the model with implicit values that end users cannot control at run-time. Moreover, reward models in RLHF stage commonly rely on single-dimensional feedback as opposed to explicit, multifaceted signals that indicate attributes such as helpfulness, humor, and toxicity. To address these limitations, we propose SteerLM, a supervised fine-tuning method that empowers end-users to control responses during inference. SteerLM conditions responses to conform to an explicitly defined multi-dimensional set of attributes, thereby empowering a steerable AI capable of generating helpful and high-quality responses while maintaining customizability. Experiments show that SteerLM trained on open source datasets generates responses that are preferred by human and automatic evaluators to many state-of-the-art baselines trained with RLHF while being much easier to train. Try SteerLM at https://huggingface.co/nvidia/SteerLM-llama2-13B
翻訳日:2023-10-12 08:31:48 公開日:2023-10-09
# フィッシャーマスキングによるアンラーニング

Unlearning with Fisher Masking ( http://arxiv.org/abs/2310.05331v1 )

ライセンス: Link先を確認
Yufang Liu, Changzhi Sun, Yuanbin Wu, Aimin Zhou(参考訳) Machine Unlearningは、ユーザやモデル開発者、管理者からの要求に応じて、学習後にトレーニングデータを無効にすることを目的としている。 従来のほとんどのメソッドは直接微調整に基づいており、データを完全に削除したり、残余データに完全なパフォーマンスを保持することもできない。 本研究では,まずいくつかの重要なパラメータを微調整する前にマスキングすることで,アンラーニングのパフォーマンスが大幅に向上することを見出した。 我々は,フィッシャー情報に基づくアンラーニングに適した新しいマスキング戦略を提案する。 様々なデータセットとネットワーク構造に関する実験は、この方法の有効性を示している: 微調整がなければ、提案されているフィッシャーマスキングは、残余データのパフォーマンスの大部分を維持しながら、ほぼ完全に解き放つことができる。 他のアンラーニングベースラインよりも強い安定性を示す。

Machine unlearning aims to revoke some training data after learning in response to requests from users, model developers, and administrators. Most previous methods are based on direct fine-tuning, which may neither remove data completely nor retain full performances on the remain data. In this work, we find that, by first masking some important parameters before fine-tuning, the performances of unlearning could be significantly improved. We propose a new masking strategy tailored to unlearning based on Fisher information. Experiments on various datasets and network structures show the effectiveness of the method: without any fine-tuning, the proposed Fisher masking could unlearn almost completely while maintaining most of the performance on the remain data. It also exhibits stronger stability compared to other unlearning baselines
翻訳日:2023-10-12 08:31:24 公開日:2023-10-09
# 弱スーパービジョンと適応インスタンス選択を用いた軽量ビデオ異常検出モデル

A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection ( http://arxiv.org/abs/2310.05330v1 )

ライセンス: Link先を確認
Yang Wang, Jiaogen Zhou, Jihong Guan(参考訳) ビデオ異常検出は、あるビデオに異常な事象、行動、または物体があるかどうかを判断し、効果的でインテリジェントな公共安全管理を可能にする。 ビデオの異常ラベル付けは時間と費用の両方がかかるため、既存の作品の多くは教師なしあるいは弱教師なしの学習方法を採用している。 本論文は,映像に異常が存在するか否かをラベル付けする,弱教師付き映像異常検出に焦点をあてるが,その異常がどこにあるかに関する情報はない。 しかし、弱いラベル付きデータの不確実性と大きなモデルサイズは、既存の手法が実際のシナリオ、特にエッジコンピューティングのようなリソース制限状況に広く展開することを防ぐ。 本稿では,軽量な映像異常検出モデルを開発した。 本稿では,モデルの現在の状態に基づいて,信頼度の高いインスタンスを選択する適応型インスタンス選択戦略を提案し,弱ラベルデータの不確実性を軽減するとともに,そのモデルの性能向上を図る。 一方,本モデルを構築するために,軽量なマルチレベル時間相関アテンションモジュールと時間ガラス形状の完全連結層を設計し,既存の手法(RTFMなど)の0.56倍までモデルパラメータを削減できることを示した。 ucf-crime と shanghaitech の2つの公開データセットに関する広範な実験により,モデルパラメータが大幅に削減され,最先端の手法と比較して,同等あるいはそれ以上の auc スコアが得られることが分かった。

Video anomaly detection is to determine whether there are any abnormal events, behaviors or objects in a given video, which enables effective and intelligent public safety management. As video anomaly labeling is both time-consuming and expensive, most existing works employ unsupervised or weakly supervised learning methods. This paper focuses on weakly supervised video anomaly detection, in which the training videos are labeled whether or not they contain any anomalies, but there is no information about which frames the anomalies are located. However, the uncertainty of weakly labeled data and the large model size prevent existing methods from wide deployment in real scenarios, especially the resource-limit situations such as edge-computing. In this paper, we develop a lightweight video anomaly detection model. On the one hand, we propose an adaptive instance selection strategy, which is based on the model's current status to select confident instances, thereby mitigating the uncertainty of weakly labeled data and subsequently promoting the model's performance. On the other hand, we design a lightweight multi-level temporal correlation attention module and an hourglass-shaped fully connected layer to construct the model, which can reduce the model parameters to only 0.56\% of the existing methods (e.g. RTFM). Our extensive experiments on two public datasets UCF-Crime and ShanghaiTech show that our model can achieve comparable or even superior AUC score compared to the state-of-the-art methods, with a significantly reduced number of model parameters.
翻訳日:2023-10-12 08:31:12 公開日:2023-10-09
# オブジェクト中心学習のための確率的構成一般化

Provable Compositional Generalization for Object-Centric Learning ( http://arxiv.org/abs/2310.05327v1 )

ライセンス: Link先を確認
Thadd\"aus Wiedemer, Jack Brady, Alexander Panfilov, Attila Juhos, Matthias Bethge, Wieland Brendel(参考訳) 既知の概念の新しい構成に一般化する学習表現は、人間と機械の知覚の間のギャップを埋めるのに不可欠である。 オブジェクト中心表現の学習は、合成の一般化を可能にするために広く予想されている。 しかし、この予想がいつ真になるのかは、理論的あるいは経験的な構成的一般化の理解が欠如しているため、定かではない。 本研究では,物体中心表現に対する構成一般化が,識別可能性理論のレンズを通していつ保証されるかを検討する。 本稿では,デコーダの構造的仮定を満足し,エンコーダとデコーダの整合性を強制するオートエンコーダが,構成を確実に一般化するオブジェクト中心表現を学習することを示す。 我々は, 合成画像データを用いた実験により, 理論結果を検証し, 仮定の実際的妥当性を強調する。

Learning representations that generalize to novel compositions of known concepts is crucial for bridging the gap between human and machine perception. One prominent effort is learning object-centric representations, which are widely conjectured to enable compositional generalization. Yet, it remains unclear when this conjecture will be true, as a principled theoretical or empirical understanding of compositional generalization is lacking. In this work, we investigate when compositional generalization is guaranteed for object-centric representations through the lens of identifiability theory. We show that autoencoders that satisfy structural assumptions on the decoder and enforce encoder-decoder consistency will learn object-centric representations that provably generalize compositionally. We validate our theoretical result and highlight the practical relevance of our assumptions through experiments on synthetic image data.
翻訳日:2023-10-12 08:30:45 公開日:2023-10-09
# 個人化タスクにおける政策勾配向上のためのエントロピーの増大

Increasing Entropy to Boost Policy Gradient Performance on Personalization Tasks ( http://arxiv.org/abs/2310.05324v1 )

ライセンス: Link先を確認
Andrew Starnes, Anton Dereventsov, Clayton Webster(参考訳) 本研究では,政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に対する正規化の影響を検討する。 政策勾配剤はエントロピー崩壊を起こしやすいため、特定の行動が選択されることは稀である。 我々は,様々な$\varphi$-divergences と Maximum Mean Discrepancy から構成した条件で政策の最適化目標関数を拡張し,現在の政策が以前計算された政策とは異なる状態訪問や行動選択分布に従うことを奨励する。 MNIST、CIFAR10、Spotifyのデータセットを用いて数値実験を行う。 その結果,多様性向上政策のレギュライゼーションの利点が示され,グラデーションベースアプローチへの利用は多様なパーソナライズタスクのパフォーマンスを大幅に向上させた。 さらに、ポリシーの正則化が精度を損なわずに性能を向上させることを示す数値的な証拠を与える。

In this effort, we consider the impact of regularization on the diversity of actions taken by policies generated from reinforcement learning agents trained using a policy gradient. Policy gradient agents are prone to entropy collapse, which means certain actions are seldomly, if ever, selected. We augment the optimization objective function for the policy with terms constructed from various $\varphi$-divergences and Maximum Mean Discrepancy which encourages current policies to follow different state visitation and/or action choice distribution than previously computed policies. We provide numerical experiments using MNIST, CIFAR10, and Spotify datasets. The results demonstrate the advantage of diversity-promoting policy regularization and that its use on gradient-based approaches have significantly improved performance on a variety of personalization tasks. Furthermore, numerical evidence is given to show that policy regularization increases performance without losing accuracy.
翻訳日:2023-10-12 08:30:31 公開日:2023-10-09
# エッジコンピューティングによる道路環境モニタリング:システムの開発と評価

Edge Computing-Enabled Road Condition Monitoring: System Development and Evaluation ( http://arxiv.org/abs/2310.05321v1 )

ライセンス: Link先を確認
Abdulateef Daud, Mark Amo-Boateng, Neema Jakisa Owor, Armstrong Aboah, Yaw Adu-Gyamfi(参考訳) リアルタイム舗装状況モニタリングは、道路の整備とリハビリテーションの方針の基礎となるタイムリーで正確な情報を提供する。 既存の技術は手動のデータ処理に重きを置き、コストがかかり、頻繁にネットワークレベルでの舗装状況監視のためにスケールしにくい。 さらに、これらのシステムは大量のデータをクラウドに送信し、大きなストレージスペースを必要とし、処理に計算コストがかかり、結果としてレイテンシが高くなる。 本研究では、安価なマイクロ電気機械システム(mems)センサ、エッジコンピューティング、マイクロコントローラのインターネット接続能力、デプロイ可能な機械学習(ml)モデルの普及を活かしたソリューションを提案する。 a)モノのインターネット(IoT)対応デバイスの設計 : 車両の軸に装着してライブ舗装条件データをストリーミングする (b)クラウドサーバに送信する前に、オンデバイス処理と舗装状態センサデータの分析を通じてレイテンシを削減する。 本研究では,Random Forest,LightGBM,XGBoostの3つのMLモデルをトレーニングし,国際ラフネス指数(IRI)を0.1マイル毎に予測した。 XGBoostはRMSEとMAPEでそれぞれ16.89in/miと20.3%の精度であった。 map-21の基準に基づいて舗装セグメントのiriを分類する能力について,提案手法はi-70ebで96.76%,南プロビデンスで63.15%の精度を達成した。 提案装置は,道路交通省(SHA)と運輸省(DOT)に対して,良好な精度でリアルタイム舗装条件データを提供する上で,大きな可能性を示す。

Real-time pavement condition monitoring provides highway agencies with timely and accurate information that could form the basis of pavement maintenance and rehabilitation policies. Existing technologies rely heavily on manual data processing, are expensive and therefore, difficult to scale for frequent, networklevel pavement condition monitoring. Additionally, these systems require sending large packets of data to the cloud which requires large storage space, are computationally expensive to process, and results in high latency. The current study proposes a solution that capitalizes on the widespread availability of affordable Micro Electro-Mechanical System (MEMS) sensors, edge computing and internet connection capabilities of microcontrollers, and deployable machine learning (ML) models to (a) design an Internet of Things (IoT)-enabled device that can be mounted on axles of vehicles to stream live pavement condition data (b) reduce latency through on-device processing and analytics of pavement condition sensor data before sending to the cloud servers. In this study, three ML models including Random Forest, LightGBM and XGBoost were trained to predict International Roughness Index (IRI) at every 0.1-mile segment. XGBoost had the highest accuracy with an RMSE and MAPE of 16.89in/mi and 20.3%, respectively. In terms of the ability to classify the IRI of pavement segments based on ride quality according to MAP-21 criteria, our proposed device achieved an average accuracy of 96.76% on I-70EB and 63.15% on South Providence. Overall, our proposed device demonstrates significant potential in providing real-time pavement condition data to State Highway Agencies (SHA) and Department of Transportation (DOTs) with a satisfactory level of accuracy.
翻訳日:2023-10-12 08:30:13 公開日:2023-10-09
# LLMデータ拡張による階層型ディシプリナトピック推論の不均衡問題の解消

Resolving the Imbalance Issue in Hierarchical Disciplinary Topic Inference via LLM-based Data Augmentation ( http://arxiv.org/abs/2310.05318v1 )

ライセンス: Link先を確認
Xunxin Cai, Meng Xiao, Zhiyuan Ning, Yuanchun Zhou(参考訳) 自然言語処理領域におけるデータの不均衡問題に対処するために,テキストデータ拡張手法が重要なソリューションとして登場してきた。 このデータ不均衡は、資金調達申請プロセス中に提出された研究提案で顕著である。 このような不均衡は、規律の多様さや学際的な研究の出現によるものであり、これらの提案の関連分野を推論する下流トピックモデルの精度を著しく損なう。 データレベルでは、専門家や科学者によって書かれた提案は本質的に複雑な技術的テキストであり、複雑な用語に満ちている。 システムレベルでは、これはai支援レビューアの割り当てシステムの公正性を損なうことになり、この問題の解決にスポットライトを当てる。 本研究では,大規模言語モデル(llama v1)をデータジェネレータとして活用し,データ不均衡の是正と専門家割り当ての公平性向上を目的とした,複雑な学際階層に分類された研究提案を補強する。 まず、階層構造の中でサンプルを行い、未表現のクラスを見つけます。 そして,キーワードに基づく研究提案生成のプロンプトを設計した。 提案手法は,プロンプトを用いた研究提案が,上記の課題を効果的に解決し,高品質な科学テキストデータを生成することにより,不均衡な問題を克服する上で有効であることを示す。

In addressing the imbalanced issue of data within the realm of Natural Language Processing, text data augmentation methods have emerged as pivotal solutions. This data imbalance is prevalent in the research proposals submitted during the funding application process. Such imbalances, resulting from the varying popularity of disciplines or the emergence of interdisciplinary studies, significantly impede the precision of downstream topic models that deduce the affiliated disciplines of these proposals. At the data level, proposals penned by experts and scientists are inherently complex technological texts, replete with intricate terminologies, which augmenting such specialized text data poses unique challenges. At the system level, this, in turn, compromises the fairness of AI-assisted reviewer assignment systems, which raises a spotlight on solving this issue. This study leverages large language models (Llama V1) as data generators to augment research proposals categorized within intricate disciplinary hierarchies, aiming to rectify data imbalances and enhance the equity of expert assignments. We first sample within the hierarchical structure to find the under-represented class. Then we designed a prompt for keyword-based research proposal generation. Our experiments attests to the efficacy of the generated data, demonstrating that research proposals produced using the prompts can effectively address the aforementioned issues and generate high quality scientific text data, thus help the model overcome the imbalanced issue.
翻訳日:2023-10-12 08:29:42 公開日:2023-10-09
# 分布外検出のための特徴ノルムの理解

Understanding the Feature Norm for Out-of-Distribution Detection ( http://arxiv.org/abs/2310.05316v1 )

ライセンス: Link先を確認
Jaewoo Park, Jacky Chen Long Chai, Jaeho Yoon, Andrew Beng Jin Teoh(参考訳) 分類データセットでトレーニングされたニューラルネットワークは、イン・ディストリビューション(id)サンプルの隠れ層特徴のより高いベクターノルムをしばしば提示し、アウト・オブ・ディストリビューション(ood)から未知のインスタンスに対して比較的低いノルム値を生成する。 この興味深い現象は多くの応用で利用されているが、根本的な原因は調査されていない。 本研究では,ニューラルネットワークの中間層に隠された識別構造を精査することにより,この現象を解明する。 1)特徴ノルムは,ネットワーク層に隠された分類器の信頼性値,特に最大ロジットである。 したがって、特徴ノルムは、分類器の信頼度と同じ方法でOODとIDを区別する。 (2) 特徴ノルムはクラスに依存しないため、様々な識別モデルでoodサンプルを検出できる。 3) 従来の特徴ノルムは, 隠蔽層ニューロンの非活性化傾向を捉えず, ID サンプルを OOD インスタンスと誤同定する可能性がある。 この欠点を解決するために,隠れ層ニューロンの活性化と不活性化の傾向を捉えることのできる,新たな負認識ノルム(nan)を提案する。 我々はnanを広範囲に実験し,既存のood検出器の有効性と互換性を実証し,ラベルフリー環境においてその性能を示す。

A neural network trained on a classification dataset often exhibits a higher vector norm of hidden layer features for in-distribution (ID) samples, while producing relatively lower norm values on unseen instances from out-of-distribution (OOD). Despite this intriguing phenomenon being utilized in many applications, the underlying cause has not been thoroughly investigated. In this study, we demystify this very phenomenon by scrutinizing the discriminative structures concealed in the intermediate layers of a neural network. Our analysis leads to the following discoveries: (1) The feature norm is a confidence value of a classifier hidden in the network layer, specifically its maximum logit. Hence, the feature norm distinguishes OOD from ID in the same manner that a classifier confidence does. (2) The feature norm is class-agnostic, thus it can detect OOD samples across diverse discriminative models. (3) The conventional feature norm fails to capture the deactivation tendency of hidden layer neurons, which may lead to misidentification of ID samples as OOD instances. To resolve this drawback, we propose a novel negative-aware norm (NAN) that can capture both the activation and deactivation tendencies of hidden layer neurons. We conduct extensive experiments on NAN, demonstrating its efficacy and compatibility with existing OOD detectors, as well as its capability in label-free environments.
翻訳日:2023-10-12 08:28:46 公開日:2023-10-09
# テンソルトレイン分解を用いた二重重み付きマルチグラニティパッチテンソルモデルによる赤外小ターゲット検出

Infrared Small Target Detection Using Double-Weighted Multi-Granularity Patch Tensor Model With Tensor-Train Decomposition ( http://arxiv.org/abs/2310.05347v1 )

ライセンス: Link先を確認
Guiyu Zhang, Qunbo Lv, Zui Tao, Baoyu Zhu, Zheng Tan, Yuan Ma(参考訳) 赤外線小目標検出はリモートセンシング分野において重要な役割を果たす。 そのため、赤外線パッチテンソル(ipt)モデルが、その優れた性能により主流となる多くの検出アルゴリズムが提案されている。 しかし、ほとんどのIPTベースの手法は、テンソルの低ランク性の不正確な測定や複雑なシーンに対する堅牢性の低下など、検出性能の低下など、大きな課題に直面している。 これらの問題を解決するために,本論文では,DWMGIPT(Double-weighted multi-granularity infrared patch tensor)モデルを提案する。 まず、複数のモードからテンソルの異なる粒度情報を取得するために、テンソルトレイン(TT)分解に基づいて非重複パッチとテンソル増倍を収集することにより、多粒度赤外線パッチテンソル(MGIPT)モデルを構築する。 第二に, テンソルの潜在構造をより効率的に探索するために, 異なる粒度における情報の重要性のバランスをとるために, 自己重み付け機構を用いる。 次に、ステアリングカーネル(SK)を用いて、前の局所構造を抽出し、強いエッジやノイズなどのバックグラウンド干渉を抑制する。 最後に,乗算器の交互方向法(ADMM)に基づく効率的な最適化アルゴリズムを提案する。 様々な挑戦シーンにおける大規模な実験は、提案アルゴリズムがノイズや異なるシーンに対して堅牢であることを示している。 他の8つの最先端手法と比較して,本手法は様々な複雑なシーンにおいて優れた検出性能が得られることを示す。

Infrared small target detection plays an important role in the remote sensing fields. Therefore, many detection algorithms have been proposed, in which the infrared patch-tensor (IPT) model has become a mainstream tool due to its excellent performance. However, most IPT-based methods face great challenges, such as inaccurate measure of the tensor low-rankness and poor robustness to complex scenes, which will leadto poor detection performance. In order to solve these problems, this paper proposes a novel double-weighted multi-granularity infrared patch tensor (DWMGIPT) model. First, to capture different granularity information of tensor from multiple modes, a multi-granularity infrared patch tensor (MGIPT) model is constructed by collecting nonoverlapping patches and tensor augmentation based on the tensor train (TT) decomposition. Second, to explore the latent structure of tensor more efficiently, we utilize the auto-weighted mechanism to balance the importance of information at different granularity. Then, the steering kernel (SK) is employed to extract local structure prior, which suppresses background interference such as strong edges and noise. Finally, an efficient optimization algorithm based on the alternating direction method of multipliers (ADMM) is presented to solve the model. Extensive experiments in various challenging scenes show that the proposed algorithm is robust to noise and different scenes. Compared with the other eight state-of-the-art methods, different evaluation metrics demonstrate that our method achieves better detection performance in various complex scenes.
翻訳日:2023-10-12 08:22:56 公開日:2023-10-09
# Anyview: 可変フレームによる一般的な室内3Dオブジェクト検出

Anyview: Generalizable Indoor 3D Object Detection with Variable Frames ( http://arxiv.org/abs/2310.05346v1 )

ライセンス: Link先を確認
Zhenyu Wu, Xiuwei Xu, Ziwei Wang, Chong Xia, Linqing Zhao, Jiwen Lu and Haibin Yan(参考訳) 本稿では,屋内3次元物体検出のための新しいネットワークフレームワークを提案する。 既存の方法は、単一の検出器の入力データの固定フレームのみを考慮し、例えば、高密度の多視点RGB-D画像から再構成された単眼RGB-D画像や点雲などである。 ロボットナビゲーションや操作などの現実的な応用シーンでは、3D検出器への生の入力は、再構成されたシーンポイントクラウドの代わりに、フレーム番号が可変なRGB-D画像である。 しかし、従来の手法では固定フレーム入力データのみを処理でき、可変フレーム入力では性能が劣る。 実用的課題に適した3次元物体検出手法を実現するため,我々は,様々な入力フレームを1つのモデルで一般化した,anyviewと呼ばれる新しい3次元物体検出フレームワークを提案する。 具体的には,各入力RGB-D画像フレームの局所的幾何学的特徴を抽出し,設計した空間混合モジュールを介して局所的特徴相互作用を実装する幾何学的学習者を提案する。 一方,動的なトークン戦略を用いて各フレームの抽出された特徴数を適応的に調整し,一貫したグローバル特徴密度を確保し,融合後の一般化をさらに高める。 ScanNetデータセットの大規模な実験により,本手法は,ベースラインに類似するパラメータを含む単純でクリーンなアーキテクチャを用いて,高い一般化性と高い検出精度を実現する。

In this paper, we propose a novel network framework for indoor 3D object detection to handle variable input frame numbers in practical scenarios. Existing methods only consider fixed frames of input data for a single detector, such as monocular RGB-D images or point clouds reconstructed from dense multi-view RGB-D images. While in practical application scenes such as robot navigation and manipulation, the raw input to the 3D detectors is the RGB-D images with variable frame numbers instead of the reconstructed scene point cloud. However, the previous approaches can only handle fixed frame input data and have poor performance with variable frame input. In order to facilitate 3D object detection methods suitable for practical tasks, we present a novel 3D detection framework named AnyView for our practical applications, which generalizes well across different numbers of input frames with a single model. To be specific, we propose a geometric learner to mine the local geometric features of each input RGB-D image frame and implement local-global feature interaction through a designed spatial mixture module. Meanwhile, we further utilize a dynamic token strategy to adaptively adjust the number of extracted features for each frame, which ensures consistent global feature density and further enhances the generalization after fusion. Extensive experiments on the ScanNet dataset show our method achieves both great generalizability and high detection accuracy with a simple and clean architecture containing a similar amount of parameters with the baselines.
翻訳日:2023-10-12 08:22:31 公開日:2023-10-09
# スパイクニューラルネットワークにおける連続学習の検討

Investigating Continuous Learning in Spiking Neural Networks ( http://arxiv.org/abs/2310.05343v1 )

ライセンス: Link先を確認
C. Tanner Fredieu(参考訳) 本稿では,ニューラルネットワークアーキテクチャとしても知られる第3世代機械学習の連続学習への応用について,従来のモデルと比較して検討した。 実験は3つの段階に分けられた。 第1フェーズは、転送学習による従来のモデルのトレーニングに焦点を当てた。 第2段階は図書館から年号モデルを訓練する。 最後に、各従来のモデルはスパイクニューラルネットワークに変換され、トレーニングされる。 フェーズ1の最初の結果は、現在の機械学習文献における継続的学習に関する既知の知識とインラインである。 すべてのモデルは、現在のクラスを正確に識別することができたが、壊滅的な忘れにより、すぐに前のクラスのパフォーマンスが低下した。 しかし、SNNモデルは以前のクラスに関する情報を保持することができた。 従来のクラスの多くは現在のトレーニングクラスとして認識されていたが、出力確率は実際のクラスよりも高い値を示した。 これは、SNNモデルが破滅的な忘れを克服する可能性を秘めているが、まだ多くの作業が必要であることを示している。

In this paper, the use of third-generation machine learning, also known as spiking neural network architecture, for continuous learning was investigated and compared to conventional models. The experimentation was divided into three separate phases. The first phase focused on training the conventional models via transfer learning. The second phase trains a Nengo model from their library. Lastly, each conventional model is converted into a spiking neural network and trained. Initial results from phase 1 are inline with known knowledge about continuous learning within current machine learning literature. All models were able to correctly identify the current classes, but they would immediately see a sharp performance drop in previous classes due to catastrophic forgetting. However, the SNN models were able to retain some information about previous classes. Although many of the previous classes were still identified as the current trained classes, the output probabilities showed a higher than normal value to the actual class. This indicates that the SNN models do have potential to overcome catastrophic forgetting but much work is still needed.
翻訳日:2023-10-12 08:22:08 公開日:2023-10-09
# 視覚言語モデルにおける物体幻覚測定のための否定的物体存在評価(nope)

Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models ( http://arxiv.org/abs/2310.05338v1 )

ライセンス: Link先を確認
Holy Lovenia, Wenliang Dai, Samuel Cahyawijaya, Ziwei Ji, Pascale Fung(参考訳) 物体幻覚は視覚言語(VL)モデルにおいて重要な課題となり、しばしば存在しない物体との非感覚的あるいは不誠実な反応を生み出す。 しかしながら、VLモデルにおける物体幻覚評価のための一般的な測定方法がないため、この問題を緩和する理解と能力が妨げられている。 本研究では,視覚的質問応答(VQA)を用いて,VLモデルの物体幻覚を評価するための新しいベンチマークであるNOPE(Negative Object Presence Evaluation)を提案する。 大規模言語モデルを用いて,高品質のnope合成陰性代名詞(negp)データを生成するためのコスト効率が高くスケーラブルな手法を提案する。 視覚的問題における物体の非存在を識別する10種類の最先端VLモデルの性能について,基礎的真理解をNegP("none"など)と表す。 さらに、他の9つのVQAデータセットの視覚的質問に対して、それらの標準性能を評価する。 実験により、全てのモデルがNegP上で10倍未満の精度を達成するため、VLモデルが物体幻覚の脆弱性に免疫しないことを示した。 さらに、語彙的に多様な視覚的質問、広い範囲の質問タイプ、シーン関連オブジェクトが、VLモデルにおける物体幻覚のリスクを負うことを明らかにする。

Object hallucination poses a significant challenge in vision-language (VL) models, often leading to the generation of nonsensical or unfaithful responses with non-existent objects. However, the absence of a general measurement for evaluating object hallucination in VL models has hindered our understanding and ability to mitigate this issue. In this work, we present NOPE (Negative Object Presence Evaluation), a novel benchmark designed to assess object hallucination in VL models through visual question answering (VQA). We propose a cost-effective and scalable approach utilizing large language models to generate 29.5k synthetic negative pronoun (NegP) data of high quality for NOPE. We extensively investigate the performance of 10 state-of-the-art VL models in discerning the non-existence of objects in visual questions, where the ground truth answers are denoted as NegP (e.g., "none"). Additionally, we evaluate their standard performance on visual questions on 9 other VQA datasets. Through our experiments, we demonstrate that no VL model is immune to the vulnerability of object hallucination, as all models achieve accuracy below 10\% on NegP. Furthermore, we uncover that lexically diverse visual questions, question types with large scopes, and scene-relevant objects capitalize the risk of object hallucination in VL models.
翻訳日:2023-10-12 08:20:55 公開日:2023-10-09
# より大きな画像分類器は何を記憶しますか。

What do larger image classifiers memorise? ( http://arxiv.org/abs/2310.05337v1 )

ライセンス: Link先を確認
Michal Lukasik, Vaishnavh Nagarajan, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar(参考訳) 現代のニューラルネットワークの成功は、記憶と一般化の関連性の研究を促している: 過パラメータ化されたモデルは、完全にランダムなラベルに完全に適合する(記憶)にもかかわらず、うまく一般化する。 この問題を慎重に研究するため、フェルドマンは個々のトレーニング例の記憶度を定量化する指標を提案し、画像分類ベンチマーク上のResNetの記憶プロファイルを実証的に計算した。 現実世界のモデルが記憶しているものについて、エキサイティングな第一歩を垣間見る一方で、これは根本的な疑問を解き放つ:より大きなニューラルモデルは記憶するだろうか? 画像分類ベンチマークにおいて,この問題を包括的に分析する。 その結果, トレーニング例では, モデルサイズにまたがる予期せぬ多彩な記憶軌跡がみられ, 大部分のサンプルでは, より大きなモデルで記憶が減少し, 残りはキャップ形状や記憶の増大がみられた。 フェルドマン記憶スコアの様々なプロキシは,これらの基本的な傾向を捉えられなかった。 最後に, 有効で一般的なモデル圧縮技術である知識蒸留は, 記憶を阻害する傾向があり, 一般化も改善する。 特に、記憶は記憶の軌跡が増加する例で主に抑制され、蒸留が一般化をどのように改善するかを示す。

The success of modern neural networks has prompted study of the connection between memorisation and generalisation: overparameterised models generalise well, despite being able to perfectly fit (memorise) completely random labels. To carefully study this issue, Feldman proposed a metric to quantify the degree of memorisation of individual training examples, and empirically computed the corresponding memorisation profile of a ResNet on image classification bench-marks. While an exciting first glimpse into what real-world models memorise, this leaves open a fundamental question: do larger neural models memorise more? We present a comprehensive empirical analysis of this question on image classification benchmarks. We find that training examples exhibit an unexpectedly diverse set of memorisation trajectories across model sizes: most samples experience decreased memorisation under larger models, while the rest exhibit cap-shaped or increasing memorisation. We show that various proxies for the Feldman memorization score fail to capture these fundamental trends. Lastly, we find that knowledge distillation, an effective and popular model compression technique, tends to inhibit memorisation, while also improving generalisation. Specifically, memorisation is mostly inhibited on examples with increasing memorisation trajectories, thus pointing at how distillation improves generalisation.
翻訳日:2023-10-12 08:20:30 公開日:2023-10-09
# GReAT: グラフ正規化逆行訓練手法

GReAT: A Graph Regularized Adversarial Training Method ( http://arxiv.org/abs/2310.05336v1 )

ライセンス: Link先を確認
Samet Bayram, Kenneth Barner(参考訳) 本稿では、ディープラーニングモデルの分類性能を改善するために、GReAT(Graph Regularized Adversarial Training)と呼ばれる正規化手法を提案する。 逆例は機械学習においてよく知られた課題であり、入力データに対する小さな目的を持った摂動がモデルを誤解させる可能性がある。 敵の訓練(adversarial training)は、強力かつ最も効果的な防衛戦略の1つで、定期的な例と敵の例の両方でモデルを訓練する。 しかし、データの基本構造を無視することが多い。 そこで本研究では,データグラフ構造を利用したモデルロバスト性向上手法であるGReATを提案する。 GReATは、データグラフ構造を敵のトレーニングプロセスにデプロイすることで、テストパフォーマンスをより一般化し、敵の攻撃に対して防御する、より堅牢なモデルを実現する。 ベンチマークデータセットの広範な評価を通じて、GReATが最先端の分類手法と比較して有効であることを示し、ディープラーニングモデルの分類性能を改善する可能性を強調した。

This paper proposes a regularization method called GReAT, Graph Regularized Adversarial Training, to improve deep learning models' classification performance. Adversarial examples are a well-known challenge in machine learning, where small, purposeful perturbations to input data can mislead models. Adversarial training, a powerful and one of the most effective defense strategies, involves training models with both regular and adversarial examples. However, it often neglects the underlying structure of the data. In response, we propose GReAT, a method that leverages data graph structure to enhance model robustness. GReAT deploys the graph structure of the data into the adversarial training process, resulting in more robust models that better generalize its testing performance and defend against adversarial attacks. Through extensive evaluation on benchmark datasets, we demonstrate GReAT's effectiveness compared to state-of-the-art classification methods, highlighting its potential in improving deep learning models' classification performance.
翻訳日:2023-10-12 08:20:08 公開日:2023-10-09
# DiffCPS:オフライン強化学習のための拡散モデルに基づく制約付きポリシー探索

DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.05333v1 )

ライセンス: Link先を確認
Longxiang He, Linrui Zhang, Junbo Tan, Xueqian Wang(参考訳) 制約付きポリシー探索(CPS)はオフライン強化学習の基本的な問題であり、一般的には重み付け回帰(AWR)によって解決される。 しかし、以前の方法は、ガウス政策の表現力に制限があるため、分配外行動に遭遇する可能性がある。 一方, AWR フレームワークでは, 拡散モデルでは難易度である厳密な政策確率密度を必要とするため, 分散表現能力を持つ最先端モデル(拡散モデル)を直接適用するには不十分である。 本稿では,拡散に基づく制約付きポリシー探索をawrに頼らずに解決する,$\textbf{diffusion model based restricteded policy search (diffcps)$と呼ばれる新しい手法を提案する。 理論解析により,拡散モデルの作用分布を利用してcpsの政策分布制約を解消し,kl制約を近似するために拡散に基づく政策のエビデンス下限(elbo)を活用することにより,我々の重要な知見が明らかになった。 その結果、DiffCPS は拡散モデルの高表現性を認め、AWR によってもたらされる煩雑な密度計算を回避した。 d4rlベンチマークに基づく広範な実験結果から,本手法の有効性が示された。 DiffCPS は従来の AWR ベースラインや最近の拡散型オフライン RL 法と比較して,優れた,少なくとも競争力のある性能を示す。 コードは、$\href{https://github.com/felix-thu/DiffCPS}{https://github.com/felix-thu/DiffCPS}$で入手できる。

Constrained policy search (CPS) is a fundamental problem in offline reinforcement learning, which is generally solved by advantage weighted regression (AWR). However, previous methods may still encounter out-of-distribution actions due to the limited expressivity of Gaussian-based policies. On the other hand, directly applying the state-of-the-art models with distribution expression capabilities (i.e., diffusion models) in the AWR framework is insufficient since AWR requires exact policy probability densities, which is intractable in diffusion models. In this paper, we propose a novel approach called $\textbf{Diffusion Model based Constrained Policy Search (DiffCPS)}$, which tackles the diffusion-based constrained policy search without resorting to AWR. The theoretical analysis reveals our key insights by leveraging the action distribution of the diffusion model to eliminate the policy distribution constraint in the CPS and then utilizing the Evidence Lower Bound (ELBO) of diffusion-based policy to approximate the KL constraint. Consequently, DiffCPS admits the high expressivity of diffusion models while circumventing the cumbersome density calculation brought by AWR. Extensive experimental results based on the D4RL benchmark demonstrate the efficacy of our approach. We empirically show that DiffCPS achieves better or at least competitive performance compared to traditional AWR-based baselines as well as recent diffusion-based offline RL methods. The code is now available at $\href{https://github.com/felix-thu/DiffCPS}{https://github.com/felix-thu/DiffCPS}$.
翻訳日:2023-10-12 08:19:50 公開日:2023-10-09
# 局所演算と古典通信を用いた多部量子チャネルやその他の量子機器の漸近的実装

Asymptotic implementation of multipartite quantum channels and other quantum instruments using local operations and classical communication ( http://arxiv.org/abs/2310.05362v1 )

ライセンス: Link先を確認
Scott M. Cohen(参考訳) 我々は,局所演算と古典通信(LOCC)を用いて,多部系上の量子チャネルを任意に近似できる,という必要条件を証明する。 次に、これらの議論を拡張して、最も洗練されたケース、一般化された測定値から、量子チャネルである最も粗い粒度まで、全ての量子機器に適用できる条件を得る。 これらの結果は、LOCCによって実装できないことが知られている量子機器の詳細な分析によって説明されるが、そのフレームワーク内では任意に近似することができる。 この分析の進展の1つとして、同じカテゴリに該当する量子測定が見つかる: LOCCによって正確に実装することはできないが、任意にLOCCによって近似できる。 この測定には無限個の結果があり、同じカテゴリ内に測定が存在するかどうかという疑問は、有限個の結果しか持たない。

We prove a necessary condition that a quantum channel on a multipartite system may be approximated arbitrarily closely using local operations and classical communication (LOCC). We then extend those arguments to obtain a condition that applies to all quantum instruments, which range from the most refined case, a generalized measurement, to the most coarse-grained, which is a quantum channel. We illustrate these results by a detailed analysis of a quantum instrument that is known not to be implementable by LOCC, but which can be arbitrarily closely approximated within that framework. As one outgrowth of this analysis, we find a quantum measurement that falls into the same category: it cannot be implemented exactly by LOCC, but can be approximated by LOCC arbitrarily closely. This measurement has an infinite number of outcomes, leaving open the question as to whether or not there exists a measurement within this same category but having only a finite number of outcomes.
翻訳日:2023-10-12 08:09:56 公開日:2023-10-09
# 置換不変な量子符号の族

A family of permutationally invariant quantum codes ( http://arxiv.org/abs/2310.05358v1 )

ライセンス: Link先を確認
Arda Aydin, Max A. Alekseyev, Alexander Barg(参考訳) 任意の$t\ge 1$に対して$t$ Pauliエラーを補正する、置換不変コードの新しいファミリーを構築します。 また,新しい家系の符号が自然崩壊の誤りや削除の誤りを正すことを示す。 多くの場合、このファミリーの符号は、パウリの誤り、削除、振幅減衰チャネルの両方の置換的不変符号の最もよく知られた明示的な関数よりも短い。 別の結果として、置換的不変符号の条件を一般化し、以前の既知の結果から任意の数のエラーに対して$t=1$の$t$ pauliエラーを補正する。 小さな$t$の場合、これらの条件はコンピュータによるコードの新しい例を構築するのに使うことができる。

We construct a new family of permutationally invariant codes that correct $t$ Pauli errors for any $t\ge 1$. We also show that codes in the new family correct spontaneous decay errors as well as deletion errors. In many cases the codes in this family are shorter than the best previously known explicit families of permutationally invariant codes both for Pauli errors, deletions, and for the amplitude damping channel. As a separate result, we generalize the conditions for permutationally invariant codes to correct $t$ Pauli errors from the previously known results for $t=1$ to any number of errors. For small $t$, these conditions can be used to construct new examples of codes by computer.
翻訳日:2023-10-12 08:09:41 公開日:2023-10-09
# C^2M-DoT:ドメイン転送ネットワークを用いたクロスモーダル一貫した医療報告生成

C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network ( http://arxiv.org/abs/2310.05355v1 )

ライセンス: Link先を確認
Ruizhi Wang, Xiangtao Wang, Jie Zhou, Thomas Lukasiewicz, Zhenghua Xu(参考訳) 臨床シナリオでは、異なる視点を持つ複数の医療画像が同時に生成され、これらの画像は高いセマンティック一貫性を有する。 しかし、既存の医療レポート生成手法のほとんどは、シングルビューデータのみを考慮に入れている。 医療画像のリッチな多視点相互情報により,より正確な報告が得られるが,推測段階における多視点データへの多視点モデルの依存は臨床応用を厳しく制限している。 さらに、数字に基づく単語レベルの最適化は、レポートや医療画像の意味を無視し、生成されたレポートは、しばしば優れた性能を達成できない。 そこで本研究では,ドメイン転送ネットワーク(C^2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 具体的には i) 横断的な情報を用いて病変の意味表現を学ぶために, 意味に基づく多視点学習医療報告作成フレームワークを採用する。 (II)マルチビューレポート生成モデルがシングルビュー入力下でも良好な推論性能が得られるよう、ドメイン転送ネットワークをさらに提案する。 (iii)一方、クロスモーダル一貫性損失を用いた最適化は、医用画像と意味的に一貫性のあるテキストレポートの生成を容易にする。 C^2M-DoTは、すべての指標において、最先端のベースラインを大幅に上回っている。 また, C^2M-DoTにおける各成分の有効性と必要性についても検討した。

In clinical scenarios, multiple medical images with different views are usually generated simultaneously, and these images have high semantic consistency. However, most existing medical report generation methods only consider single-view data. The rich multi-view mutual information of medical images can help generate more accurate reports, however, the dependence of multi-view models on multi-view data in the inference stage severely limits their application in clinical practice. In addition, word-level optimization based on numbers ignores the semantics of reports and medical images, and the generated reports often cannot achieve good performance. Therefore, we propose a cross-modal consistent multi-view medical report generation with a domain transfer network (C^2M-DoT). Specifically, (i) a semantic-based multi-view contrastive learning medical report generation framework is adopted to utilize cross-view information to learn the semantic representation of lesions; (ii) a domain transfer network is further proposed to ensure that the multi-view report generation model can still achieve good inference performance under single-view input; (iii) meanwhile, optimization using a cross-modal consistency loss facilitates the generation of textual reports that are semantically consistent with medical images. Extensive experimental studies on two public benchmark datasets demonstrate that C^2M-DoT substantially outperforms state-of-the-art baselines in all metrics. Ablation studies also confirmed the validity and necessity of each component in C^2M-DoT.
翻訳日:2023-10-12 08:09:29 公開日:2023-10-09
# 目視だけで十分:キーワードを見て対象文を抽出する

A Glance is Enough: Extract Target Sentence By Looking at A keyword ( http://arxiv.org/abs/2310.05352v1 )

ライセンス: Link先を確認
Ying Shi, Dong Wang, Lantian Li, Jiqing Han(参考訳) 本稿では,キーワードのみを入力として多話者音声から対象文を抽出する可能性を検討する。 例えば、社会保障アプリケーションでは、キーワードは"help"であり、目的は、助けを求めた人が他の話者を無視しながら発言しているものを識別することである。 この問題に対処するために,Transformer アーキテクチャを用いてキーワードと発話の両方を埋め込んだ上で,連結あるいは重複した音声から正しい内容を選択するためのクロスアテンション機構を提案する。 Librispeech を用いた実験結果から,提案手法は音声の雑音と混合音声(SNR=-3dB)からターゲット文を効果的に抽出し,音声誤り率 (PER) が 26 % であるのに対し,ベースライン方式のPER は 96% であった。

This paper investigates the possibility of extracting a target sentence from multi-talker speech using only a keyword as input. For example, in social security applications, the keyword might be "help", and the goal is to identify what the person who called for help is articulating while ignoring other speakers. To address this problem, we propose using the Transformer architecture to embed both the keyword and the speech utterance and then rely on the cross-attention mechanism to select the correct content from the concatenated or overlapping speech. Experimental results on Librispeech demonstrate that our proposed method can effectively extract target sentences from very noisy and mixed speech (SNR=-3dB), achieving a phone error rate (PER) of 26\%, compared to the baseline system's PER of 96%.
翻訳日:2023-10-12 08:09:06 公開日:2023-10-09
# 多数のクラスに対する一般化された神経崩壊

Generalized Neural Collapse for a Large Number of Classes ( http://arxiv.org/abs/2310.05351v1 )

ライセンス: Link先を確認
Jiachen Jiang, Jinxin Zhou, Peng Wang, Qing Qu, Dustin Mixon, Chong You and Zhihui Zhu(参考訳) 神経崩壊は、深層分類モデルにおける学習された最終層表現(つまり特徴)と分類器重みのエレガントな数学的特徴を与える。 このような結果は洞察を与えるだけでなく、実用的な深層モデルを改善するための新しいテクニックを動機付ける。 しかしながら、ニューラル崩壊における既存の経験的および理論的研究のほとんどは、クラス数が特徴空間の次元に対して小さい場合に焦点を当てている。 本稿では, 言語モデル, 検索システム, 顔認識アプリケーションにおいて広く発生する特徴空間の次元よりも, クラス数がはるかに大きい場合まで, 神経崩壊を拡大する。 この特徴と分類器は, 1-vs-restマージンの最小値が最大となる一般化神経崩壊現象を示し, 実用深層ニューラルネットワークにおける一般化神経崩壊の発生を実証するための実証的研究を行った。 さらに, 一般化された神経崩壊は, 球面制約のある非拘束特徴モデルの下で, 特徴量やクラス数に関する特定の技術的条件下で, 確実に発生することを示す理論的研究を行った。

Neural collapse provides an elegant mathematical characterization of learned last layer representations (a.k.a. features) and classifier weights in deep classification models. Such results not only provide insights but also motivate new techniques for improving practical deep models. However, most of the existing empirical and theoretical studies in neural collapse focus on the case that the number of classes is small relative to the dimension of the feature space. This paper extends neural collapse to cases where the number of classes are much larger than the dimension of feature space, which broadly occur for language models, retrieval systems, and face recognition applications. We show that the features and classifier exhibit a generalized neural collapse phenomenon, where the minimum one-vs-rest margins is maximized.We provide empirical study to verify the occurrence of generalized neural collapse in practical deep neural networks. Moreover, we provide theoretical study to show that the generalized neural collapse provably occurs under unconstrained feature model with spherical constraint, under certain technical conditions on feature dimension and number of classes.
翻訳日:2023-10-12 08:08:47 公開日:2023-10-09
# 大規模言語モデル事前学習のための効率的なパラメータ探索と並列化のためのスケーリング研究

Scaling Studies for Efficient Parameter Search and Parallelism for Large Language Model Pre-training ( http://arxiv.org/abs/2310.05350v1 )

ライセンス: Link先を確認
Michael Benington, Leo Phan, Chris Pierre Paul, Evan Shoemaker, Priyanka Ranade, Torstein Collett, Grant Hodgson Perez, Christopher Krieger(参考訳) aiアクセラレータの処理能力とメモリの制約は、マシンラーニングのワークロード(トレーニングや推論など)が望ましい時間枠内で実行可能なスケールに大きく影響します。 最先端のトランスフォーマーベースのモデルをトレーニングするには、gpuによる高速インターコネクトを備えた高性能コンピュータを使用する必要がある。 データセットとモデルのサイズが拡大するにつれて、AIの計算要求とメモリ要求も増加し続ける。 これらの課題は、分散アルゴリズムと回路ベースの最適化技術の開発に影響を与え、マルチノード環境で段階的にモデルをスケールし、ニューラルネットワークのコスト関数を効率的に最小化し、より高速な収束を実現し、より多くのパラメータを利用可能なリソースに格納することができる。 本研究では,5億8000万個のパラメータから13億個のパラメータを含む5個のエンコーダデコーダLLMのデータの処理と事前学習を最適化するための並列および分散機械学習アルゴリズムの開発に焦点を当てた。 我々は,3つのML並列化手法の関係を定量化するための詳細な研究を行い,特にMicrosoft DeepSpeed Zero Redundancy Optimizer (ZeRO) の段階について検討した。

AI accelerator processing capabilities and memory constraints largely dictate the scale in which machine learning workloads (e.g., training and inference) can be executed within a desirable time frame. Training a state of the art, transformer-based model today requires use of GPU-accelerated high performance computers with high-speed interconnects. As datasets and models continue to increase in size, computational requirements and memory demands for AI also continue to grow. These challenges have inspired the development of distributed algorithm and circuit-based optimization techniques that enable the ability to progressively scale models in multi-node environments, efficiently minimize neural network cost functions for faster convergence, and store more parameters into a set number of available resources. In our research project, we focus on parallel and distributed machine learning algorithm development, specifically for optimizing the data processing and pre-training of a set of 5 encoder-decoder LLMs, ranging from 580 million parameters to 13 billion parameters. We performed a fine-grained study to quantify the relationships between three ML parallelism methods, specifically exploring Microsoft DeepSpeed Zero Redundancy Optimizer (ZeRO) stages.
翻訳日:2023-10-12 08:08:29 公開日:2023-10-09
# 連続的不変学習

Continuous Invariance Learning ( http://arxiv.org/abs/2310.05348v1 )

ライセンス: Link先を確認
Yong Lin, Fan Zhou, Lu Tan, Lintao Ma, Jiameng Liu, Yansu He, Yuan Yuan, Yu Liu, James Zhang, Yujiu Yang, Hao Wang(参考訳) 分散学習法は、分布シフトの下で一般化することを願って不変の特徴を学習することを目的としている。 多くのタスクは自然に連続したドメインによって特徴づけられるが、現在の不変学習技術は一般的に分類的インデックス付きドメインを仮定する。 例えば、クラウドコンピューティングのオートスケーリングには、cpu利用率予測モデルが必要であり、それは異なる時間(例えば、1日と1年の時間)にまたがって一般化され、そこでは`time'は連続したドメインインデックスである。 本稿では,既存の不変学習手法が連続領域問題に失敗する可能性を理論的に示すことから始める。 特に、連続した領域を離散的に分割するナイーブな解は、ドメイン間の基礎的な関係を無視するので、潜在的に最適でない性能をもたらす。 この課題に対処するために,連続的インデクシング領域にまたがる不変特徴を抽出する連続不分散学習(cil)を提案する。 cilはラベルと連続ドメインインデックスの条件付き独立性を測定し、制御する新しい敵対的手続きである。 本理論解析は,既存の不変性学習法よりもcilが優れていることを示す。 合成データセットと実世界のデータセット(プロダクションシステムから収集されたデータを含む)の実証的な結果から、CILはすべてのタスクにおいて強いベースラインを一貫して上回っていることが分かる。

Invariance learning methods aim to learn invariant features in the hope that they generalize under distributional shifts. Although many tasks are naturally characterized by continuous domains, current invariance learning techniques generally assume categorically indexed domains. For example, auto-scaling in cloud computing often needs a CPU utilization prediction model that generalizes across different times (e.g., time of a day and date of a year), where `time' is a continuous domain index. In this paper, we start by theoretically showing that existing invariance learning methods can fail for continuous domain problems. Specifically, the naive solution of splitting continuous domains into discrete ones ignores the underlying relationship among domains, and therefore potentially leads to suboptimal performance. To address this challenge, we then propose Continuous Invariance Learning (CIL), which extracts invariant features across continuously indexed domains. CIL is a novel adversarial procedure that measures and controls the conditional independence between the labels and continuous domain indices given the extracted features. Our theoretical analysis demonstrates the superiority of CIL over existing invariance learning methods. Empirical results on both synthetic and real-world datasets (including data collected from production systems) show that CIL consistently outperforms strong baselines among all the tasks.
翻訳日:2023-10-12 08:08:11 公開日:2023-10-09
# IPDreamer:画像プロンプトによる外観制御可能な3Dオブジェクト生成

IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts ( http://arxiv.org/abs/2310.05375v1 )

ライセンス: Link先を確認
Bohan Zeng, Shanglin Li, Yutang Feng, Hong Li, Sicheng Gao, Jiaming Liu, Huaxia Li, Xu Tang, Jianzhuang Liu, Baochang Zhang(参考訳) 近年のテキスト・ツー・3D生成の進歩は目覚ましいもので、DreamFusionは大規模なテキスト・ツー・イメージ拡散モデルを利用して3D生成を監督する。 これらの方法は、ProlificDreamerによって提案された変分点蒸留を含むもので、詳細かつ光現実的なテクスチャメッシュの合成を可能にする。 しかし、これらの手法によって生成された3Dオブジェクトの出現はランダムで制御不能であり、外観制御可能な3Dオブジェクトを達成する上での課題である。 この課題に対処するために、画像プロンプトを組み込んだ新しいアプローチであるIDDreamerを導入し、3Dオブジェクト生成のための具体的で包括的な外観情報を提供する。 IPDreamerはテキストと画像のプロンプトの両方に整合した高品質な3Dオブジェクトを効果的に生成し、外観制御可能な3Dオブジェクト生成に期待できる能力を示した。

Recent advances in text-to-3D generation have been remarkable, with methods such as DreamFusion leveraging large-scale text-to-image diffusion-based models to supervise 3D generation. These methods, including the variational score distillation proposed by ProlificDreamer, enable the synthesis of detailed and photorealistic textured meshes. However, the appearance of 3D objects generated by these methods is often random and uncontrollable, posing a challenge in achieving appearance-controllable 3D objects. To address this challenge, we introduce IPDreamer, a novel approach that incorporates image prompts to provide specific and comprehensive appearance information for 3D object generation. Our results demonstrate that IPDreamer effectively generates high-quality 3D objects that are consistent with both the provided text and image prompts, demonstrating its promising capability in appearance-controllable 3D object generation.
翻訳日:2023-10-12 08:02:11 公開日:2023-10-09
# ラテント合成による効率的なテキストデータ利用によるエンドツーエンド音声処理の改善

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis ( http://arxiv.org/abs/2310.05374v1 )

ライセンス: Link先を確認
Jianqiao Lu, Wenyong Huang, Nianzu Zheng, Xingshan Zeng, Yu Ting Yeung, Xiao Chen(参考訳) 高性能なエンドツーエンド音声(E2E)処理モデルを訓練するには、特にデータ中心人工知能の時代において、大量のラベル付き音声データが必要となる。 しかし、ラベル付き音声データは通常、テキストデータに比べて、収集が困難で費用がかかる。 E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。 我々は、テキストデータを事前訓練された音声モデルの中間潜在表現に変換するために、潜在合成器を訓練する。 テキストデータの擬似音響表現は、モデルトレーニングのための音響データを増強する。 我々は,低リソース自動音声認識(ASR)と音声言語理解(SLU)タスクにおけるLaSynの評価を行った。 ASRでは、LibriSpeechトレインクリーン100で訓練されたE2Eベースラインを改善し、異なるテストセットで単語エラー率を22.3%以上削減した。 SLUでは,SLURP上でのSLU-F1の絶対4.1%,SLURP上でのスロット充填SLU-F1の絶対4.49%,STOP上でのEMとEM-Treeの精度2.25%でE2Eベースラインを改善した。 パラメータが少なければ、LaSynの結果は出版されている最先端の作品と競合する。 その結果,強化トレーニングデータの品質が示された。 ソースコードはコミュニティで入手できる。

Training a high performance end-to-end speech (E2E) processing model requires an enormous amount of labeled speech data, especially in the era of data-centric artificial intelligence. However, labeled speech data are usually scarcer and more expensive for collection, compared to textual data. We propose Latent Synthesis (LaSyn), an efficient textual data utilization framework for E2E speech processing models. We train a latent synthesizer to convert textual data into an intermediate latent representation of a pre-trained speech model. These pseudo acoustic representations of textual data augment acoustic data for model training. We evaluate LaSyn on low-resource automatic speech recognition (ASR) and spoken language understanding (SLU) tasks. For ASR, LaSyn improves an E2E baseline trained on LibriSpeech train-clean-100, with relative word error rate reductions over 22.3% on different test sets. For SLU, LaSyn improves our E2E baseline by absolute 4.1% for intent classification accuracy and 3.8% for slot filling SLU-F1 on SLURP, and absolute 4.49% and 2.25% for exact match (EM) and EM-Tree accuracies on STOP respectively. With fewer parameters, the results of LaSyn are competitive to published state-of-the-art works. The results demonstrate the quality of the augmented training data. The source code will be available to the community.
翻訳日:2023-10-12 08:01:54 公開日:2023-10-09
# 量子ベイズ最適化

Quantum Bayesian Optimization ( http://arxiv.org/abs/2310.05373v1 )

ライセンス: Link先を確認
Zhongxiang Dai, Gregory Kang Ruey Lau, Arun Verma, Yao Shu, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) カーネル化された帯域幅(英: Kernelized bandits)は、複雑なブラックボックス報酬関数を最適化する一般的な方法である。 様々なBOアルゴリズムは、反復数 T のサブ線形である累積後悔の上限を満足することが理論的に示されており、古典的なBOアルゴリズムでは避けられない後悔を表す Omega(sqrt(T)) の左下限が導出されている。 量子帯域に関する最近の研究は、量子コンピューティングの助けを借りて、対応する古典的下界よりも強い後悔の上限を達成することができることを示した。 しかし、これらの作品はマルチアームまたはリニアバンディットに制限されており、従って非線形報酬関数による洗練された実世界の問題を解決することはできない。 この目的のために、量子ガウスプロセスアップパー信頼境界(Q-GP-UCB)アルゴリズムを導入する。 我々の知る限りでは、我々のq-gp-ucbは、古典的設定におけるomega(sqrt(t))の後悔の下限よりもかなり小さいo(polylog t)の後悔上限を達成することができる最初のboアルゴリズムである。 さらに, 線形カーネルを用いたQ-GP-UCBは, 従来の量子線形 UCB アルゴリズムに比べ, 新たな信頼性楕円体解析により, より少ない残差を達成できた。 シミュレーションや実量子コンピュータを用いた実験を用いて、Q-GP-UCBが達成した理論的量子スピードアップが、実際においても有意であることを示す。

Kernelized bandits, also known as Bayesian optimization (BO), has been a prevalent method for optimizing complicated black-box reward functions. Various BO algorithms have been theoretically shown to enjoy upper bounds on their cumulative regret which are sub-linear in the number T of iterations, and a regret lower bound of Omega(sqrt(T)) has been derived which represents the unavoidable regrets for any classical BO algorithm. Recent works on quantum bandits have shown that with the aid of quantum computing, it is possible to achieve tighter regret upper bounds better than their corresponding classical lower bounds. However, these works are restricted to either multi-armed or linear bandits, and are hence not able to solve sophisticated real-world problems with non-linear reward functions. To this end, we introduce the quantum-Gaussian process-upper confidence bound (Q-GP-UCB) algorithm. To the best of our knowledge, our Q-GP-UCB is the first BO algorithm able to achieve a regret upper bound of O(polylog T), which is significantly smaller than its regret lower bound of Omega(sqrt(T)) in the classical setting. Moreover, thanks to our novel analysis of the confidence ellipsoid, our Q-GP-UCB with the linear kernel achieves a smaller regret than the quantum linear UCB algorithm from the previous work. We use simulations, as well as an experiment using a real quantum computer, to verify that the theoretical quantum speedup achieved by our Q-GP-UCB is also potentially relevant in practice.
翻訳日:2023-10-12 08:01:29 公開日:2023-10-09
# SocialCircle: 歩行者軌道予測のためのアングルに基づくソーシャルインタラクション表現の学習

SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2310.05370v1 )

ライセンス: Link先を確認
Conghao Wong, Beihao Xia, Xinge You(参考訳) 複雑な場面における歩行者や車などのエージェントの軌跡の分析と予測は、多くのインテリジェントシステムや応用においてますます重要になっている。 多様なエージェント間の社会的にインタラクティブな行動における多様性と不確実性は、このタスクを他の決定論的コンピュータビジョンタスクよりも難しくする。 研究者は、様々な数学的モデルとネットワーク構造を通して、これらの相互作用が将来の軌道に与える影響を定量化するために多くの努力をしてきたが、この問題は十分に解決されていない。 水中の仲間の位置をエコーでローカライズする海洋動物にインスパイアされた私たちは、ターゲットエージェントに対して異なる角度方向のソーシャルインタラクションのコンテキストを継続的に反映するために、socialcircleと呼ばれる新しいアングルベースの訓練可能な社会表現を構築しました。 提案する社会循環の効果を,新たに発表された軌道予測モデルと合わせて検証し,社会循環が予測性能を定量的に改善するだけでなく,人間の直観と一致する方法で歩行者の軌跡を予測する際の社会的相互作用を質的に検討する上で有効であることを示した。

Analyzing and forecasting trajectories of agents like pedestrians and cars in complex scenes has become more and more significant in many intelligent systems and applications. The diversity and uncertainty in socially interactive behaviors among a rich variety of agents make this task more challenging than other deterministic computer vision tasks. Researchers have made a lot of efforts to quantify the effects of these interactions on future trajectories through different mathematical models and network structures, but this problem has not been well solved. Inspired by marine animals that localize the positions of their companions underwater through echoes, we build a new anglebased trainable social representation, named SocialCircle, for continuously reflecting the context of social interactions at different angular orientations relative to the target agent. We validate the effect of the proposed SocialCircle by training it along with several newly released trajectory prediction models, and experiments show that the SocialCircle not only quantitatively improves the prediction performance, but also qualitatively helps better consider social interactions when forecasting pedestrian trajectories in a way that is consistent with human intuitions.
翻訳日:2023-10-12 08:00:06 公開日:2023-10-09
# 協調型マルチエージェントによる音響計測

Measuring Acoustics with Collaborative Multiple Agents ( http://arxiv.org/abs/2310.05368v1 )

ライセンス: Link先を確認
Yinfeng Yu, Changan Chen, Lele Cao, Fangkai Yang, Fuchun Sun(参考訳) 人間として、私たちは人生の1秒ごとに音を聞く。 耳に聞こえる音は、周囲の環境の音響に影響されることが多い。 例えば、広々としたホールはより残響に繋がる。 室内インパルス応答(英: Room Impulse Responses、RIR)は、環境音響をシーン幾何学、材料、およびソース/受信者の位置の関数として特徴付けるために一般的に用いられる。 伝統的に、RIRは、時間と効率の悪いすべてのソース/受信者の環境にスピーカとマイクを設置することで測定される。 本研究では,2つのロボットによる環境音の計測を活発に行うことを提案する。 また,この2つのロボットが環境の音響を探索し,広い探索と正確な予測に報われながら,協調的なマルチエージェントポリシーを考案した。 予測誤差を最小化しながら,ロボットが協調して環境音響を探索し,移動することを実証する。 そこで本研究では,複数のエージェントを用いた協調環境音響計測の課題に対して,最初の問題定式化と解法を提案する。

As humans, we hear sound every second of our life. The sound we hear is often affected by the acoustics of the environment surrounding us. For example, a spacious hall leads to more reverberation. Room Impulse Responses (RIR) are commonly used to characterize environment acoustics as a function of the scene geometry, materials, and source/receiver locations. Traditionally, RIRs are measured by setting up a loudspeaker and microphone in the environment for all source/receiver locations, which is time-consuming and inefficient. We propose to let two robots measure the environment's acoustics by actively moving and emitting/receiving sweep signals. We also devise a collaborative multi-agent policy where these two robots are trained to explore the environment's acoustics while being rewarded for wide exploration and accurate prediction. We show that the robots learn to collaborate and move to explore environment acoustics while minimizing the prediction error. To the best of our knowledge, we present the very first problem formulation and solution to the task of collaborative environment acoustics measurements with multiple agents.
翻訳日:2023-10-12 07:59:45 公開日:2023-10-09
# 回転問題:様々なカメラシステムのための一般化単眼物体検出

Rotation Matters: Generalized Monocular 3D Object Detection for Various Camera Systems ( http://arxiv.org/abs/2310.05366v1 )

ライセンス: Link先を確認
SungHo Moon, JinWoo Bae, SungHoon Im(参考訳) 単眼3次元物体検出の研究が活発に行われており、その結果、性能は着実に改善されている。 しかし、トレーニングデータセットをキャプチャするシステムとは異なるカメラシステムに適用した場合、3Dオブジェクト検出性能は大幅に低下する。 例えば、乗用車からデータセットでトレーニングされた3d検出器は、バスに搭載されたカメラの正確な3dバウンディングボックスを後退させるのにほとんど失敗する。 本稿では,性能劣化の原因を解明するための広範囲な実験を行う。 道路面に対してカメラの姿勢,特にカメラの向きを変えると性能が低下することがわかった。 さらに,様々なカメラシステムに適用可能な汎用3次元物体検出手法を提案する。 推定した3次元境界ボックスの位置と方向を補正する補償モジュールを新たに設計する。 提案モジュールは最近の3Dオブジェクト検出ネットワークの多くに適用可能である。 AP3Dスコア(KITTI moderate, IoU $> 70\%$)を、追加のトレーニングなしでベースラインより6~10倍高くする。 定量的および定性的な結果は,提案手法の有効性を示す。

Research on monocular 3D object detection is being actively studied, and as a result, performance has been steadily improving. However, 3D object detection performance is significantly reduced when applied to a camera system different from the system used to capture the training datasets. For example, a 3D detector trained on datasets from a passenger car mostly fails to regress accurate 3D bounding boxes for a camera mounted on a bus. In this paper, we conduct extensive experiments to analyze the factors that cause performance degradation. We find that changing the camera pose, especially camera orientation, relative to the road plane caused performance degradation. In addition, we propose a generalized 3D object detection method that can be universally applied to various camera systems. We newly design a compensation module that corrects the estimated 3D bounding box location and heading direction. The proposed module can be applied to most of the recent 3D object detection networks. It increases AP3D score (KITTI moderate, IoU $> 70\%$) about 6-to-10-times above the baselines without additional training. Both quantitative and qualitative results show the effectiveness of the proposed method.
翻訳日:2023-10-12 07:59:29 公開日:2023-10-09
# 軽量フルコンボリューションシアームトラッカー

Lightweight Full-Convolutional Siamese Tracker ( http://arxiv.org/abs/2310.05392v1 )

ライセンス: Link先を確認
Li Yunfeng, Wang Bo, Li Ye, Liu Zhuoyan, Wu Xueyi(参考訳) 単一オブジェクトトラッカは高度なパフォーマンスを達成しているが、大規模ネットワークモデルによって、限られたリソースでプラットフォームに適用することは困難である。 さらに、既存の軽量トラッカーはパラメータ、パフォーマンス、Flops、FPSの2~3ポイントのバランスしか達成していない。 本稿では,全4点間のバランスを実現するために,軽量な完全畳み込みシアームトラッカーlightfcを提案する。 LightFCは、高効率クロスコリレーションモジュール(ECM)と高効率リコリレーションヘッド(ERH)を用いて、コンボリューション追従パイプラインの非線形表現性を高める。 ECMは注目モジュールのアーキテクチャを採用し、画素単位の相関融合特徴から局所空間的特徴とチャネル的特徴を融合させ、反転活性化ブロックによるモデル非線形性を高める。 さらに,ECMによりスキップ接続と検索領域の再利用を導入し,性能向上を図る。 erhは、センターヘッドの非線形表現性を高めるために、再パラメータ化技術とチャネル注意を導入する。 総合的な実験によると、LightFCは性能、パラメータ、FlopsとFPSのバランスが良い。 lightfcの精度スコアは、それぞれrasotとtnl2kのmixformerv2-sを3.7 \%、6.5 \%上回り、5倍のパラメータと4.6倍のフロップを使用する。 さらに、LightFCはCPU上でMixFormerV2-Sより2倍高速で動作する。 私たちのコードと生の結果はhttps://github.com/LiYunfengLYF/LightFCで確認できます。

Although single object trackers have achieved advanced performance, their large-scale network models make it difficult to apply them on the platforms with limited resources. Moreover, existing lightweight trackers only achieve balance between 2-3 points in terms of parameters, performance, Flops and FPS. To achieve the balance among all 4 points, this paper propose a lightweight full-convolutional Siamese tracker called lightFC. LightFC employs a noval efficient cross-correlation module (ECM) and a noval efficient rep-center head (ERH) to enhance the nonlinear expressiveness of the convoluational tracking pipeline. The ECM adopts an architecture of attention-like module and fuses local spatial and channel features from the pixel-wise correlation fusion features and enhance model nonlinearity with an inversion activation block. Additionally, skip-connections and the reuse of search area features are introduced by the ECM to improve its performance. The ERH reasonably introduces reparameterization technology and channel attention to enhance the nonlinear expressiveness of the center head. Comprehensive experiments show that LightFC achieves a good balance between performance, parameters, Flops and FPS. The precision score of LightFC outperforms MixFormerV2-S by 3.7 \% and 6.5 \% on LaSOT and TNL2K, respectively, while using 5x fewer parameters and 4.6x fewer Flops. Besides, LightFC runs 2x faster than MixFormerV2-S on CPUs. Our code and raw results can be found at https://github.com/LiYunfengLYF/LightFC
翻訳日:2023-10-12 07:51:13 公開日:2023-10-09
# neural impostor: 明示的な形状操作によるニューラルラミアンスフィールドの編集

Neural Impostor: Editing Neural Radiance Fields with Explicit Shape Manipulation ( http://arxiv.org/abs/2310.05391v1 )

ライセンス: Link先を確認
Ruiyang Liu, Jinxu Xiang, Bowen Zhao, Ran Zhang, Jingyi Yu and Changxi Zheng(参考訳) neural radiance fields(nerf)は、高度にリアルで表現力に富んだ3dシーンの生成を著しく進歩させた。 しかし、特に幾何学的修正の観点からnerfを編集する作業は大きな課題となっている。 この問題は、さまざまなアプリケーションにまたがってNeRFの採用を妨げている。 ニューラル・インポスタ(neural impostor)とは、明示的な四面体メッシュと、明示的なメッシュ内の各四面体に対して指定されたマルチグリッドの暗黙的フィールドを組み合わせたハイブリッド表現である。 本フレームワークは,複数グリッドのバリ中心座標符号化を用いて暗黙的フィールドの明示的な形状操作と幾何的編集をブリッジし,複雑な容積の外観を維持しつつ,変形・合成・生成のための実用的なソリューションを提供する。 さらに,一組の明示的幾何学的編集操作に基づいて,神経暗黙フィールドを編集するための包括的パイプラインを提案する。 合成オブジェクトと実際のキャプチャデータの両方の編集を含む多様な例と実験を通じて,システムのロバスト性と適応性を示す。 最後に,3次元コンテンツ作成と操作の分野でのニューラルインポスタの変換ポテンシャルを基盤として,様々な編集操作を利用したハイブリッド合成キャプチャーオブジェクトのオーサリング過程を示す。

Neural Radiance Fields (NeRF) have significantly advanced the generation of highly realistic and expressive 3D scenes. However, the task of editing NeRF, particularly in terms of geometry modification, poses a significant challenge. This issue has obstructed NeRF's wider adoption across various applications. To tackle the problem of efficiently editing neural implicit fields, we introduce Neural Impostor, a hybrid representation incorporating an explicit tetrahedral mesh alongside a multigrid implicit field designated for each tetrahedron within the explicit mesh. Our framework bridges the explicit shape manipulation and the geometric editing of implicit fields by utilizing multigrid barycentric coordinate encoding, thus offering a pragmatic solution to deform, composite, and generate neural implicit fields while maintaining a complex volumetric appearance. Furthermore, we propose a comprehensive pipeline for editing neural implicit fields based on a set of explicit geometric editing operations. We show the robustness and adaptability of our system through diverse examples and experiments, including the editing of both synthetic objects and real captured data. Finally, we demonstrate the authoring process of a hybrid synthetic-captured object utilizing a variety of editing operations, underlining the transformative potential of Neural Impostor in the field of 3D content creation and manipulation.
翻訳日:2023-10-12 07:50:48 公開日:2023-10-09
# grove: 証拠の森を用いた検索による複雑なストーリー生成フレームワーク

GROVE: A Retrieval-augmented Complex Story Generation Framework with A Forest of Evidence ( http://arxiv.org/abs/2310.05388v1 )

ライセンス: Link先を確認
Zhihua Wen, Zhiliang Tian, Wei Wu, Yuxin Yang, Yanqi Shi, Zhen Huang, Dongsheng Li(参考訳) 条件付きストーリー生成は、人間と機械の相互作用、特に複雑なプロットによるストーリーの生成において重要である。 大きな言語モデル(LLM)は、ストーリー生成を含む複数のNLPタスクでうまく機能するが、複雑なプロットと創造的なプロットの両方でストーリーを生成することは困難である。 既存の手法はしばしば、LLMを目標条件に合わせるための詳細なプロンプトに依存しており、それは必然的に生成されたストーリーの創造性を制限している。 我々は、模範的な人間書きの物語からの情報を活用することで、より多様なプロットラインを生み出すことを主張する。 ストーリーの詳細を深く掘り下げることは、複雑で信頼できるプロットを構築するのに役立つ。 本稿では,e\textbf{V}id\textbf{E}nce(GROVE)のf\textbf{O}restを用いた検索-au\textbf{G}mented sto\textbf{R}y生成フレームワークを提案する。 我々は,目標条件の検索レポジトリを構築し,llmをプロンプトするためのサンプルを少数生成する。 さらに,証拠の森を抽出する 'asking-why'' プロンプトスキームをデザインし,生成したストーリーで発生する曖昧さを補償する。 この反復的なプロセスはストーリーの背景を明らかにする。 最後に,エビデンス・フォレストから最も適切なエビデンス・チェーンを選択し,生成したストーリーに統合することで,物語の複雑さと信頼性を高める。 実験結果と多数の事例が本手法の有効性を検証した。

Conditional story generation is significant in human-machine interaction, particularly in producing stories with complex plots. While Large language models (LLMs) perform well on multiple NLP tasks, including story generation, it is challenging to generate stories with both complex and creative plots. Existing methods often rely on detailed prompts to guide LLMs to meet target conditions, which inadvertently restrict the creative potential of the generated stories. We argue that leveraging information from exemplary human-written stories facilitates generating more diverse plotlines. Delving deeper into story details helps build complex and credible plots. In this paper, we propose a retrieval-au\textbf{G}mented sto\textbf{R}y generation framework with a f\textbf{O}rest of e\textbf{V}id\textbf{E}nce (GROVE) to enhance stories' complexity. We build a retrieval repository for target conditions to produce few-shot examples to prompt LLMs. Additionally, we design an ``asking-why'' prompting scheme that extracts a forest of evidence, providing compensation for the ambiguities that may occur in the generated story. This iterative process uncovers underlying story backgrounds. Finally, we select the most fitting chains of evidence from the evidence forest and integrate them into the generated story, thereby enhancing the narrative's complexity and credibility. Experimental results and numerous examples verify the effectiveness of our method.
翻訳日:2023-10-12 07:50:21 公開日:2023-10-09
# ベイジアンスパイク・アンド・スラブ前駆体と効率的なカーネルによる方程式発見

Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels ( http://arxiv.org/abs/2310.05387v1 )

ライセンス: Link先を確認
Da Long, Wei W. Xing, Aditi S. Krishnapriyan, Robert M. Kirby, Shandian Zhe, Michael W. Mahoney(参考訳) データから制御方程式を発見することは、多くの科学的および工学的応用にとって重要である。 有望な成功にもかかわらず、既存の手法は依然としてデータのスパーシティとノイズの問題によって挑戦されている。 さらに、最先端の手法は不確かさの定量化を欠き、訓練に費用がかかる。 これらの制約を克服するために,Kernel LearningとBAyesian Spike-and-Slab priors (KBASS)に基づく新しい方程式探索法を提案する。 カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。 効果的な演算子選択と不確かさの定量化のために、ベイズスパイク・アンド・スラブプリア(理想的なベイズ・スパース分布)と組み合わせる。 我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化(EP-EM)アルゴリズムを開発した。 カーネル回帰の計算上の課題を克服するために,関数値をメッシュに配置し,クロネッカー積構成を誘導し,テンソル代数法を用いて効率的な計算と最適化を実現する。 我々は、ベンチマークODEとPDE発見タスクのリストにおいて、KBASSの顕著な利点を示す。

Discovering governing equations from data is important to many scientific and engineering applications. Despite promising successes, existing methods are still challenged by data sparsity as well as noise issues, both of which are ubiquitous in practice. Moreover, state-of-the-art methods lack uncertainty quantification and/or are costly in training. To overcome these limitations, we propose a novel equation discovery method based on Kernel learning and BAyesian Spike-and-Slab priors (KBASS). We use kernel regression to estimate the target function, which is flexible, expressive, and more robust to data sparsity and noises. We combine it with a Bayesian spike-and-slab prior -- an ideal Bayesian sparse distribution -- for effective operator selection and uncertainty quantification. We develop an expectation propagation expectation-maximization (EP-EM) algorithm for efficient posterior inference and function estimation. To overcome the computational challenge of kernel regression, we place the function values on a mesh and induce a Kronecker product construction, and we use tensor algebra methods to enable efficient computation and optimization. We show the significant advantages of KBASS on a list of benchmark ODE and PDE discovery tasks.
翻訳日:2023-10-12 07:49:52 公開日:2023-10-09
# ブラリービデオフレーム補間のための3段階カスケードフレームワーク

Three-Stage Cascade Framework for Blurry Video Frame Interpolation ( http://arxiv.org/abs/2310.05383v1 )

ライセンス: Link先を確認
Pengcheng Lei, Zaoming Yan, Tingting Wang, Faming Fang and Guixu Zhang(参考訳) Blurry Video frame interpolation (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。 ぼやけたビデオは、クリアなビデオのような空間的および時間的な情報を提供するだけでなく、ぼやけたフレームに隠された追加のモーション情報を含んでいる。 しかしながら、既存のBVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。 本稿では,ぼやけたビデオから有用な情報を完全に探索する,シンプルなエンドツーエンドの3段階フレームワークを提案する。 フレーム補間ステージは、ぼやけた入力から有用な情報を直接サンプリングし、任意の時間間隔で中間フレームを合成するための時間変形可能なネットワークを設計する。 時間的特徴融合ステージは、双方向のリカレント変形可能なアライメントネットワークを介して、各対象フレームの長期時間情報を探索する。 そして、デブロアリング段階は、変換器を内蔵したテイラー近似ネットワークを適用し、高周波の詳細を再帰的に復元する。 提案した3段階のフレームワークは各モジュールに対して明確なタスク割り当てを持ち,優れた拡張性を提供し,その有効性は様々な実験結果によって実証されている。 我々はAdobe240データセット、GoProデータセット、YouTube240データセット、Sonyデータセットの4つのベンチマークでモデルを評価した。 定量的および定性的な結果は、我々のモデルが既存のSOTA法より優れていることを示している。 さらに,実世界のぼやけた映像に対する実験は,モデルの優れた一般化能力を示している。

Blurry video frame interpolation (BVFI) aims to generate high-frame-rate clear videos from low-frame-rate blurry videos, is a challenging but important topic in the computer vision community. Blurry videos not only provide spatial and temporal information like clear videos, but also contain additional motion information hidden in each blurry frame. However, existing BVFI methods usually fail to fully leverage all valuable information, which ultimately hinders their performance. In this paper, we propose a simple end-to-end three-stage framework to fully explore useful information from blurry videos. The frame interpolation stage designs a temporal deformable network to directly sample useful information from blurry inputs and synthesize an intermediate frame at an arbitrary time interval. The temporal feature fusion stage explores the long-term temporal information for each target frame through a bi-directional recurrent deformable alignment network. And the deblurring stage applies a transformer-empowered Taylor approximation network to recursively recover the high-frequency details. The proposed three-stage framework has clear task assignment for each module and offers good expandability, the effectiveness of which are demonstrated by various experimental results. We evaluate our model on four benchmarks, including the Adobe240 dataset, GoPro dataset, YouTube240 dataset and Sony dataset. Quantitative and qualitative results indicate that our model outperforms existing SOTA methods. Besides, experiments on real-world blurry videos also indicate the good generalization ability of our model.
翻訳日:2023-10-12 07:49:33 公開日:2023-10-09
# CCAE:中国系アジア系英語のコーパス

CCAE: A Corpus of Chinese-based Asian Englishes ( http://arxiv.org/abs/2310.05381v1 )

ライセンス: Link先を確認
Yang Liu, Melissa Xiaohui Qin, Long Wang, and Chao Huang(参考訳) 言語モデルは、NLPアプリケーションの様々なシナリオにおいて基礎となっているが、英語のような最もポピュラーな言語でさえも、言語多様性の研究にはうまく適用されていない。 本稿では,世界英語のパラダイムにおけるNLP技術の活用,特にアジア英語学習のための多変量コーパスの創出について述べる。 本報告では,中国系アジア英語6品種からなるコーパス,中国系アジア英語コーパスの概要について述べる。 6つの地域の448万のwebドキュメントの3億4000万トークンに基づいている。 データのオントロジーにより、コーパスは、アジア系英語人(特に中国系英語人は、まだ一般にはアクセスできないコーパス)にとって膨大な研究可能性を持つ有用な資源となり、多種多様な言語モデリングや下流のタスクに理想的な情報源となり、NLPベースのWorld Englishes研究の舞台となる。 そして, このコーパスの予備実験により, CCAEの実用的価値を明らかにした。 最後に、CCAE を \href{https://huggingface.co/datasets/CCAE/CCAE-Corpus}{this https URL} で利用できるようにする。

Language models have been foundations in various scenarios of NLP applications, but it has not been well applied in language variety studies, even for the most popular language like English. This paper represents one of the few initial efforts to utilize the NLP technology in the paradigm of World Englishes, specifically in creating a multi-variety corpus for studying Asian Englishes. We present an overview of the CCAE -- Corpus of Chinese-based Asian English, a suite of corpora comprising six Chinese-based Asian English varieties. It is based on 340 million tokens in 448 thousand web documents from six regions. The ontology of data would make the corpus a helpful resource with enormous research potential for Asian Englishes (especially for Chinese Englishes for which there has not been a publicly accessible corpus yet so far) and an ideal source for variety-specific language modeling and downstream tasks, thus setting the stage for NLP-based World Englishes studies. And preliminary experiments on this corpus reveal the practical value of CCAE. Finally, we make CCAE available at \href{https://huggingface.co/datasets/CCAE/CCAE-Corpus}{this https URL}.
翻訳日:2023-10-12 07:49:09 公開日:2023-10-09
# カスタム検索のためのAugmented Embeddings

Augmented Embeddings for Custom Retrievals ( http://arxiv.org/abs/2310.05380v1 )

ライセンス: Link先を確認
Anirudh Khatry, Yasharth Bajpai, Priyanshu Gupta, Sumit Gulwani, Ashish Tiwari(参考訳) 情報検索は、与えられた検索クエリに最も関連するコーパスからアーティファクトを選択することを含む。 古典的応用で一般的に用いられる検索のフレーバーは、クエリーとコーパス要素が共に自然言語(NL)の発声(均一)であり、Kが10, 25, 50 あるいは 100 であるトップKのコーパスから最も関連性の高い要素を選択することが目的である。 近年,LLMを対象とするタスクの実行を可能にするため,大規模言語モデル(LLM)のプロンプト作成に広く利用されている。 クエリとコーパスにはNLやコードなどの異なる種類のエンティティが含まれており、K=1や3や5のようなKの小さな値に対するTop-Kでの検索を改善する必要がある。 現在の事前学習された埋め込みに基づく密集した検索技術は、検索の汎用的かつ強力なアプローチを提供するが、不均一なアーティファクトの類似性というタスク固有の概念に従わない。 本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。 適応Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。 我々は、最先端の汎用埋め込みベースラインの改善を示すことによって、我々のアプローチを実証的に検証する。

Information retrieval involves selecting artifacts from a corpus that are most relevant to a given search query. The flavor of retrieval typically used in classical applications can be termed as homogeneous and relaxed, where queries and corpus elements are both natural language (NL) utterances (homogeneous) and the goal is to pick most relevant elements from the corpus in the Top-K, where K is large, such as 10, 25, 50 or even 100 (relaxed). Recently, retrieval is being used extensively in preparing prompts for large language models (LLMs) to enable LLMs to perform targeted tasks. These new applications of retrieval are often heterogeneous and strict -- the queries and the corpus contain different kinds of entities, such as NL and code, and there is a need for improving retrieval at Top-K for small values of K, such as K=1 or 3 or 5. Current dense retrieval techniques based on pretrained embeddings provide a general-purpose and powerful approach for retrieval, but they are oblivious to task-specific notions of similarity of heterogeneous artifacts. We introduce Adapted Dense Retrieval, a mechanism to transform embeddings to enable improved task-specific, heterogeneous and strict retrieval. Adapted Dense Retrieval works by learning a low-rank residual adaptation of the pretrained black-box embedding. We empirically validate our approach by showing improvements over the state-of-the-art general-purpose embeddings-based baseline.
翻訳日:2023-10-12 07:48:46 公開日:2023-10-09
# 注意パラダイムを超越する:地理空間的ソーシャルメディアデータから学ぶ

Transcending the Attention Paradigm: Implicit Learning from Geospatial Social Media Data ( http://arxiv.org/abs/2310.05378v1 )

ライセンス: Link先を確認
Nick DiSanto, Anthony Corso, Benjamin Sanders, Gavin Harding(参考訳) トランスフォーマーは、研究の基盤として注目駆動アーキテクチャを開拓してきたが、文脈情報への依存は、テキストのテーマを暗黙的に学習する能力の限界を浮き彫りにした。 本研究では,分散パターンの源泉としてソーシャルメディアデータを調査し,パフォーマンスベンチマークのヒューリスティックパラダイムに挑戦する。 複雑な長期的依存関係の取得に依存するネットワークとは対照的に、オンラインデータのモデルは本質的に構造を欠き、集約の基盤となるパターンを学習せざるを得ない。 これらの抽象的関係を適切に表現するために、この研究は経験的ソーシャルメディアコーパスを要素成分に分解し、人口密度の場所をまたいだ20億以上のツイートを分析した。 Twitterデータにおける位置と頂点の関係を探索し、各都市固有の単語モデルを用いて、それぞれの表現を評価する。 これは、隠れた洞察が高度なアルゴリズムの欠如なしに発見できることを示し、ノイズの多いデータの中でも、地理的な位置がオンラインコミュニケーションにかなりの影響を与えることを示す。 この証拠は、地理空間コミュニケーションのパターンとその社会科学における意義に関する明確な洞察を示している。 また、複雑なモデルは自然言語におけるパターン認識の前提条件であり、抽象的理解よりも絶対的解釈可能性の受容に疑問を呈する発展途上の景観と整合する。 この研究は、洗練されたフレームワークと無形関係の分離を橋渡しし、構造モデルと客観的推論をブレンドするシステムへの道を開く。

While transformers have pioneered attention-driven architectures as a cornerstone of research, their dependence on explicitly contextual information underscores limitations in their abilities to tacitly learn overarching textual themes. This study investigates social media data as a source of distributed patterns, challenging the heuristic paradigm of performance benchmarking. In stark contrast to networks that rely on capturing complex long-term dependencies, models of online data inherently lack structure and are forced to learn underlying patterns in the aggregate. To properly represent these abstract relationships, this research dissects empirical social media corpora into their elemental components and analyzes over two billion tweets across population-dense locations. Exploring the relationship between location and vernacular in Twitter data, we employ Bag-of-Words models specific to each city and evaluate their respective representation. This demonstrates that hidden insights can be uncovered without the crutch of advanced algorithms and demonstrates that even amidst noisy data, geographic location has a considerable influence on online communication. This evidence presents tangible insights regarding geospatial communication patterns and their implications in social science. It also challenges the notion that intricate models are prerequisites for pattern recognition in natural language, aligning with the evolving landscape that questions the embrace of absolute interpretability over abstract understanding. This study bridges the divide between sophisticated frameworks and intangible relationships, paving the way for systems that blend structured models with conjectural reasoning.
翻訳日:2023-10-12 07:48:20 公開日:2023-10-09
# 視覚質問応答における一般化改善のための2層認知による因果推論

Causal Reasoning through Two Layers of Cognition for Improving Generalization in Visual Question Answering ( http://arxiv.org/abs/2310.05410v1 )

ライセンス: Link先を確認
Trang Nguyen, Naoaki Okazaki(参考訳) VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。 既存の試みは主にユニモーダルな側面を洗練し、マルチモーダルな側面の強化を見下ろしている。 さらに、入力の多様な解釈は、VQAにおける解釈と回答のステップの間の因果推論の役割を強調し、様々な応答生成のモードをもたらす。 このレンズを通して、因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。 CopVQAはまず、解釈と応答の段階を通じて様々な因果推論の流れを捉える経路のプールを運用する。 人間の認知を反映して、各ステージの責任を異なる専門家と認知可能なコンポーネント(CC)に分解する。 2つのCCは、各ステージごとに1つの専門家を戦略的に実行する。 最後に,いずれのCCによる回答も無視しながら,両CCが関与する経路による回答予測を優先し,因果推論を重視し,一般化を支援する。 実生活および医療データに関する我々の実験は、CopVQAがベースラインとドメイン間のVQA性能と一般化を改善することを一貫して検証している。 特に、CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。

Generalization in Visual Question Answering (VQA) requires models to answer questions about images with contexts beyond the training distribution. Existing attempts primarily refine unimodal aspects, overlooking enhancements in multimodal aspects. Besides, diverse interpretations of the input lead to various modes of answer generation, highlighting the role of causal reasoning between interpreting and answering steps in VQA. Through this lens, we propose Cognitive pathways VQA (CopVQA) improving the multimodal predictions by emphasizing causal reasoning factors. CopVQA first operates a pool of pathways that capture diverse causal reasoning flows through interpreting and answering stages. Mirroring human cognition, we decompose the responsibility of each stage into distinct experts and a cognition-enabled component (CC). The two CCs strategically execute one expert for each stage at a time. Finally, we prioritize answer predictions governed by pathways involving both CCs while disregarding answers produced by either CC, thereby emphasizing causal reasoning and supporting generalization. Our experiments on real-life and medical data consistently verify that CopVQA improves VQA performance and generalization across baselines and domains. Notably, CopVQA achieves a new state-of-the-art (SOTA) on PathVQA dataset and comparable accuracy to the current SOTA on VQA-CPv2, VQAv2, and VQA RAD, with one-fourth of the model size.
翻訳日:2023-10-12 07:41:48 公開日:2023-10-09
# GradientSurf:RGBビデオによる勾配領域ニューラルサーフェス再構成

GradientSurf: Gradient-Domain Neural Surface Reconstruction from RGB Video ( http://arxiv.org/abs/2310.05406v1 )

ライセンス: Link先を確認
Crane He Chen, Joerg Liebelt(参考訳) 本稿では,モノクロRGBビデオからリアルタイム表面再構成を行う新しいアルゴリズムであるGradientSurfを提案する。 ポアソン表面再構成法に着想を得た提案手法は, 表面, 体積, 配向点雲間の密結合を基礎として, 勾配領域における再構成問題を解く。 スキャン処理終了後に線形系を解くことでポアソン方程式のオフライン解を求めるPoisson Surface Reconstructionとは異なり,Poisson層が局所的および大域的再構築の両方を監督するように設計されたニューラルネットワークによる部分的スキャンからオンライン解を求める。 既存の手法がRGB信号から再構成する際に直面する主な課題は、再構成された表面における詳細の欠如である。 これはニューラルネットワークの低周波幾何学的特徴の学習に対するスペクトルバイアスによるものであると仮定する。 この問題に対処するため、復元問題は勾配領域にキャストされ、ゼロ次および1次エネルギーが最小となる。 ゼロ次項は表面の位置をペナリゼーションする。 1次項は、再構成された暗黙関数の勾配と、適応的な局所密度でサンプリングされた配向点雲から形成されるベクトル場との差を罰する。 室内シーン復元の課題として,視覚的および定量的な実験結果から,提案手法は,従来手法よりも曲面形状が細く,小型物体の忠実度が高かった。

This paper proposes GradientSurf, a novel algorithm for real time surface reconstruction from monocular RGB video. Inspired by Poisson Surface Reconstruction, the proposed method builds on the tight coupling between surface, volume, and oriented point cloud and solves the reconstruction problem in gradient-domain. Unlike Poisson Surface Reconstruction which finds an offline solution to the Poisson equation by solving a linear system after the scanning process is finished, our method finds online solutions from partial scans with a neural network incrementally where the Poisson layer is designed to supervise both local and global reconstruction. The main challenge that existing methods suffer from when reconstructing from RGB signal is a lack of details in the reconstructed surface. We hypothesize this is due to the spectral bias of neural networks towards learning low frequency geometric features. To address this issue, the reconstruction problem is cast onto gradient domain, where zeroth-order and first-order energies are minimized. The zeroth-order term penalizes location of the surface. The first-order term penalizes the difference between the gradient of reconstructed implicit function and the vector field formulated from oriented point clouds sampled at adaptive local densities. For the task of indoor scene reconstruction, visual and quantitative experimental results show that the proposed method reconstructs surfaces with more details in curved regions and higher fidelity for small objects than previous methods.
翻訳日:2023-10-12 07:41:23 公開日:2023-10-09
# mBBC:マルチ言語迷路を探る

mBBC: Exploring the Multilingual Maze ( http://arxiv.org/abs/2310.05404v1 )

ライセンス: Link先を確認
Sina Bagheri Nezhad, Ameeta Agrawal(参考訳) 近年、多言語言語モデルが注目され、多様な言語的文脈に対応するアプリケーションの開発が可能になった。 本稿では,mBERT,XLM-R,GPT-3の3つの著名な多言語言語モデルの包括的評価を行う。 次のトークン予測の自己監督タスクを用いて,リソースの可用性,単語の順序,言語ファミリー,スクリプトタイプがモデル精度に与える影響を理解することを目的とした,多種多様な言語を対象としたパフォーマンス評価を行う。 以上の結果から,資源の可用性がモデル性能において重要な役割を担っていることが明らかとなった。 また、リソースアベイラビリティ、言語ファミリー、スクリプトタイプの間の複雑な関係を識別し、言語固有の特徴と構造的なバリエーションについてさらなる調査の必要性を強調した。 さらに,統計的推論分析により,モデル性能に寄与する重要な特徴を特定し,モデル選択とデプロイメントに関する洞察を提供する。 本研究は、多言語言語モデルの深い理解に寄与し、言語と言語コンテキスト間のパフォーマンスと一般化性を高めるために、今後の研究と開発を知らせる。

Multilingual language models have gained significant attention in recent years, enabling the development of applications that cater to diverse linguistic contexts. In this paper, we present a comprehensive evaluation of three prominent multilingual language models: mBERT, XLM-R, and GPT-3. Using the self-supervised task of next token prediction, we assess their performance across a diverse set of languages, with a focus on understanding the impact of resource availability, word order, language family, and script type on model accuracy. Our findings reveal that resource availability plays a crucial role in model performance, with higher resource levels leading to improved accuracy. We also identify the complex relationship between resource availability, language families, and script types, highlighting the need for further investigation into language-specific characteristics and structural variations. Additionally, our statistical inference analysis identifies significant features contributing to model performance, providing insights for model selection and deployment. Our study contributes to a deeper understanding of multilingual language models and informs future research and development to enhance their performance and generalizability across languages and linguistic contexts.
翻訳日:2023-10-12 07:40:56 公開日:2023-10-09
# エントロピーMCMC:平底盆地からの試料採取

Entropy-MCMC: Sampling from Flat Basins with Ease ( http://arxiv.org/abs/2310.05401v1 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang(参考訳) ベイズ深層学習は後方分布推定の質をカウントする。 しかし、ディープニューラルネットワークの後方は本質的に非常にマルチモーダルであり、局所モードは一般化性能が異なる。 実用的な予算が与えられた場合、元の後部からのサンプリングは、いくつかのサンプルが"悪い"モードに閉じ込められ、過度な適合に苦しむため、最適以下のパフォーマンスをもたらす可能性がある。 一般化誤差の低い「良い」モードはエネルギーランドスケープの平坦な流域にしばしば存在するという観察を活かし、これらの平坦な領域の後方の偏差サンプリングを提案する。 具体的には,mcmcサンプラーを平らな盆地に導くために,シャープモードのない後方平滑化に類似した定常分布を補助誘導変数として導入する。 この導出変数をモデルパラメータと統合することにより、計算オーバーヘッドを最小限に抑えた効率的なサンプリングを可能にする単純な結合分布を作成する。 提案手法の収束性を証明し, 強凸条件下での既存の平坦性認識法よりも高速に収束することを示す。 実験により,本手法は後方の平らな盆地から試料を採取し,分類,校正,分布外検出など,複数のベンチマークで比較した基準線を上回った。

Bayesian deep learning counts on the quality of posterior distribution estimation. However, the posterior of deep neural networks is highly multi-modal in nature, with local modes exhibiting varying generalization performance. Given a practical budget, sampling from the original posterior can lead to suboptimal performance, as some samples may become trapped in "bad" modes and suffer from overfitting. Leveraging the observation that "good" modes with low generalization error often reside in flat basins of the energy landscape, we propose to bias sampling on the posterior toward these flat regions. Specifically, we introduce an auxiliary guiding variable, the stationary distribution of which resembles a smoothed posterior free from sharp modes, to lead the MCMC sampler to flat basins. By integrating this guiding variable with the model parameter, we create a simple joint distribution that enables efficient sampling with minimal computational overhead. We prove the convergence of our method and further show that it converges faster than several existing flatness-aware methods in the strongly convex setting. Empirical results demonstrate that our method can successfully sample from flat basins of the posterior, and outperforms all compared baselines on multiple benchmarks including classification, calibration, and out-of-distribution detection.
翻訳日:2023-10-12 07:40:37 公開日:2023-10-09
# 能率VQGAN:高分解能画像生成に向けて

Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient Vision Transformers ( http://arxiv.org/abs/2310.05400v1 )

ライセンス: Link先を確認
Shiyue Cao, Yueqin Yin, Lianghua Huang, Yu Liu, Xin Zhao, Deli Zhao, Kaiqi Huang(参考訳) ベクトル量子化画像モデリングは高品質な画像の合成に大きな可能性を示している。 しかし,高分解能画像の生成は,自己着脱過程の2次計算オーバーヘッドのため,依然として困難な課題である。 本研究では,高分解能画像生成のためのより効率的な2段階フレームワークを探索し,以下の3つの側面を改善した。 1) 第1の量子化段階が固い局所特性を持つという観測に基づいて, 従来手法で用いたグローバルアテンション機構の代わりに, 局所アテンションに基づく量子化モデルを用いて, 効率と再現性を向上させる。 2)画像生成における多面的特徴の相互作用の重要性を強調し,全体的注意(画像全体における長期的意味的一貫性)と局所的注意(詳細情報)を組み合わせた効率的な注意機構を導入する。 このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。 3)画像合成のためのより良いパラダイムを示す,自動エンコーディング訓練と自己回帰生成戦略を組み込んだ新しい世代パイプラインを提案する。 広汎な実験は、高品質で高解像度の画像再構成と生成における我々のアプローチの優位性を実証している。

Vector-quantized image modeling has shown great potential in synthesizing high-quality images. However, generating high-resolution images remains a challenging task due to the quadratic computational overhead of the self-attention process. In this study, we seek to explore a more efficient two-stage framework for high-resolution image generation with improvements in the following three aspects. (1) Based on the observation that the first quantization stage has solid local property, we employ a local attention-based quantization model instead of the global attention mechanism used in previous methods, leading to better efficiency and reconstruction quality. (2) We emphasize the importance of multi-grained feature interaction during image generation and introduce an efficient attention mechanism that combines global attention (long-range semantic consistency within the whole image) and local attention (fined-grained details). This approach results in faster generation speed, higher generation fidelity, and improved resolution. (3) We propose a new generation pipeline incorporating autoencoding training and autoregressive generation strategy, demonstrating a better paradigm for image synthesis. Extensive experiments demonstrate the superiority of our approach in high-quality and high-resolution image reconstruction and generation.
翻訳日:2023-10-12 07:40:14 公開日:2023-10-09
# クラスタ型連合学習のための総合的なフレームワーク、on-the-flyで最適な課題を見つける

Find Your Optimal Assignments On-the-fly: A Holistic Framework for Clustered Federated Learning ( http://arxiv.org/abs/2310.05397v1 )

ライセンス: Link先を確認
Yongxin Guo, Xiaoying Tang, Tao Lin(参考訳) Federated Learning(FL)は、エッジデバイスにデータを格納することでクライアントのプライバシを保存する、新たな分散機械学習アプローチである。 しかし、クライアント間のデータの異質性は、すべてのローカル分布でよく機能するトレーニングモデルにおける課題を提起する。 最近の研究では、分散シフトを異なるクラスタにまとめることで、flにおけるクライアントの不均一性に取り組むためのソリューションとしてクラスタリングを提案している。 しかし、現在のクラスタ型flメソッドで使用される多様な学習フレームワークは、様々なクラスタ型flメソッドの統合、利点の収集、さらなる改善を困難にしている。 そこで本研究では,現在のクラスタリングFL手法を包括的に検討し,既存のアプローチを包括・拡張する4層フレームワークであるHCFLを提案する。 hcflに基づき、各層における現在のクラスタリング手法に関連する課題を特定し、これらの課題に対処するためにhcfl+と呼ばれる拡張クラスタリング手法を提案する。 大規模な数値評価を通じて,クラスタリングフレームワークと改良されたコンポーネントの有効性を示す。 私たちのコードは公開されます。

Federated Learning (FL) is an emerging distributed machine learning approach that preserves client privacy by storing data on edge devices. However, data heterogeneity among clients presents challenges in training models that perform well on all local distributions. Recent studies have proposed clustering as a solution to tackle client heterogeneity in FL by grouping clients with distribution shifts into different clusters. However, the diverse learning frameworks used in current clustered FL methods make it challenging to integrate various clustered FL methods, gather their benefits, and make further improvements. To this end, this paper presents a comprehensive investigation into current clustered FL methods and proposes a four-tier framework, namely HCFL, to encompass and extend existing approaches. Based on the HCFL, we identify the remaining challenges associated with current clustering methods in each tier and propose an enhanced clustering method called HCFL+ to address these challenges. Through extensive numerical evaluations, we showcase the effectiveness of our clustering framework and the improved components. Our code will be publicly available.
翻訳日:2023-10-12 07:39:56 公開日:2023-10-09
# 視覚障害者のためのキッチンにおけるバリアと技術ニーズの特徴

Characterizing Barriers and Technology Needs in the Kitchen for Blind and Low Vision People ( http://arxiv.org/abs/2310.05396v1 )

ライセンス: Link先を確認
Ru Wang, Nihan Zhou, Tam Nguyen, Sanbrita Mondal, Bilge Mutlu, Yuhang Zhao(参考訳) 料理は視覚障害者(pvi)にとって極めて困難な活動である。 それは、ナイフの取り扱いや適切な量の塩を加えるなど、視覚がなければ危険または難しいタスクを含む。 これらの課題のより深い理解は、安全リスクを軽減し、PVIの生活の質を向上させる技術の設計に役立てることができる。 さらに、視力の低下や視力の低下、PVIが調理技術や補助技術を学ぶためのリハビリテーショントレーニングの役割など、視覚能力の違いの影響を理解する必要がある。 本稿では, PVIの課題, 戦略, ニーズを, PVIとリハビリテーションの専門家の両方の観点から包括的に特徴付けることを目的とする。 コンテクスト・インスタディ(文脈調査)で、6人の低視力者と4人の盲目の被験者を含む10人のpviを観察した。 その後、6人のリハビリテーション専門家に、トレーニング戦略と技術推奨についてインタビューした。 その結果,料理中の視力の低下と視覚障害者の差,および訓練と現実の差が明らかになった。 キッチンにおける将来の補助技術に対するリハビリテーション訓練の改善と蒸留設計の考察を提案する。

Cooking is a vital yet challenging activity for people with visual impairments (PVI). It involves tasks that can be dangerous or difficult without vision, such as handling a knife or adding a suitable amount of salt. A better understanding of these challenges can inform the design of technologies that mitigate safety hazards and improve the quality of the lives of PVI. Furthermore, there is a need to understand the effects of different visual abilities, including low vision and blindness, and the role of rehabilitation training where PVI learn cooking skills and assistive technologies. In this paper, we aim to comprehensively characterize PVI's challenges, strategies, and needs in the kitchen from the perspectives of both PVI and rehabilitation professionals. Through a contextual inquiry study, we observed 10 PVI, including six low vision and four blind participants, when they cooked dishes of their choices in their own kitchens. We then interviewed six rehabilitation professionals to explore their training strategies and technology recommendations. Our findings revealed the differences between low vision and blind people during cooking as well as the gaps between training and reality. We suggest improvements for rehabilitation training and distill design considerations for future assistive technology in the kitchen.
翻訳日:2023-10-12 07:39:40 公開日:2023-10-09
# クロスアテンションと不変領域学習に基づくロバスト画像透かし

Robust Image Watermarking based on Cross-Attention and Invariant Domain Learning ( http://arxiv.org/abs/2310.05395v1 )

ライセンス: Link先を確認
Agnibh Dasgupta, Xin Zhong(参考訳) 画像透かしは、画像内に透かしを埋め込んで抽出することを含み、深層学習アプローチは一般化と堅牢性を促進する。 典型的には、現在の方法では、ウォーターマークの埋め込みに畳み込みと結合を採用し、同時に学習プロセスに受容可能な拡張を統合する。 本稿では,クロス・アテンションと不変領域学習を活用し,2つの新しい有意な進歩を示すロバストな画像透かし手法について検討する。 まず,マルチヘッドクロスアテンション機構を用いた透かし埋め込み手法の設計を行い,カバー画像と透かし間の情報交換により,意味的に適切な埋め込み位置を識別する。 第2に,透かしに関する意味的情報と雑音不変情報の両方をカプセル化する不変領域表現の学習を提唱し,画像透かし技術を向上させるための有望な道筋に光を当てる。

Image watermarking involves embedding and extracting watermarks within a cover image, with deep learning approaches emerging to bolster generalization and robustness. Predominantly, current methods employ convolution and concatenation for watermark embedding, while also integrating conceivable augmentation in the training process. This paper explores a robust image watermarking methodology by harnessing cross-attention and invariant domain learning, marking two novel, significant advancements. First, we design a watermark embedding technique utilizing a multi-head cross attention mechanism, enabling information exchange between the cover image and watermark to identify semantically suitable embedding locations. Second, we advocate for learning an invariant domain representation that encapsulates both semantic and noise-invariant information concerning the watermark, shedding light on promising avenues for enhancing image watermarking techniques.
翻訳日:2023-10-12 07:39:23 公開日:2023-10-09
# CAMEL2: 意義比を組み込んだ病理画像の弱教師付き学習の強化

CAMEL2: Enhancing weakly supervised learning for histopathology images by incorporating the significance ratio ( http://arxiv.org/abs/2310.05394v1 )

ライセンス: Link先を確認
Gang Xu, Shuhao Wang, Lingyu Zhao, Xiao Chen, Tongwei Wang, Lang Wang, Zhenwei Luo, Dahan Wang, Zewen Zhang, Aijun Liu, Wei Ba, Zhigang Song, Huaiyin Shi, Dingrong Zhong, Jianpeng Ma(参考訳) 病理組織像解析は癌診断において重要な役割を担っている。 しかし、臨床応用セグメンテーションアルゴリズムの訓練には、病理学者が労働集約的なラベル付けを行う必要がある。 対照的に、画像レベルで粗いラベルのみを必要とする弱い教師付き学習方法は、ラベル付けの労力を大幅に削減することができる。 残念ながら、これらの手法はスライドレベルの予測でかなりうまく機能するが、多くの臨床応用に不可欠ながん領域を見つける能力は、まだ不十分である。 従来,ピクセルレベルのセグメンテーションにおいて,教師付きベースラインに匹敵する結果が得られるCAMELを提案した。 しかし、CAMELは正のWSIに対して1,280x1,280のイメージレベルのバイナリアノテーションを必要とする。 そこで我々はCAMEL2について,正の袋に対して癌比のしきい値を導入することにより,その情報をより活用し,精度を維持しつつ1,280x1,280から5120x5,120まで画像レベルの設定をスケールアップすることを可能にする。 さまざまなデータセットを用いた結果から,camel2はアノテーションが容易な5,120x5,120の画像レベルのバイナリアノテーションの助けを借りて,インスタンスレベルとスライドレベルの両方の分類において,完全に教師付きベースラインと同等のパフォーマンスを実現しています。

Histopathology image analysis plays a crucial role in cancer diagnosis. However, training a clinically applicable segmentation algorithm requires pathologists to engage in labour-intensive labelling. In contrast, weakly supervised learning methods, which only require coarse-grained labels at the image level, can significantly reduce the labeling efforts. Unfortunately, while these methods perform reasonably well in slide-level prediction, their ability to locate cancerous regions, which is essential for many clinical applications, remains unsatisfactory. Previously, we proposed CAMEL, which achieves comparable results to those of fully supervised baselines in pixel-level segmentation. However, CAMEL requires 1,280x1,280 image-level binary annotations for positive WSIs. Here, we present CAMEL2, by introducing a threshold of the cancerous ratio for positive bags, it allows us to better utilize the information, consequently enabling us to scale up the image-level setting from 1,280x1,280 to 5,120x5,120 while maintaining the accuracy. Our results with various datasets, demonstrate that CAMEL2, with the help of 5,120x5,120 image-level binary annotations, which are easy to annotate, achieves comparable performance to that of a fully supervised baseline in both instance- and slide-level classifications.
翻訳日:2023-10-12 07:39:08 公開日:2023-10-09
# 緊急金融トークン

Emergency Financing Tokens ( http://arxiv.org/abs/2310.05432v1 )

ライセンス: Link先を確認
Geoffrey Goodell(参考訳) 本稿では,大規模な紛争や自然災害の被災者による新たな支払い機構を提案し,デビットカードや有線送金などの銀行口座に連動する従来型の電子決済機構が存在しない場合に,重大な経済取引を行い,被害を受けたインフラを再建する。 請求者は,食品及びその他の基本商品の購入者,本質的サービス提供者,建設作業を行う請負業者等の登録事業に使用できる電子トークンを受領しなければならない。 このシステムは、われわれの以前の研究で説明した小売支払いのスケーラブルなアーキテクチャに基づいており、消費者の強力なプライバシと、ファンドの受取人に対する強力なコンプライアンス執行の両方を提供する。 システムは,3つの主な目的を達成するように設計されている。 まず、請求人に発行されたトークンは、仲介者ではなく、請求者自身によって直接保持され、資産管理人の失敗や転覆のリスクを避ける。 第2に,取引は請求人の同一性に遡って行わなければならない。従って,請求人がサービス提供者その他の当事者から,それらを利用した情報開示を迫られるリスクを軽減できる。 第三に、トークンを受け取った企業及びサービス提供者は、現金又は銀行預金の償還時に厳格なコンプライアンス手続を受けなければならない。これにより、正当性のあるビジネス又はサービス提供者のみがトークンから価値を受けられること、トークンの譲渡が、初期債権者以外の受取人の身元を埋め込むこと、税の義務が償還の時に成立することを保証する。

We propose a novel payment mechanism for use by victims of large-scale conflict or natural disasters to conduct critical economic transactions and rebuild damaged infrastructure in the absence of both cash and traditional electronic payment mechanisms linked to bank accounts, such as debit cards or wire transfers. Claimants shall receive electronic tokens that can be used to pay registered businesses, such as purveyors of food and other basic goods, providers of essential services, and contractors to carry out construction tasks. The system shall be based upon the scalable architecture for retail payments described in our earlier work, which provides both strong privacy for consumers and strong compliance enforcement for recipients of funds. The system shall be designed to achieve three main objectives. First, tokens issued to claimants would be held directly by the claimants themselves, not via intermediaries, to avoid the risk of failure or subversion of asset custodians. Second, transactions shall not be traceable to the identity of the claimants, thus mitigating the risk that claimants can be pressured by service providers or other parties to reveal information that can be used to exploit them. Third, businesses and service providers that receive tokens shall be subject to rigorous compliance procedures upon redemption for cash or bank deposits, thus ensuring that only legitimate businesses or service providers can receive value from tokens, that token transfers will embed the identities of any recipients beyond the initial claimant, and that tax obligations shall be met at the time of redemption.
翻訳日:2023-10-12 07:31:00 公開日:2023-10-09
# ハイドとシーク」問題に対するマルチエージェント強化学習の再現

Replication of Multi-agent Reinforcement Learning for the "Hide and Seek" Problem ( http://arxiv.org/abs/2310.05430v1 )

ライセンス: Link先を確認
Haider Kamal, Muaz A. Niazi, Hammad Afzal(参考訳) 強化学習は報酬関数とハイパーパラメータに基づくポリシーを生成する。 これらの変化は結果に大きな影響を与えます。 強化学習研究におけるドキュメントの欠如と再現性により、一度生成された戦略を再現することは困難である。 これまでの研究では、接地操作を使った戦略が特定されているが、より複雑な環境での作業は限られている。 本研究のエージェントは、飛行機構の他に、飛行機構の強化、移動性の向上、可能な行動と戦略の範囲の拡大など、オープンアルの隠れ家や探究エージェントと同様にシミュレートされる。 この追加機能により、約200万ステップから160万ステップまでの追跡戦略を開発するためのhiderエージェントが改善される。

Reinforcement learning generates policies based on reward functions and hyperparameters. Slight changes in these can significantly affect results. The lack of documentation and reproducibility in Reinforcement learning research makes it difficult to replicate once-deduced strategies. While previous research has identified strategies using grounded maneuvers, there is limited work in more complex environments. The agents in this study are simulated similarly to Open Al's hider and seek agents, in addition to a flying mechanism, enhancing their mobility, and expanding their range of possible actions and strategies. This added functionality improves the Hider agents to develop a chasing strategy from approximately 2 million steps to 1.6 million steps and hiders
翻訳日:2023-10-12 07:30:30 公開日:2023-10-09
# 心機能評価におけるセマンティック・アウェア・テンポラル・チャネル・ワイド・アテンション

Semantic-aware Temporal Channel-wise Attention for Cardiac Function Assessment ( http://arxiv.org/abs/2310.05428v1 )

ライセンス: Link先を確認
Guanqi Chen, Guanbin Li(参考訳) 心機能評価は、心周期中の左室の変化に集中するようにモデルに要求する心エコー画像から左室排出分画(lvef)を予測することを目的としている。 心エコービデオから心機能評価を正確に自動で行う方法は、インテリジェント医療において重要なトピックである。 既存のビデオベースの手法では、左室領域や運動による左室の変化にはあまり注意を払わない。 そこで本研究では,左室分割課題を伴う半教師付き補助学習パラダイムを提案し,左室領域の表現学習に寄与する。 動き情報の重要性をモデル化するために,時間的チャンネルワイズ・アテンション(tca)モジュールを導入し,動きを記述するために使用されるチャンネルを興奮させる。 さらに,左心室のセグメンテーションマップを入力として,左心室の動作パターンに着目し,意味知覚でTCAモジュールを再構築した。 最後に, 直接LVEF回帰の困難さを軽減するために, アンカーベース分類法と回帰法を用いてLVEFの予測を行う。 提案手法は,0.22 MAE,0.26 RMSE,1.9%$R^2$の改善により,スタンフォードデータセットの最先端性能を実現する。

Cardiac function assessment aims at predicting left ventricular ejection fraction (LVEF) given an echocardiogram video, which requests models to focus on the changes in the left ventricle during the cardiac cycle. How to assess cardiac function accurately and automatically from an echocardiogram video is a valuable topic in intelligent assisted healthcare. Existing video-based methods do not pay much attention to the left ventricular region, nor the left ventricular changes caused by motion. In this work, we propose a semi-supervised auxiliary learning paradigm with a left ventricular segmentation task, which contributes to the representation learning for the left ventricular region. To better model the importance of motion information, we introduce a temporal channel-wise attention (TCA) module to excite those channels used to describe motion. Furthermore, we reform the TCA module with semantic perception by taking the segmentation map of the left ventricle as input to focus on the motion patterns of the left ventricle. Finally, to reduce the difficulty of direct LVEF regression, we utilize an anchor-based classification and regression method to predict LVEF. Our approach achieves state-of-the-art performance on the Stanford dataset with an improvement of 0.22 MAE, 0.26 RMSE, and 1.9% $R^2$.
翻訳日:2023-10-12 07:30:21 公開日:2023-10-09
# 分割とアンサンブル:未知のために徐々に学習する

Divide and Ensemble: Progressively Learning for the Unknown ( http://arxiv.org/abs/2310.05425v1 )

ライセンス: Link先を確認
Hu Zhang, Xin Shen, Heming Du, Huiqiang Chen, Chen Liu, Hongwei Sheng, Qingzheng Xu, MD Wahiduzzaman Khan, Qingtao Yu, Tianqing Zhu, Scott Chapman, Zi Huang, Xin Yu(参考訳) 小麦の栄養不足分類課題では, 進行試験データ予測のためのDividE and EnseMble (DEEM) 法を提案する。 1) 課題には,(1) テスト画像が提供され,(2) サンプルには収集日が設定されている,(3) 異なる日付のサンプルには顕著な相違がある。 これらの結果に基づき、各分割群における日付と列車モデルによりデータセットを個別のグループに分割する。 次に、テストデータをラベル付けし、高い信頼性を持つものをトレーニングセットに組み込む、擬似ラベルアプローチを採用します。 疑似ラベルリングでは,予測の信頼性を高めるために,異なるアーキテクチャのモデルアンサンブルを利用する。 擬似ラベルとアンサンブルモデルトレーニングは、すべてのテストサンプルがラベル付けされるまで反復的に行われる。 最後に、各グループの分離したモデルを統一して、データセット全体のモデルを得る。 WW2020では93.6\%、WR2021では93.2\%となり、Deep Nutrient Deficiency Challenge~\footnote{https://cvppa2023.github.io/challenges/}で1$st$を獲得した。

In the wheat nutrient deficiencies classification challenge, we present the DividE and EnseMble (DEEM) method for progressive test data predictions. We find that (1) test images are provided in the challenge; (2) samples are equipped with their collection dates; (3) the samples of different dates show notable discrepancies. Based on the findings, we partition the dataset into discrete groups by the dates and train models on each divided group. We then adopt the pseudo-labeling approach to label the test data and incorporate those with high confidence into the training set. In pseudo-labeling, we leverage models ensemble with different architectures to enhance the reliability of predictions. The pseudo-labeling and ensembled model training are iteratively conducted until all test samples are labeled. Finally, the separated models for each group are unified to obtain the model for the whole dataset. Our method achieves an average of 93.6\% Top-1 test accuracy~(94.0\% on WW2020 and 93.2\% on WR2021) and wins the 1$st$ place in the Deep Nutrient Deficiency Challenge~\footnote{https://cvppa2023.github.io/challenges/}.
翻訳日:2023-10-12 07:29:55 公開日:2023-10-09
# 同期並列デコーディングによる自己回帰型言語モデルの高速かつロバストな早期実行フレームワーク

Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding ( http://arxiv.org/abs/2310.05424v1 )

ライセンス: Link先を確認
Sangmin Bae, Jongwoo Ko, Hwanjun Song, Se-Young Yun(参考訳) 自己回帰型言語モデルによって提示される高い推論遅延に対処するために、以前の研究では、以降のトークン生成の複雑さに基づいて、各トークンに適応的な計算パスを割り当てる早期出力フレームワークを提案している。 しかし、状態コピー機構や多数の出口経路による性能劣化や、出口信頼閾値に対する感度など、いくつかの欠点がみられた。 そこで我々は,浅層深度モジュールと並列デコーディングを併用したFREE(Fast and Robust Early-Exiting)フレームワークを提案する。 我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、高速な推論を可能にする。 さらに、並列デコーディングにより浅層モデルと深部モデルの両方からの予測を観測できるので、ベータ混合モデルを利用して適切な信頼閾値を決定する適応しきい値推定器を提案する。 広範な生成タスクにおける提案フレームワークの優位性を実証的に実証した。

To tackle the high inference latency exhibited by autoregressive language models, previous studies have proposed an early-exiting framework that allocates adaptive computation paths for each token based on the complexity of generating the subsequent token. However, we observed several shortcomings, including performance degradation caused by a state copying mechanism or numerous exit paths, and sensitivity to exit confidence thresholds. Consequently, we propose a Fast and Robust Early-Exiting (FREE) framework, which incorporates a shallow-deep module and a synchronized parallel decoding. Our framework enables faster inference by synchronizing the decoding process of the current token with previously stacked early-exited tokens. Furthermore, as parallel decoding allows us to observe predictions from both shallow and deep models, we present a novel adaptive threshold estimator that exploits a Beta mixture model to determine suitable confidence thresholds. We empirically demonstrated the superiority of our proposed framework on extensive generation tasks.
翻訳日:2023-10-12 07:29:33 公開日:2023-10-09
# オフライン強化学習のための逆一貫性ダイナミクスモデル

Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.05422v1 )

ライセンス: Link先を確認
Fan-Ming Luo, Tian Xu, Xingchen Cao, Yang Yu(参考訳) 正確なダイナミックスモデルを学習することは、オフラインの強化学習に不可欠であり、残念なことに、非常に難しいことが判明した。 歴史的遷移を適合させることで学習されるダイナミクスモデルは、しばしば目に見えない遷移に一般化するのに苦労する。 本研究では,遷移をまたがって一貫したダイナミクス報酬という,隠されているが重要な要素を同定し,より一般化するための経路を提供する。 そこで本研究では,力学モデルによって生成された任意の軌道は,データから得られる力学報酬を最大化するべきである。 この考え方をMOREC(Model-based Offline reinforcement learning with Reward Consistency)手法として実装し、従来のオフラインモデルベース強化学習(MBRL)手法にシームレスに統合する。 MORECは、任意のオフラインMBRLメソッドの遷移フィルタとして使用されるオフラインデータから一般化可能な動的報酬関数を学習する。 合成タスクでは、MORECは強力な一般化能力を持ち、驚くほど遠くの見えない遷移を回復することができる。 D4RLとNeoRLベンチマークの21のオフラインタスクでは、MORECは従来の最先端のパフォーマンスを大幅に改善し、D4RLタスクは4.6%、NeoRLタスクは25.9%である。 特に、MORECは、12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる最初の方法である。

Learning a precise dynamics model can be crucial for offline reinforcement learning, which, unfortunately, has been found to be quite challenging. Dynamics models that are learned by fitting historical transitions often struggle to generalize to unseen transitions. In this study, we identify a hidden but pivotal factor termed dynamics reward that remains consistent across transitions, offering a pathway to better generalization. Therefore, we propose the idea of reward-consistent dynamics models: any trajectory generated by the dynamics model should maximize the dynamics reward derived from the data. We implement this idea as the MOREC (Model-based Offline reinforcement learning with Reward Consistency) method, which can be seamlessly integrated into previous offline model-based reinforcement learning (MBRL) methods. MOREC learns a generalizable dynamics reward function from offline data, which is subsequently employed as a transition filter in any offline MBRL method: when generating transitions, the dynamics model generates a batch of transitions and selects the one with the highest dynamics reward value. On a synthetic task, we visualize that MOREC has a strong generalization ability and can surprisingly recover some distant unseen transitions. On 21 offline tasks in D4RL and NeoRL benchmarks, MOREC improves the previous state-of-the-art performance by a significant margin, i.e., 4.6% on D4RL tasks and 25.9% on NeoRL tasks. Notably, MOREC is the first method that can achieve above 95% online RL performance in 6 out of 12 D4RL tasks and 3 out of 9 NeoRL tasks.
翻訳日:2023-10-12 07:29:16 公開日:2023-10-09
# LangChainを使用した顧客サービスの自動化: 組織のためのカスタムオープンソースGPTチャットボットの構築

Automating Customer Service using LangChain: Building custom open-source GPT Chatbot for organizations ( http://arxiv.org/abs/2310.05421v1 )

ライセンス: Link先を確認
Keivalya Pandya and Mehfuza Holia(参考訳) デジタル時代には,技術進歩と大規模言語モデル(llm)の統合によって,カスタマサービスのダイナミクスが進化している。 本稿では,企業に適したカスタムLLMであるLangChainを用いて,顧客サービスを自動化するための画期的なアプローチを提案する。 この論文は、従来の顧客サポート技術、特に頻繁な質問(faq)の控えめさを探求し、応答性、コンテキスト認識、パーソナライズされた顧客インタラクションへのパラダイムシフトを提案する。 このイノベーションの核心は、オープンソースの方法論、Webスクレイピング、微調整、LangChainを顧客サービスプラットフォームにシームレスに統合することにある。 Sahaay"と呼ばれるこのオープンソースの最先端フレームワークは、業界や組織にまたがってスケールし、リアルタイムのサポートとクエリの解決を提供する能力を示している。 この研究の主な要素は、Webスクレイピングによるデータ収集、埋め込みの役割、GoogleのFlan T5 XXLの利用、知識検索のためのベースおよびスモール言語モデル、顧客サービスプラットフォームへのチャットボットの統合などである。 結果のセクションは、特に教育機関内で、パフォーマンスとユースケースに関する洞察を提供する。 この研究は、効率的でパーソナライズされ、応答性のあるインタラクションを作成するためにテクノロジーが活用される、カスタマサービスの新しい時代を告げるものだ。 SahaayはLangChainをベースとして、顧客と企業の関係を再定義し、顧客の保持率、価値抽出、ブランドイメージを向上する。 組織がllmを採用すると、カスタマサービスは動的で顧客中心のエコシステムになる。

In the digital age, the dynamics of customer service are evolving, driven by technological advancements and the integration of Large Language Models (LLMs). This research paper introduces a groundbreaking approach to automating customer service using LangChain, a custom LLM tailored for organizations. The paper explores the obsolescence of traditional customer support techniques, particularly Frequently Asked Questions (FAQs), and proposes a paradigm shift towards responsive, context-aware, and personalized customer interactions. The heart of this innovation lies in the fusion of open-source methodologies, web scraping, fine-tuning, and the seamless integration of LangChain into customer service platforms. This open-source state-of-the-art framework, presented as "Sahaay," demonstrates the ability to scale across industries and organizations, offering real-time support and query resolution. Key elements of this research encompass data collection via web scraping, the role of embeddings, the utilization of Google's Flan T5 XXL, Base and Small language models for knowledge retrieval, and the integration of the chatbot into customer service platforms. The results section provides insights into their performance and use cases, here particularly within an educational institution. This research heralds a new era in customer service, where technology is harnessed to create efficient, personalized, and responsive interactions. Sahaay, powered by LangChain, redefines the customer-company relationship, elevating customer retention, value extraction, and brand image. As organizations embrace LLMs, customer service becomes a dynamic and customer-centric ecosystem.
翻訳日:2023-10-12 07:28:46 公開日:2023-10-09
# ヒューマノイドエージェント:ヒト様生成エージェントのシミュレーションプラットフォーム

Humanoid Agents: Platform for Simulating Human-like Generative Agents ( http://arxiv.org/abs/2310.05418v1 )

ライセンス: Link先を確認
Zhilin Wang, Yu Ying Chiu, Yu Cheung Chiu(参考訳) 原子、分子、細胞などの計算シミュレーションが科学の研究方法を形成するのと同じように、人間のようなエージェントの真から生までのシミュレーションは人間の行動を研究するための貴重なツールとなりうる。 本稿では,システム1の処理に基本的なニーズ(飢餓,健康,エネルギー),感情,人間関係の近さという3つの要素を導入することにより,生成エージェントがより人間らしく振る舞うように誘導するシステムであるヒューマノイドエージェントを提案する。 ヒューマノイドエージェントは、これらの動的要素を使用して、経験的な実験で支援されるように、日々の活動や他のエージェントとの会話に適応することができる。 我々のシステムは、人間の行動に影響を及ぼす他の要素(共感、道徳的価値観、文化的背景など)と同様に、様々な設定に拡張可能なように設計されている。 私たちのプラットフォームには、視覚化のためのUnity WebGLゲームインターフェースや、エージェントの状態を表示するインタラクティブなアナリティクスダッシュボードも含まれています。 私たちのプラットフォームはhttps://www.humanoidagents.com/で、コードはhttps://github.com/HumanoidAgents/HumanoidAgentsで利用可能です。

Just as computational simulations of atoms, molecules and cells have shaped the way we study the sciences, true-to-life simulations of human-like agents can be valuable tools for studying human behavior. We propose Humanoid Agents, a system that guides Generative Agents to behave more like humans by introducing three elements of System 1 processing: Basic needs (e.g. hunger, health and energy), Emotion and Closeness in Relationships. Humanoid Agents are able to use these dynamic elements to adapt their daily activities and conversations with other agents, as supported with empirical experiments. Our system is designed to be extensible to various settings, three of which we demonstrate, as well as to other elements influencing human behavior (e.g. empathy, moral values and cultural background). Our platform also includes a Unity WebGL game interface for visualization and an interactive analytics dashboard to show agent statuses over time. Our platform is available on https://www.humanoidagents.com/ and code is on https://github.com/HumanoidAgents/HumanoidAgents
翻訳日:2023-10-12 07:28:16 公開日:2023-10-09
# 建築・工学・建設産業における人工知能とロボティクスの倫理

Ethics of Artificial Intelligence and Robotics in the Architecture, Engineering, and Construction Industry ( http://arxiv.org/abs/2310.05414v1 )

ライセンス: Link先を確認
Ci-Jyun Liang, Thai-Hoa Le, Youngjib Ham, Bharadwaj R. K. Mantha, Marvin H. Cheng, Jacob J. Lin(参考訳) 人工知能(AI)とロボティクスの研究と実装は、建築、工学、建設(AEC)業界に出現し、プロジェクトの効率性と安全性、生産性、品質といった有効性に肯定的な影響を及ぼした。 しかしこのシフトは、仕事のセキュリティ、安全性、プライバシーといった側面に悪影響を及ぼす可能性があるため、AIとロボティクスの採用に関する倫理的配慮の必要性を保証している。 しかし、これは特に学術界ではあまり注目されなかった。 この研究は、AIとロボティクスの研究を、過去5年間AECコミュニティの倫理のレンズを通して体系的にレビューしている。 ジョブ損失、データプライバシ、データセキュリティ、データ透明性、意思決定の競合、受け入れと信頼、信頼性と安全性、監視の恐れ、責任という9つの重要な倫理的問題を特定し、既存の文献を要約し、AECの関連性に基づいてフィルタリングする。 さらに、倫理の主題と直接関係のある既存のaec研究に基づいて、プロセスに関する13の研究トピックを同定し、その並行性についても検討した。 最後に,現状の課題と知識ギャップについて考察し,今後の7つの研究方向について考察する。 本研究は、この重要なトピックに対する利害関係者の意識を高めるだけでなく、より安全で効率的な実現に向けた重要なステップを提供する。

Artificial intelligence (AI) and robotics research and implementation emerged in the architecture, engineering, and construction (AEC) industry to positively impact project efficiency and effectiveness concerns such as safety, productivity, and quality. This shift, however, warrants the need for ethical considerations of AI and robotics adoption due to its potential negative impacts on aspects such as job security, safety, and privacy. Nevertheless, this did not receive sufficient attention, particularly within the academic community. This research systematically reviews AI and robotics research through the lens of ethics in the AEC community for the past five years. It identifies nine key ethical issues namely job loss, data privacy, data security, data transparency, decision-making conflict, acceptance and trust, reliability and safety, fear of surveillance, and liability, by summarizing existing literature and filtering it further based on its AEC relevance. Furthermore, thirteen research topics along the process were identified based on existing AEC studies that had direct relevance to the theme of ethics in general and their parallels are further discussed. Finally, the current challenges and knowledge gaps are discussed and seven specific future research directions are recommended. This study not only signifies more stakeholder awareness of this important topic but also provides imminent steps towards safer and more efficient realization.
翻訳日:2023-10-12 07:27:54 公開日:2023-10-09
# 駆動拡散二重キャビティ・マグノン系における光子-マグノン結合強度の推定理論

Estimation theory of photon-magnon coupling strength in a driven-dissipative double-cavity-magnon system ( http://arxiv.org/abs/2310.05412v1 )

ライセンス: Link先を確認
Jia-Xin Peng, Baiqiang Zhu, Weiping Zhang, and Keye Zhang(参考訳) キャビティ-マグノン系は量子技術とスピントロン技術の統合のための実りあるアーキテクチャとして発展し、マグノンは磁気双極子相互作用によってマイクロ波光子と結合される。 光子-マグノン(P-M)結合の制御は、そのようなハイブリッド系における量子状態にアクセスし操作する強力な手段を提供する。 したがって、関連するP-M結合を決定することは基本的な課題である。 ここでは,駆動と散逸を伴う二重キャビティ・マグノン系におけるp-m結合強度の量子推定問題に対処する。 様々な物理要因が推定精度に及ぼす影響について検討し,その基礎となる物理メカニズムを詳細に考察した。 実測実験では, この複合系の大域的量子状態の測定がほぼ不可能であることを考えると, 測定と推定を行うための最適サブシステムを特定する。 さらに、異なるガウス測度の性能を評価し、最適ガウス測度が量子フィッシャー情報による推定精度の最終的な理論的境界をほぼ飽和させることを示す。

Cavity-magnon systems are emerging as a fruitful architecture for the integration of quantum technologies and spintronic technologies, where magnons are coupled to microwave photons via the magnetic-dipole interaction. Controllable the photon-magnon (P-M) couplings provide a powerful means of accessing and manipulating quantum states in such hybrid systems. Thus determining the relevant P-M couplings is a fundamental task. Here we address the quantum estimation problem for the P-M coupling strength in a double-cavity-magnon system with drive and dissipation. The effects of various physical factors on the estimation precision are investigated and the underlying physical mechanisms are discussed in detail. Considering that in practical experiments it is almost infeasible to perform measurements on the global quantum state of this composite system, we identify the optimal subsystem for performing measurements and estimations. Further, we evaluate the performance of different Gaussian measurements, indicating that optimal Gaussian measurement almost saturates the ultimate theoretical bound on the estimation precision given by the quantum Fisher information.
翻訳日:2023-10-12 07:27:31 公開日:2023-10-09
# ベイズニューラルネットワークと従来の機械学習アルゴリズムのアンサンブルに基づくハイブリッド最適化

Ensemble-based Hybrid Optimization of Bayesian Neural Networks and Traditional Machine Learning Algorithms ( http://arxiv.org/abs/2310.05456v1 )

ライセンス: Link先を確認
Peiwen Tan(参考訳) 本研究では、ランダムフォレスト(RF)、グラディエントブースティング(GB)、サポートベクトルマシン(SVM)といった従来の機械学習アルゴリズムと相乗的に統合することにより、ベイズニューラルネットワーク(BNN)を最適化する新しい手法を提案する。 特徴積分は、ヘッセン行列の定常性や正定性を含む最適性に対する二階条件を強調することによってこれらの結果を固化する。 逆に、ハイパーパラメータチューニングは、EI(x)で表される期待された改善(EI)を改善するための抑制された影響を示している。 全体として、アンサンブル法は堅牢でアルゴリズム的に最適化されたアプローチである。

This research introduces a novel methodology for optimizing Bayesian Neural Networks (BNNs) by synergistically integrating them with traditional machine learning algorithms such as Random Forests (RF), Gradient Boosting (GB), and Support Vector Machines (SVM). Feature integration solidifies these results by emphasizing the second-order conditions for optimality, including stationarity and positive definiteness of the Hessian matrix. Conversely, hyperparameter tuning indicates a subdued impact in improving Expected Improvement (EI), represented by EI(x). Overall, the ensemble method stands out as a robust, algorithmically optimized approach.
翻訳日:2023-10-12 07:23:33 公開日:2023-10-09
# ユニバーサルドメイン適応のためのメモリ支援サブプロトタイプマイニング

Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation ( http://arxiv.org/abs/2310.05453v1 )

ライセンス: Link先を確認
Yuxiang Lai and Xinghong Liu and Tao Zhou and Yi Zhou(参考訳) ユニバーサルドメイン適応は、クラスを整列させ、ソースとターゲットドメインの同一カテゴリ間の特徴ギャップを減らすことを目的としている。 対象のプライベートカテゴリは、ソースドメインに含まれないため、適応プロセス中に未知のクラスとして設定される。 しかし、既存の手法の多くはカテゴリ内のクラス内構造を見落としており、特に同じカテゴリに属するサンプル間で重要な概念シフトがある場合である。 大きな概念シフトを持つサンプルを強制的に押し付けると、適応性能に悪影響を及ぼす可能性がある。 さらに、解釈可能性の観点からは、視覚の特徴を戦闘機や民間航空機のような重要な相違点と一致させることは理不尽である。 残念ながら、このような意味的曖昧さとアノテーションのコストのため、カテゴリは必ずしも詳細に分類されるわけではないため、モデルが正確な適応を行うのは困難である。 そこで本研究では,同一のサブクラスに属するサンプルとマイニングサブクラスの違いを学習できるメモリ支援サブプロトタイプマイニング (memspm) 法を提案する。 そうすることで、我々のモデルは、転送可能性を高め、同じカテゴリにアノテートされたサンプル間の固有の差異を反映するより合理的な特徴空間を学習する。 我々は,UniDA,OSDA,PDAを含む複数のシナリオに対してMemSPM法の有効性を評価する。 提案手法は,4つのベンチマークにおいて,ほとんどの場合,最先端の性能を実現する。

Universal domain adaptation aims to align the classes and reduce the feature gap between the same category of the source and target domains. The target private category is set as the unknown class during the adaptation process, as it is not included in the source domain. However, most existing methods overlook the intra-class structure within a category, especially in cases where there exists significant concept shift between the samples belonging to the same category. When samples with large concept shift are forced to be pushed together, it may negatively affect the adaptation performance. Moreover, from the interpretability aspect, it is unreasonable to align visual features with significant differences, such as fighter jets and civil aircraft, into the same category. Unfortunately, due to such semantic ambiguity and annotation cost, categories are not always classified in detail, making it difficult for the model to perform precise adaptation. To address these issues, we propose a novel Memory-Assisted Sub-Prototype Mining (MemSPM) method that can learn the differences between samples belonging to the same category and mine sub-classes when there exists significant concept shift between them. By doing so, our model learns a more reasonable feature space that enhances the transferability and reflects the inherent differences among samples annotated as the same category. We evaluate the effectiveness of our MemSPM method over multiple scenarios, including UniDA, OSDA, and PDA. Our method achieves state-of-the-art performance on four benchmarks in most cases.
翻訳日:2023-10-12 07:23:20 公開日:2023-10-09
# テンプレートコンテンツ構造を用いた大規模言語モデルの複雑なタスク推論

Explaining the Complex Task Reasoning of Large Language Models with Template-Content Structure ( http://arxiv.org/abs/2310.05452v1 )

ライセンス: Link先を確認
Haotong Yang and Fanxu Meng and Zhouchen Lin and Muhan Zhang(参考訳) 絶え間なく成長するパラメータとコーパスサイズを持つ事前学習された大きな言語モデルの継続的な進化は、複雑なタスクを解決する能力を強化した。 この能力は、タスク固有のトレーニングや微調整の必要性を損なうもので、モデルに言語記述やプロンプトと呼ばれるいくつかのタスク例を提供することによって、望ましい自己回帰生成を導く。 顕著な成功にもかかわらず、そのような例外的な一般化能力を促進するメカニズムは未解決のままである。 本稿では,複雑な自然言語タスクに対する応答生成を,階層的な 'template-content'' 構造として正式に概念化する新しいフレームワークを提案する。 我々のモデリングによれば、十分大きなコーパス上の言語モデリングにより、自動回帰生成中にタスクを構成ステップに自動的に分解できる事前学習モデルが存在する。 我々のフレームワークは、自己回帰生成タスクのモデリングの観点から、大規模言語モデルの複雑な推論能力を示す説明ツールを提供する。 実験の結果, 実用モデルは, モデリングを支援するために, `template' と ``content' の異なる振る舞いを示すことがわかった。

The continuous evolution of pre-trained large language models with ever-growing parameters and corpus sizes has augmented their capacity to solve complex tasks. This ability, which obviates the necessity for task-specific training or fine-tuning, relies on providing the model with a language description or some task exemplars -- referred to the prompt -- that guide the desired autoregressive generation. Despite the remarkable success, the underlying mechanisms that facilitate such exceptional generalization abilities remain an open question. In this paper, we present a novel framework that formally conceptualizes answer generation for complex natural language tasks as a hierarchical ``template-content'' structure. According to our modeling, there exist pre-trained models that can automatically decompose tasks into constituent steps during autoregressive generation, through language modeling on a sufficiently large corpus, thereby solving them. Our framework offers an explanatory tool for the complex reasoning abilities of large language models from the perspective of modeling autoregressive generation tasks. Our experiments show that practical models exhibit different behaviors for ``template'' and ``content'' providing support for our modeling.
翻訳日:2023-10-12 07:22:55 公開日:2023-10-09
# 自己教師付きカリキュラム学習によるネステッドブール論理の強化

Empower Nested Boolean Logic via Self-Supervised Curriculum Learning ( http://arxiv.org/abs/2310.05450v1 )

ライセンス: Link先を確認
Hongqiu Wu, Linfeng Liu, Hai Zhao, Min Zhang(参考訳) 言語モデルによって示される大きな認知能力を超えて、その推論能力が強い一般化に起因するのか、単に関連するデータへの露出に起因するのかを精査することが重要である。 複雑な論理を構成するのとは対照的に,本論文では論理推論器の根元能力であるブール論理を考察する。 大規模言語モデルを含む任意の事前学習された言語モデルは、人間が容易に扱えるタスクであるマルチネストブール論理の面において、ランダムセレクタのように振る舞う。 この基本的な能力で言語モデルを強化するために,我々は,学習データをネストしたブール論理チェインで段階的に拡張し,より単純な論理パターンからより難しいパターンへと徐々にトレーニングをプログラムする,新しい自己教師付き学習手法 \textit{curriculum logical reasoning} (\textsc{clr})を提案する。 この新たなトレーニングパラダイムにより、言語モデルはより難しく、より長いホップ論理に効果的に一般化することができる。 さらに、ブール論理は、その後の一般的な論理タスクを改善するための優れた基盤であることを示す。

Beyond the great cognitive powers showcased by language models, it is crucial to scrutinize whether their reasoning capabilities stem from strong generalization or merely exposure to relevant data. As opposed to constructing increasingly complex logic, this paper probes into the boolean logic, the root capability of a logical reasoner. We find that any pre-trained language models even including large language models only behave like a random selector in the face of multi-nested boolean logic, a task that humans can handle with ease. To empower language models with this fundamental capability, this paper proposes a new self-supervised learning method \textit{Curriculum Logical Reasoning} (\textsc{Clr}), where we augment the training data with nested boolean logic chain step-by-step, and program the training from simpler logical patterns gradually to harder ones. This new training paradigm allows language models to effectively generalize to much harder and longer-hop logic, which can hardly be learned through naive training. Furthermore, we show that boolean logic is a great foundation for improving the subsequent general logical tasks.
翻訳日:2023-10-12 07:22:38 公開日:2023-10-09
# 画像に基づく3次元物体検出の公平かつ包括的比較に向けて

Towards Fair and Comprehensive Comparisons for Image-Based 3D Object Detection ( http://arxiv.org/abs/2310.05447v1 )

ライセンス: Link先を確認
Xinzhu Ma, Yongtao Wan, Yinmin Zhang, Zhiyi Xia, Yuan Meng, Zhihui Wang, Haojie Li, Wanli Ouyang(参考訳) 本研究では,モジュール設計のコードベースを構築し,強固なトレーニングレシピを定式化し,誤り診断ツールボックスの設計を行い,画像に基づく3次元物体検出の現在の方法について議論する。 特に、2Dオブジェクト検出のような他の高度に成熟したタスクとは異なり、画像ベースの3Dオブジェクト検出のコミュニティはいまだ進化しており、様々なトレーニングレシピやトリックを採用する方法が不公平な評価と比較をもたらす。 さらに悪いことに、これらのトリックは、提案された設計をパフォーマンスに圧倒し、誤った結論に至る可能性がある。 この問題に対処するため、モジュール設計のコードベースを構築し、コミュニティのための統一的なトレーニング標準を定式化しています。 さらに,検出モデルの詳細な特徴量を測定するためのエラー診断ツールボックスも設計する。 これらのツールを用いて、さまざまな設定下で現在の手法を詳細に分析し、KITTI-3DデータセットとnuScenesデータセットの結論の相違など、いくつかのオープンな質問について議論する。 この研究が、画像に基づく3Dオブジェクト検出の今後の研究を促進することを期待している。 我々のコードは \url{https://github.com/OpenGVLab/3dodi} でリリースされる。

In this work, we build a modular-designed codebase, formulate strong training recipes, design an error diagnosis toolbox, and discuss current methods for image-based 3D object detection. In particular, different from other highly mature tasks, e.g., 2D object detection, the community of image-based 3D object detection is still evolving, where methods often adopt different training recipes and tricks resulting in unfair evaluations and comparisons. What is worse, these tricks may overwhelm their proposed designs in performance, even leading to wrong conclusions. To address this issue, we build a module-designed codebase and formulate unified training standards for the community. Furthermore, we also design an error diagnosis toolbox to measure the detailed characterization of detection models. Using these tools, we analyze current methods in-depth under varying settings and provide discussions for some open questions, e.g., discrepancies in conclusions on KITTI-3D and nuScenes datasets, which have led to different dominant methods for these datasets. We hope that this work will facilitate future research in image-based 3D object detection. Our codes will be released at \url{https://github.com/OpenGVLab/3dodi}
翻訳日:2023-10-12 07:22:13 公開日:2023-10-09
# AngioMoCo:脳デジタルサブトラクション血管造影における学習に基づく運動補正

AngioMoCo: Learning-based Motion Correction in Cerebral Digital Subtraction Angiography ( http://arxiv.org/abs/2310.05445v1 )

ライセンス: Link先を確認
Ruisheng Su, Matthijs van der Sluijs, Sandra Cornelissen, Wim van Zwam, Aad van der Lugt, Wiro Niessen, Danny Ruijters, Theo van Walsum, and Adrian Dalca(参考訳) 脳X線デジタルサブトラクション血管造影(DSA)は、血流を可視化し血管内治療を導く標準的な画像技術である。 dsaの品質は、しばしば取得中の体の動きに悪影響を与え、診断価値が低下する。 時間消費反復法は、非剛性登録に基づく動作補正に対処し、血管の歪みを制限するために疎鍵点と非剛性ペナルティを用いる。 最近の手法では、減算されたフレームを対応する減算されたフレームから予測することで減算アーティファクトを緩和するが、フレーム間の動きによる不一致を明示的に補償しない。 これにより、血流の連続的な評価が妨げられ、しばしば望ましくない血管や造影剤の流れの変化が引き起こされ、臨床での使い勝手が損なわれる。 この制限に対処するために,x線アンギオグラフィからdsaシーケンスを生成する学習ベースのフレームワークであるangiomocoを提案する。 AngioMoCoはコントラスト抽出と運動補正を統合し、コントラストフローによる患者の動きと強度変化の区別を可能にする。 この戦略は、反復エラストックスベースのメソッドよりも大幅に高速であると同時に、登録品質を向上させる。 臨床に取得した血管造影画像の大規模な全国多施設データセット(MR CLEAN Registry)上で,総合的質的,定量的解析によりAngioMoCoを実証した。 AngioMoCoは高品質なモーション補償DSAを生成し、コントラストフローを保持しながら、モーションアーティファクトを除去する。 コードはhttps://github.com/RuishengSu/AngioMoCo.comで公開されている。

Cerebral X-ray digital subtraction angiography (DSA) is the standard imaging technique for visualizing blood flow and guiding endovascular treatments. The quality of DSA is often negatively impacted by body motion during acquisition, leading to decreased diagnostic value. Time-consuming iterative methods address motion correction based on non-rigid registration, and employ sparse key points and non-rigidity penalties to limit vessel distortion. Recent methods alleviate subtraction artifacts by predicting the subtracted frame from the corresponding unsubtracted frame, but do not explicitly compensate for motion-induced misalignment between frames. This hinders the serial evaluation of blood flow, and often causes undesired vasculature and contrast flow alterations, leading to impeded usability in clinical practice. To address these limitations, we present AngioMoCo, a learning-based framework that generates motion-compensated DSA sequences from X-ray angiography. AngioMoCo integrates contrast extraction and motion correction, enabling differentiation between patient motion and intensity changes caused by contrast flow. This strategy improves registration quality while being substantially faster than iterative elastix-based methods. We demonstrate AngioMoCo on a large national multi-center dataset (MR CLEAN Registry) of clinically acquired angiographic images through comprehensive qualitative and quantitative analyses. AngioMoCo produces high-quality motion-compensated DSA, removing motion artifacts while preserving contrast flow. Code is publicly available at https://github.com/RuishengSu/AngioMoCo.
翻訳日:2023-10-12 07:19:31 公開日:2023-10-09
# 信頼性の確立:課題再考とモデル評価

Establishing Trustworthiness: Rethinking Tasks and Model Evaluation ( http://arxiv.org/abs/2310.05442v1 )

ライセンス: Link先を確認
Robert Litschko, Max M\"uller-Eberstein, Rob van der Goot, Leon Weber, Barbara Plank(参考訳) 言語理解は多面的認知能力であり、自然言語処理(NLP)コミュニティは何十年もの間、計算モデルに取り組んできた。 伝統的に、言語知能の側面は、特殊なモデルアーキテクチャとそれに対応する評価プロトコルを備えたタスクに分割されてきた。 大規模言語モデル(LLM)の出現により、コミュニティは、ジェネレーティブモデルによるタスク非依存のアプローチである汎用への劇的なシフトを目撃した。 結果として、従来の区画化された言語タスクの概念は崩壊し、続いて評価と分析の課題が増加している。 同時に、LLMは、これまで予期せぬゼロショットセットアップを含む、より現実的なシナリオにデプロイされ、信頼できるシステムの必要性が増している。 したがって、NLPにおけるタスクやモデル評価を構成するものを再考し、言語に関するより総合的な視点を追求し、その中心に信頼性を置くべき時であると論じる。 本研究の目的は,モデルの機能的キャパシティの起源を理解するための既存のコンパートナライズドアプローチをレビューし,より多面的な評価プロトコルを提案することである。

Language understanding is a multi-faceted cognitive capability, which the Natural Language Processing (NLP) community has striven to model computationally for decades. Traditionally, facets of linguistic intelligence have been compartmentalized into tasks with specialized model architectures and corresponding evaluation protocols. With the advent of large language models (LLMs) the community has witnessed a dramatic shift towards general purpose, task-agnostic approaches powered by generative models. As a consequence, the traditional compartmentalized notion of language tasks is breaking down, followed by an increasing challenge for evaluation and analysis. At the same time, LLMs are being deployed in more real-world scenarios, including previously unforeseen zero-shot setups, increasing the need for trustworthy and reliable systems. Therefore, we argue that it is time to rethink what constitutes tasks and model evaluation in NLP, and pursue a more holistic view on language, placing trustworthiness at the center. Towards this goal, we review existing compartmentalized approaches for understanding the origins of a model's functional capacity, and provide recommendations for more multi-faceted evaluation protocols.
翻訳日:2023-10-12 07:19:07 公開日:2023-10-09
# 超常磁性ナノ粒子の超高分解能ダイヤモンド磁気顕微鏡

Super-resolution diamond magnetic microscopy of superparamagnetic nanoparticles ( http://arxiv.org/abs/2310.05436v1 )

ライセンス: Link先を確認
Nazanin Mosavian, Forrest Hubert, Janis Smits, Pauli Kehayias, Yaser Silani, Bryan A. Richards, Victor M. Acosta(参考訳) ダイヤモンド中の窒素空洞(NV)中心に基づく走査プローブおよび広磁場磁気顕微鏡は、生物学や材料の研究において顕著な進歩をもたらしたが、それぞれの方法には欠点がある。 本稿では,ダイヤモンド表面近傍の高密度層におけるnv中心の電荷状態の光学制御に基づくナノスケール磁気顕微鏡の代替手法を実装した。 ドーナツビーム超解像法と光学的に検出された磁気共鳴分光法を組み合わせることで, 30nmの酸化鉄ナノ粒子が生成する磁場を撮像した。 磁気顕微鏡は横方向の空間分解能が約100nmであり、粒子間間隔が約190nmのナノ粒子のクラスターから個々の磁気双極子特性を分解する。 磁気特性振幅は、近接検出ボクセル内のNV-ナノ粒子距離が小さいため、共焦点磁気顕微鏡で得られたものよりも1桁以上大きい。 顕微鏡の空間分解能の関数として磁気点スプレッド関数と感度を分析し、ダイヤモンド2次ラマン放出や不完全なnv帯電状態制御など、現在の性能を制限する背景蛍光源を同定する。 本手法は,10mW未満の波長で,パターン照明により並列化が可能であり,ナノスケール磁気画像の新しいフォーマットを導入している。

Scanning-probe and wide-field magnetic microscopes based on Nitrogen-Vacancy (NV) centers in diamond have enabled remarkable advances in the study of biology and materials, but each method has drawbacks. Here, we implement an alternative method for nanoscale magnetic microscopy based on optical control of the charge state of NV centers in a dense layer near the diamond surface. By combining a donut-beam super-resolution technique with optically detected magnetic resonance spectroscopy, we imaged the magnetic fields produced by single 30-nm iron-oxide nanoparticles. The magnetic microscope has a lateral spatial resolution of ~100 nm, and it resolves the individual magnetic dipole features from clusters of nanoparticles with interparticle spacings down to ~190 nm. The magnetic feature amplitudes are more than an order of magnitude larger than those obtained by confocal magnetic microscopy due to the smaller characteristic NV-nanoparticle distance within nearby sensing voxels. We analyze the magnetic point-spread function and sensitivity as a function of the microscope's spatial resolution and identify sources of background fluorescence that limit the present performance, including diamond second-order Raman emission and imperfect NV charge-state control. Our method, which uses less than 10 mW laser power and can be parallelized by patterned illumination, introduces a new format for nanoscale magnetic imaging.
翻訳日:2023-10-12 07:18:47 公開日:2023-10-09
# 時系列の深部最適タイミング戦略

Deep Optimal Timing Strategies for Time Series ( http://arxiv.org/abs/2310.05479v1 )

ライセンス: Link先を確認
Chen Pan, Fan Zhou, Xuanwei Hu, Xinxin Zhu, Wenxin Ning, Zi Zhuang, Siqiao Xue, James Zhang, and Yunhua Hu(参考訳) 最高の将来の実行時間を決定することは、時系列予測を進化させながら多くのビジネス活動において重要なタスクであり、最適なタイミング戦略は観測データによって駆動されるそのようなソリューションを提供する。 このソリューションには、運用コストを削減するための貴重なアプリケーションがたくさんあります。 本稿では,確率的時系列予測タスクと最適タイミング決定タスクを組み合わせたメカニズムを提案する。 具体的には、確率的予測アルゴリズムによって時系列の将来の経路を生成するが、これは他の一般的な手法と同様に、強力な事前知識に依存する高度な数学的動的モデルを必要としない。 最適な実行時間を求めるために、最適な停止問題として決定タスクを定式化し、最適時間を近似するためにリカレントニューラルネットワーク構造(RNN)を用いる。 Githubリポジトリ: \url{github.com/ChenPopper/optimal_timing_TSF}。

Deciding the best future execution time is a critical task in many business activities while evolving time series forecasting, and optimal timing strategy provides such a solution, which is driven by observed data. This solution has plenty of valuable applications to reduce the operation costs. In this paper, we propose a mechanism that combines a probabilistic time series forecasting task and an optimal timing decision task as a first systematic attempt to tackle these practical problems with both solid theoretical foundation and real-world flexibility. Specifically, it generates the future paths of the underlying time series via probabilistic forecasting algorithms, which does not need a sophisticated mathematical dynamic model relying on strong prior knowledge as most other common practices. In order to find the optimal execution time, we formulate the decision task as an optimal stopping problem, and employ a recurrent neural network structure (RNN) to approximate the optimal times. Github repository: \url{github.com/ChenPopper/optimal_timing_TSF}.
翻訳日:2023-10-12 07:10:35 公開日:2023-10-09
# Ictによる教育の活性化--日本の現状を振り返って

Revitalizing education through ict: a short overview of japan's current landscape ( http://arxiv.org/abs/2310.05476v1 )

ライセンス: Link先を確認
Takaaki Fujita(参考訳) 近年,情報通信技術(ICT)教育の分野が注目されている。 しかし、この領域には、金銭的費用、時間的要因、教育環境、教員養成プログラム、インセンティブ、シラバスの設計、健康に関する懸念など、いくつかの課題がある。 本稿では,日本におけるict教育の課題を10の異なる視点から分析する。 本項のピアレビュー記事は「Fujita, T. (2023). REVITALIZING EDUCATION THROUGH ICT: A SHORT OVERVIEW OF JAPAN's CURRENT LANDSCAPE. European Journal of Social Sciences Studies, 8(5)」にも存在している。

The domain of Information and Communication Technology (ICT) education has garnered significant consideration in recent times. However, several challenges are inherent to this area of study, including monetary expense, temporal factors, pedagogical environment, teacher training programs, incentive, syllabus design, and health-related concerns. This paper presents an analysis of the difficulties encountered in the realm of ICT education in Japan, taking into account ten different perspectives. A peer-reviewed article of this Preprint also exists "Fujita, T. (2023). REVITALIZING EDUCATION THROUGH ICT: A SHORT OVERVIEW OF JAPAN'S CURRENT LANDSCAPE. European Journal of Social Sciences Studies, 8(5)."
翻訳日:2023-10-12 07:10:20 公開日:2023-10-09
# 文レベルのプロンプトによる画像検索

Sentence-level Prompts Benefit Composed Image Retrieval ( http://arxiv.org/abs/2310.05473v1 )

ライセンス: Link先を確認
Yang Bai, Xinxing Xu, Yong Liu, Salman Khan, Fahad Khan, Wangmeng Zuo, Rick Siow Mong Goh, Chun-Mei Feng(参考訳) 合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。 ほとんどの既存のCIRモデルは、視覚的特徴と言語的特徴を組み合わせたレイトフュージョン戦略を採用している。 さらに、参照画像から擬似単語トークンを生成するためのいくつかのアプローチも提案されており、CIRの相対字幕にさらに統合されている。 しかし、これらの擬単語ベースのプロンプト手法は、対象画像が参照画像の複雑な変化を含む場合、例えば、オブジェクトの削除や属性の修正など、制限がある。 本研究では,相対字幕(SPRC)に対する適切な文レベルプロンプトの学習が,効率的な合成画像検索を実現するのに十分であることを示す。 疑似単語ベースのプロンプトに頼る代わりに、BLIP-2のような事前訓練されたV-Lモデルを用いて文レベルのプロンプトを生成することを提案する。 学習した文レベルのプロンプトを相対キャプションと組み合わせることで、既存のテキストベースの画像検索モデルを使ってCIR性能を向上させることができる。 さらに、適切な文レベルのプロンプトの学習を強制するために、画像テキストのコントラスト損失とテキストプロンプトアライメントロスの両方を導入する。 実験の結果,提案手法はFashion-IQおよびCIRRデータセット上の最先端CIR手法に対して良好に動作することがわかった。 ソースコードと事前訓練済みモデルはhttps://github.com/chunmeifeng/SPRCで公開されている。

Composed image retrieval (CIR) is the task of retrieving specific images by using a query that involves both a reference image and a relative caption. Most existing CIR models adopt the late-fusion strategy to combine visual and language features. Besides, several approaches have also been suggested to generate a pseudo-word token from the reference image, which is further integrated into the relative caption for CIR. However, these pseudo-word-based prompting methods have limitations when target image encompasses complex changes on reference image, e.g., object removal and attribute modification. In this work, we demonstrate that learning an appropriate sentence-level prompt for the relative caption (SPRC) is sufficient for achieving effective composed image retrieval. Instead of relying on pseudo-word-based prompts, we propose to leverage pretrained V-L models, e.g., BLIP-2, to generate sentence-level prompts. By concatenating the learned sentence-level prompt with the relative caption, one can readily use existing text-based image retrieval models to enhance CIR performance. Furthermore, we introduce both image-text contrastive loss and text prompt alignment loss to enforce the learning of suitable sentence-level prompts. Experiments show that our proposed method performs favorably against the state-of-the-art CIR methods on the Fashion-IQ and CIRR datasets. The source code and pretrained model are publicly available at https://github.com/chunmeifeng/SPRC
翻訳日:2023-10-12 07:10:03 公開日:2023-10-09
# Intelligent Tutoring System: ソフトウェア工学とプログラミング教育をリンクした経験

Intelligent Tutoring System: Experience of Linking Software Engineering and Programming Teaching ( http://arxiv.org/abs/2310.05472v1 )

ライセンス: Link先を確認
Zhiyu Fan, Yannic Noller, Ashish Dandekar, Abhik Roychoudhury(参考訳) コンピュータサイエンスの学生の増加は、学生に高品質なフィードバックを提供するために、初年のプログラミングコースの講師や講師をその限界まで押し付けている。 自動グレーディングを処理する既存のシステムは、主にプログラミングの割り当てのコンテキストにおけるテストケースの実行の自動化に焦点を当てている。 しかし、学生の誤りに関するカスタマイズされたフィードバックは提供できないため、教師の助けに取って代わることはできない。 近年, 自動グルーピングとフィードバック生成の分野では, 自動修理技術を用いてこの問題に対処する研究が行われているが, これまでのところ, 我々の知る限りでは, 実際の展開は行われていない。 近年の研究成果を踏まえて,自動フィードバックと採点機能を備えたインテリジェントな指導システムを構築した。 さらに,3年制の大学生を対象に,今後数年間で段階的なシステム開発を指導するソフトウェア工学コースを設計した。 毎年,学生は,現在の実施を改善するための貢献をすると同時に,初年度までに現在のシステムをデプロイすることができる。 本稿では,教育概念,知的指導システムアーキテクチャ,利害関係者との体験について述べる。 学生のためのこのソフトウェアエンジニアリングプロジェクトは、システム利用者が社内で利用可能である(最初のプログラミングコースの学生、家庭教師、講師など)という重要な利点を持っている。 これにより、要件エンジニアリングセッションの組織化や、“デプロイする”ソフトウェアプロジェクトへの貢献に対する意識の構築を支援します。 この多年制の授業では、初年度のプログラミングコースで利用できるチューリングシステムを段階的に構築した。 さらに、最新の研究成果を教育のためのAPRに統合できるプラットフォームを代表している。

The increasing number of computer science students pushes lecturers and tutors of first-year programming courses to their limits to provide high-quality feedback to the students. Existing systems that handle automated grading primarily focus on the automation of test case executions in the context of programming assignments. However, they cannot provide customized feedback about the students' errors, and hence, cannot replace the help of tutors. While recent research works in the area of automated grading and feedback generation address this issue by using automated repair techniques, so far, to the best of our knowledge, there has been no real-world deployment of such techniques. Based on the research advances in recent years, we have built an intelligent tutoring system that has the capability of providing automated feedback and grading. Furthermore, we designed a Software Engineering course that guides third-year undergraduate students in incrementally developing such a system over the coming years. Each year, students will make contributions that improve the current implementation, while at the same time, we can deploy the current system for usage by first year students. This paper describes our teaching concept, the intelligent tutoring system architecture, and our experience with the stakeholders. This software engineering project for the students has the key advantage that the users of the system are available in-house (i.e., students, tutors, and lecturers from the first-year programming courses). This helps organize requirements engineering sessions and builds awareness about their contribution to a "to be deployed" software project. In this multi-year teaching effort, we have incrementally built a tutoring system that can be used in first-year programming courses. Further, it represents a platform that can integrate the latest research results in APR for education.
翻訳日:2023-10-12 07:09:41 公開日:2023-10-09
# アライメントを評価するための生成的裁判官

Generative Judge for Evaluating Alignment ( http://arxiv.org/abs/2310.05470v1 )

ライセンス: Link先を確認
Junlong Li, Shichao Sun, Weizhe Yuan, Run-Ze Fan, Hai Zhao, Pengfei Liu(参考訳) 大規模言語モデル(llms)の急速な開発は、彼らが対処できるタスクの範囲を大きく広げた。 自然言語処理(NLP)の分野では、研究者は従来のNLPタスク(例えば、シーケンスタグ付けや解析)から、人間の要求に沿ったタスク(例えば、ブレインストーミングや電子メールの書き込み)へと焦点を移した。 このタスク分散の変化は、汎用性(さまざまなシナリオにおけるパフォーマンス評価)、柔軟性(異なるプロトコル下での検証)、解釈可能性(説明付きモデルの精査)に関するこれらの整合モデルを評価する上で、新たな要件を課す。 本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。 本モデルは,大規模な実世界シナリオ下でユーザクエリとllm生成応答を訓練し,構造化された自然言語批判に対して,多様な評価プロトコル(ペアワイズ応答比較や単一応答評価など)を適応させる。 提案手法の有効性を示すため,58のシナリオをカバーする新しいテストベッドを構築した。 実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力な競争相手をはるかに上回っている。 また,本手法の可能性を明らかにするための詳細な分析とケーススタディをhttps://github.com/GAIR-NLP/auto-j.で公開しています。

The rapid development of Large Language Models (LLMs) has substantially expanded the range of tasks they can address. In the field of Natural Language Processing (NLP), researchers have shifted their focus from conventional NLP tasks (e.g., sequence tagging and parsing) towards tasks that revolve around aligning with human needs (e.g., brainstorming and email writing). This shift in task distribution imposes new requirements on evaluating these aligned models regarding generality (i.e., assessing performance across diverse scenarios), flexibility (i.e., examining under different protocols), and interpretability (i.e., scrutinizing models with explanations). In this paper, we propose a generative judge with 13B parameters, Auto-J, designed to address these challenges. Our model is trained on user queries and LLM-generated responses under massive real-world scenarios and accommodates diverse evaluation protocols (e.g., pairwise response comparison and single-response evaluation) with well-structured natural language critiques. To demonstrate the efficacy of our approach, we construct a new testbed covering 58 different scenarios. Experimentally, Auto-J outperforms a series of strong competitors, including both open-source and closed-source models, by a large margin. We also provide detailed analysis and case studies to further reveal the potential of our method and make a variety of resources public at https://github.com/GAIR-NLP/auto-j.
翻訳日:2023-10-12 07:09:14 公開日:2023-10-09
# クエリベース演算子ネットワークによる振動周波数応答予測

Vibroacoustic Frequency Response Prediction with Query-based Operator Networks ( http://arxiv.org/abs/2310.05469v1 )

ライセンス: Link先を確認
Jan van Delden, Julius Schultz, Christopher Blech, Sabine C. Langer, Timo L\"uddecke(参考訳) 航空機や車、家などの機械構造における振動波の伝播を理解することは、ユーザーの健康と快適性を確保するために重要である。 このようなシステムを分析するため、設計者や技術者は、有限要素法のような高価な数値シミュレーションによって計算される周波数領域の動的応答を主に検討した。 対照的に、データ駆動サロゲートモデルはこれらのシミュレーションを高速化し、設計最適化、不確実性定量化、設計空間探索といったタスクを容易にする。 本研究では, 振動板の周波数応答を推定し, ビーディングの形状が変化する場合の周波数応答を推定する。 このベンチマークは12,000のプレート測地と関連する数値解を持ち、予測品質の定量化のための評価指標を導入する。 周波数応答予測課題に対処するために,プレート測地を周波数応答関数にマッピングするように訓練した新しい周波数クエリー演算子モデルを提案する。 形状符号化のための演算子学習と暗黙モデルの統合により,周波数応答の共振ピークの予測を効果的に行う。 我々はこの手法を振動板ベンチマークで評価し、deeponets、フーリエニューラルネットワークオペレーター、より伝統的なニューラルネットワークアーキテクチャよりも優れていることを突き止めた。 コードとデータセットはhttps://eckerlab.org/code/delden2023_plateから利用できる。

Understanding vibroacoustic wave propagation in mechanical structures like airplanes, cars and houses is crucial to ensure health and comfort of their users. To analyze such systems, designers and engineers primarily consider the dynamic response in the frequency domain, which is computed through expensive numerical simulations like the finite element method. In contrast, data-driven surrogate models offer the promise of speeding up these simulations, thereby facilitating tasks like design optimization, uncertainty quantification, and design space exploration. We present a structured benchmark for a representative vibroacoustic problem: Predicting the frequency response for vibrating plates with varying forms of beadings. The benchmark features a total of 12,000 plate geometries with an associated numerical solution and introduces evaluation metrics to quantify the prediction quality. To address the frequency response prediction task, we propose a novel frequency query operator model, which is trained to map plate geometries to frequency response functions. By integrating principles from operator learning and implicit models for shape encoding, our approach effectively addresses the prediction of resonance peaks of frequency responses. We evaluate the method on our vibrating-plates benchmark and find that it outperforms DeepONets, Fourier Neural Operators and more traditional neural network architectures. The code and dataset are available from https://eckerlab.org/code/delden2023_plate.
翻訳日:2023-10-12 07:08:44 公開日:2023-10-09
# ExIFFI と EIF+: 森林拡張のための解釈可能性と一般化性の向上

ExIFFI and EIF+: Interpretability and Enhanced Generalizability to Extend the Extended Isolation Forest ( http://arxiv.org/abs/2310.05468v1 )

ライセンス: Link先を確認
Alessio Arcudi, Davide Frizzo, Chiara Masiero, Gian Antonio Susto(参考訳) 重要な教師なし機械学習タスクである異常検出では、複雑なデータセットやシステム内の異常な振る舞いを特定する。 機械学習アルゴリズムと意思決定支援システム(DSS)は、このタスクに効果的なソリューションを提供するが、現実のアプリケーションでは多くの場合、異常を指摘できない。 これらのシステムのユーザは、ルート原因分析を促進し、モデルに対する信頼を育むために、予測の背後にある根本的な理由に関する洞察を必要とすることが多い。 しかしながら、異常検出の教師なしの性質のため、解釈可能なツールの作成は困難である。 本研究は、一般化能力を高めるために設計された拡張隔離林(EIF)の拡張版であるEIF+を紹介する。 また,ExIFFIは,特に特徴ランキングの解釈可能性を持つ拡張隔離林を具備する新しいアプローチである。 実験結果から,Anomaly Detectionに対する分離に基づくアプローチの包括的比較分析を行い,ExIFFIの有効性を示す合成および実データセットの評価を行った。 また,ExIFFIが教師なし設定において有効な特徴選択手法であることを示す。 さらなる研究と再現性を促進するため、結果を再現するオープンソースコードも提供します。

Anomaly detection, an essential unsupervised machine learning task, involves identifying unusual behaviors within complex datasets and systems. While Machine Learning algorithms and decision support systems (DSSs) offer effective solutions for this task, simply pinpointing anomalies often falls short in real-world applications. Users of these systems often require insight into the underlying reasons behind predictions to facilitate Root Cause Analysis and foster trust in the model. However, due to the unsupervised nature of anomaly detection, creating interpretable tools is challenging. This work introduces EIF+, an enhanced variant of Extended Isolation Forest (EIF), designed to enhance generalization capabilities. Additionally, we present ExIFFI, a novel approach that equips Extended Isolation Forest with interpretability features, specifically feature rankings. Experimental results provide a comprehensive comparative analysis of Isolation-based approaches for Anomaly Detection, including synthetic and real dataset evaluations that demonstrate ExIFFI's effectiveness in providing explanations. We also illustrate how ExIFFI serves as a valid feature selection technique in unsupervised settings. To facilitate further research and reproducibility, we also provide open-source code to replicate the results.
翻訳日:2023-10-12 07:08:21 公開日:2023-10-09
# 周波数領域からの時系列分類における1D-CNNの学習行動の理解を支援する時間畳み込みエクスプローラー

Temporal Convolutional Explorer Helps Understand 1D-CNN's Learning Behavior in Time Series Classification from Frequency Domain ( http://arxiv.org/abs/2310.05467v1 )

ライセンス: Link先を確認
Junru Zhang, Lang Feng, Yang He, Yuhan Wu, Yabo Dong(参考訳) 1次元畳み込みニューラルネットワーク (1d-cnns) は, 時系列分類タスクにおいて実験的に有効であることが証明されているが, その応用において起こりうる望ましくない結果が残っており, その基礎となるメカニズムをさらに調査し, 理解する動機となっている。 本研究では、周波数領域の観点から1D-CNNの学習挙動を実証的に探索するTCE(Temporal Convolutional Explorer)を提案する。 TCE分析は、より深い1D-CNNは、精度劣化現象につながる低周波成分から焦点を逸らしがちであり、乱れた畳み込みが駆動要因であることを示している。 そこで本研究では,既存の1D-CNNに容易に統合可能な規制フレームワークを提案する。 ネットワークが特定の乱れた畳み込みを選択的に回避できるようにすることで、最適学習行動の修正を目指す。 最後に、広く使われているUCR、UEA、UCIベンチマークに関する総合的な実験を通じて、我々はそれを実証した。 1)1D-CNNの学習行動に関するTCEの知見 2)最先端の1d-cnnsによるメモリ消費と計算オーバーヘッドの低減による性能向上を実現する。

While one-dimensional convolutional neural networks (1D-CNNs) have been empirically proven effective in time series classification tasks, we find that there remain undesirable outcomes that could arise in their application, motivating us to further investigate and understand their underlying mechanisms. In this work, we propose a Temporal Convolutional Explorer (TCE) to empirically explore the learning behavior of 1D-CNNs from the perspective of the frequency domain. Our TCE analysis highlights that deeper 1D-CNNs tend to distract the focus from the low-frequency components leading to the accuracy degradation phenomenon, and the disturbing convolution is the driving factor. Then, we leverage our findings to the practical application and propose a regulatory framework, which can easily be integrated into existing 1D-CNNs. It aims to rectify the suboptimal learning behavior by enabling the network to selectively bypass the specified disturbing convolutions. Finally, through comprehensive experiments on widely-used UCR, UEA, and UCI benchmarks, we demonstrate that 1) TCE's insight into 1D-CNN's learning behavior; 2) our regulatory framework enables state-of-the-art 1D-CNNs to get improved performances with less consumption of memory and computational overhead.
翻訳日:2023-10-12 07:08:02 公開日:2023-10-09
# ロジスティック回帰のためのコスト-感度ベスト・サブセット選択:混合整数コニック最適化の視点

Cost-Sensitive Best Subset Selection for Logistic Regression: A Mixed-Integer Conic Optimization Perspective ( http://arxiv.org/abs/2310.05464v1 )

ライセンス: Link先を確認
Ricardo Knauer and Erik Rodner(参考訳) 機械学習の重要な課題は、特に臨床領域において、透明な予測を行うための最適なサブセットに入力を縮小できる解釈可能なモデルを設計することだ。 本研究では,混合整数型円錐最適化の観点から,ロジスティック回帰のための最適特徴選択手法を提案する。 文献の広範なレビューに基づいて,臨床予後モデル研究のための合成データセット生成装置を慎重に作成する。 これにより、異なるヒューリスティックおよび最適濃度と予算制約された特徴選択手順を体系的に評価することができる。 この分析は、低データ状態とラベルノイズに直面する場合の手法の重要な限界を示す。 本稿は,適切な手法やデータセット設計に関する実証的な勧告を提供するだけでなく,メタラーニング分野における今後の研究の道を開く。

A key challenge in machine learning is to design interpretable models that can reduce their inputs to the best subset for making transparent predictions, especially in the clinical domain. In this work, we propose a certifiably optimal feature selection procedure for logistic regression from a mixed-integer conic optimization perspective that can take an auxiliary cost to obtain features into account. Based on an extensive review of the literature, we carefully create a synthetic dataset generator for clinical prognostic model research. This allows us to systematically evaluate different heuristic and optimal cardinality- and budget-constrained feature selection procedures. The analysis shows key limitations of the methods for the low-data regime and when confronted with label noise. Our paper not only provides empirical recommendations for suitable methods and dataset designs, but also paves the way for future research in the area of meta-learning.
翻訳日:2023-10-12 07:07:41 公開日:2023-10-09
# AdaFuse:空間/周波数交差注意に基づく適応医療画像融合

AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential Cross Attention ( http://arxiv.org/abs/2310.05462v1 )

ライセンス: Link先を確認
Xianming Gu, Lihui Wang, Zeyu Deng, Ying Cao, Xingyu Huang and Yue-min Zhu(参考訳) マルチモーダル画像の融合は, 多モーダル画像の相補的情報を単一の画像にマージできるため, 正確な臨床診断と手術ナビゲーションに不可欠である。 融合画像の品質は、抽出された単一モダリティの特徴と、マルチモーダル情報に対する融合規則に依存する。 既存の深層学習に基づく融合法では各モードの意味的特徴を完全に活用することができ、各モードの有効低周波情報と高周波情報を識別することができず、適応的に融合することができない。 本稿では,フーリエ変換に基づく周波数誘導注意機構を用いてマルチモーダル画像情報を適応的に融合するadafuseを提案する。 具体的には,鍵と問合せ値の交換により空間領域と周波数領域の2つのモダリティの特徴を適応的に融合し,空間と周波数の特徴間のクロスアテンションスコアを算出し,空間と周波数の融合をさらに導くクロスアテンション融合(caf)ブロックを提案する。 cafブロックは、異なるモダリティの高周波特性を高め、融合画像の詳細を保持することができる。 さらに,低周波情報と高周波情報の両方を保持するために,構造損失とコンテンツ損失からなる新しい損失関数を設計する。 いくつかのデータセットにおける広範囲な比較実験により、提案手法が視覚品質と定量的指標の両方において最先端の手法よりも優れていることが示されている。 アブレーション実験は, 提案した損失・融合戦略の有効性も検証した。 私たちのコードはhttps://github.com/xianming-gu/adafuseで公開されています。

Multi-modal medical image fusion is essential for the precise clinical diagnosis and surgical navigation since it can merge the complementary information in multi-modalities into a single image. The quality of the fused image depends on the extracted single modality features as well as the fusion rules for multi-modal information. Existing deep learning-based fusion methods can fully exploit the semantic features of each modality, they cannot distinguish the effective low and high frequency information of each modality and fuse them adaptively. To address this issue, we propose AdaFuse, in which multimodal image information is fused adaptively through frequency-guided attention mechanism based on Fourier transform. Specifically, we propose the cross-attention fusion (CAF) block, which adaptively fuses features of two modalities in the spatial and frequency domains by exchanging key and query values, and then calculates the cross-attention scores between the spatial and frequency features to further guide the spatial-frequential information fusion. The CAF block enhances the high-frequency features of the different modalities so that the details in the fused images can be retained. Moreover, we design a novel loss function composed of structure loss and content loss to preserve both low and high frequency information. Extensive comparison experiments on several datasets demonstrate that the proposed method outperforms state-of-the-art methods in terms of both visual quality and quantitative metrics. The ablation experiments also validate the effectiveness of the proposed loss and fusion strategy. Our code is publicly available at https://github.com/xianming-gu/AdaFuse.
翻訳日:2023-10-12 07:07:27 公開日:2023-10-09
# XAL: 説明可能なアクティブラーニングは、低リソースラーナーをより良くする

XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners ( http://arxiv.org/abs/2310.05502v1 )

ライセンス: Link先を確認
Yun Luo and Zhen Yang and Fandong Meng and Yingjie Li and Fang Guo and Qinglin Qi and Jie Zhou and Yue Zhang(参考訳) アクティブラーニングは、低リソースタスクで実践的なアノテーションのための最も情報に富んだ未ラベルデータを反復的にキュレートすることで、効果的なトレーニングセットを構築することを目的としている。 ほとんどのアクティブな学習手法は、ラベルのないデータを選択するのにモデルの不確実性や不一致に依存する。 しかし、これまでの研究では、既存のモデルでは予測の不確実性が定量化できないため、表面パターンの過信と探索の欠如に繋がる可能性がある。 低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。このフレームワークは,推論を正当化し,合理的な説明ができないラベル付きデータに探索することを目的としている。 具体的には,事前学習された双方向エンコーダを用いた分類に加えて,事前学習された一方向デコーダを用いて説明の生成とスコア付けを行う。 説明のスコアリングにおけるデコーダの能力を高めるためにランキング損失を提案する。 ラベルなしデータの選択中,エンコーダの予測不確実性とデコーダの説明スコアを組み合わせることで,アノテーションのための情報データを取得する。 XALはテキスト分類の一般的なフレームワークであるため、6つの異なる分類タスクでメソッドをテストする。 大規模な実験により、XALは以前のAL法よりも6つのタスクすべてを大幅に改善した。 アブレーション研究は各成分の有効性を示し、人間の評価ではxalで訓練されたモデルがその予測を説明するのに驚くほど効果的であることを示している。

Active learning aims to construct an effective training set by iteratively curating the most informative unlabeled data for annotation, which is practical in low-resource tasks. Most active learning techniques in classification rely on the model's uncertainty or disagreement to choose unlabeled data. However, previous work indicates that existing models are poor at quantifying predictive uncertainty, which can lead to over-confidence in superficial patterns and a lack of exploration. Inspired by the cognitive processes in which humans deduce and predict through causal information, we propose a novel Explainable Active Learning framework (XAL) for low-resource text classification, which aims to encourage classifiers to justify their inferences and delve into unlabeled data for which they cannot provide reasonable explanations. Specifically, besides using a pre-trained bi-directional encoder for classification, we employ a pre-trained uni-directional decoder to generate and score the explanation. A ranking loss is proposed to enhance the decoder's capability in scoring explanations. During the selection of unlabeled data, we combine the predictive uncertainty of the encoder and the explanation score of the decoder to acquire informative data for annotation. As XAL is a general framework for text classification, we test our methods on six different classification tasks. Extensive experiments show that XAL achieves substantial improvement on all six tasks over previous AL methods. Ablation studies demonstrate the effectiveness of each component, and human evaluation shows that the model trained in XAL performs surprisingly well in explaining its prediction.
翻訳日:2023-10-12 07:01:35 公開日:2023-10-09
# グラフと大規模言語モデルの統合:方法と展望

Integrating Graphs with Large Language Models: Methods and Prospects ( http://arxiv.org/abs/2310.05499v1 )

ライセンス: Link先を確認
Shirui Pan, Yizhen Zheng, Yixin Liu(参考訳) GPT-4のような大規模言語モデル(LLM)が最前線として登場し、クエリの応答やコード生成など、様々なアプリケーションで非並列の進歩を見せている。 グラフ構造化データ(本質的なデータ型)は、現実のシナリオで広く普及している。 LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。 本稿では,これらの積分を2つのカテゴリに分岐する。 1つ目はLLMをグラフ学習に利用し、LLMは既存のグラフアルゴリズムを拡張できるだけでなく、様々なグラフタスクの予測モデルとしても機能する。 逆に、第2のカテゴリは、llmの進歩におけるグラフの重要な役割を強調する。 人間の認知を反映し、推論とコラボレーションの両方でグラフを採用することで複雑なタスクを解決します。 このような構造と統合することで、様々な複雑なタスクにおいてLLMの性能を大幅に向上させることができる。 また、LLMとグラフ構造化データを統合するためのオープンな質問についても検討し、提案する。

Large language models (LLMs) such as GPT-4 have emerged as frontrunners, showcasing unparalleled prowess in diverse applications, including answering queries, code generation, and more. Parallelly, graph-structured data, an intrinsic data type, is pervasive in real-world scenarios. Merging the capabilities of LLMs with graph-structured data has been a topic of keen interest. This paper bifurcates such integrations into two predominant categories. The first leverages LLMs for graph learning, where LLMs can not only augment existing graph algorithms but also stand as prediction models for various graph tasks. Conversely, the second category underscores the pivotal role of graphs in advancing LLMs. Mirroring human cognition, we solve complex tasks by adopting graphs in either reasoning or collaboration. Integrating with such structures can significantly boost the performance of LLMs in various complicated tasks. We also discuss and propose open questions for integrating LLMs with graph-structured data for the future direction of the field.
翻訳日:2023-10-12 07:01:07 公開日:2023-10-09
# リモートセンシング画像のための未ラベルデータを用いた半監督物体検出

Semi-Supervised Object Detection with Uncurated Unlabeled Data for Remote Sensing Images ( http://arxiv.org/abs/2310.05498v1 )

ライセンス: Link先を確認
Nanqing Liu, Xun Xu, Yingjie Gao, Heng-Chao Li(参考訳) リモートセンシング画像(RSIs)のアノテートは、労働集約性から顕著な課題である。 半教師付きオブジェクト検出(SSOD)メソッドは、ラベル付きデータセットにあるすべてのクラスがラベル付きデータに表現されていることを前提として、ラベル付きデータに対して擬似ラベルを生成することでこの問題に対処する。 しかし、現実の状況では、ラベルなしデータセット内の分布外サンプル(OOD)と分布内サンプル(ID)が混在する可能性がある。 本稿では,Open-Set Semi-Supervised Object Detection (OSSOD)と呼ばれる未修正データに対してSSODを直接実施する手法について検討する。 本手法は,各クラス固有の特徴をキャプチャするクラスワイド機能バンク(CFB)を動的に構築するために,ラベル付き分散データを用いて開始する。 次に、予測対象境界ボックスの特徴とCFBの対応するエントリを比較し、OODスコアを計算する。 我々はCFBの統計的特性に基づいて適応閾値を設計し、OODサンプルを効果的にフィルタリングする。 提案手法の有効性は,広く利用されている2つのリモートセンシング対象検出データセットである dior と dota の広範な実験により検証された。 これらの実験は, RSIにおけるOSSODの優れた性能と有効性を示すものである。

Annotating remote sensing images (RSIs) presents a notable challenge due to its labor-intensive nature. Semi-supervised object detection (SSOD) methods tackle this issue by generating pseudo-labels for the unlabeled data, assuming that all classes found in the unlabeled dataset are also represented in the labeled data. However, real-world situations introduce the possibility of out-of-distribution (OOD) samples being mixed with in-distribution (ID) samples within the unlabeled dataset. In this paper, we delve into techniques for conducting SSOD directly on uncurated unlabeled data, which is termed Open-Set Semi-Supervised Object Detection (OSSOD). Our approach commences by employing labeled in-distribution data to dynamically construct a class-wise feature bank (CFB) that captures features specific to each class. Subsequently, we compare the features of predicted object bounding boxes with the corresponding entries in the CFB to calculate OOD scores. We design an adaptive threshold based on the statistical properties of the CFB, allowing us to filter out OOD samples effectively. The effectiveness of our proposed method is substantiated through extensive experiments on two widely used remote sensing object detection datasets: DIOR and DOTA. These experiments showcase the superior performance and efficacy of our approach for OSSOD on RSIs.
翻訳日:2023-10-12 07:00:51 公開日:2023-10-09
# ディープリニアニューラルネットワークのフェデレーション平均化に関する神経接核ビュー

A Neural Tangent Kernel View on Federated Averaging for Deep Linear Neural Network ( http://arxiv.org/abs/2310.05495v1 )

ライセンス: Link先を確認
Xin Liu, Dazhi Zhan, Wei Tao, Xin Ma, Yu Pan, Yu Ding, Zhisong Pan(参考訳) フェデレーション平均化(federated averaging, fedavg)は、データを共有せずに分散クライアントからモデルを協調的にトレーニングするためのパラダイムである。 今日では、このニューラルネットワークは、異常なパフォーマンスのために驚くべき成功を収めており、FedAvgのモデルとして好まれている。 しかし、ニューラルネットワークの最適化問題は、しばしば非滑らかでも非凸である。 さらに、FedAvgは常に複数のクライアントとローカル更新を伴い、不正確な更新方向となる。 これらの性質は、ニューラルネットワークのトレーニングにおいてFedAvgの収束を分析するのに困難をもたらす。 近年、ニューラルネットワークの非凸問題に取り組む一階法の収束を理解するために、ニューラルネットワーク(ntk)理論が提案されている。 ディープ線形ニューラルネットワークは、その単純な定式化のために理論的対象において古典的なモデルである。 それにもかかわらず、深層線形ニューラルネットワークの訓練におけるfedavgの収束に関する理論的結果は存在しない。 NTK理論を適用して、深層線形ニューラルネットワークのトレーニングにおいて、FedAvgのグローバル収束に対する最初の理論的保証を提供する。 具体的には、$t$が反復数、$\eta$が学習率、$n$がクライアント数、$k$がローカル更新数である線形レート$\mathcal{o}\big((1-\eta k /n)^t\big)$でfedavgがグローバル最小値に収束することを証明する。 最後に,2つのベンチマークデータセットにおける実験評価を行い,実験結果の正確性を実証的に検証した。

Federated averaging (FedAvg) is a widely employed paradigm for collaboratively training models from distributed clients without sharing data. Nowadays, the neural network has achieved remarkable success due to its extraordinary performance, which makes it a preferred choice as the model in FedAvg. However, the optimization problem of the neural network is often non-convex even non-smooth. Furthermore, FedAvg always involves multiple clients and local updates, which results in an inaccurate updating direction. These properties bring difficulties in analyzing the convergence of FedAvg in training neural networks. Recently, neural tangent kernel (NTK) theory has been proposed towards understanding the convergence of first-order methods in tackling the non-convex problem of neural networks. The deep linear neural network is a classical model in theoretical subject due to its simple formulation. Nevertheless, there exists no theoretical result for the convergence of FedAvg in training the deep linear neural network. By applying NTK theory, we make a further step to provide the first theoretical guarantee for the global convergence of FedAvg in training deep linear neural networks. Specifically, we prove FedAvg converges to the global minimum at a linear rate $\mathcal{O}\big((1-\eta K /N)^t\big)$, where $t$ is the number of iterations, $\eta$ is the learning rate, $N$ is the number of clients and $K$ is the number of local updates. Finally, experimental evaluations on two benchmark datasets are conducted to empirically validate the correctness of our theoretical findings.
翻訳日:2023-10-12 07:00:29 公開日:2023-10-09
# 教師付き微調整データ構成による大規模言語モデルの能力への影響

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition ( http://arxiv.org/abs/2310.05492v1 )

ライセンス: Link先を確認
Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou(参考訳) 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、算術的推論、コード生成、命令追従などの能力を持つ。 これらの能力はsft(supervised fine-tuning)によってさらに強化される。 オープンソースコミュニティは、各能力に対してアドホックなSFTについて研究しているが、プロプライエタリなLLMはすべての能力に汎用性がある。 SFTを介して複数の能力でアンロックする方法を検討することが重要である。 本研究では,SFTにおける数学的推論,コード生成,一般人適応能力間のデータ構成に着目した。 スケーリングの観点から,モデル能力とデータ量,データ合成比,モデルパラメータ,sft戦略などさまざまな要因との関係について検討した。 我々の実験によると、異なる能力は異なるスケーリングパターンを示し、大きなモデルは一般的に同じ量のデータで優れたパフォーマンスを示す。 データ量が一貫して増加するにつれて、数学的推論とコード生成が改善され、1000のサンプルで一般的な能力が向上し、ゆっくりと改善される。 データ構成の結果,低データ量では様々な能力向上が得られ,高データ量では能力の矛盾が生じている。 さらに, 合成データ量が性能に影響を及ぼすのに対し, 組成比の影響は重要でないことを示した。 SFTの戦略に関して、逐次学習の多重能力は破滅的な忘れがちである。 提案したDual-stage Mixed Fine-tuning(DMT)戦略は,まず特殊能力を学習し,次に少量の専門データを用いて汎用能力を学習し,異なるスケーリングパターンで複数の能力を学ぶための有望なソリューションを提供する。

Large language models (LLMs) with enormous pre-training tokens and parameter amounts emerge abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). The open-source community has studied on ad-hoc SFT for each ability, while proprietary LLMs are versatile for all abilities. It is important to investigate how to unlock them with multiple abilities via SFT. In this study, we specifically focus on the data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. From a scaling perspective, we investigate the relationship between model abilities and various factors including data amounts, data composition ratio, model parameters, and SFT strategies. Our experiments reveal that different abilities exhibit different scaling patterns, and larger models generally show superior performance with the same amount of data. Mathematical reasoning and code generation improve as data amounts increase consistently, while the general ability is enhanced with about a thousand samples and improves slowly. We find data composition results in various abilities improvements with low data amounts, while conflicts of abilities with high data amounts. Our experiments further show that composition data amount impacts performance, while the influence of composition ratio is insignificant. Regarding the SFT strategies, we evaluate sequential learning multiple abilities are prone to catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy learns specialized abilities first and then learns general abilities with a small amount of specialized data to prevent forgetting, offering a promising solution to learn multiple abilities with different scaling patterns.
翻訳日:2023-10-12 07:00:03 公開日:2023-10-09
# 真空誘電率と光子伝播時間ゆらぎの起源における零点エネルギー密度

Zero-point energy density at the origin of the vacuum permittivity and photon propagation time fluctuation ( http://arxiv.org/abs/2310.05488v1 )

ライセンス: Link先を確認
Christophe Hugon and Vladimir Kulikovskiy(参考訳) 仮想ゆらぎに対してゼロ点密度の真空記述を試みる。 目的の1つは真空誘電率と透過性の起源を説明し、それらの値を計算することである。 特に,仮想揺らぎによる体積の仮定を回避し,既存の計算を改善することを試みる。 もう一つの目標は、仮想揺らぎの有限寿命を仮定するモデルの試験を提案することである。 光子伝播の間、光子が確率的に閉じ込められ、仮想対によって放出されると、その伝播速度は変動する。 いくつかの既存モデルに対して伝搬時間変動を推定する。 得られた値は超短パルスを含む利用可能な技術と測定可能であり、いくつかのモデルは既存の天文学的な観測と矛盾している。 位相速度はインターフェロメトリ測定と一致するほど大きくは影響しない。

We attempt a vacuum description with zero-point density for virtual fluctuations. One of the goals is to explain the origin of the vacuum permittivity and permeability and to calculate their values. In particular we try to improve on existing calculations by avoiding assumptions on the volume occupied by virtual fluctuations. Another goal is to propose testing of the models that assume a finite lifetime of virtual fluctuation. If during a photon propagation the photon is stochastically trapped and released by virtual pairs, its propagation velocity may fluctuate. The propagation time fluctuation is estimated for several existing models. The obtained values are measurable with the available technologies involving ultra short laser pulses and some of the models are already in conflict with the existing astronomical observations. The phase velocity is not affected significantly which is consistent with the interferometric measurements.
翻訳日:2023-10-12 06:59:35 公開日:2023-10-09
# 時空間的多モーダル共変量深核点過程の積分フリートレーニング

Integration-free Training for Spatio-temporal Multimodal Covariate Deep Kernel Point Processes ( http://arxiv.org/abs/2310.05485v1 )

ライセンス: Link先を確認
Yixuan Zhang, Quyu Kong, Feng Zhou(参考訳) 本研究では,マルチモーダルな共変量情報を含む新しい深部時空間過程モデルであるDeep Kernel Mixture Point Processes (DKMPP)を提案する。 DKMPPはDeep Mixture Point Processes (DMPP)の拡張版であり、より柔軟なDeep kernelを使用してイベントと共変データの間の複雑な関係をモデル化し、モデルの表現性を向上させる。 非可積分深層カーネルによるdkmppの難解なトレーニング手順に対処するために,スコアマッチングに基づく統合フリー手法を活用し,スケーラブルな除音スコアマッチング手法を採用することにより,さらに効率を向上させる。 本研究は,dkmppとそれに対応するスコアベース推定器がベースラインモデルを上回ることを示し,共変量情報の導入,深いカーネルの利用,スコアベース推定器の利用の利点を示す。

In this study, we propose a novel deep spatio-temporal point process model, Deep Kernel Mixture Point Processes (DKMPP), that incorporates multimodal covariate information. DKMPP is an enhanced version of Deep Mixture Point Processes (DMPP), which uses a more flexible deep kernel to model complex relationships between events and covariate data, improving the model's expressiveness. To address the intractable training procedure of DKMPP due to the non-integrable deep kernel, we utilize an integration-free method based on score matching, and further improve efficiency by adopting a scalable denoising score matching method. Our experiments demonstrate that DKMPP and its corresponding score-based estimators outperform baseline models, showcasing the advantages of incorporating covariate information, utilizing a deep kernel, and employing score-based estimators.
翻訳日:2023-10-12 06:59:22 公開日:2023-10-09
# IDTraffickers:テキストエスコルト上での人的トラヒック操作のリンクと接続のためのオーサリング属性データセット

IDTraffickers: An Authorship Attribution Dataset to link and connect Potential Human-Trafficking Operations on Text Escort Advertisements ( http://arxiv.org/abs/2310.05484v1 )

ライセンス: Link先を確認
Vageesh Saxena, Benjamin Bashpole, Gijs Van Dijck, Gerasimos Spanakis(参考訳) 人身売買(HT)は、脆弱な個人に影響を及ぼし、基本的人権を侵害する世界的な問題である。 調査の結果、多くのhtケースがオンライン広告(ads)、特にエスコートマーケットに関連していることが明らかとなった。 その結果、法執行機関(LEA)では、HTベンダーの特定と接続がますます困難になっている。 この問題に対処するために、87,595のテキスト広告と5,244のベンダーラベルからなる広範なデータセットであるIDTraffickersを導入し、オンラインのエスコート市場で潜在的HTベンダーの検証と識別を可能にします。 著者識別のためのベンチマークを確立するため, 閉集合分類環境においてマクロF1スコア0.8656を達成するDeCLUTR小モデルを訓練する。 次に、訓練した分類器から抽出したスタイル表現を利用して著者確認を行い、オープンセットのランキング環境で平均r-precisionスコア0.8852を得る。 最後に、さらなる研究を奨励し、責任あるデータ共有を確保するため、データの繊細な性質を考慮して、特定の条件下で研究者に著者帰属タスクのためのIDTraffickerをリリースする計画である。 当社のデータセットとベンチマークが利用可能になれば、将来の研究者が調査結果を活用できるようになると信じており、エスコート広告の効果的なリンクや、ht指標を特定するためのより堅牢なアプローチの開発が容易になる。

Human trafficking (HT) is a pervasive global issue affecting vulnerable individuals, violating their fundamental human rights. Investigations reveal that a significant number of HT cases are associated with online advertisements (ads), particularly in escort markets. Consequently, identifying and connecting HT vendors has become increasingly challenging for Law Enforcement Agencies (LEAs). To address this issue, we introduce IDTraffickers, an extensive dataset consisting of 87,595 text ads and 5,244 vendor labels to enable the verification and identification of potential HT vendors on online escort markets. To establish a benchmark for authorship identification, we train a DeCLUTR-small model, achieving a macro-F1 score of 0.8656 in a closed-set classification environment. Next, we leverage the style representations extracted from the trained classifier to conduct authorship verification, resulting in a mean r-precision score of 0.8852 in an open-set ranking environment. Finally, to encourage further research and ensure responsible data sharing, we plan to release IDTraffickers for the authorship attribution task to researchers under specific conditions, considering the sensitive nature of the data. We believe that the availability of our dataset and benchmarks will empower future researchers to utilize our findings, thereby facilitating the effective linkage of escort ads and the development of more robust approaches for identifying HT indicators.
翻訳日:2023-10-12 06:59:02 公開日:2023-10-09
# スパースビューを用いた神経表面再構成のための幾何誘導線増補法

Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views ( http://arxiv.org/abs/2310.05483v1 )

ライセンス: Link先を確認
Jiawei Yao and Chen Wang and Tong Wu and Chuming Li(参考訳) 本稿では,スパース多視点画像からの3次元シーンとオブジェクト再構成の新たな手法を提案する。 シーン間の奥行きや一般化などの付加的な情報を利用する従来の方法とは異なり,マルチビュー入力に埋め込まれたシーンプロパティを活用して,事前のトレーニングなしに最適化のための正確な擬似ラベルを作成する。 具体的には,球面高調波を利用して新しい放射能を予測し,シーン内の点に対するすべての色観測を確率的に考慮しながら,疎視による表面再構成精度を向上させる幾何誘導手法を提案する。 また,このパイプラインはプロキシジオメトリを活用し,従来の画像ウォーピング手法では回避できなかった放射能の擬似ラベルを生成する際に,オクルージョンを正しく処理する。 Ray Augmentation (RayAug) と呼ばれるこの手法は、事前トレーニングを必要とせず、DTUおよびBlenderデータセット上で優れた結果を得ることができ、スパースビュー再構成の問題に対処する効果を実証することができる。 私たちのパイプラインは柔軟で、スパースビューのための他の暗黙的な神経再構成方法に統合できます。

In this paper, we propose a novel method for 3D scene and object reconstruction from sparse multi-view images. Different from previous methods that leverage extra information such as depth or generalizable features across scenes, our approach leverages the scene properties embedded in the multi-view inputs to create precise pseudo-labels for optimization without any prior training. Specifically, we introduce a geometry-guided approach that improves surface reconstruction accuracy from sparse views by leveraging spherical harmonics to predict the novel radiance while holistically considering all color observations for a point in the scene. Also, our pipeline exploits proxy geometry and correctly handles the occlusion in generating the pseudo-labels of radiance, which previous image-warping methods fail to avoid. Our method, dubbed Ray Augmentation (RayAug), achieves superior results on DTU and Blender datasets without requiring prior training, demonstrating its effectiveness in addressing the problem of sparse view reconstruction. Our pipeline is flexible and can be integrated into other implicit neural reconstruction methods for sparse views.
翻訳日:2023-10-12 06:58:36 公開日:2023-10-09
# キャベツはケーキより甘い? 概念空間学習のための大規模言語モデルの可能性分析

Cabbage Sweeter than Cake? Analysing the Potential of Large Language Models for Learning Conceptual Spaces ( http://arxiv.org/abs/2310.05481v1 )

ライセンス: Link先を確認
Usashi Chatterjee, Amit Gajbhiye, Steven Schockaert(参考訳) 概念空間の理論は概念の意味を表現するための影響力のある認知言語的枠組みである。 概念空間は、本質的に原始的な知覚的特徴(例えば色や大きさ)に対応する品質次元の集合から構成される。 これらの品質次元は通常、人間の判断から学習されるため、概念空間の応用は狭い領域(例えば色や味のモデル化)に限られる傾向がある。 近年,Large Language Models (LLMs) の知覚的基底表現学習能力に関する知見を取り入れ,概念空間学習におけるそのようなモデルの可能性を探る。 実験の結果,LLMは意味のある表現をある程度学習するのに有効であることがわかった。 しかし、BERTファミリーの微調整モデルは、桁違いに小さいにもかかわらず、最大のGPT-3モデルに匹敵したり、性能を上回ったりできることも判明した。

The theory of Conceptual Spaces is an influential cognitive-linguistic framework for representing the meaning of concepts. Conceptual spaces are constructed from a set of quality dimensions, which essentially correspond to primitive perceptual features (e.g. hue or size). These quality dimensions are usually learned from human judgements, which means that applications of conceptual spaces tend to be limited to narrow domains (e.g. modelling colour or taste). Encouraged by recent findings about the ability of Large Language Models (LLMs) to learn perceptually grounded representations, we explore the potential of such models for learning conceptual spaces. Our experiments show that LLMs can indeed be used for learning meaningful representations to some extent. However, we also find that fine-tuned models of the BERT family are able to match or even outperform the largest GPT-3 model, despite being 2 to 3 orders of magnitude smaller.
翻訳日:2023-10-12 06:58:16 公開日:2023-10-09
# 数論を用いた有限辺グラフへの無限時系列グラフの射影

Projecting infinite time series graphs to finite marginal graphs using number theory ( http://arxiv.org/abs/2310.05526v1 )

ライセンス: Link先を確認
Andreas Gerhardus, Jonas Wahl, Sofia Faltenbacher, Urmi Ninad, Jakob Runge(参考訳) 近年,時系列データに因果グラフモデルフレームワークを適用し応用する手法や応用が増えている。 これらの作品の多くは、過去と未来に無限に拡張され、エッジが時間内に反復的である時間分解因果グラフを用いており、定常因果関係の仮定を反映している。 しかし、因果モデルフレームワークのほとんどの結果とアルゴリズムは無限グラフ向けに設計されていない。 本研究では,有限時間窓上の辺縁モデルに対して,繰り返しエッジを持つ無限時系列グラフを投影する手法を開発した。 これらの有限辺グラフは、それまで未解決だった無限グラフに関して、$m$-分離クエリに対する答えを提供する。 さらに,これらの辺グラフは,時系列における因果的発見と因果的効果推定に有用であり,有限グラフで開発された結果を無限グラフに適用することができる。 プロジェクション手順は、投影されるグラフの共通の祖先を見つけることに依存しており、それ自体は新しいものではない。 しかし、射影手順は、これらの無限グラフにおいて、共通の祖先を生み出す可能性のある無限個の経路の集合が存在する可能性があるため、時系列グラフに対してアルゴリズム的に実装されていない。 有限有向グラフに対する経路探索法と線形ディオファントス方程式の解理論の興味深い組み合わせにより、これらの無限個の経路の集合の探索を解く。 このプロジェクションを実行するアルゴリズムを提供することにより,本論文は,様々な因果推論手法の理論的および手法に依存しない一般化に向けて重要な一歩を踏み出した。

In recent years, a growing number of method and application works have adapted and applied the causal-graphical-model framework to time series data. Many of these works employ time-resolved causal graphs that extend infinitely into the past and future and whose edges are repetitive in time, thereby reflecting the assumption of stationary causal relationships. However, most results and algorithms from the causal-graphical-model framework are not designed for infinite graphs. In this work, we develop a method for projecting infinite time series graphs with repetitive edges to marginal graphical models on a finite time window. These finite marginal graphs provide the answers to $m$-separation queries with respect to the infinite graph, a task that was previously unresolved. Moreover, we argue that these marginal graphs are useful for causal discovery and causal effect estimation in time series, effectively enabling to apply results developed for finite graphs to the infinite graphs. The projection procedure relies on finding common ancestors in the to-be-projected graph and is, by itself, not new. However, the projection procedure has not yet been algorithmically implemented for time series graphs since in these infinite graphs there can be infinite sets of paths that might give rise to common ancestors. We solve the search over these possibly infinite sets of paths by an intriguing combination of path-finding techniques for finite directed graphs and solution theory for linear Diophantine equations. By providing an algorithm that carries out the projection, our paper makes an important step towards a theoretically-grounded and method-agnostic generalization of a range of causal inference methods and results to time series.
翻訳日:2023-10-12 06:51:09 公開日:2023-10-09
# ニューラルインプリシト表面のパラメータ化のための双方向変形

Bi-directional Deformation for Parameterization of Neural Implicit Surfaces ( http://arxiv.org/abs/2310.05524v1 )

ライセンス: Link先を確認
Baixin Xu and Jiangbei Hu and Fei Hou and Kwan-Yee Lin and Wayne Wu and Chen Qian and Ying He(参考訳) ニューラルレンダリングの能力の増大は、3Dオブジェクトの直感的な編集を可能にする新しい技術、特にニューラルな暗黙の表面として表現される場合の需要を高めている。 本稿では,3次元放射場を2次元場として表現できる球,立方体,多角体などの単純なパラメトリック領域に対して,ニューラルネットワークの暗黙的表面をパラメータ化する新しいニューラルアルゴリズムを提案する。 技術的には、3dオブジェクトとその選択したパラメトリックドメイン間の双方向変形を計算し、事前情報の必要性をなくす。 我々は、3次元物体の零レベル集合上の点の前方マッピングをパラメトリック領域に適用し、次に逆変形による後方マッピングを行う。 写像が単射であることを保証するために、両方の変形の滑らかさを最適化しながらサイクルロスを用いる。 さらに,ラプラシアン正則化器を用いて角度歪みを効果的に制御し,領域歪みを管理するためのパラメトリック領域から選択する柔軟性を提供する。 このフレームワークは、既存のニューラルネットワークレンダリングパイプラインとシームレスに統合され、マルチビューイメージを入力として、3dジオメトリを再構築し、対応するテクスチャマップを計算します。 また,本質的放射光分解のための簡易かつ効果的な手法も導入し,ビュー非依存の素材編集とビュー依存のシェーディング編集を両立させる。 本手法は,ネットワーク再トレーニングを必要とせず,ボリュームレンダリングによる編集テクスチャの即時レンダリングを可能にする。 さらに,複数のオブジェクトの共パラメータ化をサポートし,それらの間のテクスチャ転送を可能にする。 本手法が人間の頭部と人工物の画像に与える影響を実証する。 ソースコードを公開します。

The growing capabilities of neural rendering have increased the demand for new techniques that enable the intuitive editing of 3D objects, particularly when they are represented as neural implicit surfaces. In this paper, we present a novel neural algorithm to parameterize neural implicit surfaces to simple parametric domains, such as spheres, cubes or polycubes, where 3D radiance field can be represented as a 2D field, thereby facilitating visualization and various editing tasks. Technically, our method computes a bi-directional deformation between 3D objects and their chosen parametric domains, eliminating the need for any prior information. We adopt a forward mapping of points on the zero level set of the 3D object to a parametric domain, followed by a backward mapping through inverse deformation. To ensure the map is bijective, we employ a cycle loss while optimizing the smoothness of both deformations. Additionally, we leverage a Laplacian regularizer to effectively control angle distortion and offer the flexibility to choose from a range of parametric domains for managing area distortion. Designed for compatibility, our framework integrates seamlessly with existing neural rendering pipelines, taking multi-view images as input to reconstruct 3D geometry and compute the corresponding texture map. We also introduce a simple yet effective technique for intrinsic radiance decomposition, facilitating both view-independent material editing and view-dependent shading editing. Our method allows for the immediate rendering of edited textures through volume rendering, without the need for network re-training. Moreover, our approach supports the co-parameterization of multiple objects and enables texture transfer between them. We demonstrate the effectiveness of our method on images of human heads and man-made objects. We will make the source code publicly available.
翻訳日:2023-10-12 06:50:44 公開日:2023-10-09
# LSTDとランダム特徴を用いた強化学習における2次元学習について

On Double-Descent in Reinforcement Learning with LSTD and Random Features ( http://arxiv.org/abs/2310.05518v1 )

ライセンス: Link先を確認
David Brellmann, Elo\"ise Berthier, David Filliat and Goran Frehse(参考訳) 時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている。 その性能はニューラルネットワークのサイズに大きく影響されている。 教師付き学習では、過度パラメータ化の体制とその利点はよく理解されているが、RLの状況は明らかになっていない。 本稿では,ネットワークサイズと$l_2$-regularizationが性能に与える影響を理論的に分析する。 パラメータ数と訪問状態数との比率を重要な要因として同定し,1以上の場合の過剰パラメータ化をレジームとして定義する。 さらに,二日月現象,すなわち1のパラメータ/状態比付近で突然性能が低下する現象を観察した。 ランダムな特徴と遅延学習体制を生かし、パラメータ数と状態が無限に近づき、一定比を維持するため、漸近的条件下でのLSTD(Last-Square Temporal difference)アルゴリズムについて検討する。 経験的および真の平均二乗ベルマン誤差 (MSBE) の定式化限界を導出し, 二重発色の原因となる補正項を特徴付ける。 補正項は、$l_2$-レギュライゼーションが増加したり、見返りのない状態がゼロになったときに消滅する。 合成環境と小さな実環境における数値実験は、理論的な予測と密接に一致する。

Temporal Difference (TD) algorithms are widely used in Deep Reinforcement Learning (RL). Their performance is heavily influenced by the size of the neural network. While in supervised learning, the regime of over-parameterization and its benefits are well understood, the situation in RL is much less clear. In this paper, we present a theoretical analysis of the influence of network size and $l_2$-regularization on performance. We identify the ratio between the number of parameters and the number of visited states as a crucial factor and define over-parameterization as the regime when it is larger than one. Furthermore, we observe a double-descent phenomenon, i.e., a sudden drop in performance around the parameter/state ratio of one. Leveraging random features and the lazy training regime, we study the regularized Least-Square Temporal Difference (LSTD) algorithm in an asymptotic regime, as both the number of parameters and states go to infinity, maintaining a constant ratio. We derive deterministic limits of both the empirical and the true Mean-Square Bellman Error (MSBE) that feature correction terms responsible for the double-descent. Correction terms vanish when the $l_2$-regularization is increased or the number of unvisited states goes to zero. Numerical experiments with synthetic and small real-world environments closely match the theoretical predictions.
翻訳日:2023-10-12 06:50:14 公開日:2023-10-09
# WeatherGNN:数値気象予報バイアス補正における複雑な関係の爆発

WeatherGNN: Exploiting Complicated Relationships in Numerical Weather Prediction Bias Correction ( http://arxiv.org/abs/2310.05517v1 )

ライセンス: Link先を確認
Binqing Wu, Weiqi Chen, Wengwei Wang, Bingqing Peng, Liang Sun, Ling Chen(参考訳) 数値気象予測(NWP)は、不完全な大気物理過程、空間時間分解能の不足、気象の不確実性により不正確または偏りがある。 従来の研究では、手作りの特徴とドメイン知識を用いてバイアスを補正したり、一般的な機械学習モデルを適用したりしてきた。 彼らは、大気中の複雑な気象学的相互作用と空間的依存関係を動的に探究していないため、nwpバイアス修正の適用性が制限されている。 具体的には、気象要因は複雑な方法で相互作用し、これらの相互作用は地域によって異なる可能性がある。 さらに、気象要因間の相互作用は、様々な地形や大気運動に影響される地域間の空間的依存関係によってさらに複雑になる。 このような問題に対処するために,グラフニューラルネットワーク(GNN)を用いたNWPバイアス補正手法であるWeatherGNNを提案する。 提案手法は,各グリッド内の気象相互作用を適応的に捉える因子的GNNと,グリッド間の空間的依存関係を動的に捉える高速階層的GNNを含む。 特に、高速階層型GNNはグリッドの数に関して線形複雑性を実現し、モデルの効率性とスケーラビリティを向上させる。 2つの実世界のデータセットに対する実験結果は、他のSOTA法と比較してWeatherGNNの優位性を示し、従来のNWPに比べてRMSE平均40.50\%改善した。

Numerical weather prediction (NWP) may be inaccurate or biased due to incomplete atmospheric physical processes, insufficient spatial-temporal resolution, and inherent uncertainty of weather. Previous studies have attempted to correct biases by using handcrafted features and domain knowledge, or by applying general machine learning models naively. They do not fully explore the complicated meteorologic interactions and spatial dependencies in the atmosphere dynamically, which limits their applicability in NWP bias-correction. Specifically, weather factors interact with each other in complex ways, and these interactions can vary regionally. In addition, the interactions between weather factors are further complicated by the spatial dependencies between regions, which are influenced by varied terrain and atmospheric motions. To address these issues, we propose WeatherGNN, an NWP bias-correction method that utilizes Graph Neural Networks (GNN) to learn meteorologic and geographic relationships in a unified framework. Our approach includes a factor-wise GNN that captures meteorological interactions within each grid (a specific location) adaptively, and a fast hierarchical GNN that captures spatial dependencies between grids dynamically. Notably, the fast hierarchical GNN achieves linear complexity with respect to the number of grids, enhancing model efficiency and scalability. Our experimental results on two real-world datasets demonstrate the superiority of WeatherGNN in comparison with other SOTA methods, with an average improvement of 40.50\% on RMSE compared to the original NWP.
翻訳日:2023-10-12 06:49:51 公開日:2023-10-09
# 2023年ML-SUPERBチャレンジの発見: より多くの言語に対する事前学習と評価

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond ( http://arxiv.org/abs/2310.05513v1 )

ライセンス: Link先を確認
Jiatong Shi, William Chen, Dan Berrebbi, Hsiu-Hsuan Wang, Wei-Ping Huang, En-Pei Hu, Ho-Lam Chuang, Xuankai Chang, Yuxun Tang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe(参考訳) 2023年の多言語音声ユニバーサルパフォーマンスベンチマーク(ML-SUPERB)チャレンジは、多言語音声認識と言語識別における自己教師付きモデルを強調し、評価されたSUPERBフレームワークを拡張している。 この課題は、ML-SUPERBを特定の多言語対象に適用することに焦点を当てた研究トラック、モデル提出のためのチャレンジトラック、および言語資源研究者が最新の多言語音声認識の進歩の文脈において、低リソース言語データをコントリビュートし評価できる新しい言語トラックを含む。 この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。 この結果から,多言語音声処理において,単にスケーリングモデルが決定的な解決法ではないことが示唆された。

The 2023 Multilingual Speech Universal Performance Benchmark (ML-SUPERB) Challenge expands upon the acclaimed SUPERB framework, emphasizing self-supervised models in multilingual speech recognition and language identification. The challenge comprises a research track focused on applying ML-SUPERB to specific multilingual subjects, a Challenge Track for model submissions, and a New Language Track where language resource researchers can contribute and evaluate their low-resource language data in the context of the latest progress in multilingual speech recognition. The challenge garnered 12 model submissions and 54 language corpora, resulting in a comprehensive benchmark encompassing 154 languages. The findings indicate that merely scaling models is not the definitive solution for multilingual speech tasks, and a variety of speech/voice types present significant challenges in multilingual speech processing.
翻訳日:2023-10-12 06:49:25 公開日:2023-10-09
# 捜索・救助任務のためのUAVとニューラルネットワーク

UAVs and Neural Networks for search and rescue missions ( http://arxiv.org/abs/2310.05512v1 )

ライセンス: Link先を確認
Hartmut Surmann and Artur Leinweber and Gerhard Senkowski and Julien Meine and Dominik Slomma(参考訳) 本稿では,通常,植生火災時に無人航空機(uav)が撮影した空中画像から,車,人間,火災などの関心対象を検出する手法を提案する。 これを実現するために,ニューラルネットワークを用いて教師あり学習のためのデータセットを作成する。 従来の画像処理技術と事前学習ニューラルネットワークを組み合わせたオブジェクト検出パイプラインの実装により,データセットのラベル付けを支援する。 さらに,自動ラベル付き画像でデータセットを補完するデータ拡張パイプラインを開発した。 最後に、異なるニューラルネットワークの性能を評価する。

In this paper, we present a method for detecting objects of interest, including cars, humans, and fire, in aerial images captured by unmanned aerial vehicles (UAVs) usually during vegetation fires. To achieve this, we use artificial neural networks and create a dataset for supervised learning. We accomplish the assisted labeling of the dataset through the implementation of an object detection pipeline that combines classic image processing techniques with pretrained neural networks. In addition, we develop a data augmentation pipeline to augment the dataset with automatically labeled images. Finally, we evaluate the performance of different neural networks.
翻訳日:2023-10-12 06:49:08 公開日:2023-10-09
# ポイントレベル監督による時空間行動定位の提案

Proposal-based Temporal Action Localization with Point-level Supervision ( http://arxiv.org/abs/2310.05511v1 )

ライセンス: Link先を確認
Yuan Yin, Yifei Huang, Ryosuke Furuta, Yoichi Sato(参考訳) point-level supervised temporal action localization (ptal)は、各アクションインスタンス内の1つのポイント(フレーム)のみがトレーニングデータにアノテートされる未トリミングビデオにおけるアクションの認識とローカライズを目的としている。 時間的アノテーションがなければ、ほとんどの以前の作業ではMIL(Multiple Case Learning)フレームワークを採用しており、入力ビデオはオーバーラップされていないショートスニペットに分割され、アクション分類はショートスニペット毎に独立して実行される。 MILフレームワークは、時間的情報に制限のある分断された短いスニペットで動作するため、PTALに最適であると主張する。 そのため、分類器は、関連するスニペットを欠くことなく、アクションインスタンス全体を発見する代わりに、識別し易いスニペットにのみフォーカスする。 この問題を軽減するために,より包括的な時間情報を含むフレキシブル期間の行動提案を生成し,評価することにより,行動の局所化を図る手法を提案する。 さらに,より密集した擬似ラベルを効率的に生成する効率的なクラスタリングアルゴリズムを導入し,より強い監督と細粒度のコントラスト損失を生かして,擬似ラベルの品質をさらに向上させる。 実験の結果,提案手法は最先端の手法と,ActivityNet 1.3, THUMOS 14, GTEA, BEOIDデータセットの4つのベンチマーク上での完全教師付き手法とを比較検討した。

Point-level supervised temporal action localization (PTAL) aims at recognizing and localizing actions in untrimmed videos where only a single point (frame) within every action instance is annotated in training data. Without temporal annotations, most previous works adopt the multiple instance learning (MIL) framework, where the input video is segmented into non-overlapped short snippets, and action classification is performed independently on every short snippet. We argue that the MIL framework is suboptimal for PTAL because it operates on separated short snippets that contain limited temporal information. Therefore, the classifier only focuses on several easy-to-distinguish snippets instead of discovering the whole action instance without missing any relevant snippets. To alleviate this problem, we propose a novel method that localizes actions by generating and evaluating action proposals of flexible duration that involve more comprehensive temporal information. Moreover, we introduce an efficient clustering algorithm to efficiently generate dense pseudo labels that provide stronger supervision, and a fine-grained contrastive loss to further refine the quality of pseudo labels. Experiments show that our proposed method achieves competitive or superior performance to the state-of-the-art methods and some fully-supervised methods on four benchmarks: ActivityNet 1.3, THUMOS 14, GTEA, and BEOID datasets.
翻訳日:2023-10-12 06:49:00 公開日:2023-10-09
# 問合せと応答の強化はドメイン外数学推論の一般化に役立たない

Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning Generalization ( http://arxiv.org/abs/2310.05506v1 )

ライセンス: Link先を確認
Chengpeng Li, Zheng Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou(参考訳) 大規模言語モデル(LLM)を用いた数学推論において、クエリの進化と多様な推論経路による微調整データ拡張は実験的に有効であり、オープンソースのLLMと最先端のLLMとのギャップを著しく狭めている。 本稿では,数理推論におけるデータ拡張に関する調査を行い,(1)データ拡張の戦略がより効果的であるか,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は,領域外な数学的推論タスクへの一般化を動機付けることができるのか,などについて述べる。 この目的のために、GSM8Kからクエリを複雑化し、多様化し、複数の推論経路をサンプリングすることで、新しいデータセットAugGSM8Kを作成する。 auggsm8k の部分集合の微調整により mugglemath と呼ばれる一連の llm を得た。 MuggleMath は GSM8K の新たな最先端技術を実現している(GSM8K では 54% から 68.4% まで、スケール 7B では 63.9% から 74.0% まで)。 mugglemathのパフォーマンスと拡張データ量との間に対数線形関係が示される。 また、MuggleMathは領域外数学推論のMATHへの一般化に弱い。 これは auggsm8k と math のクエリ分布の違いによるもので、単一のベンチマークでの強化は全体の数学推論性能に寄与しないことを示唆している。 CodesとAugGSM8Kはhttps://github.com/OFA-Sys/gsm8k-ScRelにアップロードされる。

In math reasoning with large language models (LLMs), fine-tuning data augmentation by query evolution and diverse reasoning paths is empirically verified effective, profoundly narrowing the gap between open-sourced LLMs and cutting-edge proprietary LLMs. In this paper, we conduct an investigation for such data augmentation in math reasoning and are intended to answer: (1) What strategies of data augmentation are more effective; (2) What is the scaling relationship between the amount of augmented data and model performance; and (3) Can data augmentation incentivize generalization to out-of-domain mathematical reasoning tasks? To this end, we create a new dataset, AugGSM8K, by complicating and diversifying the queries from GSM8K and sampling multiple reasoning paths. We obtained a series of LLMs called MuggleMath by fine-tuning on subsets of AugGSM8K. MuggleMath substantially achieves new state-of-the-art on GSM8K (from 54% to 68.4% at the scale of 7B, and from 63.9% to 74.0% at the scale of 13B). A log-linear relationship is presented between MuggleMath's performance and the amount of augmented data. We also find that MuggleMath is weak in out-of-domain math reasoning generalization to MATH. This is attributed to the differences in query distribution between AugGSM8K and MATH which suggest that augmentation on a single benchmark could not help with overall math reasoning performance. Codes and AugGSM8K will be uploaded to https://github.com/OFA-Sys/gsm8k-ScRel.
翻訳日:2023-10-12 06:48:31 公開日:2023-10-09
# AbCD:動的最適化問題のためのコンポーネントワイド適応可能なフレームワーク

AbCD: A Component-wise Adjustable Framework for Dynamic Optimization Problems ( http://arxiv.org/abs/2310.05505v1 )

ライセンス: Link先を確認
Alexandre Mascarenhas, Yuri Lavinas, Claus Aranha(参考訳) 動的最適化問題(dops)は、いつでも起こり、現実世界のアプリケーションでよく見られる適応環境の変化によって特徴づけられる。 考慮すべき主な課題は、フィットネスランドスケープの変化を検出し、それに応じて反応することである。 長年にわたり、最適化過程においてこの特性を考慮するためにいくつかの進化的アルゴリズムが提案されてきた。 しかし、これらのアプローチで利用可能なツールやオープンソースコードベースの数は限られており、再現性と広範な実験が困難である。 そこで我々は,AbCD(Adjustable Components for Dynamic Problems)と呼ばれるDOPのためのコンポーネント指向フレームワークを開発した。 このフレームワークを用いて、いくつかのDOPアルゴリズムで提案されたコンポーネントについて検討する。 実験の結果,これらのコンポーネントの性能は,各コンポーネントが構成に使用する問題や選択されたコンポーネントに依存することが明らかとなった。 iraceを用いて,解決すべき問題の特徴を考慮に入れたDOPアルゴリズムの構成を自動的に生成する方法を実証する。 この結果から,DOP分野におけるアルゴリズムやコンポーネントの今後の発展に対処する必要のある既存の課題が浮かび上がっている。

Dynamic Optimization Problems (DOPs) are characterized by changes in the fitness landscape that can occur at any time and are common in real world applications. The main issues to be considered include detecting the change in the fitness landscape and reacting in accord. Over the years, several evolutionary algorithms have been proposed to take into account this characteristic during the optimization process. However, the number of available tools or open source codebases for these approaches is limited, making reproducibility and extensive experimentation difficult. To solve this, we developed a component-oriented framework for DOPs called Adjustable Components for Dynamic Problems (AbCD), inspired by similar works in the Multiobjective static domain. Using this framework, we investigate components that were proposed in several popular DOP algorithms. Our experiments show that the performance of these components depends on the problem and the selected components used in a configuration, which differs from the results reported in the literature. Using irace, we demonstrate how this framework can automatically generate DOP algorithm configurations that take into account the characteristics of the problem to be solved. Our results highlight existing problems in the DOP field that need to be addressed in the future development of algorithms and components.
翻訳日:2023-10-12 06:48:01 公開日:2023-10-09
# Colmap-PCD - イメージツーポイントクラウド登録のためのオープンソースツール

Colmap-PCD: An Open-source Tool for Fine Image-to-point cloud Registration ( http://arxiv.org/abs/2310.05504v1 )

ライセンス: Link先を確認
Chunge Bai and Ruijie Fu and Xiang Gao(参考訳) モノクロカメラの現在の技術は、主にStructure from Motion (SfM)パイプラインに依存している。 しかし、そのような手法は重要な規模の情報を欠いた再構成結果をもたらすことが多く、時間とともに画像の蓄積は避けられないドリフト問題を引き起こす。 対照的に、LiDARスキャンに基づくマッピング手法は、その正確な距離測定により大規模な都市景観復元に人気がある。 研究者は、マッピング結果の正確なスケーリングと色の詳細を追求するために、LiDARとカメラの同時測定を利用する試みを行っている。 しかし、結果には余分なキャリブレーションと時間同期精度が伴う。 本稿では,モノクラーカメラの再構成における固有のスケール課題を効果的に解決するために,既設のLiDARマップを固定制約として利用する,コスト効率の高い新しい再構築パイプラインを提案する。 我々の知る限りでは、カメラとLiDARデータの同期キャプチャを必要とせずに、最初にポイントクラウドマップに画像を登録し、様々な分野において、再構築の詳細レベルを管理する柔軟性を提供する。 この領域のさらなる研究を容易にするために、我々はcolmapアルゴリズムを活用したオープンソースのツールであるcolmap-pcd${^{3}}$をリリースした。

State-of-the-art techniques for monocular camera reconstruction predominantly rely on the Structure from Motion (SfM) pipeline. However, such methods often yield reconstruction outcomes that lack crucial scale information, and over time, accumulation of images leads to inevitable drift issues. In contrast, mapping methods based on LiDAR scans are popular in large-scale urban scene reconstruction due to their precise distance measurements, a capability fundamentally absent in visual-based approaches. Researchers have made attempts to utilize concurrent LiDAR and camera measurements in pursuit of precise scaling and color details within mapping outcomes. However, the outcomes are subject to extrinsic calibration and time synchronization precision. In this paper, we propose a novel cost-effective reconstruction pipeline that utilizes a pre-established LiDAR map as a fixed constraint to effectively address the inherent scale challenges present in monocular camera reconstruction. To our knowledge, our method is the first to register images onto the point cloud map without requiring synchronous capture of camera and LiDAR data, granting us the flexibility to manage reconstruction detail levels across various areas of interest. To facilitate further research in this domain, we have released Colmap-PCD${^{3}}$, an open-source tool leveraging the Colmap algorithm, that enables precise fine-scale registration of images to the point cloud map.
翻訳日:2023-10-12 06:47:43 公開日:2023-10-09
# weatherdepth: 気象条件下での自己教師あり深さ推定のためのカリキュラムコントラスト学習

WeatherDepth: Curriculum Contrastive Learning for Self-Supervised Depth Estimation under Adverse Weather Conditions ( http://arxiv.org/abs/2310.05556v1 )

ライセンス: Link先を確認
Jiyuan Wang, Chunyu Lin, Lang Nie, Shujun Huang, Yao Zhao, Xing Pan and Rui Ai(参考訳) 深度推定モデルは明快な場面で有望な性能を示したが、照明の変動や気象粒子などによる悪天候条件への一般化には至っていない。 本稿では,複雑な気象条件下での性能劣化に対処するために,カリキュラムのコントラスト学習を用いた自己教師型頑健度推定モデルであるWeatherDepthを提案する。 具体的には,まず3つの単純・複雑カリキュラムを用いた漸進的なカリキュラム学習手法を提案する。 このモデルでは、気象効果に対して適切な深さの手がかりを徐々に把握し、より滑らかでドメイン適応性が向上する。 一方、モデルが以前のカリキュラムを忘れないように、コントラスト学習を異なるカリキュラムに統合する。 従来からの参考知識を引用し, 多様な気象条件下での頑健な深度推定に向けて, 異なるコース間の深度一貫性の制約を確立する。 さらに,手作業による介入を低減し,異なるモデルへの適応性を向上するために,コース切替の最適なタイミングを自動検索する適応型カリキュラムスケジューラを設計した。 実験では,提案手法は様々なアーキテクチャに容易に組み込めることが証明され,合成および実際の気象データセット上での最先端(SoTA)性能を示す。

Depth estimation models have shown promising performance on clear scenes but fail to generalize to adverse weather conditions due to illumination variations, weather particles, etc. In this paper, we propose WeatherDepth, a self-supervised robust depth estimation model with curriculum contrastive learning, to tackle performance degradation in complex weather conditions. Concretely, we first present a progressive curriculum learning scheme with three simple-to-complex curricula to gradually adapt the model from clear to relative adverse, and then to adverse weather scenes. It encourages the model to gradually grasp beneficial depth cues against the weather effect, yielding smoother and better domain adaption. Meanwhile, to prevent the model from forgetting previous curricula, we integrate contrastive learning into different curricula. Drawn the reference knowledge from the previous course, our strategy establishes a depth consistency constraint between different courses towards robust depth estimation in diverse weather. Besides, to reduce manual intervention and better adapt to different models, we designed an adaptive curriculum scheduler to automatically search for the best timing for course switching. In the experiment, the proposed solution is proven to be easily incorporated into various architectures and demonstrates state-of-the-art (SoTA) performance on both synthetic and real weather datasets.
翻訳日:2023-10-12 06:42:03 公開日:2023-10-09
# 規則とNLP(RegNLP):大規模言語モデルのモデリング

Regulation and NLP (RegNLP): Taming Large Language Models ( http://arxiv.org/abs/2310.05553v1 )

ライセンス: Link先を確認
Catalina Goanta, Nikolaos Aletras, Ilias Chalkidis, Sofia Ranchordas, Gerasimos Spanakis(参考訳) 自然言語処理(NLP)や人工知能(AI)の科学的革新は、これまでで最も速いペースで進んでいる。 大きな言語モデル(LLM)が自動化の新しい時代を解き放つにつれ、開発やデプロイメント、使用のメリットとリスクに関する重要な議論が生まれます。 これらの議論は、AI安全とAI倫理運動を中心に、しばしば偏極化された物語によって支配されている。 この偏光は、しばしばソーシャルメディアによって増幅され、AI規制とガバナンスに関する政治的議題を揺らぎ、規制の捕獲の問題を提起している。 捕獲は、規制当局が一般の関心を追求するよりも、規制すべき産業や特別利害団体の利益を前進させるときに起こる。 一方、NLP研究では、リスクと害の規制に関する議論に注目が集まっている。 これはしばしば、体系的な方法論や、NLP研究の範囲を広げ、これらの取り組みの科学的完全性を脅かす規律に十分な根ざすことなく起こる。 規制研究は、リスクや不確実性を体系的に扱う方法や、規制オプションを評価し比較するための科学的証拠に関する豊富な知識の源である。 この資源は現在もほとんど無傷のままである。 本稿では,これらのトピックに関するNLP研究が,規制研究や隣接分野に近接することのメリットを論じる。 我々は、規制の基本原則、リスクと不確実性について議論し、リスクアセスメントを扱う現在のNLP議論の欠点を強調する。 最後に,規制とNLP(RegNLP)に関する新たな多分野研究空間の開発を提唱し,科学的知識を体系的方法論に基づく規制プロセスに結びつけることを目的とした。

The scientific innovation in Natural Language Processing (NLP) and more broadly in artificial intelligence (AI) is at its fastest pace to date. As large language models (LLMs) unleash a new era of automation, important debates emerge regarding the benefits and risks of their development, deployment and use. Currently, these debates have been dominated by often polarized narratives mainly led by the AI Safety and AI Ethics movements. This polarization, often amplified by social media, is swaying political agendas on AI regulation and governance and posing issues of regulatory capture. Capture occurs when the regulator advances the interests of the industry it is supposed to regulate, or of special interest groups rather than pursuing the general public interest. Meanwhile in NLP research, attention has been increasingly paid to the discussion of regulating risks and harms. This often happens without systematic methodologies or sufficient rooting in the disciplines that inspire an extended scope of NLP research, jeopardizing the scientific integrity of these endeavors. Regulation studies are a rich source of knowledge on how to systematically deal with risk and uncertainty, as well as with scientific evidence, to evaluate and compare regulatory options. This resource has largely remained untapped so far. In this paper, we argue how NLP research on these topics can benefit from proximity to regulatory studies and adjacent fields. We do so by discussing basic tenets of regulation, and risk and uncertainty, and by highlighting the shortcomings of current NLP discussions dealing with risk assessment. Finally, we advocate for the development of a new multidisciplinary research space on regulation and NLP (RegNLP), focused on connecting scientific knowledge to regulatory processes based on systematic methodologies.
翻訳日:2023-10-12 06:41:37 公開日:2023-10-09
# 株式取引のための論理誘導深層強化学習

Logic-guided Deep Reinforcement Learning for Stock Trading ( http://arxiv.org/abs/2310.05551v1 )

ライセンス: Link先を確認
Zhiming Li, Junzhe Jiang, Yushi Cao, Aixin Cui, Bozhi Wu, Bo Li, Yang Liu(参考訳) 深層強化学習(DRL)は、重要な手作業なしに優れたパフォーマンスを達成し、量的金融に革命をもたらした。 一方、DRLモデルは、金融データの信号-雑音比の低い性質のため、動的株式市場では不安定に振る舞う。 本稿では,SYENS(Program Synthesis-based Ensemble Strategy)と呼ばれる新しい論理誘導型トレーディングフレームワークを提案する。 提案手法は,1つの計測値に基づいてテストに最適なエージェントを任意に選択する前段階のアンサンブル強化学習戦略と異なり,スケッチ・パラダイムによるプログラム合成を用いて,モデルの動作を階層的に規則化する手法を提案する。 まず、市場環境と行動の描写に使用される高レベルドメイン特化言語(DSL)を提案する。 次に、dslに基づいて、人間の専門家の知識を論理的に埋め込んだ新しいプログラムスケッチを導入する。 最後に、プログラムスケッチに基づいて、パラダイムをスケッチし、論理的かつ階層的な取引戦略を合成することにより、プログラム合成を採用する。 我々は、キャッシュトレーディングとマージントレーディング設定の下で、30ダウ・ジョーンズ株のSYENSを評価する。 実験の結果,提案するフレームワークは, 累積リターンが大幅に向上し, 両方の設定下での最大ドローダウンも低減できることがわかった。

Deep reinforcement learning (DRL) has revolutionized quantitative finance by achieving excellent performance without significant manual effort. Whereas we observe that the DRL models behave unstably in a dynamic stock market due to the low signal-to-noise ratio nature of the financial data. In this paper, we propose a novel logic-guided trading framework, termed as SYENS (Program Synthesis-based Ensemble Strategy). Different from the previous state-of-the-art ensemble reinforcement learning strategy which arbitrarily selects the best-performing agent for testing based on a single measurement, our framework proposes regularizing the model's behavior in a hierarchical manner using the program synthesis by sketching paradigm. First, we propose a high-level, domain-specific language (DSL) that is used for the depiction of the market environment and action. Then based on the DSL, a novel program sketch is introduced, which embeds human expert knowledge in a logical manner. Finally, based on the program sketch, we adopt the program synthesis by sketching a paradigm and synthesizing a logical, hierarchical trading strategy. We evaluate SYENS on the 30 Dow Jones stocks under the cash trading and the margin trading settings. Experimental results demonstrate that our proposed framework can significantly outperform the baselines with much higher cumulative return and lower maximum drawdown under both settings.
翻訳日:2023-10-12 06:41:09 公開日:2023-10-09
# バイナリ出力を用いた揚力モデリングのための新しい変換手法

A New Transformation Approach for Uplift Modeling with Binary Outcome ( http://arxiv.org/abs/2310.05549v1 )

ライセンス: Link先を確認
Kun Li, Jiang Tian and Xiaojia Xiang(参考訳) 昇降モデリングは、マーケティングや顧客の維持といった分野で効果的に使われており、キャンペーンや治療により反応しやすい顧客をターゲットにしている。 基本的には、あるアクションを実行することで、それを受け取らないことで得られる利益を予測する機械学習技術である。 upliftモデルの一般的なクラスは、ターゲット変数を元の処理インジケータで再定義する変換アプローチである。 これらの変換アプローチは、結果の差を直接訓練し、予測するだけです。 これらのアプローチの主な欠点は、一般的には、変換結果の構築を超えて治療指標の情報を使用しず、通常は効率的ではないことである。 本稿では,2値対象変数の場合の新たな変換結果を設計し,結果ゼロのサンプルの完全な値をアンロックする。 実用的な見地からすると、私たちの新しいアプローチは柔軟で使いやすいです。 合成データと実世界のデータセットの実験結果は、私たちの新しいアプローチが従来のものよりも優れていることを明らかに示しています。 現在、当社の新たなアプローチは、中国全国金融持株グループにおける精密マーケティングにすでに適用されています。

Uplift modeling has been used effectively in fields such as marketing and customer retention, to target those customers who are more likely to respond due to the campaign or treatment. Essentially, it is a machine learning technique that predicts the gain from performing some action with respect to not taking it. A popular class of uplift models is the transformation approach that redefines the target variable with the original treatment indicator. These transformation approaches only need to train and predict the difference in outcomes directly. The main drawback of these approaches is that in general it does not use the information in the treatment indicator beyond the construction of the transformed outcome and usually is not efficient. In this paper, we design a novel transformed outcome for the case of the binary target variable and unlock the full value of the samples with zero outcome. From a practical perspective, our new approach is flexible and easy to use. Experimental results on synthetic and real-world datasets obviously show that our new approach outperforms the traditional one. At present, our new approach has already been applied to precision marketing in a China nation-wide financial holdings group.
翻訳日:2023-10-12 06:40:50 公開日:2023-10-09
# 量子相転移の虚温度零点

Imaginary-Temperature Zeros for Quantum Phase Transitions ( http://arxiv.org/abs/2310.05531v1 )

ライセンス: Link先を確認
Jinghu Liu, Shuai Yin, Li Chen(参考訳) リー・ヤン・ゼロやフィッシャー・ゼロといった複素分割関数の零点が温度駆動相転移を特徴付けるのに役立ったが、この概念のゼロ温度への拡張は依然としてオープンでアクティブな話題である。 本稿では,虚温度分割関数の零点を計算して虚温度零点(itzs)の概念を提案する。 横フィールドイジング鎖のITZの特性を探索し、ITZのエッジ密度や磁化などの普遍的な特異な挙動を伴って、ITZがセクター構造に分散していることを見出した。 これらの特異点はリー=ヤン理論と著しく異なり、量子臨界性とイジング臨界指数と密接に関連していることが示されている。 我々はさらに、ITZとスペクトル形成因子の零点との対応を照らし、量子力学を通してITZとゼロ温度相転移を検出する実用的な方法を提供する。

While the zeros of complex partition functions, such as Lee-Yang zeros and Fisher zeros, have been instrumental in characterizing temperature-driven phase transitions, the extension of this concept to zero temperature remains an open and active topic. In this paper, we introduce the concept of Imaginary-Temperature Zeros (ITZs) by calculating the zeros of the imaginary-temperature partition function. We delve into the properties of ITZs for the transverse-field Ising chain, and find that the ITZs are distributed in sectorial structures, accompanied by universal singular behaviors for such quantities as the edge density of ITZs and the magnetization. These singularities remarkably differ from those in the Lee-Yang theory, and are demonstrated to be intimately related to quantum criticality and the Ising critical exponents. We further illuminate the correspondence between ITZs and the zeros of the spectrum form factor, which offers a practical way for detecting ITZs and zero-temperature phase transitions through quantum dynamics.
翻訳日:2023-10-12 06:39:03 公開日:2023-10-09
# NetTiSA: 帯域制限付き高速ネットワークトラフィック分類のための時系列特徴付き拡張IPフロー

NetTiSA: Extended IP Flow with Time-series Features for Universal Bandwidth-constrained High-speed Network Traffic Classification ( http://arxiv.org/abs/2310.05530v1 )

ライセンス: Link先を確認
Josef Koumar, Karel Hynek, Jaroslav Pe\v{s}ek and Tom\'a\v{s} \v{C}ejka(参考訳) IP Flowsに基づくネットワークトラフィック監視は、さまざまなネットワークインフラストラクチャ、さらには数百万人を接続するIPSベースの大規模ネットワークにデプロイ可能な、標準的な監視アプローチである。 フローレコードは、伝統的に限られた情報(アドレス、ポート、交換されたデータの量)しか含まないため、高い精度でネットワークトラフィック分析を可能にする追加機能のために拡張される。 それにもかかわらず、フロー拡張はしばしば大きすぎるか、計算が難しいため、デプロイメントは小さなネットワークに限られる。 本稿では,パケットサイズの時系列解析に基づくNetTiSA(Network Time Series Analysed)と呼ばれる新しい拡張IPフローを提案する。 25の異なるネットワーク分類タスクを徹底的にテストすることにより、NetTiSAの幅広い適用性と高いユーザビリティを示す。 実運用では,NetTiSA向けに拡張されたフローのサイズも考慮し,フローエクスポート装置における計算の性能への影響を評価する。 新機能セットは100\,gbpsの高速ispネットワークに普遍的かつデプロイ可能であることが証明され、正確かつ広範なネットワークセキュリティ保護が可能となった。

Network traffic monitoring based on IP Flows is a standard monitoring approach that can be deployed to various network infrastructures, even the large IPS-based networks connecting millions of people. Since flow records traditionally contain only limited information (addresses, transport ports, and amount of exchanged data), they are also commonly extended for additional features that enable network traffic analysis with high accuracy. Nevertheless, the flow extensions are often too large or hard to compute, which limits their deployment only to smaller-sized networks. This paper proposes a novel extended IP flow called NetTiSA (Network Time Series Analysed), which is based on the analysis of the time series of packet sizes. By thoroughly testing 25 different network classification tasks, we show the broad applicability and high usability of NetTiSA, which often outperforms the best-performing related works. For practical deployment, we also consider the sizes of flows extended for NetTiSA and evaluate the performance impacts of its computation in the flow exporter. The novel feature set proved universal and deployable to high-speed ISP networks with 100\,Gbps lines; thus, it enables accurate and widespread network security protection.
翻訳日:2023-10-12 06:38:44 公開日:2023-10-09
# asm:in-the-wild 表情認識のための適応的サンプルマイニング

ASM: Adaptive Sample Mining for In-The-Wild Facial Expression Recognition ( http://arxiv.org/abs/2310.05618v1 )

ライセンス: Link先を確認
Ziyang Zhang, Xiao Sun, Liuwei An, Meng Wang(参考訳) 表情カテゴリの類似性、複合的な表情の存在、注釈者の主観性を考えると、表情認識(fer)データセットは曖昧さとノイズのラベルに苦しむことが多い。 曖昧な表現はノイズのあるラベルを持つ表現と区別することが困難であり、FERモデルの堅牢さを損なう。 さらに、認識の難しさは表現カテゴリーによって異なり、全ての表現に対して均一なアプローチが不公平である。 本稿では,適応サンプルマイニング(adaptive sample mining, asm)と呼ばれる新しい手法を提案する。 まず、適応しきい値学習モジュールは、カテゴリ毎に、クリーン閾値とノイズ閾値の2つのしきい値を生成する。 これらのしきい値は、各トレーニング時代の平均クラス確率に基づいている。 次に、サンプルマイニングモジュールは、サンプル信頼度とクリーンでノイズの多いしきい値を比較して、データセットをクリーン、曖昧、ノイズの3つのサブセットに分割する。 最後に、三規則化モジュールは、識別能力を高めるためにあいまいさサブセットの相互学習戦略と、雑音ラベルの影響を軽減するためにノイズサブセットの教師なし学習戦略を用いる。 広範囲にわたる実験により,提案手法は曖昧性と雑音の両方を効果的に検出し,合成雑音とオリジナルデータセットのsoma法を上回ることを証明する。 補足資料はhttps://github.com/zzzzyang/asmで入手できる。

Given the similarity between facial expression categories, the presence of compound facial expressions, and the subjectivity of annotators, facial expression recognition (FER) datasets often suffer from ambiguity and noisy labels. Ambiguous expressions are challenging to differentiate from expressions with noisy labels, which hurt the robustness of FER models. Furthermore, the difficulty of recognition varies across different expression categories, rendering a uniform approach unfair for all expressions. In this paper, we introduce a novel approach called Adaptive Sample Mining (ASM) to dynamically address ambiguity and noise within each expression category. First, the Adaptive Threshold Learning module generates two thresholds, namely the clean and noisy thresholds, for each category. These thresholds are based on the mean class probabilities at each training epoch. Next, the Sample Mining module partitions the dataset into three subsets: clean, ambiguity, and noise, by comparing the sample confidence with the clean and noisy thresholds. Finally, the Tri-Regularization module employs a mutual learning strategy for the ambiguity subset to enhance discrimination ability, and an unsupervised learning strategy for the noise subset to mitigate the impact of noisy labels. Extensive experiments prove that our method can effectively mine both ambiguity and noise, and outperform SOTA methods on both synthetic noisy and original datasets. The supplement material is available at https://github.com/zzzzzzyang/ASM.
翻訳日:2023-10-12 06:32:04 公開日:2023-10-09
# 適応型多頭コントラスト学習

Adaptive Multi-head Contrastive Learning ( http://arxiv.org/abs/2310.05615v1 )

ライセンス: Link先を確認
Lei Wang, Piotr Koniusz, Tom Gedeon, Liang Zheng(参考訳) 対照的な学習では、異なる増補によって生成された原画像の2つのビューは、類似度が高くなければならない正のペアと見なされる。 さらに、2つの異なる画像の2つのビューを負のペアとみなし、それらの類似性が低いことを奨励する。 通常、1つの投影ヘッドによって与えられる1つの類似度尺度は、それぞれ正と負のサンプルペアを評価するために使用される。 しかし、様々な拡張戦略と様々なサンプル内類似性のため、同じ画像からの拡張ビューはよく似ていない。 さらに、サンプル間の類似性から、2つの異なる画像の強化ビューは、同一画像からの拡張ビューよりも類似している可能性がある。 したがって、正の対に対する高い類似性と負の対に対する低い類似性が常に達成可能であるとは限らないし、ある対の場合、強制的にその性能を損なうこともある。 この問題に対処するために、複数のプロジェクションヘッドを用いて、それぞれが別々の特徴セットを生成することを提案する。 予備学習のための損失関数は、観測結果から正のサンプルの頭部後方分布に対する最大確率推定の解から得られる。 この損失は正対と負対の類似度の測定値を含み、それぞれが個々の適応温度で再重み付けされ、悪溶液を防ぐために正規化される。 適応型マルチヘッドコントラスト学習(AMCL)は,SimCLR,MoCo,Barlow Twinsなどの一般的なコントラスト学習手法を応用し,実験的に改善することができる。 このような改善は、様々なバックボーンと線形プローブエポッチで一貫性があり、複数の拡張法を使用する場合により重要である。

In contrastive learning, two views of an original image generated by different augmentations are considered as a positive pair whose similarity is required to be high. Moreover, two views of two different images are considered as a negative pair, and their similarity is encouraged to be low. Normally, a single similarity measure given by a single projection head is used to evaluate positive and negative sample pairs, respectively. However, due to the various augmentation strategies and varying intra-sample similarity, augmented views from the same image are often not similar. Moreover, due to inter-sample similarity, augmented views of two different images may be more similar than augmented views from the same image. As such, enforcing a high similarity for positive pairs and a low similarity for negative pairs may not always be achievable, and in the case of some pairs, forcing so may be detrimental to the performance. To address this issue, we propose to use multiple projection heads, each producing a separate set of features. Our loss function for pre-training emerges from a solution to the maximum likelihood estimation over head-wise posterior distributions of positive samples given observations. The loss contains the similarity measure over positive and negative pairs, each re-weighted by an individual adaptive temperature that is regularized to prevent ill solutions. Our adaptive multi-head contrastive learning (AMCL) can be applied to and experimentally improves several popular contrastive learning methods such as SimCLR, MoCo and Barlow Twins. Such improvement is consistent under various backbones and linear probing epoches and is more significant when multiple augmentation methods are used.
翻訳日:2023-10-12 06:31:38 公開日:2023-10-09
# マイクロ波ジョセフソン光増倍器を用いた光子数分解能

Photon-number resolution with microwave Josephson photomultipliers ( http://arxiv.org/abs/2310.05604v1 )

ライセンス: Link先を確認
E. V. Stolyarov, O. V. Kliushnichenko, V. S. Kovtoniuk, A. A. Semenov(参考訳) マイクロ波共振器のモードに閉じ込められた光子をジョセフソン光増倍器(JPM)による繰り返し測定により計数する。 JPMは基本的に1光子検出器として動作するフラックスバイアス位相量子ビットである。 所定範囲内で光子数分解能を最大化する最適操作条件を同定する。 2つの計数技術が研究されている。 1つ目は、測定シーケンスにおけるクリックの総数を数えることである。 2つ目は、最初のノークリックイベントまたは測定シーケンスの終了が発生するまでクリック数をカウントすることである。 提案手法では, 導出した正の演算子値測定値を用いて光子数分解能の測定を行った。 その結果, 両症例の分解能低下は主にJPM緩和が原因であることが判明した。 例えば、マイクロ波共振器における電磁放射の非古典的特性を実用的にテストするために、得られた結果が利用できることを示す。

We study counting photons confined in a mode of a microwave resonator via repeated measurements by a Josephson photomultiplier (JPM). The considered JPM is essentially a flux-biased phase qubit operating as a single-photon detector. We identify optimal operational regimes that maximize photon-number resolution within a predetermined range. Two counting techniques are studied. The first is to count the total number of clicks in the measurement sequence. The second involves counting the number of clicks until the occurrence of either the first no-click event or the end of the measurement sequence. Our theoretical methods employ the derived positive operator-valued measures for the considered photocounting techniques and the introduced measure of the photon-number resolution. The results reveal that the resolution decrease in both cases is mainly caused by the JPM relaxation. As an example, we show how the obtained results can be used for practical testing nonclassical properties of electromagnetic radiation in a microwave resonator.
翻訳日:2023-10-12 06:31:11 公開日:2023-10-09
# care3d: ロボットケア環境のアクティブな3dオブジェクト検出データセット

Care3D: An Active 3D Object Detection Dataset of Real Robotic-Care Environments ( http://arxiv.org/abs/2310.05600v1 )

ライセンス: Link先を確認
Michael G. Adam, Sebastian Eger, Martin Piccolrovazzi, Maged Iskandar, Joern Vogel, Alexander Dietrich, Seongjien Bien, Jon Skerlj, Abdeldjallil Naceri, Eckehard Steinbach, Alin Albu-Schaeffer, Sami Haddadin, Wolfram Burgard(参考訳) 医療分野における労働力不足の増加に伴い、補助ロボットの需要が増大する。 しかし、これらのロボットを開発するために必要なテストデータは、特に実際のデータが存在しないアクティブな3Dオブジェクト検出の応用には不十分である。 この短い論文は、このような実環境の注釈付きデータセットを導入することでこれに対抗する。 捕獲された環境は、ロボット医療研究の分野ですでに使われている領域を表している。 さらに,医療ロボット上で直接動作するSLAMアルゴリズムを評価するために,一室で真実データを提供する。

As labor shortage increases in the health sector, the demand for assistive robotics grows. However, the needed test data to develop those robots is scarce, especially for the application of active 3D object detection, where no real data exists at all. This short paper counters this by introducing such an annotated dataset of real environments. The captured environments represent areas which are already in use in the field of robotic health care research. We further provide ground truth data within one room, for assessing SLAM algorithms running directly on a health care robot.
翻訳日:2023-10-12 06:30:57 公開日:2023-10-09
# 予測モデルと意思決定者について:なぜ公正が公正な予測モデル以上のものが必要なのか

On Prediction-Modelers and Decision-Makers: Why Fairness Requires More Than a Fair Prediction Model ( http://arxiv.org/abs/2310.05598v1 )

ライセンス: Link先を確認
Teresa Scantamburlo, Joachim Baumann, Christoph Heitz(参考訳) 予測に基づく意思決定の分野における暗黙の曖昧さは、予測の概念と決定の関係を考察する。 この分野の文学の多くは2つの概念の境界を曖昧にしがちであり、単に「公正な予測」を述べることが多い。 本稿では,アルゴリズムの公平性を実装する上で,これらの概念の分化が有用であることを示す。 フェアネス特性が使用した予測モデルの特徴と関連しているとしても、より適切に「フェア」あるいは「アンフェア」と呼ばれるものは、予測モデルではなく決定システムである。 これは、公平さは、予測ではなく、決定によって生み出される人間の生活の結果であるからである。 予測と決定の概念の区別を明確にし,これら2つの要素が予測に基づく決定システムの最終的な公平性に影響を与える異なる方法を示す。 この関係を概念的かつ実践的に探求することに加えて,予測に基づく意思決定において公平性を生み出す概念論理の理解と推論を可能にする枠組みを提案する。 本フレームワークでは,「予測モデラー」と「意思決定者」という異なる役割と,システムの公平性を実現するために必要な情報を指定する。 当社のフレームワークは,両役割の明確な責任の導出と,倫理的および法的要件に関する洞察の議論を可能にします。 私たちの貢献は2倍です。 まず,抽象的アルゴリズム的公平性から文脈依存的意思決定へと焦点を移し,ユニークな目的と独立した行動を持つ多様なアクタを認識する。 第2に,公平性問題に関する予測に基づく意思決定問題の構築,責任の特定,現実世界のシナリオにおける公平性ガバナンス機構の実現を支援する,概念的枠組みを提案する。

An implicit ambiguity in the field of prediction-based decision-making regards the relation between the concepts of prediction and decision. Much of the literature in the field tends to blur the boundaries between the two concepts and often simply speaks of 'fair prediction.' In this paper, we point out that a differentiation of these concepts is helpful when implementing algorithmic fairness. Even if fairness properties are related to the features of the used prediction model, what is more properly called 'fair' or 'unfair' is a decision system, not a prediction model. This is because fairness is about the consequences on human lives, created by a decision, not by a prediction. We clarify the distinction between the concepts of prediction and decision and show the different ways in which these two elements influence the final fairness properties of a prediction-based decision system. In addition to exploring this relationship conceptually and practically, we propose a framework that enables a better understanding and reasoning of the conceptual logic of creating fairness in prediction-based decision-making. In our framework, we specify different roles, namely the 'prediction-modeler' and the 'decision-maker,' and the information required from each of them for being able to implement fairness of the system. Our framework allows for deriving distinct responsibilities for both roles and discussing some insights related to ethical and legal requirements. Our contribution is twofold. First, we shift the focus from abstract algorithmic fairness to context-dependent decision-making, recognizing diverse actors with unique objectives and independent actions. Second, we provide a conceptual framework that can help structure prediction-based decision problems with respect to fairness issues, identify responsibilities, and implement fairness governance mechanisms in real-world scenarios.
翻訳日:2023-10-12 06:30:48 公開日:2023-10-09
# 言語モデルは類推的推論を学べるか? トレーニング目標の検討と人的パフォーマンスとの比較

Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance ( http://arxiv.org/abs/2310.05597v1 )

ライセンス: Link先を確認
Molly R. Petersen, Lonneke van der Plas(参考訳) アナロジーは、nlpにおける単語埋め込みを評価する一般的な方法であるが、アナロジー推論がそれ自体が学習できるタスクであるかどうかを調べることも興味深い。 本稿では,NLPベンチマークでよく用いられるものよりも,ヒトの類似推論を評価するのによく用いられるアナロジーに特化して,基本的なアナロジー推論を学習する方法をいくつか試す。 実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。 さらに、モデルとデータセットを人間のベースラインと比較すると、トレーニング後にモデルが人間のパフォーマンスに近づくことが分かります。

While analogies are a common way to evaluate word embeddings in NLP, it is also of interest to investigate whether or not analogical reasoning is a task in itself that can be learned. In this paper, we test several ways to learn basic analogical reasoning, specifically focusing on analogies that are more typical of what is used to evaluate analogical reasoning in humans than those in commonly used NLP benchmarks. Our experiments find that models are able to learn analogical reasoning, even with a small amount of data. We additionally compare our models to a dataset with a human baseline, and find that after training, models approach human performance.
翻訳日:2023-10-12 06:30:20 公開日:2023-10-09
# InterroLang: 対話ベースの説明によるNLPモデルとデータセットの探索

InterroLang: Exploring NLP Models and Datasets through Dialogue-based Explanations ( http://arxiv.org/abs/2310.05592v1 )

ライセンス: Link先を確認
Nils Feldhus, Qianli Wang, Tatiana Anikina, Sahil Chopra, Cennet Oguz, Sebastian M\"oller(参考訳) 最近開発されたNLP説明可能性法では様々な方法でブラックボックスを開くことができるが(Madsenら、2022年)、この取り組みに欠けている要素は対話型インタフェースを提供する対話型ツールである。 このような対話システムは、例えば、明確化やフォローアップ質問を通じて、自然言語インターフェイスを通じて、コンテキスト化された方法でデータセットやモデルを探索するのに役立つ。 対話型説明フレームワークTalkToModel(Slackなど2022)をNLPドメインに適用し、自由文合理化などの新たなNLP固有の操作を追加し、3つのNLPタスク(対話行動分類、質問応答、ヘイトスピーチ検出)にその一般化性を示す。 説明のためのユーザクエリを認識するために,微調整および少数ショットプロンプトモデルを評価し,新しいアダプタベースアプローチを実装した。 次に,(1)対話の正当性と有用性を認識するための2つのユーザ研究を行い,(2)シミュレーション可能性,すなわち,モデルが示されていないときの予測ラベルの把握において,人間がいかに客観的に有用な対話的説明を行うかを明らかにする。 モデル行動の説明には合理化と特徴属性が有効であることがわかった。 さらに、ユーザーは1対1の説明よりも説明対話に基づいてモデル結果をより確実に予測できる。

While recently developed NLP explainability methods let us open the black box in various ways (Madsen et al., 2022), a missing ingredient in this endeavor is an interactive tool offering a conversational interface. Such a dialogue system can help users explore datasets and models with explanations in a contextualized manner, e.g. via clarification or follow-up questions, and through a natural language interface. We adapt the conversational explanation framework TalkToModel (Slack et al., 2022) to the NLP domain, add new NLP-specific operations such as free-text rationalization, and illustrate its generalizability on three NLP tasks (dialogue act classification, question answering, hate speech detection). To recognize user queries for explanations, we evaluate fine-tuned and few-shot prompting models and implement a novel Adapter-based approach. We then conduct two user studies on (1) the perceived correctness and helpfulness of the dialogues, and (2) the simulatability, i.e. how objectively helpful dialogical explanations are for humans in figuring out the model's predicted label when it's not shown. We found rationalization and feature attribution were helpful in explaining the model behavior. Moreover, users could more reliably predict the model outcome based on an explanation dialogue rather than one-off explanations.
翻訳日:2023-10-12 06:30:10 公開日:2023-10-09
# 画像合成作業における知覚的アーティファクトの局在化

Perceptual Artifacts Localization for Image Synthesis Tasks ( http://arxiv.org/abs/2310.05590v1 )

ライセンス: Link先を確認
Lingzhi Zhang, Zhengjie Xu, Connelly Barnes, Yuqian Zhou, Qing Liu, He Zhang, Sohrab Amirghodsi, Zhe Lin, Eli Shechtman, Jianbo Shi(参考訳) 近年の深部生成モデルの発展により,様々なタスクにまたがる写真リアル画像の作成が容易になった。 しかし、これらの生成された画像は、しばしば特定の領域で知覚的アーティファクトを示し、手動補正を必要とする。 本研究では,多種多様な画像合成技術にまたがる知覚人工物局所化(PAL)の総合的実証検討を行った。 10個の合成タスクに1ピクセルあたりの知覚的アーティファクトラベルを付加した10,168個の画像からなる新しいデータセットを提案する。 提案するデータセットでトレーニングされたセグメンテーションモデルは、さまざまなタスクにわたってアーティファクトを効果的にローカライズします。 さらに、最小限のトレーニングサンプルを用いて、未確認モデルに適応する能力について説明する。 さらに,生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。 実験結果から,画像中のアーティファクトの自動修正,非参照画像品質評価,異常領域検出など,いくつかの実用的下流アプリケーションを明らかにする。 データセットとコードがリリースされる。

Recent advancements in deep generative models have facilitated the creation of photo-realistic images across various tasks. However, these generated images often exhibit perceptual artifacts in specific regions, necessitating manual correction. In this study, we present a comprehensive empirical examination of Perceptual Artifacts Localization (PAL) spanning diverse image synthesis endeavors. We introduce a novel dataset comprising 10,168 generated images, each annotated with per-pixel perceptual artifact labels across ten synthesis tasks. A segmentation model, trained on our proposed dataset, effectively localizes artifacts across a range of tasks. Additionally, we illustrate its proficiency in adapting to previously unseen models using minimal training samples. We further propose an innovative zoom-in inpainting pipeline that seamlessly rectifies perceptual artifacts in the generated images. Through our experimental analyses, we elucidate several practical downstream applications, such as automated artifact rectification, non-referential image quality evaluation, and abnormal region detection in images. The dataset and code are released.
翻訳日:2023-10-12 06:29:45 公開日:2023-10-09
# DRIN:マルチモーダルエンティティリンクのための動的関係対話ネットワーク

DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking ( http://arxiv.org/abs/2310.05589v1 )

ライセンス: Link先を確認
Shangyu Xing, Fei Zhao, Zhen Wu, Chunhui Li, Jianbing Zhang, Xinyu Dai(参考訳) MEL(Multimodal Entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及をマルチモーダルな知識ベース内の参照エンティティにリンクすることを目的としたタスクである。 MELの最近の手法では、まずテキストと画像を融合して、それぞれ参照とエンティティの表現を取得し、それからそれらの類似性を計算して正しいエンティティを予測するという共通のフレームワークが採用されている。 しかし、これらの手法には2つの制限がある: まず、一致する前にテキストと画像の特徴を融合させるため、参照とエンティティ間の微妙なアライメント関係を完全に活用することはできない。 第2に、そのアライメントは静的であり、複雑で多様なデータを扱う場合のパフォーマンスが低下する。 そこで本稿では,melタスクのための動的関係対話型ネットワーク(drin)という新しいフレームワークを提案する。 DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。 2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。

Multimodal Entity Linking (MEL) is a task that aims to link ambiguous mentions within multimodal contexts to referential entities in a multimodal knowledge base. Recent methods for MEL adopt a common framework: they first interact and fuse the text and image to obtain representations of the mention and entity respectively, and then compute the similarity between them to predict the correct entity. However, these methods still suffer from two limitations: first, as they fuse the features of text and image before matching, they cannot fully exploit the fine-grained alignment relations between the mention and entity. Second, their alignment is static, leading to low performance when dealing with complex and diverse data. To address these issues, we propose a novel framework called Dynamic Relation Interactive Network (DRIN) for MEL tasks. DRIN explicitly models four different types of alignment between a mention and entity and builds a dynamic Graph Convolutional Network (GCN) to dynamically select the corresponding alignment relations for different input samples. Experiments on two datasets show that DRIN outperforms state-of-the-art methods by a large margin, demonstrating the effectiveness of our approach.
翻訳日:2023-10-12 06:28:54 公開日:2023-10-09
# ODEFormer: トランスフォーマーを用いた動的システムのシンボリック回帰

ODEFormer: Symbolic Regression of Dynamical Systems with Transformers ( http://arxiv.org/abs/2310.05573v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, S\"oren Becker, Alexander Mathis, Philippe Schwaller, Niki Kilbertus(参考訳) 我々は, 1つの解軌道の観測から, 多次元常微分方程式(ODE)系を記号形式で推定できる最初の変換器ODEFormerを紹介する。 2つのデータセットに対して広範な評価を行う。 (i)既存の2次元システムを含む「ストロガッツ」データセット (ii)ODEBenchは1次元から4次元のシステムの集合であり、より総合的なベンチマークを提供するために文献から慎重にキュレートした。 ODEFormerは既存のメソッドを一貫して上回り、ノイズや不規則なサンプル観察に対するロバスト性を大幅に改善し、推論を高速化する。 コード、モデル、ベンチマークデータセットをパブリックにリリースします。

We introduce ODEFormer, the first transformer able to infer multidimensional ordinary differential equation (ODE) systems in symbolic form from the observation of a single solution trajectory. We perform extensive evaluations on two datasets: (i) the existing "Strogatz" dataset featuring two-dimensional systems; (ii) ODEBench, a collection of one- to four-dimensional systems that we carefully curated from the literature to provide a more holistic benchmark. ODEFormer consistently outperforms existing methods while displaying substantially improved robustness to noisy and irregularly sampled observations, as well as faster inference. We release our code, model and benchmark dataset publicly.
翻訳日:2023-10-12 06:28:04 公開日:2023-10-09
# ビジュアライゼーション・トランスフォーマーに適用したクロスモーダル医用画像分割のためのシンプルでロバストなフレームワーク

A Simple and Robust Framework for Cross-Modality Medical Image Segmentation applied to Vision Transformers ( http://arxiv.org/abs/2310.05572v1 )

ライセンス: Link先を確認
Matteo Bastico, David Ryckelynck, Laurent Cort\'e, Yannick Tillier, Etienne Decenci\`ere(参考訳) 臨床画像に関して言えば、自動セグメンテーションにはさまざまな応用があり、mri(mri)やctスキャン(computerized tomography)といった入力領域もかなり多様である。 この不均一性は、入力された画像タイプから独立して等しく実行するべき、クロスモダリティアルゴリズムの課題である。 セグメンテーションモデルは単一のモダリティを用いて訓練され、転送学習技術に頼ることなく、他のタイプの入力データへの一般化を防ぐ。 さらに,本論文で提案されているマルチモーダルアーキテクチャやクロスモダリティアーキテクチャでは,臨床環境での収集が容易でない,あるいは合成画像生成などの追加処理ステップを必要とする場合が多い。 本研究では,入力型に基づいて正規化層を適応させる単一条件モデルを用いて,複数モードの公平な画像分割を実現するための簡単なフレームワークを提案する。 マルチモダリティ全心分節課題において,同じ3次元unetベースラインモデルに適用した場合に,我々のフレームワークが他のクロスモダリティ分節法よりも優れていることを示す。 さらに,提案するクロスモダリティ・フレームワークに基づく条件付き視覚トランスフォーマタ(c-vit)エンコーダを定義し,そのベースライン参照に関して,最大6.87\%のdice精度で結果のセグメンテーションに大幅な改善をもたらすことを示す。 実験とトレーニングされたモデルの重み付けを再現するコードは、https://github.com/matteo-bastico/MI-Seg.comで公開されている。

When it comes to clinical images, automatic segmentation has a wide variety of applications and a considerable diversity of input domains, such as different types of Magnetic Resonance Images (MRIs) and Computerized Tomography (CT) scans. This heterogeneity is a challenge for cross-modality algorithms that should equally perform independently of the input image type fed to them. Often, segmentation models are trained using a single modality, preventing generalization to other types of input data without resorting to transfer learning techniques. Furthermore, the multi-modal or cross-modality architectures proposed in the literature frequently require registered images, which are not easy to collect in clinical environments, or need additional processing steps, such as synthetic image generation. In this work, we propose a simple framework to achieve fair image segmentation of multiple modalities using a single conditional model that adapts its normalization layers based on the input type, trained with non-registered interleaved mixed data. We show that our framework outperforms other cross-modality segmentation methods, when applied to the same 3D UNet baseline model, on the Multi-Modality Whole Heart Segmentation Challenge. Furthermore, we define the Conditional Vision Transformer (C-ViT) encoder, based on the proposed cross-modality framework, and we show that it brings significant improvements to the resulting segmentation, up to 6.87\% of Dice accuracy, with respect to its baseline reference. The code to reproduce our experiments and the trained model weights are available at https://github.com/matteo-bastico/MI-Seg.
翻訳日:2023-10-12 06:27:52 公開日:2023-10-09
# 解釈可能なセンシングのための集約型f平均ニューラルネットワーク

Aggregated f-average Neural Network for Interpretable Ensembling ( http://arxiv.org/abs/2310.05566v1 )

ライセンス: Link先を確認
Mathieu Vu and Emilie Chouzenoux and Jean-Christophe Pesquet and Ismail Ben Ayed(参考訳) アンサンブル学習は、複数のモデル(弱い学習者)を共通の機械学習タスクに活用し、予測性能を向上させる。 basic ensemblingのアプローチでは、弱い学習者のアウトプットを平均し、より洗練されたものは、弱い学習者のアウトプットと最終的な予測の間に機械学習モデルを積み重ねる。 この作業は、前述の両方のフレームワークを融合させる。 本稿では,弱い学習者の予測を最適に集約するために,異なる平均値の型をモデル化し結合する,afa(aggregated f-average)浅層ニューラルネットワークを提案する。 我々は,解釈可能なアーキテクチャと簡単なトレーニング戦略を強調し,その優れた性能を数発のクラスインクリメンタルラーニングの問題に立証する。

Ensemble learning leverages multiple models (i.e., weak learners) on a common machine learning task to enhance prediction performance. Basic ensembling approaches average the weak learners outputs, while more sophisticated ones stack a machine learning model in between the weak learners outputs and the final prediction. This work fuses both aforementioned frameworks. We introduce an aggregated f-average (AFA) shallow neural network which models and combines different types of averages to perform an optimal aggregation of the weak learners predictions. We emphasise its interpretable architecture and simple training strategy, and illustrate its good performance on the problem of few-shot class incremental learning.
翻訳日:2023-10-12 06:27:21 公開日:2023-10-09
# STREAM:TRaining Ethical AI Modelsのためのソーシャルデータと知識集団インテリジェンスプラットフォーム

STREAM: Social data and knowledge collective intelligence platform for TRaining Ethical AI Models ( http://arxiv.org/abs/2310.05563v1 )

ライセンス: Link先を確認
Yuwei Wang, Enmeng Lu, Zizhe Ruan, Yao Liang, Yi Zeng(参考訳) 本稿では、TRaining Ethical AI Models(STREAM)のためのソーシャルデータおよび知識集団インテリジェンスプラットフォームを提案し、AIモデルを人間の道徳的価値と整合させることの課題に対処し、AIモデルを促進するための倫理データセットと知識ベースを提供する。 人間やAIを含む多様なグループの道徳的判断を正確に反映した、包括的で代表的なプラットフォームを作ることによって、文化的・集団的な多様性を効果的に表現し、時間とともに道徳的判断の動的進化を捉え、それによってAIモデルの道徳的能力の確立、評価、埋め込み、体格化、進化(6Es)を促進することを望んでいます。 現在、STREAMは倫理的シナリオの包括的な収集を行い、ボランティアや様々な人気のある言語モデル(LLM)によって注釈付けされた実質的な道徳的判断データを収集し、様々な道徳的文脈における人間とAIの道徳的嗜好とパフォーマンスを総合的に表現している。 本稿では,STREAMの現在の構造と構築について概説し,その可能性を探り,今後の展望について述べる。

This paper presents Social data and knowledge collective intelligence platform for TRaining Ethical AI Models (STREAM) to address the challenge of aligning AI models with human moral values, and to provide ethics datasets and knowledge bases to help promote AI models "follow good advice as naturally as a stream follows its course". By creating a comprehensive and representative platform that accurately mirrors the moral judgments of diverse groups including humans and AIs, we hope to effectively portray cultural and group variations, and capture the dynamic evolution of moral judgments over time, which in turn will facilitate the Establishment, Evaluation, Embedding, Embodiment, Ensemble, and Evolvement (6Es) of the moral capabilities of AI models. Currently, STREAM has already furnished a comprehensive collection of ethical scenarios, and amassed substantial moral judgment data annotated by volunteers and various popular Large Language Models (LLMs), collectively portraying the moral preferences and performances of both humans and AIs across a range of moral contexts. This paper will outline the current structure and construction of STREAM, explore its potential applications, and discuss its future prospects.
翻訳日:2023-10-12 06:27:09 公開日:2023-10-09
# 2つの散逸相互作用量子ビットの最適符号化

Optimal encoding of two dissipative interacting qubits ( http://arxiv.org/abs/2310.05561v1 )

ライセンス: Link先を確認
G. Di Bello, G. De Filippis, A. Hamma, and C. A. Perroni(参考訳) 1つの論理キュービットの実装のための物理モデルとして,オーミックバスと相互作用する2つの結合キュービットのシステムについて検討した。 このモデルでは、他の量子ビットとの相互作用はユニタリノイズを表し、一方オーミック浴は有限温度に寄与する。 1次元デコヒーレンスフリー部分空間(dfs)の存在下では、これはデコヒーレンスからキュービットを保護するのに十分ではないが、1つの論理キュービットを物理量よりも高い性能でエンコードできることを示した。 行列積状態に基づく数値解析により、論理量子ビットの最適符号化のための異なる可能な戦略を示す。 この方法は摂動計算の結果を忠実に再現するが、風呂と強いカップリングの場合など、物理的な実装において重要な関心を持つケースにまで拡張することができる。 その結果、ベル基底における反強磁性状態の直接和である部分空間に符号化された論理量子ビット、DFSと三重項の量子ビットは、DFSへのアンカーと反強磁性相互作用からの保護の両方を利用するため、最適に堅牢である。 これらの著者はこの作品に等しく貢献し、その名称はアルファベット順に並べられている。

We investigate a system of two coupled qubits interacting with an Ohmic bath as a physical model for the implementation of one logical qubit. In this model, the interaction with the other qubit represents unitary noise while the Ohmic bath is responsible for finite temperature. In the presence of a one-dimensional decoherence-free subspace (DFS), we show that, while this is not sufficient to protect a qubit from decoherence, it can be exploited to encode one logical qubit with greater performance than the physical one. We show different possible strategies for the optimal encoding of a logical qubit through a numerical analysis based on matrix product states. This method reproduces faithfully the results of perturbative calculations, but it can be extended to cases of crucial interest for physical implementations, e.g., in the case of strong coupling with the bath. As a result, a logical qubit encoded in the subspace which is the direct sum of the antiferromagnetic states in Bell basis, the DFS and the one in the triplet, is the optimally robust one, as it takes advantage of both the anchoring to the DFS and the protection from the antiferromagnetic interaction. These authors contributed equally to this work, and their names are listed in alphabetical order.
翻訳日:2023-10-12 06:26:45 公開日:2023-10-09
# 気道セグメンテーションのための高精度・省コスト能動学習3D-UNet

High Accuracy and Cost-Saving Active Learning 3D WD-UNet for Airway Segmentation ( http://arxiv.org/abs/2310.05638v1 )

ライセンス: Link先を確認
Shiyi Wang, Yang Nan, Simon Walsh and Guang Yang(参考訳) 本稿では, 医用3次元CTのアノテーション効果を低減するために, 深層能動学習(DeepAL)モデル3D Wasserstein Discriminative UNet(WD-UNet)を提案する。 提案したWD-UNetは,半教師付き学習により学習の収束を加速し,教師付き学習モデルの予測指標を満たすか超過する。 本手法は,異なるアクティブラーニング(al)戦略と異なるネットワーク構造を組み込むことができる。 このモデルは,医学的セグメンテーションのための3次元肺気道CTスキャンを用いて評価し,クエリ戦略の入力としてパラメータ化されている不確実性測定値を用いることで,最先端のディープラーニング(DL)管理モデルである3DUNetや3D CEUNetよりも正確な予測結果が得られることを示した。 上述のDL法と比較すると,我々のWD-UNetは放射線学者のアノテーションコストを節約するだけでなく,計算資源も節約する。 wd-unetは、より効率的なディープラーニングモデルアルゴリズムでより良い予測メトリクスを達成するために、限られた量の注釈付きデータ(合計の35%)を使用する。

We propose a novel Deep Active Learning (DeepAL) model-3D Wasserstein Discriminative UNet (WD-UNet) for reducing the annotation effort of medical 3D Computed Tomography (CT) segmentation. The proposed WD-UNet learns in a semi-supervised way and accelerates learning convergence to meet or exceed the prediction metrics of supervised learning models. Our method can be embedded with different Active Learning (AL) strategies and different network structures. The model is evaluated on 3D lung airway CT scans for medical segmentation and show that the use of uncertainty metric, which is parametrized as an input of query strategy, leads to more accurate prediction results than some state-of-the-art Deep Learning (DL) supervised models, e.g.,3DUNet and 3D CEUNet. Compared to the above supervised DL methods, our WD-UNet not only saves the cost of annotation for radiologists but also saves computational resources. WD-UNet uses a limited amount of annotated data (35% of the total) to achieve better predictive metrics with a more efficient deep learning model algorithm.
翻訳日:2023-10-12 05:22:22 公開日:2023-10-09
# メソスコピックスピンテクスチャのナノスケール工学と動的安定化

Nanoscale engineering and dynamical stabilization of mesoscopic spin textures ( http://arxiv.org/abs/2310.05635v1 )

ライセンス: Link先を確認
Kieren Harkins, Christoph Fleckenstein, Noella D'Souza, Paul M. Schindler, David Marchiori, Claudia Artiaco, Quentin Reynard-Feytis, Ushoshi Basumallick, William Beatrez, Arjun Pillai, Matthias Hagn, Aniruddha Nayak, Samantha Breuer, Xudong Lv, Maxwell McAllister, Paul Reshetikhin, Emanuel Druga, Marin Bukov and Ashok Ajoy(参考訳) 量子系ではどこでも見られる熱化現象は、伝統的に緩和される障害と見なされてきた。 本研究では,スピンのメソスコピックに大きなアンサンブルにおける構造量子状態の動的工学と安定化に熱処理を利用する能力を示す。 具体的には、ダイヤモンドの核スピン {}^{ 13}\mathrm{c}$ を相互作用させ、核スピンが臨界半径の両側で反対に偏極する「殻のような」スピンテクスチャを生成し、制御し、安定し、読み出す能力を示す。 テクスチャは数ナノメートルで、数百のスピンを含んでいる。 我々は、生成したテクスチャに準平衡を課すために熱化プロセスに乗じ、その結果、スピン拡散に対して非常に安定であり、スピンの内在的な相互作用スケールよりも100万倍長い複数分間にわたって持続する。 さらに、テクスチャを局所的に制御したり、核スピンを探ったりすることなく生成し、尋問する。 これらの特徴はスピン偏極のナノスケールインジェクターとして電子スピンを用いて達成され、空間的に変化する散逸の源として使用することで、創発性スピンテクスチャのシリアル読み出しを可能にする。 長期安定化は電子勾配場下でのフロケ誘起ハミルトニアンへの予熱によって達成される。 我々は, 量子シミュレーション, 量子情報科学, ナノスケールイメージングの新たな応用に向けて, 強固なナノスケールスピン状態工学への新しいアプローチを提案する。

Thermalization phenomena, while ubiquitous in quantum systems, have traditionally been viewed as obstacles to be mitigated. In this study, we demonstrate the ability, instead, to harness thermalization to dynamically engineer and stabilize structured quantum states in a mesoscopically large ensemble of spins. Specifically, we showcase the capacity to generate, control, stabilize, and read out 'shell-like' spin texture with interacting $ {}^{ 13}\mathrm{C}$ nuclear spins in diamond, wherein spins are polarized oppositely on either side of a critical radius. The texture spans several nanometers and encompasses many hundred spins. We capitalize on the thermalization process to impose a quasi-equilibrium upon the generated texture; as a result, it is highly stable, immune to spin diffusion, and endures over multiple-minute long periods -- over a million times longer than the intrinsic interaction scale of the spins. Additionally, the texture is created and interrogated without locally controlling or probing the nuclear spins. These features are accomplished using an electron spin as a nanoscale injector of spin polarization, and employing it as a source of spatially varying dissipation, allowing for serial readout of the emergent spin texture. Long-time stabilization is achieved via prethermalization to a Floquet-induced Hamiltonian under the electronic gradient field. Our work presents a new approach to robust nanoscale spin state engineering and paves the way for new applications in quantum simulation, quantum information science, and nanoscale imaging.
翻訳日:2023-10-12 05:21:44 公開日:2023-10-09
# 検証可能な生成に向けて:知識認識言語モデルの帰属に関するベンチマーク

Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution ( http://arxiv.org/abs/2310.05634v1 )

ライセンス: Link先を確認
Xinze Li, Yixin Cao2, Liangming Pan, Yubo Ma, Aixin Sun(参考訳) 大きな成功を収めるが、大言語モデル(llm)は通常、信頼性の低い幻覚に苦しむ。 本稿では,従来の属性付きLMにおける3つの中核的関心事を改善する,知識対応言語モデル属性(KaLMA)の新たなタスクを定義する。 まず,構造化されていないテキストから知識グラフ(kg)への帰属源を拡張し,そのリッチな構造は帰属性能と作業シナリオの両方に有益である。 Second, we propose a new ``Conscious Incompetence" setting considering the incomplete knowledge repository, where the model identifies the need for supporting knowledge beyond the provided KG. Third, we propose a comprehensive automatic evaluation metric encompassing text quality, citation quality, and text citation alignment. To implement the above innovations, we build a dataset in biography domain BioKaLMA via a well-designed evolutionary question generation strategy, to control the question complexity and necessary knowledge to the answer. For evaluation, we develop a baseline solution and demonstrate the room for improvement in LLMs' citation generation, emphasizing the importance of incorporating the "Conscious Incompetence" setting, and the critical role of retrieval accuracy.

Although achieving great success, Large Language Models (LLMs) usually suffer from unreliable hallucinations. In this paper, we define a new task of Knowledge-aware Language Model Attribution (KaLMA) that improves upon three core concerns on conventional attributed LMs. First, we extend attribution source from unstructured texts to Knowledge Graph (KG), whose rich structures benefit both the attribution performance and working scenarios. Second, we propose a new ``Conscious Incompetence" setting considering the incomplete knowledge repository, where the model identifies the need for supporting knowledge beyond the provided KG. Third, we propose a comprehensive automatic evaluation metric encompassing text quality, citation quality, and text citation alignment. To implement the above innovations, we build a dataset in biography domain BioKaLMA via a well-designed evolutionary question generation strategy, to control the question complexity and necessary knowledge to the answer. For evaluation, we develop a baseline solution and demonstrate the room for improvement in LLMs' citation generation, emphasizing the importance of incorporating the "Conscious Incompetence" setting, and the critical role of retrieval accuracy.
翻訳日:2023-10-12 05:20:44 公開日:2023-10-09
# 局所立方変分ガウス波束力学のための高次幾何積分器

High-order geometric integrators for the local cubic variational Gaussian wavepacket dynamics ( http://arxiv.org/abs/2310.05633v1 )

ライセンス: Link先を確認
Roya Moghaddasi Fereidani and Ji\v{r}\'i JL Van\'i\v{c}ek(参考訳) ガウス波束力学は、低調和性を持つ高次元系の量子シミュレーションに有用な半古典的近似であることが証明されている。 ヘラーの元々の局所調和法と比較すると、変分ガウス波束力学はより正確であるが、ポテンシャルエネルギー、勾配、ヘッセンの期待値を評価する必要があるため、実際に適用することはより困難である。 変分的アプローチがポテンシャルの局所的立方体近似に適用されると、これらの期待値は解析的に評価できるが、ポテンシャルのコストのかかる第3の微分が必要である。 その結果生じる局所立方体変分ガウス波束力学のコストを削減するため、シンプレクティック、時間可逆、およびノルム保存である効率的な高次幾何積分器について述べる。 短時間のステップでは、有効エネルギーの保存も行う。 これらの積分器の効率性と幾何学的性質を多次元非分離結合モースポテンシャル上で数値的に示す。

Gaussian wavepacket dynamics has proven to be a useful semiclassical approximation for quantum simulations of high-dimensional systems with low anharmonicity. Compared to Heller's original local harmonic method, the variational Gaussian wavepacket dynamics is more accurate, but much more difficult to apply in practice because it requires evaluating the expectation values of the potential energy, gradient, and Hessian. If the variational approach is applied to the local cubic approximation of the potential, these expectation values can be evaluated analytically, but still require the costly third derivative of the potential. To reduce the cost of the resulting local cubic variational Gaussian wavepacket dynamics, we describe efficient high-order geometric integrators, which are symplectic, time-reversible, and norm-conserving. For small time steps, they also conserve the effective energy. We demonstrate the efficiency and geometric properties of these integrators numerically on a multi-dimensional, nonseparable coupled Morse potential.
翻訳日:2023-10-12 05:20:23 公開日:2023-10-09
# 信頼差のあるバイナリ分類

Binary Classification with Confidence Difference ( http://arxiv.org/abs/2310.05632v1 )

ライセンス: Link先を確認
Wei Wang, Lei Feng, Yuchen Jiang, Gang Niu, Min-Ling Zhang, Masashi Sugiyama(参考訳) 近年,ソフトラベルによる学習は,モデル一般化,キャリブレーション,ロバスト性の観点から,ハードラベルによる学習よりも優れた性能を実現することが示されている。 しかし、すべてのトレーニング例の信頼度をポイントワイズにラベル付けする収集は、現実のシナリオでは困難で時間がかかります。 本稿では,信頼性差分法 (ConfDiff) と呼ばれる二項分類問題について述べる。 信頼度をポイントワイズする代わりに、正であることの確率の差を示す信頼差を持つラベルのないデータペアのみを与えられる。 本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率を達成することを示す。 また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。 ベンチマークデータセットと実世界のレコメンデータシステムデータセットの大規模な実験により,信頼度差の監視情報を活用する上で,提案手法の有効性が検証された。

Recently, learning with soft labels has been shown to achieve better performance than learning with hard labels in terms of model generalization, calibration, and robustness. However, collecting pointwise labeling confidence for all training examples can be challenging and time-consuming in real-world scenarios. This paper delves into a novel weakly supervised binary classification problem called confidence-difference (ConfDiff) classification. Instead of pointwise labeling confidence, we are given only unlabeled data pairs with confidence difference that specifies the difference in the probabilities of being positive. We propose a risk-consistent approach to tackle this problem and show that the estimation error bound achieves the optimal convergence rate. We also introduce a risk correction approach to mitigate overfitting problems, whose consistency and convergence rate are also proven. Extensive experiments on benchmark data sets and a real-world recommender system data set validate the effectiveness of our proposed approaches in exploiting the supervision information of the confidence difference.
翻訳日:2023-10-12 05:19:53 公開日:2023-10-09
# GlitterかGoldか? 大規模言語モデルによるサステナビリティレポートからの構造化された洞察の導出

Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models ( http://arxiv.org/abs/2310.05628v1 )

ライセンス: Link先を確認
Marco Bronzini, Carlo Nicolini, Bruno Lepri, Andrea Passerini, Jacopo Staiano(参考訳) 過去10年間で、いくつかの規制機関が、環境・社会・ガバナンス(esg)問題に対する投資家の関心の高まりを踏まえて、上場企業からの非金融情報の開示を要求し始めている。 このような情報は、さまざまな非構造化およびマルチモーダルドキュメントで公開されている。 したがって、企業や市場をまたがる持続可能性プラクティスに関する洞察をさらに導き出すため、結束した枠組みでこれらのデータを集約して統合するのは簡単ではない。 したがって、情報抽出(IE)技術を利用して、ステークホルダーに簡潔で情報的かつ実用的なデータを提供するのは自然なことです。 従来のテキスト処理技術を超えて、この作業では、Retrieved Augmented GenerationやIn-context Learningといった顕著なアプローチとともに、Large Language Models(LLM)を活用して、持続可能性レポートから意味的に構造化された情報を抽出します。 得られた知見について有意義な統計,類似性,相関分析をグラフベース表現に適用し,業界間における顕著な持続可能性行動に注目し,企業,部門,地域レベルでの類似性とパターンの開示について論じた。 最後に,その事実が企業のESGスコアに与える影響を,我々の発見やその他の企業情報を用いて調査する。

Over the last decade, several regulatory bodies have started requiring the disclosure of non-financial information from publicly listed companies, in light of the investors' increasing attention to Environmental, Social, and Governance (ESG) issues. Such information is publicly released in a variety of non-structured and multi-modal documentation. Hence, it is not straightforward to aggregate and consolidate such data in a cohesive framework to further derive insights about sustainability practices across companies and markets. Thus, it is natural to resort to Information Extraction (IE) techniques to provide concise, informative and actionable data to the stakeholders. Moving beyond traditional text processing techniques, in this work we leverage Large Language Models (LLMs), along with prominent approaches such as Retrieved Augmented Generation and in-context learning, to extract semantically structured information from sustainability reports. We then adopt graph-based representations to generate meaningful statistical, similarity and correlation analyses concerning the obtained findings, highlighting the prominent sustainability actions undertaken across industries and discussing emerging similarity and disclosing patterns at company, sector and region levels. Lastly, we investigate which factual aspects impact the most on companies' ESG scores using our findings and other company information.
翻訳日:2023-10-12 05:19:38 公開日:2023-10-09
# ストックリターン予測のための大規模言語モデルによるストック特徴とグローバル情報の統合

Integrating Stock Features and Global Information via Large Language Models for Enhanced Stock Return Prediction ( http://arxiv.org/abs/2310.05627v1 )

ライセンス: Link先を確認
Yujie Ding, Shuai Jia, Tianyi Ma, Bingcheng Mao, Xiuze Zhou, Liuliu Li and Dongming Han(参考訳) ChatGPT や GPT-4 のような大規模言語モデル(LLM)の顕著な成果と急速な進歩は、その量的投資における大きな可能性を示している。 トレーダーはこれらのLLMを効果的に活用して金融ニュースを分析し、株価のリターンを正確に予測することができる。 しかし、LCMを既存の定量モデルに組み込むことは、LCMに埋め込まれた意味情報の不十分な利用と、LCMに埋め込まれた潜伏情報と既存の定量ストック特徴との整合性の難しさの2つの主要な課題を示す。 これらの課題を克服する2つのコンポーネントからなる新しいフレームワークを提案する。 最初のコンポーネントであるlocal-global(lg)モデルは、グローバル情報をモデリングするための3つの異なる戦略を導入している。 これらのアプローチは、それぞれストックの特徴、LLMの能力、および2つのパラダイムを組み合わせたハイブリッド手法に基づいている。 第2のコンポーネントであるSCRL(Self-Correlated Reinforcement Learning)は、LLMが生み出す財務ニュースと、同じ意味空間内のストック特徴の埋め込みの整合性に焦点を当てている。 当社のフレームワークを実装することで,中国A株市場における在庫機能のみに依存するモデルと比較して,ランク情報係数とリターンにおいて優れたパフォーマンスを示した。

The remarkable achievements and rapid advancements of Large Language Models (LLMs) such as ChatGPT and GPT-4 have showcased their immense potential in quantitative investment. Traders can effectively leverage these LLMs to analyze financial news and predict stock returns accurately. However, integrating LLMs into existing quantitative models presents two primary challenges: the insufficient utilization of semantic information embedded within LLMs and the difficulties in aligning the latent information within LLMs with pre-existing quantitative stock features. We propose a novel framework consisting of two components to surmount these challenges. The first component, the Local-Global (LG) model, introduces three distinct strategies for modeling global information. These approaches are grounded respectively on stock features, the capabilities of LLMs, and a hybrid method combining the two paradigms. The second component, Self-Correlated Reinforcement Learning (SCRL), focuses on aligning the embeddings of financial news generated by LLMs with stock features within the same semantic space. By implementing our framework, we have demonstrated superior performance in Rank Information Coefficient and returns, particularly compared to models relying only on stock features in the China A-share market.
翻訳日:2023-10-12 05:19:17 公開日:2023-10-09
# 局所性を認識可能な一般化可能な暗黙的神経表現

Locality-Aware Generalizable Implicit Neural Representation} ( http://arxiv.org/abs/2310.05624v1 )

ライセンス: Link先を確認
Doyup Lee, Chiheon Kim, Minsu Cho, Wook-Shin Han(参考訳) generalizable implicit neural representation (inr)は、単一の連続関数、すなわち座標ベースのニューラルネットワークが、潜在コードを用いて重みや中間特徴を変調することで、複数のデータインスタンスを表現できる。 しかし、最先端変調の表現力は、特定のピクセルや光線などのデータエンティティの詳細な詳細をローカライズおよびキャプチャできないために制限されている。 この問題に対処するために,変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRフレームワークを提案する。 トランスコーダは、データインスタンスから潜在トークンのセットを予測して、各潜在トークンにローカル情報をエンコードする。 局所性認識INRデコーダは、座標入力のクロスアテンションを介して潜在トークンを選択的に集約して変調ベクトルを抽出し、複数の周波数帯域を通して粗大な変調で段階的に復号することで出力を予測する。 選択的トークンアグリゲーションとマルチバンド特徴変調により,空間的およびスペクトル的側面における局所性認識表現をそれぞれ学習できる。 このフレームワークは,従来の一般化したinrsを著しく上回っており,画像生成などの下流タスクにおける局所性を考慮した潜在子の有用性を検証している。

Generalizable implicit neural representation (INR) enables a single continuous function, i.e., a coordinate-based neural network, to represent multiple data instances by modulating its weights or intermediate features using latent codes. However, the expressive power of the state-of-the-art modulation is limited due to its inability to localize and capture fine-grained details of data entities such as specific pixels and rays. To address this issue, we propose a novel framework for generalizable INR that combines a transformer encoder with a locality-aware INR decoder. The transformer encoder predicts a set of latent tokens from a data instance to encode local information into each latent token. The locality-aware INR decoder extracts a modulation vector by selectively aggregating the latent tokens via cross-attention for a coordinate input and then predicts the output by progressively decoding with coarse-to-fine modulation through multiple frequency bandwidths. The selective token aggregation and the multi-band feature modulation enable us to learn locality-aware representation in spatial and spectral aspects, respectively. Our framework significantly outperforms previous generalizable INRs and validates the usefulness of the locality-aware latents for downstream tasks such as image generation.
翻訳日:2023-10-12 05:18:54 公開日:2023-10-09
# laiw: 中国の法的大規模言語モデルベンチマーク(技術報告)

LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report) ( http://arxiv.org/abs/2310.05620v1 )

ライセンス: Link先を確認
Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie, Yifang Zhang, Weiguang Han, Wei Tian, Hao Wang(参考訳) 多数の法的 LLM の出現に伴い、現在、法的能力を評価するための包括的なベンチマークが欠如している。 本稿では,法律能力に基づく最初の中国の法律LLMベンチマークを提案する。 法と人工知能の専門家の協力によって、LLMの法的な能力は、基本的な法的なNLP能力、基本的な法的な応用能力、複雑な法的な応用能力の3つのレベルに分けられる。 我々は,基本法的なNLPの能力を中心に,評価の第1段階を完了した。 以上の結果から,一部の法的LLMは背骨よりも優れた性能を示したが,ChatGPTと比較してまだギャップがあることがわかった。 ベンチマークはURLで確認できます。

With the emergence of numerous legal LLMs, there is currently a lack of a comprehensive benchmark for evaluating their legal abilities. In this paper, we propose the first Chinese Legal LLMs benchmark based on legal capabilities. Through the collaborative efforts of legal and artificial intelligence experts, we divide the legal capabilities of LLMs into three levels: basic legal NLP capability, basic legal application capability, and complex legal application capability. We have completed the first phase of evaluation, which mainly focuses on the capability of basic legal NLP. The evaluation results show that although some legal LLMs have better performance than their backbones, there is still a gap compared to ChatGPT. Our benchmark can be found at URL.
翻訳日:2023-10-12 05:18:32 公開日:2023-10-09
# 動的Top-k推定による特徴属性の分散化

Dynamic Top-k Estimation Consolidates Disagreement between Feature Attribution Methods ( http://arxiv.org/abs/2310.05619v1 )

ライセンス: Link先を確認
Jonathan Kamp, Lisa Beinborn, Antske Fokkens(参考訳) 特徴属性スコアは、k個のトークンをハイライトすることで、テキスト分類器の予測をユーザに説明するために使用される。 本研究では,帰属スコアの逐次特性から表示すべき最適なkトークン数を決定する手法を提案する。 我々のアプローチは文をまたいで動的であり、メソッドに依存しず、文長バイアスを扱う。 固定kと動的kを用いてnliタスクにおける複数の手法と人間との一致を比較する。 その結果,摂動に基づく手法とバニラ勾配は,静的kを用いた手法-手法-手法-ヒューマン・アグリーメント指標の最大値を示すことがわかった。 他のメソッドに対するアドバンテージは、Integrated GradientとGradientXInputを主に改善した動的ksで消える。 我々の知る限り、帰属スコアの逐次的特性が人間解釈のための帰属信号の統合に有益であることを示す最初の証拠である。

Feature attribution scores are used for explaining the prediction of a text classifier to users by highlighting a k number of tokens. In this work, we propose a way to determine the number of optimal k tokens that should be displayed from sequential properties of the attribution scores. Our approach is dynamic across sentences, method-agnostic, and deals with sentence length bias. We compare agreement between multiple methods and humans on an NLI task, using fixed k and dynamic k. We find that perturbation-based methods and Vanilla Gradient exhibit highest agreement on most method--method and method--human agreement metrics with a static k. Their advantage over other methods disappears with dynamic ks which mainly improve Integrated Gradient and GradientXInput. To our knowledge, this is the first evidence that sequential properties of attribution scores are informative for consolidating attribution signals for human interpretation.
翻訳日:2023-10-12 05:18:19 公開日:2023-10-09
# アンカー中間検出器:正確な物体検出のための分離結合箱

Anchor-Intermediate Detector: Decoupling and Coupling Bounding Boxes for Accurate Object Detection ( http://arxiv.org/abs/2310.05666v1 )

ライセンス: Link先を確認
Yilong Lv, Min Li, Yujie He, Shaopeng Li, Zhuzhen He, Aitao Yang(参考訳) オブジェクト検出のためにアンカーベースの検出器が継続的に開発されている。 しかし、個々のアンカーボックスは境界のオフセットを正確に予測することが困難である。 各バウンディングボックスを閉じた個人として扱う代わりに、複数のボックスを一緒に使って予測ボックスを取得することを検討する。 そこで本稿では, 重なり合う箱を捨てるのではなく, 箱のコーナーポイントを分離する, 推論における \textbf{box decouple-couple(bdc) strategy} を提案する。 そして各コーナーのスコアに従って、最も正確なコーナーペアを選択するためにコーナーポイントをペア化する。 BDC戦略を満たすために、単純だが斬新なモデルとして、アンカーベースヘッドとアンカーフリーな \textbf{Corner-aware head の2つのヘッドネットワークを含む \textbf{Anchor-Intermediate Detector (AID)} が設計された。 コーナー認識ヘッドは、各バウンディングボックスのコーナーを獲得し、コーナーポイント間の結合を容易にすることができる。 MS COCOの大規模な実験により、提案されたアンカー中間検出器は、それぞれ基準となるRetinaNet法とGFL法を$\sim$2.4と$\sim$1.2 APで、ベルやホイッスルを使わずにMS COCOテストデブデータセットで上回ることを示した。 コードはhttps://github.com/yilonglv/aid。

Anchor-based detectors have been continuously developed for object detection. However, the individual anchor box makes it difficult to predict the boundary's offset accurately. Instead of taking each bounding box as a closed individual, we consider using multiple boxes together to get prediction boxes. To this end, this paper proposes the \textbf{Box Decouple-Couple(BDC) strategy} in the inference, which no longer discards the overlapping boxes, but decouples the corner points of these boxes. Then, according to each corner's score, we couple the corner points to select the most accurate corner pairs. To meet the BDC strategy, a simple but novel model is designed named the \textbf{Anchor-Intermediate Detector(AID)}, which contains two head networks, i.e., an anchor-based head and an anchor-free \textbf{Corner-aware head}. The corner-aware head is able to score the corners of each bounding box to facilitate the coupling between corner points. Extensive experiments on MS COCO show that the proposed anchor-intermediate detector respectively outperforms their baseline RetinaNet and GFL method by $\sim$2.4 and $\sim$1.2 AP on the MS COCO test-dev dataset without any bells and whistles. Code is available at: https://github.com/YilongLv/AID.
翻訳日:2023-10-12 05:13:16 公開日:2023-10-09
# ViTはあらゆる場所にある:異なる領域における視覚変換器の総合的な研究

ViTs are Everywhere: A Comprehensive Study Showcasing Vision Transformers in Different Domain ( http://arxiv.org/abs/2310.05664v1 )

ライセンス: Link先を確認
Md Sohag Mia, Abu Bakor Hayat Arnob, Abdu Naim+, Abdullah Al Bary Voban, Md Shariful Islam(参考訳) トランスフォーマー設計は自然言語処理タスクのデファクトスタンダードである。 自然言語処理におけるトランスフォーマーの設計の成功は、近年、コンピュータビジョン分野の研究者の関心を遠ざけている。 畳み込みニューラルネットワーク(CNN)と比較して、視覚変換器(ViT)は、多くの視覚問題に対してより人気があり支配的なソリューションになりつつある。 トランスフォーマーベースのモデルは、畳み込みニューラルネットワークやリカレントニューラルネットワークといった他のタイプのネットワークを、さまざまなビジュアルベンチマークで上回っている。 本研究では、異なるジョブに分割し、そのメリットと欠点を検証し、様々な視覚トランスフォーマーモデルを評価する。 ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服することができる。 この調査の目的は、CVにおけるViTsの最初の使用を示すことである。 第1段階では、VTが適切である様々なCVアプリケーションを分類する。 画像分類、オブジェクト識別、画像分割、ビデオトランスフォーマー、画像デノーミング、NASはすべてCVアプリケーションである。 次のステップは、各領域の最先端を分析し、現在利用可能なモデルを特定することです。 また,多くのオープン研究課題と今後の研究可能性について概説する。

Transformer design is the de facto standard for natural language processing tasks. The success of the transformer design in natural language processing has lately piqued the interest of researchers in the domain of computer vision. When compared to Convolutional Neural Networks (CNNs), Vision Transformers (ViTs) are becoming more popular and dominant solutions for many vision problems. Transformer-based models outperform other types of networks, such as convolutional and recurrent neural networks, in a range of visual benchmarks. We evaluate various vision transformer models in this work by dividing them into distinct jobs and examining their benefits and drawbacks. ViTs can overcome several possible difficulties with convolutional neural networks (CNNs). The goal of this survey is to show the first use of ViTs in CV. In the first phase, we categorize various CV applications where ViTs are appropriate. Image classification, object identification, image segmentation, video transformer, image denoising, and NAS are all CV applications. Our next step will be to analyze the state-of-the-art in each area and identify the models that are currently available. In addition, we outline numerous open research difficulties as well as prospective research possibilities.
翻訳日:2023-10-12 05:12:41 公開日:2023-10-09
# 大規模言語モデルを用いた自動評価についての一考察

A Closer Look into Automatic Evaluation Using Large Language Models ( http://arxiv.org/abs/2310.05657v1 )

ライセンス: Link先を確認
Cheng-Han Chiang and Hung-yi Lee(参考訳) テキストの品質を評価するために大きな言語モデル(LLM)が最近人気を集めている。 いくつかの先行研究ではLCMを評価に使用するという考え方が検討されているが、評価プロセスの詳細は異なっている。 本稿では,LLM評価 (Chiang and Lee, 2023) とG-Eval (Liu et al., 2023) を分析し,評価プロセスにおけるそれらの詳細が,LLMが与える評価と人的評価との相関性について検討する。 G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。 また、LLMにG-Evalのように数値評価のみを出力させることは、最適以下であることを示す。 最後に、LLMに自身の評価を説明するよう求めることは、ChatGPTと人間の評価の相関性を一貫して改善し、2つのメタ評価データセットに最先端(SoTA)相関をプッシュすることを明らかにする。

Using large language models (LLMs) to evaluate text quality has recently gained popularity. Some prior works explore the idea of using LLMs for evaluation, while they differ in some details of the evaluation process. In this paper, we analyze LLM evaluation (Chiang and Lee, 2023) and G-Eval (Liu et al., 2023), and we discuss how those details in the evaluation process change how well the ratings given by LLMs correlate with human ratings. We find that the auto Chain-of-Thought (CoT) used in G-Eval does not always make G-Eval more aligned with human ratings. We also show that forcing the LLM to output only a numeric rating, as in G-Eval, is suboptimal. Last, we reveal that asking the LLM to explain its own ratings consistently improves the correlation between the ChatGPT and human ratings and pushes state-of-the-art (SoTA) correlations on two meta-evaluation datasets.
翻訳日:2023-10-12 05:12:24 公開日:2023-10-09
# 運動量による因果構造学習:DAGのマルコフ等価クラス上のサンプリング分布

Causal structure learning with momentum: Sampling distributions over Markov Equivalence Classes of DAGs ( http://arxiv.org/abs/2310.05655v1 )

ライセンス: Link先を確認
Moritz Schauer, Marcel Wien\"obst(参考訳) ベイジアンネットワーク構造(略してDAG)を推定する文脈において、観測等価(マルコフ同値)DAGのクラス上の確率分布を目標とする、可逆な連続時間マルコフ連鎖 "Causal Zig-Zag sampler" を考案する。 クラスは完備部分有向非巡回グラフ(CPDAG)として表される。 非可逆マルコフ連鎖は、ChickeringのGreedy Equivalence Search (GES) で用いられる演算子に依存し、運動量変数が付与され、経験的に示されるように混合が著しく改善される。 可能な対象分布は、事前のDAGとマルコフ等価性に基づく後続分布を含む。 我々は,GES演算子をリストアップし,カウントし,一様にサンプリングし,適用するための新しいアルゴリズムを開発する,効率的な実装を提供する。

In the context of inferring a Bayesian network structure (directed acyclic graph, DAG for short), we devise a non-reversible continuous time Markov chain, the "Causal Zig-Zag sampler", that targets a probability distribution over classes of observationally equivalent (Markov equivalent) DAGs. The classes are represented as completed partially directed acyclic graphs (CPDAGs). The non-reversible Markov chain relies on the operators used in Chickering's Greedy Equivalence Search (GES) and is endowed with a momentum variable, which improves mixing significantly as we show empirically. The possible target distributions include posterior distributions based on a prior over DAGs and a Markov equivalent likelihood. We offer an efficient implementation wherein we develop new algorithms for listing, counting, uniformly sampling, and applying possible moves of the GES operators, all of which significantly improve upon the state-of-the-art.
翻訳日:2023-10-12 05:12:04 公開日:2023-10-09
# トークンは残っていない:dynamic token idlingによる効率的な視覚トランスフォーマー

No Token Left Behind: Efficient Vision Transformer via Dynamic Token Idling ( http://arxiv.org/abs/2310.05654v1 )

ライセンス: Link先を確認
Xuwei Xu, Changlin Li, Yudong Chen, Xiaojun Chang, Jiajun Liu, Sen Wang(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンタスクにおいて優れた性能を示しているが、その高い計算複雑性はリソース制約のある環境への展開を妨げている。 画像トークンを動的に落としてvitsの計算負荷を軽減するために,様々なトークンプルーニング技術が導入された。 しかし、初期の望ましくないプルーニングによって、後続の層で画像情報が永久に失われ、結果としてモデルの性能が損なわれる可能性がある。 この問題に対処するために,性能と効率の優れたトレードオフを実現する動的トークンアイドルベースのIdleViTを提案する。 具体的には、各レイヤにおいて、IdleViTは画像トークンのサブセットを選択して、残りのトークンをアイドル状態にして、直接このレイヤの出力に渡す。 アイドルトークンを次の層で再選択可能にすることで、IdleViTは初期において不適切なプルーニングによる負の影響を緩和する。 さらに,正規化グラフカットに触発されて,アテンションマップのトークンカット損失を正規化として考案し,idlevitのトークン選択能力を向上させる。 提案手法は単純だが有効であり,トークンを完全に落とさないため,ピラミッド型ViTにも拡張可能である。 各種ViTアーキテクチャの大規模な実験結果から,30時間で微調整した後のImageNetにおいて,IdleViTは事前学習したViTの複雑さを最大33\%まで低減できることがわかった。 特に、保留比が0.5の場合、IdleViTはDeiT-S上の最先端のEViTよりも0.5倍高い精度で高速な推論速度で性能を向上する。 ソースコードは補足資料で入手できる。

Vision Transformers (ViTs) have demonstrated outstanding performance in computer vision tasks, yet their high computational complexity prevents their deployment in computing resource-constrained environments. Various token pruning techniques have been introduced to alleviate the high computational burden of ViTs by dynamically dropping image tokens. However, some undesirable pruning at early stages may result in permanent loss of image information in subsequent layers, consequently hindering model performance. To address this problem, we propose IdleViT, a dynamic token-idle-based method that achieves an excellent trade-off between performance and efficiency. Specifically, in each layer, IdleViT selects a subset of the image tokens to participate in computations while keeping the rest of the tokens idle and directly passing them to this layer's output. By allowing the idle tokens to be re-selected in the following layers, IdleViT mitigates the negative impact of improper pruning in the early stages. Furthermore, inspired by the normalized graph cut, we devise a token cut loss on the attention map as regularization to improve IdleViT's token selection ability. Our method is simple yet effective and can be extended to pyramid ViTs since no token is completely dropped. Extensive experimental results on various ViT architectures have shown that IdleViT can diminish the complexity of pretrained ViTs by up to 33\% with no more than 0.2\% accuracy decrease on ImageNet, after finetuning for only 30 epochs. Notably, when the keep ratio is 0.5, IdleViT outperforms the state-of-the-art EViT on DeiT-S by 0.5\% higher accuracy and even faster inference speed. The source code is available in the supplementary material.
翻訳日:2023-10-12 05:11:45 公開日:2023-10-09
# fence:fairplay: ファンタジースポーツにおけるリアルタイム多重id検出のためのネットワークチェーンエンティティの確保

FENCE: Fairplay Ensuring Network Chain Entity for Real-Time Multiple ID Detection at Scale In Fantasy Sports ( http://arxiv.org/abs/2310.05651v1 )

ライセンス: Link先を確認
Akriti Upreti, Kartavya Kothari, Utkarsh Thukral, Vishal Verma(参考訳) dream11は、1億9000万人以上のファンタジースポーツユーザーが自分のスキルを実演し、自分の好きなスポーツとより深くつながることができるユニークなプラットフォームであることを誇りに思っている。 このようなスケールを管理する一方で、私たちが直面している問題のひとつは、システムの重複/複数アカウント生成です。 これは、通常ボーナスオファーのために、プラットフォームを悪用する意図のあるユーザによって行われる。 課題は、遅すぎる前に複数のアカウントを検出することだ。 本稿では,まず,ユーザ間のエッジ/アソシエーションを予測できるグラフベースソリューションを提案する。 エッジ情報を使用することで、複数のアカウントを集約するクラスタを強調します。 本稿では,検出モデルからの推論をサービスし,サポートするためにデプロイされた分散MLシステムについて述べる。 課題は、それをリアルタイムで行い、正しい行動を取ることです。 この設定のコア部分には、検証、フィードバック、地中ラベル付けのためのヒューマン・イン・ザ・ループコンポーネントも含まれている。

Dream11 takes pride in being a unique platform that enables over 190 million fantasy sports users to demonstrate their skills and connect deeper with their favorite sports. While managing such a scale, one issue we are faced with is duplicate/multiple account creation in the system. This is done by some users with the intent of abusing the platform, typically for bonus offers. The challenge is to detect these multiple accounts before it is too late. We propose a graph-based solution to solve this problem in which we first predict edges/associations between users. Using the edge information we highlight clusters of colluding multiple accounts. In this paper, we talk about our distributed ML system which is deployed to serve and support the inferences from our detection models. The challenge is to do this in real-time in order to take corrective actions. A core part of this setup also involves human-in-the-loop components for validation, feedback, and ground-truth labeling.
翻訳日:2023-10-12 05:11:13 公開日:2023-10-09
# RAUCG:ヘイトスピーチのための検索型教師なしカウンターナラティブ生成

RAUCG: Retrieval-Augmented Unsupervised Counter Narrative Generation for Hate Speech ( http://arxiv.org/abs/2310.05650v1 )

ライセンス: Link先を確認
Shuyu Jiang, Wenyi Tang, Xingshu Chen, Rui Tanga, Haizhou Wang and Wenxian Wang(参考訳) カウンターナラティブ(CN)は、言論の自由を侵害することなく、オンラインヘイトスピーチ(HS)と戦うための有望なアプローチである。 近年,自然言語生成技術を用いたCNの自動生成への関心が高まっている。 しかし、現在のcn生成手法は、主にトレーニングのための専門家主導のデータセットに依存しており、それらは、取得に要する時間と労力がかかる。 さらに、これらの手法は、外部統計、事実、例から反知識を直接取得および拡張することはできない。 そこで,これらの制約に対処するために,外部カウンタナレッジを自動拡張し,教師なしパラダイムでcnsにマップする検索型教師なしカウンターナラティブ生成(raucg)を提案する。 具体的には,まず,hsに対するスタンス一貫性,意味的重複率,適合性といった多視点からカウンターナレッジを検索するssf検索手法を提案する。 そこで我々は,知識注入,カウンタリング,フラレンシ制約を微分可能な関数に量子化し,CNデータを専門家の許可なく,逆知識からCNへのマッピングを構築することができるエネルギーベースの復号機構を設計する。 最後に, 言語品質, 毒性, 説得性, 妥当性, HS対策の成功率などの観点から, モデル性能を総合的に評価する。 実験の結果、RAUCGは全ての指標において強いベースラインを上回り、より強力な一般化能力を示し、相関性において+2.0%、対向性において+4.5%の大幅な改善を達成している。 さらにRAUCGは、GPT2が全ての測定値でT0を上回ったが、後者は前よりも約8倍大きい。 警告: この論文には不快な内容や動揺する内容が含まれているかもしれない。

The Counter Narrative (CN) is a promising approach to combat online hate speech (HS) without infringing on freedom of speech. In recent years, there has been a growing interest in automatically generating CNs using natural language generation techniques. However, current automatic CN generation methods mainly rely on expert-authored datasets for training, which are time-consuming and labor-intensive to acquire. Furthermore, these methods cannot directly obtain and extend counter-knowledge from external statistics, facts, or examples. To address these limitations, we propose Retrieval-Augmented Unsupervised Counter Narrative Generation (RAUCG) to automatically expand external counter-knowledge and map it into CNs in an unsupervised paradigm. Specifically, we first introduce an SSF retrieval method to retrieve counter-knowledge from the multiple perspectives of stance consistency, semantic overlap rate, and fitness for HS. Then we design an energy-based decoding mechanism by quantizing knowledge injection, countering and fluency constraints into differentiable functions, to enable the model to build mappings from counter-knowledge to CNs without expert-authored CN data. Lastly, we comprehensively evaluate model performance in terms of language quality, toxicity, persuasiveness, relevance, and success rate of countering HS, etc. Experimental results show that RAUCG outperforms strong baselines on all metrics and exhibits stronger generalization capabilities, achieving significant improvements of +2.0% in relevance and +4.5% in success rate of countering metrics. Moreover, RAUCG enabled GPT2 to outperform T0 in all metrics, despite the latter being approximately eight times larger than the former. Warning: This paper may contain offensive or upsetting content!
翻訳日:2023-10-12 05:10:57 公開日:2023-10-09
# MRフィンガープリンティング改善のためのマニフォールド構造データ先行処理

Exploiting Manifold Structured Data Priors for Improved MR Fingerprinting Reconstruction ( http://arxiv.org/abs/2310.05647v1 )

ライセンス: Link先を確認
Peng Li, Yuping Ji, Yue Hu(参考訳) 組織パラメータマップを高精度かつ高精度に推定することはMRフィンガープリント(MRF)における大きな課題の1つとなる。 多くの既存の研究は、復元されたボクセル指紋をブロッホ多様体に投影し、復元性能を向上させる。 しかし、指紋間の潜在多様体構造を利用した研究はほとんどない。 このギャップを埋めるために,多様体構造データに基づく新しいMDF再構成フレームワークを提案する。 指紋多様体構造を直接推定することは困難であるため,組織パラメータを低次元パラメータ多様体上の点としてモデル化する。 フィンガープリント多様体は、異なるユークリッド空間に埋め込まれているにもかかわらず、パラメータ多様体と同じ固有位相を持つ。 mrfデータの非線形および非局所冗長性を利用するため、mrfデータを空間パッチに分割し、パラメータ多様体内の対応するパッチ間のユークリッド距離を用いてデータパッチ間の類似度測定を正確に得ることができる。 測定された類似性は、指紋多様体構造を表すグラフラプラシアン作用素を構成するために使われる。 従って、低次元パラメータ多様体を用いて、再構築フレームワークに指紋多様体構造を導入する。 さらに,各パッチの局所的相関を活用し,復元性能を向上させるために,復元フレームワークに先行する局所的低ランクを組み込んだ。 また,非カーテシアンサンプリングシナリオの再構成を高速化するために,gpuによるnufftライブラリも採用した。 実験の結果,本手法は最先端手法よりも計算時間を短縮し,復元性能を大幅に向上できることがわかった。

Estimating tissue parameter maps with high accuracy and precision from highly undersampled measurements presents one of the major challenges in MR fingerprinting (MRF). Many existing works project the recovered voxel fingerprints onto the Bloch manifold to improve reconstruction performance. However, little research focuses on exploiting the latent manifold structure priors among fingerprints. To fill this gap, we propose a novel MRF reconstruction framework based on manifold structured data priors. Since it is difficult to directly estimate the fingerprint manifold structure, we model the tissue parameters as points on a low-dimensional parameter manifold. We reveal that the fingerprint manifold shares the same intrinsic topology as the parameter manifold, although being embedded in different Euclidean spaces. To exploit the non-linear and non-local redundancies in MRF data, we divide the MRF data into spatial patches, and the similarity measurement among data patches can be accurately obtained using the Euclidean distance between the corresponding patches in the parameter manifold. The measured similarity is then used to construct the graph Laplacian operator, which represents the fingerprint manifold structure. Thus, the fingerprint manifold structure is introduced in the reconstruction framework by using the low-dimensional parameter manifold. Additionally, we incorporate the locally low-rank prior in the reconstruction framework to further utilize the local correlations within each patch for improved reconstruction performance. We also adopt a GPU-accelerated NUFFT library to accelerate reconstruction in non-Cartesian sampling scenarios. Experimental results demonstrate that our method can achieve significantly improved reconstruction performance with reduced computational time over the state-of-the-art methods.
翻訳日:2023-10-12 05:10:28 公開日:2023-10-09
# カタストロフィの診断: 連続学習における精度損失の大部分が読み出しミスアライメントによって説明できる

Diagnosing Catastrophe: Large parts of accuracy loss in continual learning can be accounted for by readout misalignment ( http://arxiv.org/abs/2310.05644v1 )

ライセンス: Link先を確認
Daniel Anthes and Sushrut Thorat and Peter K\"onig and Tim C. Kietzmann(参考訳) 霊長類とは異なり、データ分布を変化させる人工ニューラルネットワークのトレーニングは、古いタスクのパフォーマンスを急速に低下させる。 この現象は一般に破滅的な忘れ物と呼ばれる。 本稿では,この性能を低下させる表現的変化について検討し,この現象を考慮に入れた3つの異なる過程を同定する。 最大のコンポーネントは、隠れた表現層と読み出し層の間の不一致である。 ミスアライメントは、追加のタスクの学習によって起こり、内部表現がシフトする。 表現幾何学はこの不一致の下で部分的に保存され、情報のほんの一部だけが不可解に失われる。 あらゆる種類の表現的変化は、隠された表現の次元とともにスケールする。 これらの洞察は、継続的に更新する必要がある深層学習アプリケーションにとって意味を持つが、anモデルをかなり堅牢な生物学的ビジョンに合わせるのに役立つかもしれない。

Unlike primates, training artificial neural networks on changing data distributions leads to a rapid decrease in performance on old tasks. This phenomenon is commonly referred to as catastrophic forgetting. In this paper, we investigate the representational changes that underlie this performance decrease and identify three distinct processes that together account for the phenomenon. The largest component is a misalignment between hidden representations and readout layers. Misalignment occurs due to learning on additional tasks and causes internal representations to shift. Representational geometry is partially conserved under this misalignment and only a small part of the information is irrecoverably lost. All types of representational changes scale with the dimensionality of hidden representations. These insights have implications for deep learning applications that need to be continuously updated, but may also aid aligning ANN models to the rather robust biological vision.
翻訳日:2023-10-12 05:10:03 公開日:2023-10-09
# plug n' play: 小さな視覚トランスフォーマーを強化するためのチャンネルシャッフルモジュール

Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers ( http://arxiv.org/abs/2310.05642v1 )

ライセンス: Link先を確認
Xuwei Xu, Sen Wang, Yudong Chen, Jiajun Liu(参考訳) 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。 しかし、高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。 ある種の研究は、ViTsの効率を高めるための自己保持機構と畳み込み層の融合を掘り下げてきたが、自己保持機構のみに基づく小さなが効果的なViTsを構築する際には、知識ギャップが残っている。 さらに、ViTを大幅に上回る機能チャネルを減らすという直接的な戦略は、効率が向上したにもかかわらず、大きなパフォーマンス低下をもたらすことが多い。 これらの課題に対処するため、制約のある計算資源を持つ環境において、純粋な自己注意モデルの可能性を示すため、小型のViTを改善するための新しいチャネルシャッフルモジュールを提案する。 ShuffleNetV2 \cite{ma2018shufflenet} のチャネルシャッフル設計にインスパイアされた我々のモジュールは、小さな ViT の機能チャネルを拡張し、チャネルを \textit{Attended} と \textit{Idle} の2つのグループに分割する。 セルフアテンション計算は指定された \textit{attended} グループでのみ用いられ、続いて2つのグループ間の情報交換を容易にするチャネルシャッフル演算が実行される。 モジュールを小さなViTに組み込むことで,バニラモデルに匹敵する計算複雑性を維持しながら,優れたパフォーマンスを実現することができる。 特に,提案するチャネルシャッフルモジュールは,様々な小型vitモデルに対するimagenet-1kデータセットのtop-1精度を最大2.8\%向上させ,モデルの複雑さは0.03 gmac以下である。

Vision Transformers (ViTs) have demonstrated remarkable performance in various computer vision tasks. However, the high computational complexity hinders ViTs' applicability on devices with limited memory and computing resources. Although certain investigations have delved into the fusion of convolutional layers with self-attention mechanisms to enhance the efficiency of ViTs, there remains a knowledge gap in constructing tiny yet effective ViTs solely based on the self-attention mechanism. Furthermore, the straightforward strategy of reducing the feature channels in a large but outperforming ViT often results in significant performance degradation despite improved efficiency. To address these challenges, we propose a novel channel shuffle module to improve tiny-size ViTs, showing the potential of pure self-attention models in environments with constrained computing resources. Inspired by the channel shuffle design in ShuffleNetV2 \cite{ma2018shufflenet}, our module expands the feature channels of a tiny ViT and partitions the channels into two groups: the \textit{Attended} and \textit{Idle} groups. Self-attention computations are exclusively employed on the designated \textit{Attended} group, followed by a channel shuffle operation that facilitates information exchange between the two groups. By incorporating our module into a tiny ViT, we can achieve superior performance while maintaining a comparable computational complexity to the vanilla model. Specifically, our proposed channel shuffle module consistently improves the top-1 accuracy on the ImageNet-1K dataset for various tiny ViT models by up to 2.8\%, with the changes in model complexity being less than 0.03 GMACs.
翻訳日:2023-10-12 05:09:50 公開日:2023-10-09
# GPTを用いた大規模文書コレクションの抽象要約

Abstractive Summarization of Large Document Collections Using GPT ( http://arxiv.org/abs/2310.05690v1 )

ライセンス: Link先を確認
Sengjie Liu, Christopher G. Healey(参考訳) 本稿では,個々の文書ではなく,文書コレクションにスケール可能な抽象要約手法を提案する。 提案手法では,トピッククラスタ内のセマンティッククラスタリング,トピッククラスタ内の文書サイズ削減,クラスタの文書のセマンティックチャンク,GPTに基づく要約と結合,各トピックの感情とテキストの可視化を組み合わせて探索データ解析を支援する。 ROGUEサマリースコアを用いた既存の最先端システムBART, BRIO, PEGASUS, MoCaとの比較では, CNN/Daily MailテストデータセットではBART, PEGASUS, GigawordテストデータセットではBART, BARTと統計的に同等の性能を示した。 この発見は、文書コレクションの要約が個々の文書の要約よりも難しいと考えているため、有望である。 結論として スケールの問題がどのようにして

This paper proposes a method of abstractive summarization designed to scale to document collections instead of individual documents. Our approach applies a combination of semantic clustering, document size reduction within topic clusters, semantic chunking of a cluster's documents, GPT-based summarization and concatenation, and a combined sentiment and text visualization of each topic to support exploratory data analysis. Statistical comparison of our results to existing state-of-the-art systems BART, BRIO, PEGASUS, and MoCa using ROGUE summary scores showed statistically equivalent performance with BART and PEGASUS on the CNN/Daily Mail test dataset, and with BART on the Gigaword test dataset. This finding is promising since we view document collection summarization as more challenging than individual document summarization. We conclude with a discussion of how issues of scale are
翻訳日:2023-10-12 05:00:59 公開日:2023-10-09
# 高次相互作用を持つ線形オピニオンダイナミクスモデル

Linear Opinion Dynamics Model with Higher-Order Interactions ( http://arxiv.org/abs/2310.05689v1 )

ライセンス: Link先を確認
Wanyue Xu and Zhongzhi Zhang(参考訳) オピニオンダイナミクスは計算社会科学の中心的な主題であり、意見の進化と定式化を理解するために様々なモデルが開発されている。 既存のモデルは主に、エージェント間の対関係のみをキャプチャするグラフに対する意見のダイナミクスに焦点を当てている。 本稿では,実ネットワーク,特にソーシャルネットワーク上で頻繁に発生する高次相互作用を記述するハイパーグラフに対して,グラフ上の意見のダイナミクスに関するフリードキン・ジョンセンモデルを拡張する。 これを実現するために,線形動力学において多方向相互作用を効果的に対向ノード相互作用に還元できるという事実に基づいて,非向エッジやグラフの有向エッジによってハイパーエッジに符号化される群相互作用を復号する手法を提案する。 その結果,高次相互作用は,全体定常状態の意見や分極がグループ相互作用のないものと大きく異なるため,意見のダイナミクスにおいて重要な役割を担っていることが示された。 また, 配向重み付きグラフ上での全体的意見と意見偏差を定量的に評価するために, 高速サンプリングアルゴリズムを設計した, 広葉樹林の観点からの平衡表現された意見の解釈も提供する。 最後に,実世界のハイパーグラフデータセットについて実験を行い,アルゴリズムの性能を示す。

Opinion dynamics is a central subject of computational social science, and various models have been developed to understand the evolution and formulation of opinions. Existing models mainly focus on opinion dynamics on graphs that only capture pairwise interactions between agents. In this paper, we extend the popular Friedkin-Johnsen model for opinion dynamics on graphs to hypergraphs, which describe higher-order interactions occurring frequently on real networks, especially social networks. To achieve this, based on the fact that for linear dynamics the multi-way interactions can be reduced to effective pairwise node interactions, we propose a method to decode the group interactions encoded in hyperedges by undirected edges or directed edges in graphs. We then show that higher-order interactions play an important role in the opinion dynamics, since the overall steady-state expressed opinion and polarization differ greatly from those without group interactions. We also provide an interpretation of the equilibrium expressed opinion from the perspective of the spanning converging forest, based on which we design a fast sampling algorithm to approximately evaluate the overall opinion and opinion polarization on directed weighted graphs. Finally, we conduct experiments on real-world hypergraph datasets, demonstrating the performance of our algorithm.
翻訳日:2023-10-12 05:00:40 公開日:2023-10-09
# Larth: Etruscanのデータセットと機械翻訳

Larth: Dataset and Machine Translation for Etruscan ( http://arxiv.org/abs/2310.05688v1 )

ライセンス: Link先を確認
Gianluca Vico, Gerasimos Spanakis(参考訳) エトルリア語(etruscan)は、紀元前7世紀から紀元1世紀にかけてイタリアで話された古代の言語である。 現在、この言語の母語話者はおらず、その資源はわずか12,000の既知の碑文しか残っていない。 私たちの知る限り、自然言語処理のためのetruscan corporaは公開されていません。 そこで本研究では,エトルリア語から英語への機械翻訳のためのデータセットを提案する。 手動で抽出する例もあれば、自動で取得する例もある。 データセットとともに、小さな変換器モデルでBLEUスコア10.1を達成可能であることを観察する異なる機械翻訳モデルをベンチマークする。 データセットの緩和は、この言語、類似言語、あるいはリソース不足の他の言語に関する将来の研究を可能にする。

Etruscan is an ancient language spoken in Italy from the 7th century BC to the 1st century AD. There are no native speakers of the language at the present day, and its resources are scarce, as there exist only around 12,000 known inscriptions. To the best of our knowledge, there are no publicly available Etruscan corpora for natural language processing. Therefore, we propose a dataset for machine translation from Etruscan to English, which contains 2891 translated examples from existing academic sources. Some examples are extracted manually, while others are acquired in an automatic way. Along with the dataset, we benchmark different machine translation models observing that it is possible to achieve a BLEU score of 10.1 with a small transformer model. Releasing the dataset can help enable future research on this language, similar languages or other languages with scarce resources.
翻訳日:2023-10-12 05:00:20 公開日:2023-10-09
# 確率学習改善のための大規模言語モデルの可能性--chatgpt3.5と初年次コンピュータ工学生の検討

The potential of large language models for improving probability learning: A study on ChatGPT3.5 and first-year computer engineering students ( http://arxiv.org/abs/2310.05686v1 )

ライセンス: Link先を確認
Angel Udias, Antonio Alonso-Ayuso, Ignacio Sanchez, Sonia Hernandez, Maria Eugenia Castellanos, Raquel Montes Diez, Emilio Lopez Cano(参考訳) 本稿では,紹介型計算機工学試験で一般的に提示される確率問題を解くための大規模言語モデルchatgpt(version feb 2023)の有効性について検討する。 本研究は,マドリードのレイ・フアン・カルロス大学(URJC)の学生を対象に,23回の確率運動を行った。 ChatGPTの回答は5人の統計学教授のグループによって評価され、学生が使用するのと同じ基準に基づいて定性的に評価された。 以上の結果から,ChatGPTは平均的な学生よりも,言い換えや組織,論理的推論に優れていたことが示唆された。 モデルのパフォーマンスは、スペイン語版と英語版の両方で一貫していた。 しかし、chatgptは基本的な数値演算の実行が困難であった。 我々の実験は、ChatGPTにRスクリプトの形でソリューションを提供するよう要求することは、これらの制限を克服するための効果的なアプローチであることが実証された。 まとめると,チャットgptは初等コンピュータ工学試験でよく提示される確率問題を解く平均的な学生を上回っている。 それでも、このモデルは特定の確率概念に関する推論の限界を示す。 モデルが高品質な説明を提供し、あらゆるプログラミング言語の解法を説明する能力と、確率演習の解法のパフォーマンスを組み合わせることは、大きな言語モデルが学習アシスタントとして機能する可能性を示唆している。

In this paper, we assess the efficacy of ChatGPT (version Feb 2023), a large-scale language model, in solving probability problems typically presented in introductory computer engineering exams. Our study comprised a set of 23 probability exercises administered to students at Rey Juan Carlos University (URJC) in Madrid. The responses produced by ChatGPT were evaluated by a group of five statistics professors, who assessed them qualitatively and assigned grades based on the same criteria used for students. Our results indicate that ChatGPT surpasses the average student in terms of phrasing, organization, and logical reasoning. The model's performance remained consistent for both the Spanish and English versions of the exercises. However, ChatGPT encountered difficulties in executing basic numerical operations. Our experiments demonstrate that requesting ChatGPT to provide the solution in the form of an R script proved to be an effective approach for overcoming these limitations. In summary, our results indicate that ChatGPT surpasses the average student in solving probability problems commonly presented in introductory computer engineering exams. Nonetheless, the model exhibits limitations in reasoning around certain probability concepts. The model's ability to deliver high-quality explanations and illustrate solutions in any programming language, coupled with its performance in solving probability exercises, suggests that large language models have the potential to serve as learning assistants.
翻訳日:2023-10-12 05:00:06 公開日:2023-10-09
# Google Earth Engine (GEE) を用いた選択型水力貯水池の降雨変動と水残量の分析 : スリランカとベトナムの2つの熱帯地域を事例として

Analysis of Rainfall Variability and Water Extent of Selected Hydropower Reservoir Using Google Earth Engine (GEE): A Case Study from Two Tropical Countries, Sri Lanka and Vietnam ( http://arxiv.org/abs/2310.05682v1 )

ライセンス: Link先を確認
Punsisi Rajakaruna, Surajit Ghosh, Bunyod Holmatov(参考訳) 本研究では,ベトナムとスリランカの熱帯モンスーン地域における降雨パターンの総合的リモートセンシング分析と水力貯水量選択について述べる。 本研究の目的は,リモートセンシングされた降雨データと貯水池水深の動的変化(月々)の関係を理解することである。 この分析は、高解像度の光学画像とSentinel-1 Synthetic Aperture Radar (SAR)データを用いて、特にモンスーン季節の異なる気象条件下で水域を観測・監視する。 両国の年間平均降雨量を決定し,1981年から2022年までの気候ハザード群赤外降雨量(chirps)データを用いて,月平均降雨量の時空間変動を地域・貯水池レベルで調べた。 2017年から2022年まで、ベトナムとスリランカのセンチネル-1 SAR Ground Range Detected (GRD) 画像を用いて、選択された貯水池に対して水深を推定した。 画像は事前処理され、地形補正と改良されたリーフィルタを用いて修正される。 自動しきい値アルゴリズムであるotsuは、vvとvhの偏光データを利用して水と陸を区別する。 接続画素カウント閾値を適用して結果精度を向上させる。 その結果, 降雨パターンと貯水量との関係が明らかとなり, モンスーンシーズンの降水量が増加し, その後の数ヶ月で水量も増加した。 本研究は,熱帯モンスーン地域での降雨変動が貯水池の水資源に与える影響を理解するのに寄与する。 予備的な知見は水資源管理戦略に影響を与え、水力発電、洪水管理、灌水に関するこれらの国の意思決定プロセスを支援する。

This study presents a comprehensive remote sensing analysis of rainfall patterns and selected hydropower reservoir water extent in two tropical monsoon countries, Vietnam and Sri Lanka. The aim is to understand the relationship between remotely sensed rainfall data and the dynamic changes (monthly) in reservoir water extent. The analysis utilizes high-resolution optical imagery and Sentinel-1 Synthetic Aperture Radar (SAR) data to observe and monitor water bodies during different weather conditions, especially during the monsoon season. The average annual rainfall for both countries is determined, and spatiotemporal variations in monthly average rainfall are examined at regional and reservoir basin levels using the Climate Hazards Group InfraRed Precipitation with Station (CHIRPS) dataset from 1981 to 2022. Water extents are derived for selected reservoirs using Sentinel-1 SAR Ground Range Detected (GRD) images in Vietnam and Sri Lanka from 2017 to 2022. The images are pre-processed and corrected using terrain correction and refined Lee filter. An automated thresholding algorithm, OTSU, distinguishes water and land, taking advantage of both VV and VH polarization data. The connected pixel count threshold is applied to enhance result accuracy. The results indicate a clear relationship between rainfall patterns and reservoir water extent, with increased precipitation during the monsoon season leading to higher water extents in the later months. This study contributes to understanding how rainfall variability impacts reservoir water resources in tropical monsoon regions. The preliminary findings can inform water resource management strategies and support these countries' decision-making processes related to hydropower generation, flood management, and irrigation.
翻訳日:2023-10-12 04:59:42 公開日:2023-10-09
# 法的事実からの自動議論生成

Automated Argument Generation from Legal Facts ( http://arxiv.org/abs/2310.05680v1 )

ライセンス: Link先を確認
Oscar Tuvey, Procheta Sen(参考訳) 差し掛かるケースの数は、各国で指数関数的に増加した(例えば、インドだけで1000万件以上の差し掛かっているケースがある)。 主な問題は、法律体系に提出された事件の数が、ある国の法律専門家の数よりもはるかに多いという事実にある。 この世界的な状況を踏まえると、AI技術の利用は、法的手続きの効率性とスピードを高めるために最重要視されている。 本研究では,訴訟分析の過程において,法的専門家を支援することに焦点を当てた。 我々の具体的な調査は、オープンソースの大規模言語モデルの生成能力を活用して、訴訟に存在する事実から派生した議論を生み出すことである。 実験結果から,ベストパフォーマンスメソッドから生成された引数は,ベンチマークセットのゴールド標準アノテーションと平均63%の重なりを持つことがわかった。

The count of pending cases has shown an exponential rise across nations (e.g., with more than 10 million pending cases in India alone). The main issue lies in the fact that the number of cases submitted to the law system is far greater than the available number of legal professionals present in a country. Given this worldwide context, the utilization of AI technology has gained paramount importance to enhance the efficiency and speed of legal procedures. In this study we partcularly focus on helping legal professionals in the process of analyzing a legal case. Our specific investigation delves into harnessing the generative capabilities of open-sourced large language models to create arguments derived from the facts present in legal cases. Experimental results show that the generated arguments from the best performing method have on average 63% overlap with the benchmark set gold standard annotations.
翻訳日:2023-10-12 04:59:09 公開日:2023-10-09
# スケーラブルなメタ学習を実践する

Making Scalable Meta Learning Practical ( http://arxiv.org/abs/2310.05674v1 )

ライセンス: Link先を確認
Sang Keun Choe, Sanket Vaibhav Mehta, Hwijeen Ahn, Willie Neiswanger, Pengtao Xie, Emma Strubell, Eric Xing(参考訳) 機械学習プログラムにおける多様な帰納バイアスを学習する柔軟性にもかかわらず、メタ学習(すなわち学習する学習)は、膨大な計算/メモリコスト、トレーニング不安定性、効率的な分散トレーニングサポートの欠如により、スケーラビリティの低下に悩まされてきた。 本研究では,暗黙の識別アルゴリズムとシステムの両方の進歩を組み合わせたSAMAを導入することで,スケーラブルなメタ学習の実現に注力する。 特に,SAMAは,2階勾配情報の明示的な計算を回避し,一階勾配に実装した効率的な分散トレーニング技術を活用することにより,計算負担を低減しつつ,メタ学習プログラムのベースレベルにおいて,幅広い適応型オプティマイザを柔軟に支援するように設計されている。 複数の大規模メタラーニングベンチマークで評価され、SAMAは、他のベースラインメタラーニングアルゴリズムと比較して、シングルGPUとマルチGPUのセットアップで、スループットが1.7/4.8倍、メモリ消費が2.0/3.8倍向上することを示した。 さらに,SAMAに基づくデータ最適化により,BERT と RoBERTa の大規模言語モデルによるテキスト分類精度が一貫した向上を達成し,画像分類タスクによる小規模・大規模データプルーニングの両立を実現し,言語や視覚領域にまたがるスケーラブルなメタ学習の実践的適用性を実証した。

Despite its flexibility to learn diverse inductive biases in machine learning programs, meta learning (i.e., learning to learn) has long been recognized to suffer from poor scalability due to its tremendous compute/memory costs, training instability, and a lack of efficient distributed training support. In this work, we focus on making scalable meta learning practical by introducing SAMA, which combines advances in both implicit differentiation algorithms and systems. Specifically, SAMA is designed to flexibly support a broad range of adaptive optimizers in the base level of meta learning programs, while reducing computational burden by avoiding explicit computation of second-order gradient information, and exploiting efficient distributed training techniques implemented for first-order gradients. Evaluated on multiple large-scale meta learning benchmarks, SAMA showcases up to 1.7/4.8x increase in throughput and 2.0/3.8x decrease in memory consumption respectively on single-/multi-GPU setups compared to other baseline meta learning algorithms. Furthermore, we show that SAMA-based data optimization leads to consistent improvements in text classification accuracy with BERT and RoBERTa large language models, and achieves state-of-the-art results in both small- and large-scale data pruning on image classification tasks, demonstrating the practical applicability of scalable meta learning across language and vision domains.
翻訳日:2023-10-12 04:58:58 公開日:2023-10-09
# モデルベース強化学習のためのマルチタイムステップモデル

Multi-timestep models for Model-based Reinforcement Learning ( http://arxiv.org/abs/2310.05672v1 )

ライセンス: Link先を確認
Abdelhakim Benechehab, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Bal\'azs K\'egl(参考訳) モデルベース強化学習(mbrl)では、ほとんどのアルゴリズムはデータに基づいて学習されたワンステップダイナミクスモデルからの軌道をシミュレートする。 このアプローチの批判的な課題は、軌道の長さが大きくなるにつれて1ステップの予測誤差を複合することである。 本稿では,マルチタイムステップの目標を用いて,ワンステップモデルのトレーニングを行う。 我々の目標は、様々な将来の地平線における損失関数(例えば負の対に似た)の重み付き和である。 私たちは様々な重みのプロファイルを探索し、テストします。 指数関数的に減衰する重みは、長い水平R2スコアを大幅に改善するモデルにつながる。 この改善は、モデルがノイズデータで評価された場合に特に顕著である。 最後に,ソフトアクター・クリティカル(SAC)エージェントを純粋バッチ強化学習(RL)および反復バッチRLシナリオに使用することにより,我々のマルチステップモデルが標準ワンステップモデルより優れ,あるいは適合していることを発見した。 これは特に、実世界のアプリケーションにおける我々のアプローチの可能性を強調した、考慮された環境のノイズのあるバリエーションで明らかだった。

In model-based reinforcement learning (MBRL), most algorithms rely on simulating trajectories from one-step dynamics models learned on data. A critical challenge of this approach is the compounding of one-step prediction errors as length of the trajectory grows. In this paper we tackle this issue by using a multi-timestep objective to train one-step models. Our objective is a weighted sum of a loss function (e.g., negative log-likelihood) at various future horizons. We explore and test a range of weights profiles. We find that exponentially decaying weights lead to models that significantly improve the long-horizon R2 score. This improvement is particularly noticeable when the models were evaluated on noisy data. Finally, using a soft actor-critic (SAC) agent in pure batch reinforcement learning (RL) and iterated batch RL scenarios, we found that our multi-timestep models outperform or match standard one-step models. This was especially evident in a noisy variant of the considered environment, highlighting the potential of our approach in real-world applications.
翻訳日:2023-10-12 04:58:23 公開日:2023-10-09
# 自由形ロボット設計のための強化学習

Reinforcement learning for freeform robot design ( http://arxiv.org/abs/2310.05670v1 )

ライセンス: Link先を確認
Muhan Li, David Matthews, Sam Kriegman(参考訳) 動物の形態素適応の必要性に触発されて、ロボットの設計の物理的側面を包含するロボットトレーニングの拡大を試みている。 しかし、ロボットの3次元形態を最適化できる強化学習法は、所定の静的なトポロジーの四肢を再配置または再配置するために制限されている。 ここでは,任意の外部構造と内部構造を持つフリーフォームロボットを設計するためのポリシー勾配を示す。 これは原子構成要素の束を沈着または除去し、付加物、器官、空洞のような高レベルの非パラメトリックなマクロ構造を形成する作用によって達成される。 提案手法は開ループ制御にのみ適用されるが,将来的には閉ループ制御やsim2real の物理機械への転送にどのように適用できるかを論じる。

Inspired by the necessity of morphological adaptation in animals, a growing body of work has attempted to expand robot training to encompass physical aspects of a robot's design. However, reinforcement learning methods capable of optimizing the 3D morphology of a robot have been restricted to reorienting or resizing the limbs of a predetermined and static topological genus. Here we show policy gradients for designing freeform robots with arbitrary external and internal structure. This is achieved through actions that deposit or remove bundles of atomic building blocks to form higher-level nonparametric macrostructures such as appendages, organs and cavities. Although results are provided for open loop control only, we discuss how this method could be adapted for closed loop control and sim2real transfer to physical machines in future.
翻訳日:2023-10-12 04:58:06 公開日:2023-10-09
# LARA: 教師なし異常検出のためのライトオーバーフィッティングリトレーニング手法

LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2310.05668v1 )

ライセンス: Link先を確認
Feiyi Chen, Zhen Qing, Yingying Zhang, Shuiguang Deng, Yi Xiao, Guansong Pang and Qingsong Wen(参考訳) 現在の異常検出モデルのほとんどは、通常のパターンは常に同じであると仮定している。 しかし、Webサービスの通常のパターンは劇的に変化します。 古い分散データでトレーニングされたモデルは、そのような変更の後に時代遅れになる。 モデル全体を毎回トレーニングするのは高価です。 また、通常のパターン変化の開始時点では、新しい分布からの観測データが不十分である。 限られたデータで大規模なニューラルネットワークモデルをトレーニングすることは、オーバーフィッティングに弱い。 そこで本研究では,深部変分オートエンコーダに基づく時系列異常検出法 (vaes) のための軽量・過給再訓練法 (lara) を提案する。 この作品は3つの新しい貢献を目指しています 1) 再訓練プロセスは凸問題として定式化され, 高速で収束し, 過度な適合を防止することができる。 2) 履歴データを保存せずに活用するラミネートブロックの設計 3) 潜在ベクトルと再構成データの微調整を行う場合, 線形生成は基底真理と微調整データとの間の誤差を最小に抑えることができることを数学的に証明する。 さらに,新しい分布から43のタイムスロットを持つLARAの再学習が,その競合するF1スコアを,十分なデータで訓練された最先端の異常検出モデルと比較する上で有効であることを示すために,多くの実験を行った。 また、光のオーバーヘッドも確認する。

Most of current anomaly detection models assume that the normal pattern remains same all the time. However, the normal patterns of Web services change dramatically and frequently. The model trained on old-distribution data is outdated after such changes. Retraining the whole model every time is expensive. Besides, at the beginning of normal pattern changes, there is not enough observation data from the new distribution. Retraining a large neural network model with limited data is vulnerable to overfitting. Thus, we propose a Light and Anti-overfitting Retraining Approach (LARA) for deep variational auto-encoder based time series anomaly detection methods (VAEs). This work aims to make three novel contributions: 1) the retraining process is formulated as a convex problem and can converge at a fast rate as well as prevent overfitting; 2) designing a ruminate block, which leverages the historical data without the need to store them; 3) mathematically proving that when fine-tuning the latent vector and reconstructed data, the linear formations can achieve the least adjusting errors between the ground truths and the fine-tuned ones. Moreover, we have performed many experiments to verify that retraining LARA with even 43 time slots of data from new distribution can result in its competitive F1 Score in comparison with the state-of-the-art anomaly detection models trained with sufficient data. Besides, we verify its light overhead.
翻訳日:2023-10-12 04:57:51 公開日:2023-10-09
# Imitator Learning: 可変環境における箱外模倣能力の実現

Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable Environments ( http://arxiv.org/abs/2310.05712v1 )

ライセンス: Link先を確認
Xiong-Hui Chen, Junyin Ye, Hang Zhao, Yi-Chen Li, Haoran Shi, Yu-Yan Xu, Zhihao Ye, Si-Hang Yang, Anqi Huang, Kai Xu, Zongzhang Zhang, Yang Yu(参考訳) イミテーション学習(IL)は、エージェントが専門家の行動を模倣することを可能にする。 これまでのil技術のほとんどは、大規模なデモを通じて、あるポリシーを正確に模倣することに焦点を当てている。 しかしながら、多くのアプリケーションにおいて、人間が必要とするのは、エージェントがデプロイ時に予期せぬ多くの変化に対処する、対応するタスクのいくつかのデモを通して、様々なタスクを直接実行する能力である。 このシナリオでは、エージェントはデモンストレーションを模倣するだけでなく、予期せぬ環境変化にも適応することが期待される。 これは、さまざまな目に見えないタスクに対する非常に限られた専門家のデモンストレーションに基づいて、オンザフライで模倣ポリシーを再構築できる模倣モジュールを、余分な調整なしで導出することを目的としています。 本研究は,1つの専門的実演に基づく模倣者学習に焦点をあてる。 そこで我々は,ilを強化学習パラダイムに統合し,予期しない状況下での政策行動の定式化を可能にするdemo-attention actor-critic (daac)を提案する。 また,自発的模倣政策構築のために,実演中の適切な状態を適応的に追跡することにより,模倣された動作を効果的に出力できる模倣者ポリシーのための,実演ベースの注意アーキテクチャを設計する。 我々は,新しいナビゲーションベンチマークとロボット環境を開発し,daacが既往の模倣手法である \textit{with large margins} を,目に見えるタスクと目立たないタスクの両方で上回ることを示す。

Imitation learning (IL) enables agents to mimic expert behaviors. Most previous IL techniques focus on precisely imitating one policy through mass demonstrations. However, in many applications, what humans require is the ability to perform various tasks directly through a few demonstrations of corresponding tasks, where the agent would meet many unexpected changes when deployed. In this scenario, the agent is expected to not only imitate the demonstration but also adapt to unforeseen environmental changes. This motivates us to propose a new topic called imitator learning (ItorL), which aims to derive an imitator module that can on-the-fly reconstruct the imitation policies based on very limited expert demonstrations for different unseen tasks, without any extra adjustment. In this work, we focus on imitator learning based on only one expert demonstration. To solve ItorL, we propose Demo-Attention Actor-Critic (DAAC), which integrates IL into a reinforcement-learning paradigm that can regularize policies' behaviors in unexpected situations. Besides, for autonomous imitation policy building, we design a demonstration-based attention architecture for imitator policy that can effectively output imitated actions by adaptively tracing the suitable states in demonstrations. We develop a new navigation benchmark and a robot environment for \topic~and show that DAAC~outperforms previous imitation methods \textit{with large margins} both on seen and unseen tasks.
翻訳日:2023-10-12 04:52:24 公開日:2023-10-09
# 計画トークンを用いた言語モデル推論の指導

Guiding Language Model Reasoning with Planning Tokens ( http://arxiv.org/abs/2310.05707v1 )

ライセンス: Link先を確認
Xinyi Wang, Lucas Caccia, Oleksiy Ostapenko, Xingdi Yuan, Alessandro Sordoni(参考訳) 大規模言語モデル(LLM)は、最近、連鎖推論のような複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。 しかしながら、この能力を強化する既存のアプローチのほとんどは、モデルの推論能力の構造的な側面を無視しながら、データ駆動型メソッドに大きく依存しています。 LLMは個々の推論ステップをうまく管理できますが、すべての推論チェーンの一貫性を維持するのに苦労しています。 これを解決するために,各推論ステップの始めに「計画トークン」を導入し,モデルのガイドとして機能する。 これらのトークン埋め込みは、残りのモデルパラメータとともに微調整される。 我々のアプローチでは、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整またはよりパラメータ効率の良いスキームによって適用できる。 提案手法の有効性を3つの異なるLLMに適用し,3つの算術語問題データセットにおいて顕著な精度向上を示す。

Large language models (LLMs) have recently attracted considerable interest for their ability to perform complex reasoning tasks, such as chain-of-thought reasoning. However, most of the existing approaches to enhance this ability rely heavily on data-driven methods, while neglecting the structural aspects of the model's reasoning capacity. We find that while LLMs can manage individual reasoning steps well, they struggle with maintaining consistency across an entire reasoning chain. To solve this, we introduce 'planning tokens' at the start of each reasoning step, serving as a guide for the model. These token embeddings are then fine-tuned along with the rest of the model parameters. Our approach requires a negligible increase in trainable parameters (just 0.001%) and can be applied through either full fine-tuning or a more parameter-efficient scheme. We demonstrate our method's effectiveness by applying it to three different LLMs, showing notable accuracy improvements across three math word problem datasets w.r.t. plain chain-of-thought fine-tuning baselines.
翻訳日:2023-10-12 04:51:56 公開日:2023-10-09
# siameseエンコーダの帰属法

An Attribution Method for Siamese Encoders ( http://arxiv.org/abs/2310.05703v1 )

ライセンス: Link先を確認
Lucas M\"oller, Dmitry Nikolaev, Sebastian Pad\'o(参考訳) 文変換器(ST)のようなシームズエンコーダモデルの成功にもかかわらず、それらが注意を払う入力の側面についてはほとんど知られていない。 障害は、それらの予測が1つの入力を処理するのではなく2つの入力を比較するため、個々の特徴に起因するものではないことである。 本稿では,複数の入力を持つモデルに対して統合勾配の原理を一般化し,シャムエンコーダの局所帰属法を導出する。 この解は特徴対属性の形式を採り、ST のトークントークン行列に還元することができる。 我々の手法は、積分ヤコビアンを導入し、積分勾配の有利な形式的特性を継承する:それはモデルの完全な計算グラフを考慮に入れ、実際の予測に収束することが保証される。 パイロットによる研究では、ごく少数のトークンペアが多くの予測を説明でき、名詞と動詞に焦点を当てていることが示されている。 正確な予測のためには、トークンの大部分と音声の一部に出席する必要がある。

Despite the success of Siamese encoder models such as sentence transformers (ST), little is known about the aspects of inputs they pay attention to. A barrier is that their predictions cannot be attributed to individual features, as they compare two inputs rather than processing a single one. This paper derives a local attribution method for Siamese encoders by generalizing the principle of integrated gradients to models with multiple inputs. The solution takes the form of feature-pair attributions, and can be reduced to a token-token matrix for STs. Our method involves the introduction of integrated Jacobians and inherits the advantageous formal properties of integrated gradients: it accounts for the model's full computation graph and is guaranteed to converge to the actual prediction. A pilot study shows that in an ST few token-pairs can often explain large fractions of predictions, and it focuses on nouns and verbs. For accurate predictions, it however needs to attend to the majority of tokens and parts of speech.
翻訳日:2023-10-12 04:51:37 公開日:2023-10-09
# Uni3DETR:Unified 3D Detection Transformer

Uni3DETR: Unified 3D Detection Transformer ( http://arxiv.org/abs/2310.05699v1 )

ライセンス: Link先を確認
Zhenyu Wang, Yali Li, Xi Chen, Hengshuang Zhao, Shengjin Wang(参考訳) 既存のポイントクラウドベースの3d検出器は、屋内または屋外のシーン用に設計されている。 様々な環境から収集された点雲内の物体分布と点密度の実質的な違いと、3dメトリクスの複雑な性質から、多様なシーンに対応可能な統一ネットワークアーキテクチャが依然として欠如している。 本稿では,屋内および屋外の3d検出を同一フレームワーク内で処理する統一3d検出器uni3detrを提案する。 具体的には,voxelの特徴と点をクロス・アテンションとして活用し,データとの差異に耐性を持つ検出トランスフォーマティブを用いて物体予測を行う。 そこで我々は,密集した屋内シーンのグローバル情報と,大域の狭い屋外シーンのローカル情報を十分に活用する問合せポイントの混合を提案する。 さらに,提案した疎結合IoUは,xy と z 空間をアンタングルすることで,局所化を最適化する訓練ターゲットを提供する。 大規模な実験により、Uni3DETRは屋内および屋外の両方で優れた性能を示すことが確認された。 特定のデータセットでうまく機能するが、異なる場面で著しく劣化する以前の特殊検出器とは対照的に、Uni3DETRは異種条件下での強い一般化能力を示す(第1図)。 コードは \href{https://github.com/zhenyuw16/Uni3DETR}{https://github.com/zhenyuw16/Uni3DETR} で公開されている。

Existing point cloud based 3D detectors are designed for the particular scene, either indoor or outdoor ones. Because of the substantial differences in object distribution and point density within point clouds collected from various environments, coupled with the intricate nature of 3D metrics, there is still a lack of a unified network architecture that can accommodate diverse scenes. In this paper, we propose Uni3DETR, a unified 3D detector that addresses indoor and outdoor 3D detection within the same framework. Specifically, we employ the detection transformer with point-voxel interaction for object prediction, which leverages voxel features and points for cross-attention and behaves resistant to the discrepancies from data. We then propose the mixture of query points, which sufficiently exploits global information for dense small-range indoor scenes and local information for large-range sparse outdoor ones. Furthermore, our proposed decoupled IoU provides an easy-to-optimize training target for localization by disentangling the xy and z space. Extensive experiments validate that Uni3DETR exhibits excellent performance consistently on both indoor and outdoor 3D detection. In contrast to previous specialized detectors, which may perform well on some particular datasets but suffer a substantial degradation on different scenes, Uni3DETR demonstrates the strong generalization ability under heterogeneous conditions (Fig. 1). Codes are available at \href{https://github.com/zhenyuw16/Uni3DETR}{https://github.com/zhenyuw16/Uni3DETR}.
翻訳日:2023-10-12 04:51:20 公開日:2023-10-09
# 多時期SAR画像を用いた森林モニタリングにおける繰り返し学習と残留学習の併用

Combining recurrent and residual learning for deforestation monitoring using multitemporal SAR images ( http://arxiv.org/abs/2310.05697v1 )

ライセンス: Link先を確認
Carla Nascimento Neves and Raul Queiroz Feitosa and Mabel X. Ortega Adarme and Gilson Antonio Giraldi(参考訳) アマゾンの熱帯雨林は、西ヨーロッパの2倍の広さで、地球上で最大の森林であり、地球規模の気候規制において非常に重要である。 しかし、この地域のリモートセンシングデータからの森林破壊検出は、しばしば1年の大半の間光学衛星データを隠蔽する永続的な雲の覆いによって妨げられる重要な課題となる。 そこで本研究では,大気環境におけるSAR(Synthetic Aperture Radar)マルチテンポラルデータを利用して,森林モニタリングに適した3つのディープラーニングモデルを提案する。 具体的には, 森林破壊検出の精度を向上させるため, rrcnn-1, rrcnn-2, rrcnn-3の3つの再帰的完全畳み込みネットワークアーキテクチャを提案する。 さらに,森林破壊の兆候が急速にSAR画像に現れるという仮説を背景として,バイテンポラルなSARシーケンスをマルチテンポラルなSARシーケンスに置き換えることも検討した。 提案手法の包括的評価は,ブラジル熱帯雨林のサンプルサイトからセンチネル-1多時期配列を用いて行った。 実験解析により,観測期間中にsar画像列を分析すると,一対の画像では検出不能な森林破壊箇所が明らかになることを確認した。 特に、実験結果は、テストされたネットワークアーキテクチャ全体のf1-scoreが約5%向上するという、多時期的アプローチの優位性を裏付けている。 特にRCNN-1は最高精度を達成し、最も近い機体の処理時間の半分を誇っていた。

With its vast expanse, exceeding that of Western Europe by twice, the Amazon rainforest stands as the largest forest of the Earth, holding immense importance in global climate regulation. Yet, deforestation detection from remote sensing data in this region poses a critical challenge, often hindered by the persistent cloud cover that obscures optical satellite data for much of the year. Addressing this need, this paper proposes three deep-learning models tailored for deforestation monitoring, utilizing SAR (Synthetic Aperture Radar) multitemporal data moved by its independence on atmospheric conditions. Specifically, the study proposes three novel recurrent fully convolutional network architectures-namely, RRCNN-1, RRCNN-2, and RRCNN-3, crafted to enhance the accuracy of deforestation detection. Additionally, this research explores replacing a bitemporal with multitemporal SAR sequences, motivated by the hypothesis that deforestation signs quickly fade in SAR images over time. A comprehensive assessment of the proposed approaches was conducted using a Sentinel-1 multitemporal sequence from a sample site in the Brazilian rainforest. The experimental analysis confirmed that analyzing a sequence of SAR images over an observation period can reveal deforestation spots undetectable in a pair of images. Notably, experimental results underscored the superiority of the multitemporal approach, yielding approximately a five percent enhancement in F1-Score across all tested network architectures. Particularly the RRCNN-1 achieved the highest accuracy and also boasted half the processing time of its closest counterpart.
翻訳日:2023-10-12 04:50:54 公開日:2023-10-09
# フェデレートコトレーニングによる感性データ保護

Protecting Sensitive Data through Federated Co-Training ( http://arxiv.org/abs/2310.05696v1 )

ライセンス: Link先を確認
Amr Abourayya and Jens Kleesiek and Kanishka Rao and Erman Ayday and Bharat Rao and Geoff Webb and Michael Kamp(参考訳) 多くの重要なアプリケーションでは、センシティブなデータは本質的に分散している。 フェデレーション学習は、局所的に訓練されたモデルのパラメータを集約することで、協力的にモデルを訓練する。 これにより、センシティブなローカルデータの露出が回避される。 しかし、共有モデルのパラメータからセンシティブなデータを推測することは可能である。 同時に、多くのタイプの機械学習モデルは、決定木や規則アンサンブルのようなパラメータアグリゲーションには役に立たない。 多くのアプリケーション、特にヘルスケアにおいて、大きなラベルのないデータセットが公開されていることが観察されている。 分散蒸留(英語版)によりクライアント間の情報交換、すなわち、ラベルなしデータセット上の各ローカルクライアントのソフトな予測との相違によるローカルトレーニングの共規則化に使用できる。 しかし、これは依然としてプライベート情報を開示し、モデルの種類を勾配ベースの手法でトレーニングできるものに制限する。 我々はさらに一歩進めて、公開されていないデータセットのローカルなハードラベルを共有し、コンセンサスラベルに集約するフェデレーション付きコトレーニングの形式を採用することを提案する。 このコンセンサスラベルは、教師付き機械学習モデルによるローカルトレーニングに使用することができる。 この連関共同学習アプローチは,ベンチマークデータセットと実世界の医療データセットのセット上で,連帯学習と分散蒸留に匹敵するモデル品質を実現していることを示す。 どちらのアプローチよりもプライバシーが向上し、共通のメンバーシップ推論攻撃から高いレベルまで保護される。 さらに,協調学習は,決定木や規則アンサンブルといった解釈可能なモデルを協調的に学習し,集中型トレーニングに匹敵するモデル品質を達成することができることを示した。

In many critical applications, sensitive data is inherently distributed. Federated learning trains a model collaboratively by aggregating the parameters of locally trained models. This avoids exposing sensitive local data. It is possible, though, to infer upon the sensitive data from the shared model parameters. At the same time, many types of machine learning models do not lend themselves to parameter aggregation, such as decision trees, or rule ensembles. It has been observed that in many applications, in particular healthcare, large unlabeled datasets are publicly available. They can be used to exchange information between clients by distributed distillation, i.e., co-regularizing local training via the discrepancy between the soft predictions of each local client on the unlabeled dataset. This, however, still discloses private information and restricts the types of models to those trainable via gradient-based methods. We propose to go one step further and use a form of federated co-training, where local hard labels on the public unlabeled datasets are shared and aggregated into a consensus label. This consensus label can be used for local training by any supervised machine learning model. We show that this federated co-training approach achieves a model quality comparable to both federated learning and distributed distillation on a set of benchmark datasets and real-world medical datasets. It improves privacy over both approaches, protecting against common membership inference attacks to the highest degree. Furthermore, we show that federated co-training can collaboratively train interpretable models, such as decision trees and rule ensembles, achieving a model quality comparable to centralized training.
翻訳日:2023-10-12 04:50:27 公開日:2023-10-09
# 時間パターン予測のための階層型強化学習

Hierarchical Reinforcement Learning for Temporal Pattern Prediction ( http://arxiv.org/abs/2310.05695v1 )

ライセンス: Link先を確認
Faith Johnson, Kristin Dana(参考訳) 本研究では,時間的シーケンス予測における階層的強化学習(HRL)の利用について検討する。 深層学習とHRLの組み合わせを用いて,過去の株価データから時間的価格シーケンスを予測するストックエージェントと,一対一のダッシュカム画像から操舵角度を予測する車両エージェントを開発した。 両領域で行った結果から,封建的強化学習と呼ばれるHRLは,標準RLよりもトレーニング速度,安定性,予測精度を大幅に向上することが示された。 この成功の鍵となる要素は、ネットワーク階層に時間的および空間的抽象化をもたらすマルチレゾリューション構造である。

In this work, we explore the use of hierarchical reinforcement learning (HRL) for the task of temporal sequence prediction. Using a combination of deep learning and HRL, we develop a stock agent to predict temporal price sequences from historical stock price data and a vehicle agent to predict steering angles from first person, dash cam images. Our results in both domains indicate that a type of HRL, called feudal reinforcement learning, provides significant improvements to training speed and stability and prediction accuracy over standard RL. A key component to this success is the multi-resolution structure that introduces both temporal and spatial abstraction into the network hierarchy.
翻訳日:2023-10-12 04:49:59 公開日:2023-10-09
# 医療のための大規模言語モデルに関する調査--データ・技術・応用から説明責任・倫理へ

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics ( http://arxiv.org/abs/2310.05694v1 )

ライセンス: Link先を確認
Kai He, Rui Mao, Qika Lin, Yucheng Ruan, Xiang Lan, Mengling Feng, Erik Cambria(参考訳) 医療分野における大規模言語モデル(LLM)の利用は、特定の専門知識を持つフリーテキストクエリに効果的に対応する能力によって、興奮と懸念の両方を引き起こしている。 この調査は、現在開発中のLLMs for Healthcareの機能の概要と、その開発プロセスを詳述し、従来のPLM(Pretrained Language Models)からLLMへの開発ロードマップの概要を提供することを目的としている。 具体的には、まず、強みと限界の両方を強調した様々な医療アプリケーションの効率と有効性を高めるためにllmの可能性を探求する。 第2に,従来のPLMと最新のLSMの比較を行い,様々なLSMの比較を行った。 次に、関連する医療訓練データ、トレーニング方法、最適化戦略、使用法を要約する。 最後に、医療環境におけるLCMの展開に関するユニークな懸念、特に公平性、説明責任、透明性、倫理について検討する。 本調査は,コンピュータ科学と医療の両面から総合的な調査を行う。 医療に関する議論の他に、アクセス可能なデータセット、最新の方法論、コード実装、github内の評価ベンチマークなど、オープンソースリソースのコレクションをコンパイルすることで、コンピュータサイエンスコミュニティを支援します。 まとめると、我々はplmからllmに移行して、重要なパラダイムシフトが進行中であると主張する。 このシフトには、差別的なAIアプローチから生成的なAIアプローチへの移行、モデル中心の方法論からデータ中心の方法論への移行が含まれる。

The utilization of large language models (LLMs) in the Healthcare domain has generated both excitement and concern due to their ability to effectively respond to freetext queries with certain professional knowledge. This survey outlines the capabilities of the currently developed LLMs for Healthcare and explicates their development process, with the aim of providing an overview of the development roadmap from traditional Pretrained Language Models (PLMs) to LLMs. Specifically, we first explore the potential of LLMs to enhance the efficiency and effectiveness of various Healthcare applications highlighting both the strengths and limitations. Secondly, we conduct a comparison between the previous PLMs and the latest LLMs, as well as comparing various LLMs with each other. Then we summarize related Healthcare training data, training methods, optimization strategies, and usage. Finally, the unique concerns associated with deploying LLMs in Healthcare settings are investigated, particularly regarding fairness, accountability, transparency and ethics. Our survey provide a comprehensive investigation from perspectives of both computer science and Healthcare specialty. Besides the discussion about Healthcare concerns, we supports the computer science community by compiling a collection of open source resources, such as accessible datasets, the latest methodologies, code implementations, and evaluation benchmarks in the Github. Summarily, we contend that a significant paradigm shift is underway, transitioning from PLMs to LLMs. This shift encompasses a move from discriminative AI approaches to generative AI approaches, as well as a shift from model-centered methodologies to datacentered methodologies.
翻訳日:2023-10-12 04:49:48 公開日:2023-10-09
# ニューラルネットワークを制御できることに基づいて

Based on What We Can Control Artificial Neural Networks ( http://arxiv.org/abs/2310.05692v1 )

ライセンス: Link先を確認
Cheng Kang and Xujing Yao(参考訳) ニューラルネットワーク(anns)の安定性と効率は,系統的解析によってどのように保証できるのか? 本稿ではその問合せに対処する。 多くの要因がANNの学習プロセスに影響を与えるが、制御システムからの知識を利用することで、システム機能を分析し、システム応答をシミュレートすることができる。 ほとんどのアンの複雑さは極めて高いが、システム応答をシミュレートすることで、各因子(例えば、オプティマイザー、ハイパーパラメータ)を分析することができる。 この新しい手法は、特にアンに悪影響を及ぼす成分を識別する場合に、新しいオプティマイザーと学習システムの開発に役立つ可能性がある。 ANNの制御は,(1)全てのオプティマイザがコントローラとして機能し,(2)全ての学習システムが入力と出力で制御システムとして機能し,(3)オプティマイザが学習システムに適合するように,オプティマイザと学習システムの設計の恩恵を受けることができる。 コード: \url{https://github.com/randomusername2023/control-anns}

How can the stability and efficiency of Artificial Neural Networks (ANNs) be ensured through a systematic analysis method? This paper seeks to address that query. While numerous factors can influence the learning process of ANNs, utilizing knowledge from control systems allows us to analyze its system function and simulate system responses. Although the complexity of most ANNs is extremely high, we still can analyze each factor (e.g., optimiser, hyperparameters) by simulating their system response. This new method also can potentially benefit the development of new optimiser and learning system, especially when discerning which components adversely affect ANNs. Controlling ANNs can benefit from the design of optimiser and learning system, as (1) all optimisers act as controllers, (2) all learning systems operate as control systems with inputs and outputs, and (3) the optimiser should match the learning system. Please find codes: \url{https://github.com/RandomUserName2023/Control-ANNs}.
翻訳日:2023-10-12 04:49:22 公開日:2023-10-09
# 樹木配置最適化による気候に敏感な都市計画

Climate-sensitive Urban Planning through Optimization of Tree Placements ( http://arxiv.org/abs/2310.05691v1 )

ライセンス: Link先を確認
Simon Schrodi, Ferdinand Briegel, Max Argus, Andreas Christen, Thomas Brox(参考訳) 気候変動は、熱波を含む多くの極端な気象事象の強度と頻度を増加させ、熱的不快感と死亡率の増加をもたらす。 世界的な緩和行動は間違いなく必要であるが、気候に敏感な都市計画を通じて気候適応も必要である。 最も有望な戦略の1つは、街路樹の恩恵を利用して歩行者レベルの環境を冷やすことである。 このような樹木の最適配置の課題について検討する。 物理シミュレーションは、樹木の熱的快適性に対する放射的および熱的影響を推定することができるが、高い計算コストが生じる。 このことは、大面積での木の配置の最適化と、より長い時間スケールでの効果を考慮することを規定している。 そこで,我々はニューラルネットワークを用いて,屋外の温暖化の要因である点平均放射温度をシミュレートし,日々の変動から熱波イベントの時間スケールの延長、さらには数十年にわたる様々な時間スケールを横断する。 木の配置を最適化するために,反復探索フレームワーク内の木が生来の局所的効果を適応的に活用する。 我々は,幅広い研究領域と時間スケールにまたがるアプローチの有効性を示す。 私たちのアプローチは、意思決定者、都市設計者、プランナーに、熱ストレスを軽減するために都市木の可能性を積極的に効果的に評価する権限を与えるためのステップであると考えています。

Climate change is increasing the intensity and frequency of many extreme weather events, including heatwaves, which results in increased thermal discomfort and mortality rates. While global mitigation action is undoubtedly necessary, so is climate adaptation, e.g., through climate-sensitive urban planning. Among the most promising strategies is harnessing the benefits of urban trees in shading and cooling pedestrian-level environments. Our work investigates the challenge of optimal placement of such trees. Physical simulations can estimate the radiative and thermal impact of trees on human thermal comfort but induce high computational costs. This rules out optimization of tree placements over large areas and considering effects over longer time scales. Hence, we employ neural networks to simulate the point-wise mean radiant temperatures--a driving factor of outdoor human thermal comfort--across various time scales, spanning from daily variations to extended time scales of heatwave events and even decades. To optimize tree placements, we harness the innate local effect of trees within the iterated local search framework with tailored adaptations. We show the efficacy of our approach across a wide spectrum of study areas and time scales. We believe that our approach is a step towards empowering decision-makers, urban designers and planners to proactively and effectively assess the potential of urban trees to mitigate heat stress.
翻訳日:2023-10-12 04:49:04 公開日:2023-10-09
# LLMLingua: 大規模言語モデルの高速化推論のためのプロンプト圧縮

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models ( http://arxiv.org/abs/2310.05736v1 )

ライセンス: Link先を確認
Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu(参考訳) 大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。 chain-of-thought (cot) プロンプトや in-context learning (icl) といった技術の進歩により、llm に供給されるプロンプトはますます長くなり、数万トークンを超えている。 モデル推論を高速化し、コストを削減するため、LLMLingua、高圧縮率下で意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮法、圧縮されたコンテンツ間の相互依存性をより良くモデル化するトークンレベルの反復圧縮アルゴリズム、言語モデル間の分配アライメントのための命令チューニングに基づく手法を提案する。 我々は,GSM8K,BBH,ShareGPT,Arxiv- March23の4つのシナリオを対象とした実験と解析を行い,提案手法が最先端性能を実現し,性能損失の少ない最大20倍圧縮を実現することを示す。 私たちのコードはhttps://aka.ms/LLMLingua.comで利用可能です。

Large language models (LLMs) have been applied in various applications due to their astonishing capabilities. With advancements in technologies such as chain-of-thought (CoT) prompting and in-context learning (ICL), the prompts fed to LLMs are becoming increasingly lengthy, even exceeding tens of thousands of tokens. To accelerate model inference and reduce cost, this paper presents LLMLingua, a coarse-to-fine prompt compression method that involves a budget controller to maintain semantic integrity under high compression ratios, a token-level iterative compression algorithm to better model the interdependence between compressed contents, and an instruction tuning based method for distribution alignment between language models. We conduct experiments and analysis over four datasets from different scenarios, i.e., GSM8K, BBH, ShareGPT, and Arxiv-March23; showing that the proposed approach yields state-of-the-art performance and allows for up to 20x compression with little performance loss. Our code is available at https://aka.ms/LLMLingua.
翻訳日:2023-10-12 04:41:02 公開日:2023-10-09
# コードのための大規模言語モデルのプログラムテスト能力

The Program Testing Ability of Large Language Models for Code ( http://arxiv.org/abs/2310.05727v1 )

ライセンス: Link先を確認
Weimin Xiong, Yiwen Guo, Hao Chen(参考訳) CodeXやCodeT5+のようなコードのための大規模言語モデル(LLM)の最近の開発は、コードインテリジェンスを達成する上で非常に有望である。 事前に定義されたタスクを実行するプログラムを完了したコードを合成する能力は、HumanEvalやMBPPといったベンチマークデータセット上で集中的にテストされ、検証されている。 しかし、ソフトウェア工学における幅広い応用範囲を考慮すると、(プログラム合成だけでなく)より広い視点からこれらのllmの評価も期待されている。 本稿では,LLMのプログラム/コードテスト能力について検討する。 プログラムテストにおけるコードに対する最近のLCMの徹底的な解析を行うことにより、これらのモデルの興味深い特性のシリーズを示し、LCMのプログラムテスト能力をいかに改善できるかを示す。 生成したテストケースをプログラム合成に活用した最近の研究により,合成プログラムの品質がさらに向上し,gpt-3.5-turboベースラインと最新のstate-of-the-artと比較して,ヒューマネバル+において+11.77%,+4.22%高いコードパス率を示した。

Recent development of large language models (LLMs) for code like CodeX and CodeT5+ demonstrates tremendous promise in achieving code intelligence. Their ability of synthesizing code that completes a program for performing a pre-defined task has been intensively tested and verified on benchmark datasets including HumanEval and MBPP. Yet, evaluation of these LLMs from more perspectives (than just program synthesis) is also anticipated, considering their broad scope of applications in software engineering. In this paper, we explore the ability of LLMs for testing programs/code. By performing thorough analyses of recent LLMs for code in program testing, we show a series of intriguing properties of these models and demonstrate how program testing ability of LLMs can be improved. Following recent work which utilizes generated test cases to enhance program synthesis, we further leverage our findings in improving the quality of the synthesized programs and show +11.77% and +4.22% higher code pass rates on HumanEval+ comparing with the GPT-3.5-turbo baseline and the recent state-of-the-art, respectively.
翻訳日:2023-10-12 04:40:39 公開日:2023-10-09
# ワーナー状態の新規部分微量不等式と蒸留性

New Partial Trace Inequalities and Distillability of Werner States ( http://arxiv.org/abs/2310.05726v1 )

ライセンス: Link先を確認
Pablo Costa Rico(参考訳) 我々は、ヴェルナー状態のn$-蒸留可能性の新しいキャラクタリゼーションを示し、それらのいくつかを2-蒸留可能性に応じて分類する。 この結果は、系の次元と行列の階数に束縛された部分的トレースに関して新たな不等式をもたらす。 For an $n$-partite system we prove that there are $2^n-1$ partial trace inequalities using the dimension of the systems, and for the bounds with respect to the rank, for the case $n=2$ we prove $$\Vert tr_1 C \Vert_2^2+ \Vert tr_2 C \Vert_2^2\leq r \Vert C \Vert_2^2+\frac{1}{r}\vert tr C \vert^2$$ for matrices, which can be written as a rank 1 plus a normal matrix, and $$\left\vert \Vert tr_1 C \Vert_2^2- \Vert tr_2 C \Vert_2^2 \right\vert \leq r \Vert C \Vert_2^2-\frac{1}{r}\vert tr C \vert^2 $$ for any matrix. ここでは、二成分系における他の多くの不等式に対する証明も提示し、三成分系に対しては正行列に対するいくつかの結果を得る。 最後に、この結果がノルムや指数など、より多くのパラメータに依存する不等式族に一般化可能であることを示す数値的な結果を示す。

We present a new characterization for the $n$-distillability of Werner states and classify some of them according to their 2-distillability. This result brings out new inequalities with respect to partial traces with bound on the dimension of the system and also the rank of the matrix. For an $n$-partite system we prove that there are $2^n-1$ partial trace inequalities using the dimension of the systems, and for the bounds with respect to the rank, for the case $n=2$ we prove $$\Vert tr_1 C \Vert_2^2+ \Vert tr_2 C \Vert_2^2\leq r \Vert C \Vert_2^2+\frac{1}{r}\vert tr C \vert^2$$ for matrices, which can be written as a rank 1 plus a normal matrix, and $$\left\vert \Vert tr_1 C \Vert_2^2- \Vert tr_2 C \Vert_2^2 \right\vert \leq r \Vert C \Vert_2^2-\frac{1}{r}\vert tr C \vert^2 $$ for any matrix. Here we also present the proofs for many other inequalities in bipartite systems, and for tripartite systems we also obtain some results for positive matrices. Finally, we show numerical results indicating that this results could also be generalized to more families of inequalities depending on more parameters, such as the norm or exponents.
翻訳日:2023-10-12 04:40:19 公開日:2023-10-09
# ホック後のバイアススコーリングは公平な分類に最適

Post-hoc Bias Scoring Is Optimal For Fair Classification ( http://arxiv.org/abs/2310.05725v1 )

ライセンス: Link先を確認
Wenlong Chen, Yegor Klochkov, Yang Liu(参考訳) グループフェアネス制約の下での二分分類問題を考える。これは人口格差(dp)、等化機会(eop)、等化オッズ(eo)の1つである。 フェアネス制約下でのベイズ最適分類器の明示的な特徴付けを提案し, 制約のない分類器の簡単な修正規則であることが判明した。 具体的には, バイアススコアと呼ばれる新しいインスタンスレベルのバイアス尺度を導入し, 修正規則は, バイアススコアの有限量に加えて, 単純な線形規則である。 この特徴に基づいて,高い精度を維持しつつ公平性制約に適応できるポストホックな手法を開発した。 DPとEOpの制約の場合、修正規則は1つのバイアススコアをしきい値にし、EOの制約の場合、線形修正規則を2つのパラメータに適合させることが要求される。 この方法は、いくつかの感度特性を含むような複合グループフェアネス基準にも適用することができる。 我々は、アダルト、Compab、CelebAの3つのデータセットの内処理と後処理の両方と比較して、競争力やパフォーマンスが向上する。 ほとんどの後処理メソッドとは異なり、推論時間中に機密属性にアクセスする必要はない。

We consider a binary classification problem under group fairness constraints, which can be one of Demographic Parity (DP), Equalized Opportunity (EOp), or Equalized Odds (EO). We propose an explicit characterization of Bayes optimal classifier under the fairness constraints, which turns out to be a simple modification rule of the unconstrained classifier. Namely, we introduce a novel instance-level measure of bias, which we call bias score, and the modification rule is a simple linear rule on top of the finite amount of bias scores. Based on this characterization, we develop a post-hoc approach that allows us to adapt to fairness constraints while maintaining high accuracy. In the case of DP and EOp constraints, the modification rule is thresholding a single bias score, while in the case of EO constraints we are required to fit a linear modification rule with 2 parameters. The method can also be applied for composite group-fairness criteria, such as ones involving several sensitive attributes. We achieve competitive or better performance compared to both in-processing and post-processing methods across three datasets: Adult, COMPAS, and CelebA. Unlike most post-processing methods, we do not require access to sensitive attributes during the inference time.
翻訳日:2023-10-12 04:39:53 公開日:2023-10-09
# オフライン・オンライン強化学習におけるアウト・オブ・ディストリビューションの計画

Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2310.05723v1 )

ライセンス: Link先を確認
Trevor McInroe, Stefano V. Albrecht, Amos Storkey(参考訳) 静的データセットによるオフライン事前トレーニングと、オンラインの微調整(オフライン-オンライン/oto)は、実際のrlデプロイメントプロセスとよくマッチするパラダイムである。 このシナリオでは、オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指している。 oto設定での以前の作業は、オフラインrlアルゴリズムのポリシー制約機構によって引き起こされるバイアスの修正に焦点を当てていた。 このような制約は、学習されたポリシーをデータセットを収集する行動ポリシーに近づけるが、行動ポリシーが最適ではない場合、不要にポリシーパフォーマンスを制限する。 代わりに、政策制約を廃止し、OtO RLを探索問題とみなし、オンラインデータ収集のメリットを最大化する必要があります。 我々は、主要なオンラインRL探索パラダイムを研究し、OtO設定でうまく機能するように適応する。 これらの適応手法は、いくつかの強力なベースラインをもたらす。 また,行動方針では見当たらない状態-行動空間の比較的高い領域におけるオンライン探索を対象とする,配電計画計画のためのアルゴリズム(ptgood)も導入する。 Conditional Entropy Bottleneckの概念を活用することで、PTGOODは、最終的なデプロイメントポリシの改善に関する新たな情報を提供するために、オンラインで収集されたデータを推奨する。 このようにして、限られた相互作用予算が効果的に使用される。 PTGOODは、オンラインの微調整中にエージェントリターンを大幅に改善し、Walkerの10kオンラインステップとHumanoidのような複雑な制御タスクで50kオンラインステップで最適なポリシーを見出す。 また,PTGOODは,多くのベースラインが複数の環境に出現する最適政策収束を回避する。

Offline pretraining with a static dataset followed by online fine-tuning (offline-to-online, or OtO) is a paradigm that is well matched to a real-world RL deployment process: in few real settings would one deploy an offline policy with no test runs and tuning. In this scenario, we aim to find the best-performing policy within a limited budget of online interactions. Previous work in the OtO setting has focused on correcting for bias introduced by the policy-constraint mechanisms of offline RL algorithms. Such constraints keep the learned policy close to the behavior policy that collected the dataset, but this unnecessarily limits policy performance if the behavior policy is far from optimal. Instead, we forgo policy constraints and frame OtO RL as an exploration problem: we must maximize the benefit of the online data-collection. We study major online RL exploration paradigms, adapting them to work well with the OtO setting. These adapted methods contribute several strong baselines. Also, we introduce an algorithm for planning to go out of distribution (PTGOOD), which targets online exploration in relatively high-reward regions of the state-action space unlikely to be visited by the behavior policy. By leveraging concepts from the Conditional Entropy Bottleneck, PTGOOD encourages data collected online to provide new information relevant to improving the final deployment policy. In that way the limited interaction budget is used effectively. We show that PTGOOD significantly improves agent returns during online fine-tuning and finds the optimal policy in as few as 10k online steps in Walker and in as few as 50k in complex control tasks like Humanoid. Also, we find that PTGOOD avoids the suboptimal policy convergence that many of our baselines exhibit in several environments.
翻訳日:2023-10-12 04:39:31 公開日:2023-10-09
# 最適輸送による変圧器核融合

Transformer Fusion with Optimal Transport ( http://arxiv.org/abs/2310.05719v1 )

ライセンス: Link先を確認
Moritz Imfeld (1), Jacopo Graldi (1), Marco Giordano (1), Thomas Hofmann (1), Sotiris Anagnostidis (1), Sidak Pal Singh (1) ((1) ETH Zurich)(参考訳) fusionは、複数の独立学習されたニューラルネットワークをマージしてそれらの能力を統合する技術である。 過去の試みは、完全接続、畳み込み、および残留ネットワークの場合に限られてきた。 本稿では,様々なアーキテクチャコンポーネントを(ソフトに)配置する最適なトランスポートを利用する,2つ以上のトランスベースネットワークを融合する系統的アプローチを提案する。 我々は,任意のアーキテクチャに一般化可能なレイヤアライメントの抽象化を具体化し,マルチヘッドセルフアテンションやレイヤ正規化,残差接続といったトランスフォーマーの重要な構成要素に適用し,様々なアブレーション研究を通じてそれらを扱う方法について論じる。 さらに, 異なるサイズのモデル(異種融合)を融合させることにより, トランスフォーマーの圧縮のための新しい効率的な方法を提供する。 提案手法は視覚変換器による画像分類タスクとBERTを用いた自然言語モデリングタスクの両方で評価される。 我々のアプローチはバニラ融合を一貫して上回り、驚くほど短い微調整の後、個々の収束親モデルも上回ります。 その結果,トランスフォーマーの場合,ソフトアライメントが重要な役割を担っているという興味深い知見が得られた。 本研究は,複数のトランスフォーマーを融合させる可能性を示し,モデル融合と再結合の融合パラダイムにおいて,その専門性が高まることを示した。

Fusion is a technique for merging multiple independently-trained neural networks in order to combine their capabilities. Past attempts have been restricted to the case of fully-connected, convolutional, and residual networks. In this paper, we present a systematic approach for fusing two or more transformer-based networks exploiting Optimal Transport to (soft-)align the various architectural components. We flesh out an abstraction for layer alignment, that can generalize to arbitrary architectures -- in principle -- and we apply this to the key ingredients of Transformers such as multi-head self-attention, layer-normalization, and residual connections, and we discuss how to handle them via various ablation studies. Furthermore, our method allows the fusion of models of different sizes (heterogeneous fusion), providing a new and efficient way for compression of Transformers. The proposed approach is evaluated on both image classification tasks via Vision Transformer and natural language modeling tasks using BERT. Our approach consistently outperforms vanilla fusion, and, after a surprisingly short finetuning, also outperforms the individual converged parent models. In our analysis, we uncover intriguing insights about the significant role of soft alignment in the case of Transformers. Our results showcase the potential of fusing multiple Transformers, thus compounding their expertise, in the budding paradigm of model fusion and recombination.
翻訳日:2023-10-12 04:38:08 公開日:2023-10-09
# EdVAE: 証拠離散変分オートエンコーダによるコードブックの崩壊の軽減

EdVAE: Mitigating Codebook Collapse with Evidential Discrete Variational Autoencoders ( http://arxiv.org/abs/2310.05718v1 )

ライセンス: Link先を確認
Gulcin Baykal, Melih Kandemir, Gozde Unal(参考訳) コードブック崩壊は、ベクトル量子変分オートエンコーダ(VQ-VAE)のような離散表現空間を持つ深層生成モデルの訓練において一般的な問題である。 我々は、エンコーダがデータを表すコードブック埋め込み上の分布を直接学習する代替設計の離散変分オートエンコーダ(dvaes)に対して、同じ問題が発生することを観察する。 確率分布を得るためにソフトマックス関数を用いることで、最適のコードブック要素に過信確率を割り当てることで、コードブックの崩壊を引き起こすと仮定する。 本稿では,dVAEのコードブック崩壊問題に対処するために,ソフトマックスの代わりに顕在的深層学習(EDL)を組み込む新しい手法を提案する。 ソフトマックス使用法とは対照的に,コードブック埋め込みにおける確率分布の達成の重要性を明らかに監視する。 各種データセットを用いた実験により,コードブックの崩壊を軽減し,再構築性能を向上し,dVAEモデルやVQ-VAEモデルと比較してコードブックの利用率を向上させることができた。

Codebook collapse is a common problem in training deep generative models with discrete representation spaces like Vector Quantized Variational Autoencoders (VQ-VAEs). We observe that the same problem arises for the alternatively designed discrete variational autoencoders (dVAEs) whose encoder directly learns a distribution over the codebook embeddings to represent the data. We hypothesize that using the softmax function to obtain a probability distribution causes the codebook collapse by assigning overconfident probabilities to the best matching codebook elements. In this paper, we propose a novel way to incorporate evidential deep learning (EDL) instead of softmax to combat the codebook collapse problem of dVAE. We evidentially monitor the significance of attaining the probability distribution over the codebook embeddings, in contrast to softmax usage. Our experiments using various datasets show that our model, called EdVAE, mitigates codebook collapse while improving the reconstruction performance, and enhances the codebook usage compared to dVAE and VQ-VAE based models.
翻訳日:2023-10-12 04:37:44 公開日:2023-10-09
# STOPNet:生産ライン上の透明物体に対する多視点6-DoF吸引検出

STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects on Production Lines ( http://arxiv.org/abs/2310.05717v1 )

ライセンス: Link先を確認
Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun, Hanlin Zhao, He Wang(参考訳) 本研究では,ロボットシステムや現代産業において重要な課題である透明物体に限らず,生産ライン上での6-DoFオブジェクト吸引検出のためのフレームワークSTOPNetを提案する。 近年では,深度カメラの形状認識が不足しているため,透明物体に対して深度入力を必要とする手法が提案されているが,マルチビューステレオを用いて,rgb入力のみに応じてシーンを再現する新たな枠組みが提案されている。 既存の作品と比較して, 高品質な6自由度吸入ポーズをリアルタイムで得るために3次元シーン全体を再構成するだけでなく, シミュレーションと実世界の両方において, 新たな環境や新しいアレンジメント, 挑戦的な透明物体を含む新しい物体に一般化する。 シミュレーションと実世界における大規模な実験により,本手法は基礎をはるかに上回り,実用的産業ニーズに適合する優れた一般化性を有することが示された。

In this work, we present STOPNet, a framework for 6-DoF object suction detection on production lines, with a focus on but not limited to transparent objects, which is an important and challenging problem in robotic systems and modern industry. Current methods requiring depth input fail on transparent objects due to depth cameras' deficiency in sensing their geometry, while we proposed a novel framework to reconstruct the scene on the production line depending only on RGB input, based on multiview stereo. Compared to existing works, our method not only reconstructs the whole 3D scene in order to obtain high-quality 6-DoF suction poses in real time but also generalizes to novel environments, novel arrangements and novel objects, including challenging transparent objects, both in simulation and the real world. Extensive experiments in simulation and the real world show that our method significantly surpasses the baselines and has better generalizability, which caters to practical industrial needs.
翻訳日:2023-10-12 04:37:24 公開日:2023-10-09
# 限定サンプルを用いたニューラル表現における形状距離の推定

Estimating Shape Distances on Neural Representations with Limited Samples ( http://arxiv.org/abs/2310.05742v1 )

ライセンス: Link先を確認
Dean A. Pospisil, Brett W. Larsen, Sarah E. Harvey, Alex H. Williams(参考訳) 高次元ネットワーク表現間の幾何学的類似性の測定は、神経科学とディープラーニングに対する長年の関心のトピックである。 多くの手法が提案されているが、データ制限体制における統計的効率や定量化された推定器の不確かさを厳格に分析する研究はごくわずかである。 ここでは、williams et al. (2021) によって提唱された表現的異質性の尺度$\unicode{x2014}$a の形状距離の標準推定器の最悪のケース収束の上限と下限を導出する。 これらの境界は、高次元の特徴空間における問題の挑戦的性質を明らかにする。 これらの課題を克服するために、可変バイアス分散トレードオフを持つ新しいモーメント推定器を導入する。 この推定器は、シミュレーションや神経データ、特に高次元の設定において、標準推定器よりも優れた性能を示す。 そこで我々は,高次元形状解析のための厳密な統計理論の基礎を定め,実用的な科学的設定に適した新しい推定法を提案する。

Measuring geometric similarity between high-dimensional network representations is a topic of longstanding interest to neuroscience and deep learning. Although many methods have been proposed, only a few works have rigorously analyzed their statistical efficiency or quantified estimator uncertainty in data-limited regimes. Here, we derive upper and lower bounds on the worst-case convergence of standard estimators of shape distance$\unicode{x2014}$a measure of representational dissimilarity proposed by Williams et al. (2021). These bounds reveal the challenging nature of the problem in high-dimensional feature spaces. To overcome these challenges, we introduce a new method-of-moments estimator with a tunable bias-variance tradeoff. We show that this estimator achieves superior performance to standard estimators in simulation and on neural data, particularly in high-dimensional settings. Thus, we lay the foundation for a rigorous statistical theory for high-dimensional shape analysis, and we contribute a new estimation method that is well-suited to practical scientific settings.
翻訳日:2023-10-12 04:28:40 公開日:2023-10-09
# 言語モデルが拡散に勝る - Tokenizerがビジュアル生成の鍵

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation ( http://arxiv.org/abs/2310.05737v1 )

ライセンス: Link先を確認
Lijun Yu, Jos\'e Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang(参考訳) 大規模言語モデル(llm)は、言語における生成的タスクの主要なモデルであるが、画像やビデオ生成における拡散モデルほどの性能はない。 視覚生成にLLMを効果的に利用するためには、LLM学習に適した離散トークンに画素空間の入力をマッピングする視覚トークン化器が重要である。 本稿では,ビデオと画像の両方に対して,共通トークン語彙を用いて簡潔かつ表現豊かなトークンを生成するためのビデオトークン化システムMAGVIT-v2を紹介する。 この新たなトークンを組み込んだLLMは、ImageNetやKineeticsなどの標準画像およびビデオ生成ベンチマークにおいて拡散モデルよりも優れていることを示す。 さらに,1)人間の評価による次世代ビデオコーデック(VCC)に匹敵するビデオ圧縮,(2)行動認識タスクの効果的な表現の学習,という2つのタスクにおいて,従来のトップパフォーマンスビデオコンデンサを上回っていることを示す。

While Large Language Models (LLMs) are the dominant models for generative tasks in language, they do not perform as well as diffusion models on image and video generation. To effectively use LLMs for visual generation, one crucial component is the visual tokenizer that maps pixel-space inputs to discrete tokens appropriate for LLM learning. In this paper, we introduce MAGVIT-v2, a video tokenizer designed to generate concise and expressive tokens for both videos and images using a common token vocabulary. Equipped with this new tokenizer, we show that LLMs outperform diffusion models on standard image and video generation benchmarks including ImageNet and Kinetics. In addition, we demonstrate that our tokenizer surpasses the previously top-performing video tokenizer on two more tasks: (1) video compression comparable to the next-generation video codec (VCC) according to human evaluations, and (2) learning effective representations for action recognition tasks.
翻訳日:2023-10-12 04:28:25 公開日:2023-10-09
# ModMaxオシレータの量子化

Quantization of the ModMax Oscillator ( http://arxiv.org/abs/2310.06015v1 )

ライセンス: Link先を確認
Christian Ferko, Alisha Gupta, Eashan Iyer(参考訳) 我々は、修正マックスウェル理論の次元を1つの時空次元に還元するModMax発振器を量子化する。 モドマックス発振子の伝達子は、円筒座標におけるラプラス方程式に関連する微分方程式を満たすことを示し、この理論の古典的および量子的分割関数の式を得る。 そこで我々は,保存電荷の関数による量子力学理論の変形に関する一般的な結果を開発した。 このような変形理論の正準量子化と経路積分量子化は、位相空間パス積分を使用するときのみ同値であることを示し、これはラグランジアンの古典的変形がハミルトニアンのそれと同値であるという主張の正確な量子類似性を与える。

We quantize the ModMax oscillator, which is the dimensional reduction of the Modified Maxwell theory to one spacetime dimension. We show that the propagator of the ModMax oscillator satisfies a differential equation related to the Laplace equation in cylindrical coordinates, and we obtain expressions for the classical and quantum partition functions of the theory. To do this, we develop general results for deformations of quantum mechanical theories by functions of conserved charges. We show that canonical quantization and path integral quantization of such deformed theories are equivalent only if one uses the phase space path integral; this gives a precise quantum analogue of the statement that classical deformations of the Lagrangian are equivalent to those of the Hamiltonian.
翻訳日:2023-10-12 04:21:29 公開日:2023-10-09
# AI駆動型分散における分断・対数ダイナミクス

Divide-and-Conquer Dynamics in AI-Driven Disempowerment ( http://arxiv.org/abs/2310.06009v1 )

ライセンス: Link先を確認
Peter S. Park and Max Tegmark(参考訳) AI企業は、人間を最も経済的に価値のある仕事で上回るAIシステムを作ろうとしている。 現在のAIモデルは、既に一部のアーティスト、俳優、作家の生活を自動化する。 しかし、現在の害と将来の害を優先する者との戦いがある。 我々は、この不統一の原因と結果を研究するために、対立のゲーム理論モデルを構築します。 私たちのモデルは、歴史を通じて共通の脅威を共有するステークホルダーが、それに対して団結することが有利であること、そしてなぜ共通の脅威が、分割と征服が有利であるかを説明するのにも役立ちます。 現実的なパラメータ仮定の下では, モデルでは, 歴史的-経験的記録から予備的確証を求めるいくつかの予測を行う。 第一に、AIによる非武装化の犠牲者は、彼らの利益も深刻で差し迫った脅威下にあることに気付くために将来の犠牲者を必要としている。 第二に、ai主導の無力化に対する動きはより団結し、結果として、メンバーが彼らの努力が無駄ではなく成功すると信じれば、より普及する可能性が高い。 最後に、メンバーが近視的でない場合、運動はより団結し、優位に立つことができる。 近視的なメンバーは、現在の幸福よりも将来の幸福を優先し、ai主導の無力化の共通の脅威に対抗するために必要であったとしても、今日の犠牲者を個人的コストで協力的に支援する傾向に欠ける。

AI companies are attempting to create AI systems that outperform humans at most economically valuable work. Current AI models are already automating away the livelihoods of some artists, actors, and writers. But there is infighting between those who prioritize current harms and future harms. We construct a game-theoretic model of conflict to study the causes and consequences of this disunity. Our model also helps explain why throughout history, stakeholders sharing a common threat have found it advantageous to unite against it, and why the common threat has in turn found it advantageous to divide and conquer. Under realistic parameter assumptions, our model makes several predictions that find preliminary corroboration in the historical-empirical record. First, current victims of AI-driven disempowerment need the future victims to realize that their interests are also under serious and imminent threat, so that future victims are incentivized to support current victims in solidarity. Second, the movement against AI-driven disempowerment can become more united, and thereby more likely to prevail, if members believe that their efforts will be successful as opposed to futile. Finally, the movement can better unite and prevail if its members are less myopic. Myopic members prioritize their future well-being less than their present well-being, and are thus disinclined to solidarily support current victims today at personal cost, even if this is necessary to counter the shared threat of AI-driven disempowerment.
翻訳日:2023-10-12 04:21:13 公開日:2023-10-09
# CoBEVFusion:LiDAR-Camera Bird's-Eye View Fusionとの共同認識

CoBEVFusion: Cooperative Perception with LiDAR-Camera Bird's-Eye View Fusion ( http://arxiv.org/abs/2310.06008v1 )

ライセンス: Link先を確認
Donghao Qiao and Farhana Zulkernine(参考訳) 自動運転車(avs)は複数のセンサーを使って周囲に関する情報を収集する。 センサーデータをコネクテッド・オートモービルズ(CAV)間で共有することにより、これらの車両の安全性と信頼性は協調認識と呼ばれる概念によって向上することができる。 しかし、近年の協調認識におけるアプローチは、カメラやLiDARのような単一のセンサー情報しか共有していない。 本研究では,複数のセンサデータソースの融合を探索し,lidarとカメラデータを融合してbird's-eye view (bev)表現を生成するフレームワークcobevfusionを提案する。 CAVはマルチモーダルデータをローカルに処理し、デュアルウィンドウベースのクロスアテンション(DWCA)モジュールを使用してLiDARとカメラ機能を統合されたBEV表現に融合する。 融合したBEV特徴マップはCAV間で共有され、CAVから特徴を集約するために3D畳み込みニューラルネットワークが適用される。 我々のCoBEVFusionフレームワークは,BEVセマンティックセグメンテーションと3Dオブジェクト検出という2つの知覚課題に対して,協調認識データセットOPV2Vを用いて評価した。 その結果、我々のDWCA LiDAR-camera融合モデルは、単一モーダルデータと最先端のBEV融合モデルで知覚モデルより優れていた。 我々の総合的な協調認識アーキテクチャであるCoBEVFusionは、他の協調認識モデルと同等の性能を達成する。

Autonomous Vehicles (AVs) use multiple sensors to gather information about their surroundings. By sharing sensor data between Connected Autonomous Vehicles (CAVs), the safety and reliability of these vehicles can be improved through a concept known as cooperative perception. However, recent approaches in cooperative perception only share single sensor information such as cameras or LiDAR. In this research, we explore the fusion of multiple sensor data sources and present a framework, called CoBEVFusion, that fuses LiDAR and camera data to create a Bird's-Eye View (BEV) representation. The CAVs process the multi-modal data locally and utilize a Dual Window-based Cross-Attention (DWCA) module to fuse the LiDAR and camera features into a unified BEV representation. The fused BEV feature maps are shared among the CAVs, and a 3D Convolutional Neural Network is applied to aggregate the features from the CAVs. Our CoBEVFusion framework was evaluated on the cooperative perception dataset OPV2V for two perception tasks: BEV semantic segmentation and 3D object detection. The results show that our DWCA LiDAR-camera fusion model outperforms perception models with single-modal data and state-of-the-art BEV fusion models. Our overall cooperative perception architecture, CoBEVFusion, also achieves comparable performance with other cooperative perception models.
翻訳日:2023-10-12 04:20:46 公開日:2023-10-09
# 大規模言語モデル学習のためのメモリコストと通信コストの再考

Rethinking Memory and Communication Cost for Efficient Large Language Model Training ( http://arxiv.org/abs/2310.06003v1 )

ライセンス: Link先を確認
Chan Wu, Hanxiao Zhang, Lin Ju, Jinjing Huang, Youshao Xiao, Zhaoxin Huan, Siyuan Li, Fanzhuang Meng, Lei Liang, Xiaolu Zhang and Jun Zhou(参考訳) モデルのサイズとトレーニングデータセットが増加を続けるにつれ、大規模モデルのトレーニングフレームワークは、さまざまなシャーディング技術によるメモリ消費を削減する。 しかし、大きな通信オーバーヘッドは、特にネットワーク帯域幅の異なるパブリッククラウド環境において、トレーニング効率を低下させる。 本稿では,大規模言語モデルの学習速度に対するメモリ消費と通信のオーバーヘッドの影響を再考し,メモリ通信バランスのバランスの取れた\underline{pa}rtial \underline{r}edundancy \underline{o}ptimizer (paro)を提案する。 PaROは、GPUクラスタをグループ化し、小さなグループ内メモリ冗長性を導入することにより、グループ間通信の量と頻度を低減し、モデルのトレーニング効率を向上させる。 さらに,大規模なモデルトレーニングにおいて,ノード間やスイッチ間の通信効率を高めるために,階層オーバーラップリング(HO-Ring)通信トポロジを提案する。 実験により,HO-Ring アルゴリズムは従来の Ring アルゴリズムと比較して通信効率を 32.6 % 向上することを示した。 ベースラインのZeROと比較して、PaROはトレーニングのスループットを1.2x-2.6倍改善し、ほぼ直線的なスケーラビリティを実現している。 したがって、PaRO戦略は、異なるトレーニングシナリオにおけるメモリ消費と通信オーバーヘッドの間のトレードオフをよりきめ細かい選択肢を提供する。

As model sizes and training datasets continue to increase, large-scale model training frameworks reduce memory consumption by various sharding techniques. However, the huge communication overhead reduces the training efficiency, especially in public cloud environments with varying network bandwidths. In this paper, we rethink the impact of memory consumption and communication overhead on the training speed of large language model, and propose a memory-communication balanced \underline{Pa}rtial \underline{R}edundancy \underline{O}ptimizer (PaRO). PaRO reduces the amount and frequency of inter-group communication by grouping GPU clusters and introducing minor intra-group memory redundancy, thereby improving the training efficiency of the model. Additionally, we propose a Hierarchical Overlapping Ring (HO-Ring) communication topology to enhance communication efficiency between nodes or across switches in large model training. Our experiments demonstrate that the HO-Ring algorithm improves communication efficiency by 32.6\% compared to the traditional Ring algorithm. Compared to the baseline ZeRO, PaRO significantly improves training throughput by 1.2x-2.6x and achieves a near-linear scalability. Therefore, the PaRO strategy provides more fine-grained options for the trade-off between memory consumption and communication overhead in different training scenarios.
翻訳日:2023-10-12 04:20:24 公開日:2023-10-09
# LCOT: 線形円形最適輸送

LCOT: Linear circular optimal transport ( http://arxiv.org/abs/2310.06002v1 )

ライセンス: Link先を確認
Rocio Diaz Martin, Ivan Medri, Yikun Bai, Xinran Liu, Kangbai Yan, Gustavo K. Rohde, Soheil Kolouri(参考訳) 非ユークリッド空間上で支援される測度の最適輸送問題は、表現学習を含む多様な応用に多くの関心を集めている。 本稿では,円周方向の確率測度,すなわち単位円上で支持される確率測度に着目し,これらの測度に対して,線形循環最適輸送(LCOT)と呼ばれる新しい計算効率の高い測度を導入する。 提案したメトリックには、機械学習(ML)アルゴリズムを組み込み尺度に適用し、MLアルゴリズムの基盤となるメトリックをLCOTにシームレスに修正する、明示的な線形埋め込みが含まれている。 提案する計量は円最適輸送 (cot) に根ざしており、固定された基準測度に対するcot計量の線形化と考えることができる。 提案手法を理論的に解析し,円確率測度の対比較のための計算複雑性を導出する。 最後に,一組の数値実験を通して,円周測度の学習におけるLCOTの利点を実証する。

The optimal transport problem for measures supported on non-Euclidean spaces has recently gained ample interest in diverse applications involving representation learning. In this paper, we focus on circular probability measures, i.e., probability measures supported on the unit circle, and introduce a new computationally efficient metric for these measures, denoted as Linear Circular Optimal Transport (LCOT). The proposed metric comes with an explicit linear embedding that allows one to apply Machine Learning (ML) algorithms to the embedded measures and seamlessly modify the underlying metric for the ML algorithm to LCOT. We show that the proposed metric is rooted in the Circular Optimal Transport (COT) and can be considered the linearization of the COT metric with respect to a fixed reference measure. We provide a theoretical analysis of the proposed metric and derive the computational complexities for pairwise comparison of circular probability measures. Lastly, through a set of numerical experiments, we demonstrate the benefits of LCOT in learning representations of circular measures.
翻訳日:2023-10-12 04:20:02 公開日:2023-10-09
# ChatGPTを使ったソフトウェア開発には,どのようなスキルが必要なのか? (論文)

What Skills Do You Need When Developing Software Using ChatGPT? (Discussion Paper) ( http://arxiv.org/abs/2310.05998v1 )

ライセンス: Link先を確認
Johan Jeuring, Roel Groot, Hieke Keuning(参考訳) github copilotやchatgptといったllmベースのツールのリリース以来、メディアや一般的な科学文献だけでなく、acmのコミュニケーションといったジャーナルも、これらのツールがプログラミングをどのように変えるかという意見で溢れています。 その意見は ``machines will programself'' から ``ai does not help programmers'' まで様々である。 もちろん、これらの声明は議論をかき立てるためのものであり、一粒の塩で取るべきであるが、我々はそのような根拠のない声明は潜在的に有害であると主張する。 そこで本研究では,LSMツールを用いたソフトウェア開発に必要なスキルについて検討する。 本稿では,計算思考(CT)技術がLSMツールを用いたソフトウェア開発能力を予測できるかどうかを調査する実験について報告する。 以上の結果から,LCMベースのツールを用いてソフトウェアを開発する能力は,CTアセスメントのスコアによって予測できることが示唆された。 実験には多くの制限がありますが、本論文は、llmベースのツールを使ってソフトウェアを開発するのに必要なスキルについて、実験的にどのようにアプローチするかを議論する上でも役立ちます。 我々は、この質問を、どのような人々/プログラマが、どんな LLM ベースのツールを使って、どのような種類のソフトウェアを開発するかを含めるために、言い換えることを提案する。

Since the release of LLM-based tools such as GitHub Copilot and ChatGPT the media and popular scientific literature, but also journals such as the Communications of the ACM, have been flooded with opinions how these tools will change programming. The opinions range from ``machines will program themselves'', to ``AI does not help programmers''. Of course, these statements are meant to to stir up a discussion, and should be taken with a grain of salt, but we argue that such unfounded statements are potentially harmful. Instead, we propose to investigate which skills are required to develop software using LLM-based tools. In this paper we report on an experiment in which we explore if Computational Thinking (CT) skills predict the ability to develop software using LLM-based tools. Our results show that the ability to develop software using LLM-based tools can indeed be predicted by the score on a CT assessment. There are many limitations to our experiment, and this paper is also a call to discuss how to approach, preferably experimentally, the question of which skills are required to develop software using LLM-based tools. We propose to rephrase this question to include by what kind of people/programmers, to develop what kind of software using what kind of LLM-based tools.
翻訳日:2023-10-12 04:19:47 公開日:2023-10-09
# サポートベクトルマシンのコスト感受性確率予測

Cost-sensitive probabilistic predictions for support vector machines ( http://arxiv.org/abs/2310.05997v1 )

ライセンス: Link先を確認
Sandra Ben\'itez-Pe\~na, Rafael Blanquero, Emilio Carrizosa, Pepa Ram\'irez-Cobo(参考訳) サポートベクターマシン(SVM)は,2クラス分類において最もよく検討され,使用されている機械学習モデルの一つである。 SVMの分類はスコア・プロシージャに基づいており、決定論的分類規則は(既成のSVMライブラリに実装されているように)確率規則に変換できるが、本質的には確率的ではない。 一方、SVMにおける正規化パラメータのチューニングは、高い計算労力を暗示し、完全に活用されていない情報の断片を生成し、確率的分類ルールを構築するために使用しないことが知られている。 本稿では,SVMの確率的出力を生成する新しい手法を提案する。 新しい方法は以下の3つの特性を持つ。 まず、コストに敏感に設計されており、感度(または真の正の率、TPR)と特異性(真の負の率、TNR)の異なる重要性がモデルで容易に許容される。 その結果、このモデルは運用上のビジネス問題に共通する不均衡なデータセットを、チャーン予測やクレジットスコアリングとして扱うことができる。 第二に、SVMは、パラメータチューニングプロセスで生成された貴重な情報を利用して、そのパフォーマンスを改善するためにアンサンブルメソッドに組み込まれている。 最後に、確率推定はブートストラップ推定を通じて行われ、競合するアプローチとしてパラメトリックモデルの使用を避ける。 幅広いデータセットの数値実験は、ベンチマーク処理よりもアプローチの利点を示している。

Support vector machines (SVMs) are widely used and constitute one of the best examined and used machine learning models for two-class classification. Classification in SVM is based on a score procedure, yielding a deterministic classification rule, which can be transformed into a probabilistic rule (as implemented in off-the-shelf SVM libraries), but is not probabilistic in nature. On the other hand, the tuning of the regularization parameters in SVM is known to imply a high computational effort and generates pieces of information that are not fully exploited, not being used to build a probabilistic classification rule. In this paper we propose a novel approach to generate probabilistic outputs for the SVM. The new method has the following three properties. First, it is designed to be cost-sensitive, and thus the different importance of sensitivity (or true positive rate, TPR) and specificity (true negative rate, TNR) is readily accommodated in the model. As a result, the model can deal with imbalanced datasets which are common in operational business problems as churn prediction or credit scoring. Second, the SVM is embedded in an ensemble method to improve its performance, making use of the valuable information generated in the parameters tuning process. Finally, the probabilities estimation is done via bootstrap estimates, avoiding the use of parametric models as competing approaches. Numerical tests on a wide range of datasets show the advantages of our approach over benchmark procedures.
翻訳日:2023-10-12 04:19:24 公開日:2023-10-09
# 患者のトリアージ改善のための新しいネットワーク科学アルゴリズム

A novel Network Science Algorithm for Improving Triage of Patients ( http://arxiv.org/abs/2310.05996v1 )

ライセンス: Link先を確認
Pietro Hiram Guzzi, Annamaria De Filippo, Pierangelo Veltri(参考訳) 患者トリアージは、患者の状態の緊急性に基づいて、タイムリーかつ適切なケアを確保するために、医療において重要な役割を果たす。 伝統的なトリアージ法は、主観的かつ誤りやすい人間の判断に大きく依存している。 近年、人工知能(AI)を活用して、トリアージ患者のためのアルゴリズムを開発することへの関心が高まっている。 本稿では,トリアージ患者のための新しいアルゴリズムの開発について述べる。 患者データの分析に基づいて、優先順位付けに関する意思決定を行う。 このアルゴリズムは、バイタルサイン、症状、医療歴などの関連する患者情報を含む包括的なデータセットで訓練された。 このアルゴリズムは、厳格な前処理と特徴工学により、患者をトリアージカテゴリーに正確に分類するように設計されている。 実験の結果,提案アルゴリズムは従来のトリアージ法よりも高い精度と性能を示した。 コンピュータ科学をトリアージプロセスに組み込むことで、医療専門家は効率、正確性、一貫性を改善し、患者を効果的に優先順位付けし、リソース割り当てを最適化することができる。 トレーニングデータのバイアスやモデル解釈可能性といった課題に対処するには、さらなる研究が必要であるが、トリアージのためのaiベースのアルゴリズムの開発は、医療提供と患者の成果向上に大きな期待を示している。

Patient triage plays a crucial role in healthcare, ensuring timely and appropriate care based on the urgency of patient conditions. Traditional triage methods heavily rely on human judgment, which can be subjective and prone to errors. Recently, a growing interest has been in leveraging artificial intelligence (AI) to develop algorithms for triaging patients. This paper presents the development of a novel algorithm for triaging patients. It is based on the analysis of patient data to produce decisions regarding their prioritization. The algorithm was trained on a comprehensive data set containing relevant patient information, such as vital signs, symptoms, and medical history. The algorithm was designed to accurately classify patients into triage categories through rigorous preprocessing and feature engineering. Experimental results demonstrate that our algorithm achieved high accuracy and performance, outperforming traditional triage methods. By incorporating computer science into the triage process, healthcare professionals can benefit from improved efficiency, accuracy, and consistency, prioritizing patients effectively and optimizing resource allocation. Although further research is needed to address challenges such as biases in training data and model interpretability, the development of AI-based algorithms for triaging patients shows great promise in enhancing healthcare delivery and patient outcomes.
翻訳日:2023-10-12 04:19:01 公開日:2023-10-09
# ソーシャルメディア投稿の自殺感受性を自動検出するツール

An Automated Tool to Detect Suicidal Susceptibility from Social Media Posts ( http://arxiv.org/abs/2310.06056v1 )

ライセンス: Link先を確認
Yasin Dus, Georgiy Nefedov(参考訳) 世界保健機関(WHO)によると、2022年に約14万人が自殺した。 これは20秒ごとに1人が自殺することを意味する。 自殺は世界第10位の死因であり、15~29歳の若者では第2位である。 2022年、約1050万件の自殺未遂が発生したと推定されている。 WHOは、自殺が完了した度に、多くの個人が試みていることを示唆している。 今日では、ソーシャルメディアは、幸福、悲しみ、怒り、愛といった感情を共有する場所です。 これは、彼らがどう考えているのか、何をしているのかを理解するのに役立つ。 この研究は、この機会を生かし、誰かが自分自身を傷つけようと考えているかどうかを判断する自動化ツールの開発に焦点を当てる。 Suicidal-Electraモデルに基づいて開発された。 ソーシャルメディア投稿のデータセットを収集して処理し、モデルのトレーニングと微調整に使用しました。 テストデータセットで洗練されたモデルを評価すると、一貫して見事な結果が得られた。 このモデルは93%の印象的な精度を示し、表彰可能なf1スコアは0.93であった。 さらに、サードパーティプラットフォームとのシームレスな統合を可能にするAPIを開発し、自殺率が上昇する懸念に対処するための実装の可能性を高めました。

According to the World Health Organization (WHO), approximately 1.4 million individuals died by suicide in 2022. This means that one person dies by suicide every 20 seconds. Globally, suicide ranks as the 10th leading cause of death, while it ranks second for young people aged 15-29. In the year 2022, it was estimated that about 10.5 million suicide attempts occurred. The WHO suggests that alongside each completed suicide, there are many individuals who make attempts. Today, social media is a place where people share their feelings, such as happiness, sadness, anger, and love. This helps us understand how they are thinking or what they might do. This study takes advantage of this opportunity and focuses on developing an automated tool to find if someone may be thinking about harming themselves. It is developed based on the Suicidal-Electra model. We collected datasets of social media posts, processed them, and used them to train and fine-tune the model. Upon evaluating the refined model with a testing dataset, we consistently observed outstanding results. The model demonstrated an impressive accuracy rate of 93% and a commendable F1 score of 0.93. Additionally, we developed an API enabling seamless integration with third-party platforms, enhancing its potential for implementation to address the growing concern of rising suicide rates.
翻訳日:2023-10-12 02:28:08 公開日:2023-10-09
# 量子照明と量子レーダー:概要

Quantum Illumination and Quantum Radar: A Brief Overview ( http://arxiv.org/abs/2310.06049v1 )

ライセンス: Link先を確認
Athena Karsa, Alasdair Fletcher, Gaetana Spedalieri, Stefano Pirandola(参考訳) 量子照明(qi)と量子レーダーは潜在的に画期的な技術として登場し、量子力学の原理を利用してリモートセンシングとターゲット検出の分野に革命をもたらした。 このプロトコルは、特に量子レーダの文脈において、その現実的なポテンシャルに対する批判と同様に、多くの願望の予想の対象となっている。 本稿では,マイクロ波帯で動作する量子レーダの基盤としてqiとそのポテンシャルに着目した量子ターゲット検出の分野について概説する。 我々は,その歴史的発展と基本的原理を考慮し,この分野の文脈を提供する。 本研究の目的は、qiベースの量子レーダの実現に向けた理論と実験の進展状況についてバランスよく議論し、その展望と今後の方向性について結論を導き出すことである。

Quantum illumination (QI) and quantum radar have emerged as potentially groundbreaking technologies, leveraging the principles of quantum mechanics to revolutionise the field of remote sensing and target detection. The protocol, particularly in the context of quantum radar, has been subject to a great deal of aspirational conjecture as well as criticism with respect to its realistic potential. In this review, we present a broad overview of the field of quantum target detection focusing on QI and its potential as an underlying scheme for a quantum radar operating at microwave frequencies. We provide context for the field by considering its historical development and fundamental principles. Our aim is to provide a balanced discussion on the state of theoretical and experimental progress towards realising a working QI-based quantum radar, and draw conclusions about its current outlook and future directions.
翻訳日:2023-10-12 02:27:50 公開日:2023-10-09
# 異常検出のための知識蒸留

Knowledge Distillation for Anomaly Detection ( http://arxiv.org/abs/2310.06047v1 )

ライセンス: Link先を確認
Adrian Alan Pol, Ekaterina Govorkova, Sonja Gronroos, Nadezda Chernyavskaya, Philip Harris, Maurizio Pierini, Isobel Ojalvo, Peter Elmer(参考訳) 教師なしのディープラーニング技術は、異常な振る舞いを特定するために広く使われている。 このような手法の性能は、トレーニングデータの量とモデルのサイズの積である。 しかしながら、リソース制限されたデバイスへのデプロイメントには、サイズが制限要因になることが多い。 本稿では,非教師付き異常検出モデルを教師付きデプロイ可能なものに圧縮するための知識蒸留に基づく新しい方法を提案し,検出感度を向上させるための一連の手法を提案する。 圧縮されたモデルはより大きなモデルと互換性があり、サイズやメモリフットプリントを大幅に削減する。

Unsupervised deep learning techniques are widely used to identify anomalous behaviour. The performance of such methods is a product of the amount of training data and the model size. However, the size is often a limiting factor for the deployment on resource-constrained devices. We present a novel procedure based on knowledge distillation for compressing an unsupervised anomaly detection model into a supervised deployable one and we suggest a set of techniques to improve the detection sensitivity. Compressed models perform comparably to their larger counterparts while significantly reducing the size and memory footprint.
翻訳日:2023-10-12 02:27:38 公開日:2023-10-09
# LLM for SoC Security - パラダイムシフト

LLM for SoC Security: A Paradigm Shift ( http://arxiv.org/abs/2310.06046v1 )

ライセンス: Link先を確認
Dipayan Saha, Shams Tarek, Katayoon Yahyaei, Sujan Kumar Saha, Jingbo Zhou, Mark Tehranipoor, Farimah Farahmandi(参考訳) system-on-chip (soc) 設計のユビキタス性と複雑さが電子機器全体にわたって増大するにつれ、soc設計フローにセキュリティを組み込む作業は大きな課題となる。 既存のセキュリティソリューションは、スケーラビリティ、包括性、適応性に制限があるため、現代のSoC設計を効果的に検証するには不十分である。 一方、Large Language Models(LLM)は、自然言語理解、高度な推論、プログラム合成タスクにおいて顕著な成功を収めている。 機会を認識して、私たちの研究は、より効率的でスケーラブルで適応可能な方法論を目指して、SoCセキュリティの既存のギャップに対処するために、ジェネレーティブプレトレーニングトランスフォーマー(GPT)の創発的能力を活用することに注力しています。 LLMをSoCのセキュリティ検証パラダイムに統合することで、より複雑なSoCのセキュリティを確保するために、可能性と課題の新しいフロンティアが開かれる。 本稿は,既存の作品の詳細な分析,実践事例の紹介,総合的な実験の紹介,有用なプロモーションガイドラインを提供する。 また,異なるsocセキュリティ検証タスクにおけるllm活用の成果,展望,課題について述べる。

As the ubiquity and complexity of system-on-chip (SoC) designs increase across electronic devices, the task of incorporating security into an SoC design flow poses significant challenges. Existing security solutions are inadequate to provide effective verification of modern SoC designs due to their limitations in scalability, comprehensiveness, and adaptability. On the other hand, Large Language Models (LLMs) are celebrated for their remarkable success in natural language understanding, advanced reasoning, and program synthesis tasks. Recognizing an opportunity, our research delves into leveraging the emergent capabilities of Generative Pre-trained Transformers (GPTs) to address the existing gaps in SoC security, aiming for a more efficient, scalable, and adaptable methodology. By integrating LLMs into the SoC security verification paradigm, we open a new frontier of possibilities and challenges to ensure the security of increasingly complex SoCs. This paper offers an in-depth analysis of existing works, showcases practical case studies, demonstrates comprehensive experiments, and provides useful promoting guidelines. We also present the achievements, prospects, and challenges of employing LLM in different SoC security verification tasks.
翻訳日:2023-10-12 02:27:31 公開日:2023-10-09
# 決定論的対流許容モデルによる生成的アンサンブル深層気象予測

Generative ensemble deep learning severe weather prediction from a deterministic convection-allowing model ( http://arxiv.org/abs/2310.06045v1 )

ライセンス: Link先を確認
Yingkai Sha, Ryan A. Sobash, David John Gagne II(参考訳) 大陸性アメリカ合衆国(CONUS)上での厳しい天候(竜巻、干ばつ、風速)の確率予測のためのアンサンブル後処理法を開発した。 本手法は、深層生成モデルの一種である条件付き生成敵ネットワーク(cgans)と畳み込みニューラルネットワーク(cnn)と、cam(post-process convection-allowing model)予測とを組み合わせる。 CGANは決定論的CAM予測から合成アンサンブル部材を作成するように設計されており、その出力はCNNによって処理され、厳しい天候の確率を推定する。 本手法は,高分解能ラピッドリフレッシュ(HRRR)1--24時間予測を入力として,強風予報センター(SPC)を目標とした。 2021年にHRRR予測のテストデータセットを用いた他のニューラルネットワークベースの参照手法と比較して、BSS(Brier Skill Score)が最大20%向上した熟練した予測を生成する。 不確実性の定量化を評価するために、この手法は過信であるが、良い予測と悪い予測を区別できる有意義なアンサンブル展開を生成する。 また,CGAN出力の品質も評価した。 その結果,CGANの出力は数値アンサンブルと同様の振る舞いを示し,従来のHRRR予測と同様,変数間の相関や影響のある予測器の寄与を保存した。 この研究は、厳しい気象予報に適用可能なニューラルネットワークを用いた、プロセス後CAM出力に対する新しいアプローチを提供する。

An ensemble post-processing method is developed for the probabilistic prediction of severe weather (tornadoes, hail, and wind gusts) over the conterminous United States (CONUS). The method combines conditional generative adversarial networks (CGANs), a type of deep generative model, with a convolutional neural network (CNN) to post-process convection-allowing model (CAM) forecasts. The CGANs are designed to create synthetic ensemble members from deterministic CAM forecasts, and their outputs are processed by the CNN to estimate the probability of severe weather. The method is tested using High-Resolution Rapid Refresh (HRRR) 1--24 hr forecasts as inputs and Storm Prediction Center (SPC) severe weather reports as targets. The method produced skillful predictions with up to 20% Brier Skill Score (BSS) increases compared to other neural-network-based reference methods using a testing dataset of HRRR forecasts in 2021. For the evaluation of uncertainty quantification, the method is overconfident but produces meaningful ensemble spreads that can distinguish good and bad forecasts. The quality of CGAN outputs is also evaluated. Results show that the CGAN outputs behave similarly to a numerical ensemble; they preserved the inter-variable correlations and the contribution of influential predictors as in the original HRRR forecasts. This work provides a novel approach to post-process CAM output using neural networks that can be applied to severe weather prediction.
翻訳日:2023-10-12 02:27:09 公開日:2023-10-09
# 局所情報時間進化による大規模多体量子ダイナミクス

Efficient Large-Scale Many-Body Quantum Dynamics via Local-Information Time Evolution ( http://arxiv.org/abs/2310.06036v1 )

ライセンス: Link先を確認
Claudia Artiaco, Christoph Fleckenstein, David Aceituno, Thomas Klein Kvorning, Jens H. Bardarson(参考訳) 多体系の絡み合いの時間進化は急速に広がり、シミュレーションの精度は小さなシステムや小さな時間スケールに制限される。 しかし、量子情報は局所的なスケールに戻ることなく大規模に流れる傾向にあり、その詳細な大規模構造は局所的な観測物に直接影響を与えない。 これにより、すべての局所観測性を保持し、大規模かつ大規模の量子力学へのアクセスを可能にする方法で、大規模量子情報の除去が可能になる。 この目的のために、最近導入された情報格子を用いて、異なるスケールで量子情報を整理し、制御された方法で長距離量子相関を体系的に破棄するために使用する局所情報と情報電流を定義できる。 我々のアプローチは、システムを最大スケールまでサブシステムに分解し、ノイマン方程式を並列に解くことでサブシステム密度行列を進化させることに依存している。 重要なことは、大規模な情報を捨てる際には、情報の流れを保存する必要がある。 情報流の微視的詳細を仮定することなくこれを実現するため,情報流を正確に得るために,最大規模の状態を使いながら情報を破棄する第2の尺度を導入する。 その結果得られたアルゴリズムは局所情報時間発展 (lite) と呼ばれ、様々な流体力学挙動を持つ閉・開両量子系における多体量子力学の研究に適している。 混合フィールドIsingモデルにおけるエネルギー輸送の結果を示し,そこではパワーロー指数とエネルギー拡散定数を正確に決定する。 さらに,多体システムにおける絡み合いの空間的および時間的挙動について,洞察力のある結果を提供する。

During time evolution of many-body systems entanglement spreads rapidly, limiting exact simulations to small-scale systems or small timescales. Quantum information tends, however, to flow towards larger scales without returning to local scales, such that its detailed large-scale structure does not directly affect local observables. This allows for the removal of large-scale quantum information in a way that preserves all local observables and gives access to large-scale and large-time quantum dynamics. To this end, we use the recently introduced information lattice to organize quantum information into different scales, allowing us to define local information and information currents which we employ to systematically discard long-range quantum correlations in a controlled way. Our approach relies on decomposing the system into subsystems up to a maximum scale and time evolving the subsystem density matrices by solving the subsystem von Neumann equations in parallel. Importantly, the information flow needs to be preserved during the discarding of large-scale information. To achieve this without the need to make assumptions about the microscopic details of the information current, we introduce a second scale at which information is discarded while using the state at the maximum scale to accurately obtain the information flow. The resulting algorithm, which we call local-information time evolution (LITE), is highly versatile and suitable for investigating many-body quantum dynamics in both closed and open quantum systems with diverse hydrodynamic behaviors. We present results for the energy transport in the mixed-field Ising model, where we accurately determine the power-law exponent and the energy diffusion constant. Furthermore, the information lattice framework employed here promises to offer insightful results about the spatial and temporal behavior of entanglement in many-body systems.
翻訳日:2023-10-12 02:26:43 公開日:2023-10-09
# 非線型数の限られたガウス量子光学系の複素性

Complexity of Gaussian quantum optics with a limited number of non-linearities ( http://arxiv.org/abs/2310.06034v1 )

ライセンス: Link先を確認
Michael G. Jabbour and Leonardo Novo(参考訳) 量子光学では、マルチモードのガウス状態(ガウス演算とガウス測定)の合成を含むあらゆる過程が、古典的コンピュータによって効率的にシミュレーションできることが知られている。 ここでは, ガウス過程の非線型単層による遷移振幅の計算は古典的コンピュータでは困難であることを示す。 そこで本研究では,ガウス粒子サンプリング実験の結果の確率を効率よく近似するために,この問題を効率的に解くアルゴリズムをいかに利用できるかを示す。 また, この複雑性を, 2つの非線形層を持つガウス過程の計算遷移確率問題にまで拡張し, 独立な関心を持つ連続変数系に対するアダマール検定を開発した。 光子-光子相互作用の実装における最近の実験的発展を考えると、近い将来に実現可能な非線形量子光学系の量子計算優位性やアルゴリズム的応用を示す新しいスキームが提案されるかもしれない。

It is well known in quantum optics that any process involving the preparation of a multimode gaussian state, followed by a gaussian operation and gaussian measurements, can be efficiently simulated by classical computers. Here, we provide evidence that computing transition amplitudes of Gaussian processes with a single-layer of non-linearities is hard for classical computers. To do so, we show how an efficient algorithm to solve this problem could be used to efficiently approximate outcome probabilities of a Gaussian boson sampling experiment. We also extend this complexity result to the problem of computing transition probabilities of Gaussian processes with two layers of non-linearities, by developing a Hadamard test for continuous-variable systems that may be of independent interest. Given recent experimental developments in the implementation of photon-photon interactions, our results may inspire new schemes showing quantum computational advantage or algorithmic applications of non-linear quantum optical systems realizable in the near-term.
翻訳日:2023-10-12 02:26:15 公開日:2023-10-09
# 測定に基づく等時時間進化を用いたAKLT状態の効率的作成

Efficient preparation of the AKLT State with Measurement-based Imaginary Time Evolution ( http://arxiv.org/abs/2310.06031v1 )

ライセンス: Link先を確認
Tianqi Chen, Tim Byrnes(参考訳) 量子状態の準備は、量子シミュレーション、量子力学、量子コンピューティングなどの応用において、量子情報科学のいくつかの領域において重要な役割を果たす。 しかし、一般に状態準備は確率的な性質やそれ以外のために問題の大きさと指数関数的にスケールするリソースを必要とするため、そのようなモデルの研究は困難である。 本稿では, affleck-lieb-kennedy-tasaki (aklt) モデルの基底状態を, 測定に基づく虚時発展 (mite) 法を用いて決定論的に作成する手法を提案する。 AKLT状態の特殊特性を生かして,MITE法を用いて効率的に調製可能であることを示す。 局所射影の列の収束に基づく推定と、miteアルゴリズムの直接進化は、akltサイトの数に関して一定のスケーリングを示唆しており、これは収束のためのナイーブな推定よりも指数関数的に改善されている。 本手法はqubitベースのシミュレータと互換性があることを示し,回路再コンパイルのための変分量子アルゴリズムを用いて,miteに必要な測定演算子を,デフォルトのqiskit法で得られたものと比較して,回路の深さがはるかに浅い回路で近似できることを示した。

Quantum state preparation plays a crucial role in several areas of quantum information science, in applications such as quantum simulation, quantum metrology and quantum computing. However, typically state preparation requires resources that scale exponentially with the problem size, due to their probabilistic nature or otherwise, making studying such models challenging. In this article, we propose a method to prepare the ground state of the Affleck-Lieb-Kennedy-Tasaki (AKLT) model deterministically using an measurement-based imaginary time evolution (MITE) approach. By taking advantage of the special properties of the AKLT state, we show that it can be prepared efficiently using the MITE approach. Estimates based on the convergence of a sequence of local projections, as well as direct evolution of the MITE algorithm suggest a constant scaling with respect to the number of AKLT sites, which is an exponential improvement over the naive estimate for convergence. We show that the procedure is compatible with qubit-based simulators, and show that using a variational quantum algorithm for circuit recompilation, the measurement operator required for MITE can be well approximated by a circuit with a much shallower circuit depth compared with the one obtained using the default Qiskit method.
翻訳日:2023-10-12 02:25:59 公開日:2023-10-09
# スケーラブル圧電オプトメカニカルトランスデューサを用いた超伝導量子ビットの高忠実光読み出し

High-fidelity optical readout of a superconducting qubit using a scalable piezo-optomechanical transducer ( http://arxiv.org/abs/2310.06026v1 )

ライセンス: Link先を確認
T.C. van Thiel, M.J. Weaver, F. Berto, P. Duivestein, M. Lemang, K. Schuurman, M. \v{Z}emli\v{c}ka, F. Hijazi, A.C. Bernasconi, E. Lachman, M. Field, Y. Mohan, F. de Vries, N. Bultink, J. van Oven, J.Y. Mutus, R. Stockill, S. Gr\"oblacher(参考訳) 超伝導量子プロセッサは、サイズと計算能力に大きな進歩をもたらした。 その結果、多数の超伝導量子ビットを動作させることによる実用的極低温限界は、さらなるスケーリングのボトルネックとなっている。 電気通信繊維の低熱伝導率と高密度光多重化能力のため、マイクロ波から光への変換による量子ビット信号処理は低温空間と熱予算のひずみを著しく緩和する。 本稿では,同軸ケーブルを介して接続された超伝導トランスモンキュービットの光ファイバと,ピエゾ-オプトメカニカルトランスデューサを完全統合した高忠実度マルチショット光読み出しを示す。 分割読み出し技術を用いて, 量子制限増幅器を使わずに, クライオスタットに送信される光電力6$\mu$wで, マルチショット読み出し精度99%以上を達成する。 トランスデューサと量子ビットリードアウト共振器の周波数マッチングの改善により,単発光リードアウトの実現が期待できる。 小さいフットプリント (0.15mm$^2$) とモジュラーファイバーベースのアーキテクチャのため、このデバイスプラットフォームは数千のキュービットで使用するためにスケールする可能性がある。 この結果から,大型量子プロセッサの低散逸動作に対する圧電オプトメカニカルトランスダクションの可能性が示唆された。

Superconducting quantum processors have made significant progress in size and computing potential. As a result, the practical cryogenic limitations of operating large numbers of superconducting qubits are becoming a bottleneck for further scaling. Due to the low thermal conductivity and the dense optical multiplexing capacity of telecommunications fiber, converting qubit signal processing to the optical domain using microwave-to-optics transduction would significantly relax the strain on cryogenic space and thermal budgets. Here, we demonstrate high-fidelity multi-shot optical readout through an optical fiber of a superconducting transmon qubit connected via a coaxial cable to a fully integrated piezo-optomechanical transducer. Using a demolition readout technique, we achieve a multi-shot readout fidelity of >99% at 6 $\mu$W of optical power transmitted into the cryostat with as few as 200 averages, without the use of a quantum-limited amplifier. With improved frequency matching between the transducer and the qubit readout resonator, we anticipate that single-shot optical readout is achievable. Due to the small footprint (<0.15mm$^2$) and the modular fiber-based architecture, this device platform has the potential to scale towards use with thousands of qubits. Our results illustrate the potential of piezo-optomechanical transduction for low-dissipation operation of large quantum processors.
翻訳日:2023-10-12 02:25:38 公開日:2023-10-09
# DyST: リアルタイムビデオにおける動的ニューラルシーン表現に向けて

DyST: Towards Dynamic Neural Scene Representations on Real-World Videos ( http://arxiv.org/abs/2310.06020v1 )

ライセンス: Link先を確認
Maximilian Seitzer, Sjoerd van Steenkiste, Thomas Kipf, Klaus Greff, Mehdi S. M. Sajjadi(参考訳) 世界の視覚的理解は、個々のイメージのセマンティクスや平らな構造を越えている。 本研究では,モノクロ映像から実世界の3次元構造とダイナミックスを捉えることを目的とする。 我々のダイナミックシーントランスフォーマー(DyST)モデルは、ニューラルシーン表現における最近の研究を活用して、モノクロの実世界のビデオのシーンコンテンツ、ビュー毎のシーンダイナミックス、カメラポーズへの遅延分解を学ぶ。 この分離は単眼ビデオと新しい合成データセットdysoによる新しい共同学習方式によって達成されている。 DySTは、カメラとシーンの内容を別々に制御したビュー生成を可能にする動的シーンの具体的な潜在表現を学習する。

Visual understanding of the world goes beyond the semantics and flat structure of individual images. In this work, we aim to capture both the 3D structure and dynamics of real-world scenes from monocular real-world videos. Our Dynamic Scene Transformer (DyST) model leverages recent work in neural scene representation to learn a latent decomposition of monocular real-world videos into scene content, per-view scene dynamics, and camera pose. This separation is achieved through a novel co-training scheme on monocular videos and our new synthetic dataset DySO. DyST learns tangible latent representations for dynamic scenes that enable view generation with separate control over the camera and the content of the scene.
翻訳日:2023-10-12 02:25:15 公開日:2023-10-09
# 決定論点におけるフロッケ量子東モデルの厳密なクエンチダイナミクス

Exact quench dynamics of the Floquet quantum East model at the deterministic point ( http://arxiv.org/abs/2310.06128v1 )

ライセンス: Link先を確認
Bruno Bertini, Cecilia De Fazio, Juan P. Garrahan, Katja Klobas(参考訳) 我々は、Floquet量子東モデルの非平衡ダイナミクス(運動論的に制約された量子東スピンチェーンのトロッター化バージョン)を、CNOT置換ゲートの項で、その「決定論点」で研究する。 我々は「宇宙の進化」により、幅広い初期積状態に対する熱化ダイナミクスを正確に解いた。 証明します (i)スピンのブロックの絡み合いは、局所性によって許容される最大速度(すなわち、デュアルユニタリ回路の速度の半分)の最大半分以上で大きくなる。 (ii)スピンのブロックが最初に古典的構成で準備された場合、絡み合いの速度は最大の4分の1である。 (iii)無限温度状態への熱化は、系の大きさでスケールする有限時間内に正確に到達する。

We study the non-equilibrium dynamics of the Floquet quantum East model (a Trotterized version of the kinetically constrained quantum East spin chain) at its "deterministic point", where evolution is defined in terms of CNOT permutation gates. We solve exactly the thermalization dynamics for a broad class of initial product states by means of "space evolution". We prove: (i) the entanglement of a block of spins grows at most at one-half the maximal speed allowed by locality (i.e., half the speed of dual-unitary circuits); (ii) if the block of spins is initially prepared in a classical configuration, speed of entanglement is a quarter of the maximum; (iii) thermalization to the infinite temperature state is reached exactly in a finite time that scales with the system size.
翻訳日:2023-10-12 02:19:28 公開日:2023-10-09
# 巨視的物理的世界のユニシティを仮定する

Postulating the Unicity of the Macroscopic Physical World ( http://arxiv.org/abs/2310.06099v1 )

ライセンス: Link先を確認
Mathias Van Den Bossche and Philippe Grangier(参考訳) 量子力学に関する明確な見解は、マクロ世界の一様性は数学的に正当化あるいは実証されるべき問題ではなく、物理学の基本的な仮定であると考えることで得られる。 この仮定は、完全に数学的に一貫した方法で量子力学を構築できる枠組みを可能にする。 これは一般作用素代数を用いて物理世界の数学的記述をマクロ系へ拡張することで実現される。 このようなアプローチは、標準教科書量子力学で使われる通常のI型作用素代数を超えている。 これは、通常のI型形式主義を'ユニバーサル'にする誘惑である大きな落とし穴を避ける。 これはまた、古典物理学と量子物理学の両方のメタフレームワークを提供し、古代の概念的反抗理論に新しい光を与え、量子オブジェクトの状態を明確にする。 量子物理学のリモートコーナーを探索するだけでなく、これらのアイデアは量子技術の理解と開発に役立つと期待している。

We argue that a clear view on quantum mechanics is obtained by considering that the unicity of the macroscopic world is a fundamental postulate of physics, rather than an issue that must be mathematically justified or demonstrated. This postulate allows a framework in which quantum mechanics can be constructed, in a complete mathematically consistent way. This is made possible by using general operator algebras to extend the mathematical description of the physical world towards macroscopic systems. Such an approach goes beyond the usual type I operator algebras used in standard textbook quantum mechanics. This avoids a major pitfall, which is the temptation to make the usual type I formalism 'universal'. This may also provide a meta-framework for both classical and quantum physics, shedding a new light on ancient conceptual antagonisms, and clarifying the status of quantum objects. Beyond exploring remote corners of quantum physics, we expect these ideas to be helpful to better understand and develop quantum technologies.
翻訳日:2023-10-12 02:19:12 公開日:2023-10-09
# 化学と創薬のためのトランスフォーマーと大規模言語モデル

Transformers and Large Language Models for Chemistry and Drug Discovery ( http://arxiv.org/abs/2310.06083v1 )

ライセンス: Link先を確認
Andres M Bran, Philippe Schwaller(参考訳) 言語モデリングはここ数年で目覚ましい進歩を遂げており、主にトランスフォーマーアーキテクチャの発明によって、化学と生物学のブレークスルーとともに、機械学習の多くの分野に革命をもたらした。 本章では, 化学合成計画や化学宇宙探査など, 薬物発見プロセスにおける重要なボトルネックに対処するために, トランスフォーマーの活用に化学と自然言語の類似性がどのような影響を与えたかを考察する。 この革命は、線形化分子グラフのような単一の種類のデータを使って特定のタスクを実行できるモデルから始まり、分析機器からのスペクトル、合成アクション、人間の言語といった他の種類のデータを含むように進化した。 新しい傾向は、最近の大規模言語モデルの発展を生かして、化学における一般的なタスクを解決できるモデルの波を生み出し、全て自然言語の柔軟性によって促進される。 これらの機能を探求し、活用していくにつれて、科学的発見を加速する上で、機械学習がさらに不可欠な役割を果たす未来を楽しみにしています。

Language modeling has seen impressive progress over the last years, mainly prompted by the invention of the Transformer architecture, sparking a revolution in many fields of machine learning, with breakthroughs in chemistry and biology. In this chapter, we explore how analogies between chemical and natural language have inspired the use of Transformers to tackle important bottlenecks in the drug discovery process, such as retrosynthetic planning and chemical space exploration. The revolution started with models able to perform particular tasks with a single type of data, like linearised molecular graphs, which then evolved to include other types of data, like spectra from analytical instruments, synthesis actions, and human language. A new trend leverages recent developments in large language models, giving rise to a wave of models capable of solving generic tasks in chemistry, all facilitated by the flexibility of natural language. As we continue to explore and harness these capabilities, we can look forward to a future where machine learning plays an even more integral role in accelerating scientific discovery.
翻訳日:2023-10-12 02:18:56 公開日:2023-10-09
# Performative Time-Series Forecasting

Performative Time-Series Forecasting ( http://arxiv.org/abs/2310.06077v1 )

ライセンス: Link先を確認
Zhiyuan Zhao, Alexander Rodriguez, B.Aditya Prakash(参考訳) 時系列予測は様々な分野において重要な課題であり、近年は大きな進歩を遂げている。 公衆衛生、経済学、社会応用などの現実的なシナリオの多くは、予測が予測結果に影響を与えるフィードバックループを伴い、その後、ターゲット変数の分布を変化させる。 この現象は「パフォーマンス」と呼ばれ、'自己否定'や'自己満足'の予測の可能性をもたらす。 ドメイン間の分類問題に関する広範な研究にもかかわらず、機械学習の観点からの時系列予測の文脈では、パフォーマンス性はいまだに未調査のままである。 本稿では,演奏性に起因した分布シフトが可能な場合の正確な予測の課題に対処するため,演奏時間予測(PeTS)を形式化する。 本稿では,予測分布シフトに対する遅延応答の概念を活用し,それに従って目標を予測する新しい手法である特徴実行シフト(fps)を提案する。 我々は fps が一般化誤差を減少させる可能性を示唆する理論的知見を提供する。 新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。 その結果、FPSは従来の時系列予測手法より一貫して優れており、パフォーマンスに起因した課題に対処する上での有効性を強調している。

Time-series forecasting is a critical challenge in various domains and has witnessed substantial progress in recent years. Many real-life scenarios, such as public health, economics, and social applications, involve feedback loops where predictions can influence the predicted outcome, subsequently altering the target variable's distribution. This phenomenon, known as performativity, introduces the potential for 'self-negating' or 'self-fulfilling' predictions. Despite extensive studies in classification problems across domains, performativity remains largely unexplored in the context of time-series forecasting from a machine-learning perspective. In this paper, we formalize performative time-series forecasting (PeTS), addressing the challenge of accurate predictions when performativity-induced distribution shifts are possible. We propose a novel approach, Feature Performative-Shifting (FPS), which leverages the concept of delayed response to anticipate distribution shifts and subsequently predicts targets accordingly. We provide theoretical insights suggesting that FPS can potentially lead to reduced generalization error. We conduct comprehensive experiments using multiple time-series models on COVID-19 and traffic forecasting tasks. The results demonstrate that FPS consistently outperforms conventional time-series forecasting methods, highlighting its efficacy in handling performativity-induced challenges.
翻訳日:2023-10-12 02:18:38 公開日:2023-10-09
# 自己指導型学習と患者気管による痛み予測:オピオイド投与防止の試み

Pain Forecasting using Self-supervised Learning and Patient Phenotyping: An attempt to prevent Opioid Addiction ( http://arxiv.org/abs/2310.06075v1 )

ライセンス: Link先を確認
Swati Padhee, Tanvi Banerjee, Daniel M. Abrams, and Nirmish Shah(参考訳) シックル細胞病(Sickle Cell Disease, SCD)は、慢性の遺伝疾患である。 オピオイドはこれらの痛みを伴うエピソードを管理するためにしばしば用いられるが、この障害における痛みを管理するのに使用される範囲は議論の的となっている。 これらのオピオイド治療による中毒や副作用のリスクは、多くの場合、将来より多くの痛みのエピソードを引き起こす。 したがって、将来の患者の痛みの軌跡を予測し、患者のSCD管理を支援し、治療を損なうことなく生活の質を向上させることが重要である。 患者の自己報告によって主に記録されるため,予測モデルの設計には多くの痛みの記録を得ることが困難である。 したがって、純粋に監督された方法で痛み予測問題を解くには高価で苦痛(患者コンプライアンスの必要性のため)である。 この課題を踏まえ,自己指導型学習手法を用いて痛み予測問題を解くことを提案する。 また、このような時系列データをクラスタリングすることは、患者の表現型化、"類似"患者を特定して患者の予後を予測し、同種患者サブグループに適した治療ガイドラインを設計する上で重要である。 そこで本研究では,時系列データをクラスタリングするための自己教師あり学習手法を提案する。 5年間にわたる実世界のデータセットの実験により、我々のモデルは最先端のベンチマークよりも優れたパフォーマンスを達成し、臨床的意思決定のために実行可能な情報に変換できる意味のあるクラスタを特定する。

Sickle Cell Disease (SCD) is a chronic genetic disorder characterized by recurrent acute painful episodes. Opioids are often used to manage these painful episodes; the extent of their use in managing pain in this disorder is an issue of debate. The risk of addiction and side effects of these opioid treatments can often lead to more pain episodes in the future. Hence, it is crucial to forecast future patient pain trajectories to help patients manage their SCD to improve their quality of life without compromising their treatment. It is challenging to obtain many pain records to design forecasting models since it is mainly recorded by patients' self-report. Therefore, it is expensive and painful (due to the need for patient compliance) to solve pain forecasting problems in a purely supervised manner. In light of this challenge, we propose to solve the pain forecasting problem using self-supervised learning methods. Also, clustering such time-series data is crucial for patient phenotyping, anticipating patients' prognoses by identifying "similar" patients, and designing treatment guidelines tailored to homogeneous patient subgroups. Hence, we propose a self-supervised learning approach for clustering time-series data, where each cluster comprises patients who share similar future pain profiles. Experiments on five years of real-world datasets show that our models achieve superior performance over state-of-the-art benchmarks and identify meaningful clusters that can be translated into actionable information for clinical decision-making.
翻訳日:2023-10-12 02:18:19 公開日:2023-10-09
# 最適な探索はトンプソンサンプリングよりも難しくない

Optimal Exploration is no harder than Thompson Sampling ( http://arxiv.org/abs/2310.06069v1 )

ライセンス: Link先を確認
Zhaoqi Li, Kevin Jamieson, Lalit Jain(参考訳) 腕の組 $\mathcal{Z}\subset \mathbb{R}^d$ と未知のパラメータベクトル $\theta_\ast\mathbb{R}^d$ が与えられたとき、純粋な探索線形バンドイ問題は $\arg\max_{z\in \mathcal{Z}} z^{\top}\theta_{\ast}$ を返すことを目的としており、$x^{\top}\theta_{\ast}$ と $x\in \mathcal{X}\subset \mathbb{R}^d$ のノイズ測定による確率が高い。 既存の(漸近的に)最適な方法が必要か a) 各アームに対する潜在的にコストがかかるプロジェクション $z\in \mathcal{Z}$ b) それぞれの時点で$\mathcal{Z}$のサブセットを明示的に保持すること。 この複雑さは、後悔の最小化のために人気があり単純なトンプソンサンプリングアルゴリズムと矛盾する。これは後続サンプリングとargmaxオラクルへのアクセスを必要とするだけであり、任意の時点で$\mathcal{Z}$を列挙する必要はない。 残念ながら、トンプソンサンプリングは純粋な探査に最適ではないことが知られている。 最適な探索が可能で、トンプソンサンプリングと同じ計算プリミティブしか必要としないアルゴリズムがあるのだろうか? 私たちはその質問を肯定的に答える。 我々はサンプリングとargmaxのみを利用するアルゴリズムを提供し、指数関数収束率を達成し、指数は漸近的に可能な全ての割り当ての中で最適である。 さらに,本アルゴリズムは,既存の漸近的最適手法と同様に,容易に実装および実行可能であることを示す。

Given a set of arms $\mathcal{Z}\subset \mathbb{R}^d$ and an unknown parameter vector $\theta_\ast\in\mathbb{R}^d$, the pure exploration linear bandit problem aims to return $\arg\max_{z\in \mathcal{Z}} z^{\top}\theta_{\ast}$, with high probability through noisy measurements of $x^{\top}\theta_{\ast}$ with $x\in \mathcal{X}\subset \mathbb{R}^d$. Existing (asymptotically) optimal methods require either a) potentially costly projections for each arm $z\in \mathcal{Z}$ or b) explicitly maintaining a subset of $\mathcal{Z}$ under consideration at each time. This complexity is at odds with the popular and simple Thompson Sampling algorithm for regret minimization, which just requires access to a posterior sampling and argmax oracle, and does not need to enumerate $\mathcal{Z}$ at any point. Unfortunately, Thompson sampling is known to be sub-optimal for pure exploration. In this work, we pose a natural question: is there an algorithm that can explore optimally and only needs the same computational primitives as Thompson Sampling? We answer the question in the affirmative. We provide an algorithm that leverages only sampling and argmax oracles and achieves an exponential convergence rate, with the exponent being the optimal among all possible allocations asymptotically. In addition, we show that our algorithm can be easily implemented and performs as well empirically as existing asymptotically optimal methods.
翻訳日:2023-10-12 02:17:52 公開日:2023-10-09
# 回転行列を用いた視覚に基づく人文推定

Augmenting Vision-Based Human Pose Estimation with Rotation Matrix ( http://arxiv.org/abs/2310.06068v1 )

ライセンス: Link先を確認
Milad Vazan, Fatemeh Sadat Masoumi, Ruizhi Ou, Reza Rawassizadeh(参考訳) フィットネスアプリケーションは体育館内の活動を監視するために一般的に使用されるが、体育館内の屋内活動を自動的に追跡できないことが多い。 本研究では,ポーズ推定と新たなデータ拡張手法,すなわち回転行列を併用したモデルを提案する。 ポーズ推定データに基づく行動認識の分類精度を高めることを目的とする。 実験により,画像拡張手法とともに異なる分類アルゴリズムを実験した。 以上の結果から,SGD最適化を用いたSVMは回転行列を用いたデータ拡張により,5つの物理活動の分類において,96%の精度で精度の高い結果が得られることがわかった。 逆に、データ拡張技術を実装することなく、ベースラインの精度はわずかに64%である。

Fitness applications are commonly used to monitor activities within the gym, but they often fail to automatically track indoor activities inside the gym. This study proposes a model that utilizes pose estimation combined with a novel data augmentation method, i.e., rotation matrix. We aim to enhance the classification accuracy of activity recognition based on pose estimation data. Through our experiments, we experiment with different classification algorithms along with image augmentation approaches. Our findings demonstrate that the SVM with SGD optimization, using data augmentation with the Rotation Matrix, yields the most accurate results, achieving a 96% accuracy rate in classifying five physical activities. Conversely, without implementing the data augmentation techniques, the baseline accuracy remains at a modest 64%.
翻訳日:2023-10-12 02:17:14 公開日:2023-10-09
# スキュー情報による量子チャネルの不確かさ関係の強化

Enhanced quantum channel uncertainty relations by skew information ( http://arxiv.org/abs/2310.06065v1 )

ライセンス: Link先を確認
Xiaoli Hu, Naihong Hu, Bing Yu, Naihuan Jing(参考訳) 不確実性関係の数学的基礎を再考することにより、2つの量子チャネルに対して歪情報に基づく不確実性系列を開発する。 コーシー=シュワルツ不等式の強化版を不確かさ関係を改善するために採用し、不等式のランダム性を相殺するために観測者の座標のサンプリング技術を用いる。 この不確実性関係の下位境界は、以前の研究よりも厳密であることが示されている。

By revisiting the mathematical foundation of the uncertainty relation, skew information-based uncertainty sequences are developed for any two quantum channels. A reinforced version of the Cauchy-Schwarz inequality is adopted to improve the uncertainty relation, and a sampling technique of observables' coordinates is used to offset randomness in the inequality. It is shown that the lower bounds of the uncertainty relations are tighter than some previous studies.
翻訳日:2023-10-12 02:17:03 公開日:2023-10-09
# テキストデータを用いたジェンダーアナライザの監査

Auditing Gender Analyzers on Text Data ( http://arxiv.org/abs/2310.06061v1 )

ライセンス: Link先を確認
Siddharth D Jaiswal, Ankit Kumar Verma, Animesh Mukherjee(参考訳) AIモデルは広く普及し、一般大衆にも利用できるようになった。 しかし、カラーや非バイナリの人たちのような社会の様々な部分に対する実証可能な偏見から、常にスキャナーの下にある。 本研究では,非バイナリな個人に対する偏見として,既存のジェンダーアナライザであるuClassify,Readable,HackerFactorの3つを監査する。 これらのツールは、シスジェンダーのバイナリラベルのみを予測するように設計されており、社会の非バイナリメンバーに対する差別につながる。 Redditのコメント(660k)とTumblrの投稿(2.05M)という2つのデータセットをキュレートし、実験の結果、ツールの精度は全プラットフォームで約50%の精度で極めて不正確であることが分かりました。 すべてのプラットフォームにおける非バイナリコメントの予測は、主に女性であり、非バイナリコメントの個人が効果的である社会バイアスを広めている。 これを解決するために、複数の組み合わせでBERTマルチラベル分類器を微調整し、最も現実的にデプロイ可能な設定で約77%の全体的なパフォーマンスと、非バイナリクラスの90%の驚くほど高いパフォーマンスを観察する。 また、小さなデータセット(高価格のため)でゼロショットプロンプトを使用してChatGPTを監査し、RedditとTumblrの組み合わせの平均精度を58%(Redditの総合的な改善結果と合わせて)を観察します。 このように、ChatGPTのような高度に高度なシステムを含む既存のシステムはバイアスを受けており、より良い監査とモデレーションが必要であり、このような社会的バイアスは、より性的な包括的データセットに基づいてトレーニングされたBERTのような単純なオフザシェルフモデルによって対処および緩和可能であることを示す。

AI models have become extremely popular and accessible to the general public. However, they are continuously under the scanner due to their demonstrable biases toward various sections of the society like people of color and non-binary people. In this study, we audit three existing gender analyzers -- uClassify, Readable and HackerFactor, for biases against non-binary individuals. These tools are designed to predict only the cisgender binary labels, which leads to discrimination against non-binary members of the society. We curate two datasets -- Reddit comments (660k) and, Tumblr posts (2.05M) and our experimental evaluation shows that the tools are highly inaccurate with the overall accuracy being ~50% on all platforms. Predictions for non-binary comments on all platforms are mostly female, thus propagating the societal bias that non-binary individuals are effeminate. To address this, we fine-tune a BERT multi-label classifier on the two datasets in multiple combinations, observe an overall performance of ~77% on the most realistically deployable setting and a surprisingly higher performance of 90% for the non-binary class. We also audit ChatGPT using zero-shot prompts on a small dataset (due to high pricing) and observe an average accuracy of 58% for Reddit and Tumblr combined (with overall better results for Reddit). Thus, we show that existing systems, including highly advanced ones like ChatGPT are biased, and need better audits and moderation and, that such societal biases can be addressed and alleviated through simple off-the-shelf models like BERT trained on more gender inclusive datasets.
翻訳日:2023-10-12 02:16:55 公開日:2023-10-09
# tipping-preserving latent stochastic dynamical system による早期警告とメタラベル補正

Early Warning via tipping-preserving latent stochastic dynamical system and meta label correcting ( http://arxiv.org/abs/2310.06059v1 )

ライセンス: Link先を確認
Peng Zhang, Ting Gao, Jin Guo, Jinqiao Duan(参考訳) てんかん患者に対する早期の警告は、発作の重症度を予防または最小化するために、安全と幸福のために重要である。 患者の脳波データを通して,早期ictal信号の予測を改善するためのメタラーニングフレームワークを提案する。 メタラベル補正法をより効果的に利用するために,実データと拡張データの両方から潜在確率微分方程式(sde)から情報を融合する。 また、実データ間の遷移時間分布と潜時SDEからの遷移時間分布により、潜時力学系を最適に選択する。 このようにして抽出されたチップング動的特徴をメタネットワークに統合し、ノイズデータにラベル付けする。 本手法を検証するため,LSTMをベースラインモデルとして実装した。 我々は1-2秒の入力データから様々な長期窓の発作を予測し、予想精度を驚くほど高める実験を行った。

Early warning for epilepsy patients is crucial for their safety and well-being, in terms of preventing or minimizing the severity of seizures. Through the patients' EEG data, we propose a meta learning framework for improving prediction on early ictal signals. To better utilize the meta label corrector method, we fuse the information from both the real data and the augmented data from the latent Stochastic differential equation(SDE). Besides, we also optimally select the latent dynamical system via distribution of transition time between real data and that from the latent SDE. In this way, the extracted tipping dynamical feature is also integrated into the meta network to better label the noisy data. To validate our method, LSTM is implemented as the baseline model. We conduct a series of experiments to predict seizure in various long-term window from 1-2 seconds input data and find surprisingly increment of prediction accuracy.
翻訳日:2023-10-12 02:16:24 公開日:2023-10-09
# ランダム変数とその主成分の相関について

On the Correlation between Random Variables and their Principal Components ( http://arxiv.org/abs/2310.06139v1 )

ライセンス: Link先を確認
Zenon Gniazdowski(参考訳) この記事は、確率変数とそれらを表す主成分の間の相関係数を記述する代数式を見つけようとするものである。 分析の結果、個々の確率変数に関する選択統計から、これらの確率変数の集合に関する統計値の等価性は、ベクトルと行列の概念を用いて線形代数の言語で表された。 これにより、次のステップで期待の公式を導出することが可能となった。 得られた式は、因子負荷を計算するためにFactory Analysisで使用される公式と同一である。 議論の結果,主成分分析における主成分の数を最適化し,因子分析における因子数を最適化するために,この公式を適用することが可能であることが示唆された。

The article attempts to find an algebraic formula describing the correlation coefficients between random variables and the principal components representing them. As a result of the analysis, starting from selected statistics relating to individual random variables, the equivalents of these statistics relating to a set of random variables were presented in the language of linear algebra, using the concepts of vector and matrix. This made it possible, in subsequent steps, to derive the expected formula. The formula found is identical to the formula used in Factor Analysis to calculate factor loadings. The discussion showed that it is possible to apply this formula to optimize the number of principal components in Principal Component Analysis, as well as to optimize the number of factors in Factor Analysis.
翻訳日:2023-10-12 02:04:39 公開日:2023-10-09
# 多言語自己教師付き事前学習モデルを活用したエンドツーエンド音声理解

Leveraging Multilingual Self-Supervised Pretrained Models for Sequence-to-Sequence End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2310.06103v1 )

ライセンス: Link先を確認
Pavel Denisov, Ngoc Thang Vu(参考訳) 事前学習されたモデルを用いて、エンドツーエンドの音声言語理解(e2e-slu)のためのいくつかの方法が提案されているが、それらの評価には多言語構成やスロット充填などの語彙フィラーの予測を必要とするタスクが欠如している。 本研究では,多言語事前学習音声とテキストモデルを統合する統一手法を提案し,語彙フィラーの予測を含む4言語で6つのデータセット上でE2E-SLUを実行する。 提案手法は,複数の学習目標を用いて,広く利用可能な音声認識データを事前学習することにより,どのように改善できるかを検討する。 7000時間の多言語データの事前トレーニングにより、最終的には2つのSLUデータセットと、部分的には2つのSLUデータセットで最先端のパフォーマンスを達成できます。 最後に,提案モデルの言語横断能力を調べ,ポートメディア言語データセットの最もよく知られた結果のほぼ半分を改善し,概念/値誤り率23.65%を達成した。

A number of methods have been proposed for End-to-End Spoken Language Understanding (E2E-SLU) using pretrained models, however their evaluation often lacks multilingual setup and tasks that require prediction of lexical fillers, such as slot filling. In this work, we propose a unified method that integrates multilingual pretrained speech and text models and performs E2E-SLU on six datasets in four languages in a generative manner, including the prediction of lexical fillers. We investigate how the proposed method can be improved by pretraining on widely available speech recognition data using several training objectives. Pretraining on 7000 hours of multilingual data allows us to outperform the state-of-the-art ultimately on two SLU datasets and partly on two more SLU datasets. Finally, we examine the cross-lingual capabilities of the proposed model and improve on the best known result on the PortMEDIA-Language dataset by almost half, achieving a Concept/Value Error Rate of 23.65%.
翻訳日:2023-10-12 01:28:32 公開日:2023-10-09
# 変動バックドア調整による高次元因果推論

High Dimensional Causal Inference with Variational Backdoor Adjustment ( http://arxiv.org/abs/2310.06100v1 )

ライセンス: Link先を確認
Daniel Israel, Aditya Grover, Guy Van den Broeck(参考訳) バックドア調整は、純粋な観測データから介入量を推定するための因果推論の技法である。 例えば、医療環境では、バックドア調整を使用して、治療の有効性をまとめ、見積もることができます。 しかし、高次元の処理と共同創設者は、トラクタビリティ、識別可能性、最適化といった潜在的な落とし穴を生じさせる。 本研究では,高次元治療法と共同設立者に対するバックドア調整のための生成的モデリング手法を採用する。 我々は,プロキシ変数や隠れた共同設立者に依存しない変分推論において,バックドア調整を最適化問題として位置づけた。 経験的に, 半合成x線医療データを含む様々な高次元環境において, 介入可能性の推定が可能である。 我々の知る限りでは、これは全ての関連する変数が高次元であるバックドア調整の最初の応用である。

Backdoor adjustment is a technique in causal inference for estimating interventional quantities from purely observational data. For example, in medical settings, backdoor adjustment can be used to control for confounding and estimate the effectiveness of a treatment. However, high dimensional treatments and confounders pose a series of potential pitfalls: tractability, identifiability, optimization. In this work, we take a generative modeling approach to backdoor adjustment for high dimensional treatments and confounders. We cast backdoor adjustment as an optimization problem in variational inference without reliance on proxy variables and hidden confounders. Empirically, our method is able to estimate interventional likelihood in a variety of high dimensional settings, including semi-synthetic X-ray medical data. To the best of our knowledge, this is the first application of backdoor adjustment in which all the relevant variables are high dimensional.
翻訳日:2023-10-12 01:28:12 公開日:2023-10-09
# 脳内深層rl模倣学習における予測補助的目標

Predictive auxiliary objectives in deep RL mimic learning in the brain ( http://arxiv.org/abs/2310.06089v1 )

ライセンス: Link先を確認
Ching Fang, Kimberly L Stachenfeld(参考訳) 今後の出来事を予測する能力は、自然と機械の認知の重要な側面を構成すると仮定されている。 これは深層強化学習(RL)のトレンドに支えられ、予測などの自己監督的補助的目的が表現学習を支援しタスクパフォーマンスを向上させるために広く利用されている。 本稿では,予測補助目的がrlシステムの異なるモジュール間での表現学習に与える影響と,脳内で観察される表現変化の模倣について検討する。 我々は、特にリソース制限されたアーキテクチャにおいて、予測目標が学習を改善、安定化することを見出し、より長い予測地平線が表現の伝達をより良く支援する設定を特定する。 さらに、このRL系の表現的変化は、様々な実験において脳内で観察される神経活動の変化と顕著に類似していることが判明した。 具体的には、RLシステムの補助的予測モデルと、記憶誘導行動を支援するための予測モデルを学ぶと考えられる海馬との関係を描いている。 また,脳の視覚野と線条体にそれぞれエンコーダネットワークとRLシステムの値学習ネットワークを接続する。 この研究は、深部RLシステムにおける表現学習が、脳内の多領域相互作用をモデル化するための解釈可能なフレームワークを提供する方法を示す。 ここでの深いRLの視点は、他の領域での表現学習の恩恵を受ける補助学習システムの脳における海馬のさらなる役割を示唆している。

The ability to predict upcoming events has been hypothesized to comprise a key aspect of natural and machine cognition. This is supported by trends in deep reinforcement learning (RL), where self-supervised auxiliary objectives such as prediction are widely used to support representation learning and improve task performance. Here, we study the effects predictive auxiliary objectives have on representation learning across different modules of an RL system and how these mimic representational changes observed in the brain. We find that predictive objectives improve and stabilize learning particularly in resource-limited architectures, and we identify settings where longer predictive horizons better support representational transfer. Furthermore, we find that representational changes in this RL system bear a striking resemblance to changes in neural activity observed in the brain across various experiments. Specifically, we draw a connection between the auxiliary predictive model of the RL system and hippocampus, an area thought to learn a predictive model to support memory-guided behavior. We also connect the encoder network and the value learning network of the RL system to visual cortex and striatum in the brain, respectively. This work demonstrates how representation learning in deep RL systems can provide an interpretable framework for modeling multi-region interactions in the brain. The deep RL perspective taken here also suggests an additional role of the hippocampus in the brain -- that of an auxiliary learning system that benefits representation learning in other regions.
翻訳日:2023-10-12 01:28:01 公開日:2023-10-09
# サンプリング・最適化・ブースティングのためのユニバーサル伊藤鎖の伊藤拡散近似

Ito Diffusion Approximation of Universal Ito Chains for Sampling, Optimization and Boosting ( http://arxiv.org/abs/2310.06081v1 )

ライセンス: Link先を確認
Aleksei Ustimenko, Aleksandr Beznosikov(参考訳) この研究は、幾つかの確率微分方程式のオイラー・マルヤマ離散化のように見える、より一般で広範なマルコフ連鎖、伊藤鎖を考える。 私たちが研究する連鎖は理論解析のための統一的な枠組みである。 ほぼ任意の等方性ノイズと状態依存ノイズが伴うが、ほとんどの関連論文ではそうである。 さらに, 鎖のドリフト・拡散係数は, 確率勾配ランジュバンダイナミクス, サンプリング, 確率勾配降下, 確率勾配ブースティングなど, 幅広い応用範囲をカバーするために不適当である。 我々は、伊藤連鎖の法則と対応する確率微分方程式の間のw_{2}$- distanceの上限を証明できる。 これらの結果は、既知の見積もりの大半を改善またはカバーする。 さらに、特定のケースでは、私たちの分析が初めてです。

This work considers a rather general and broad class of Markov chains, Ito chains that look like Euler-Maryama discretization of some Stochastic Differential Equation. The chain we study is a unified framework for theoretical analysis. It comes with almost arbitrary isotropic and state-dependent noise instead of normal and state-independent one, as in most related papers. Moreover, our chain's drift and diffusion coefficient can be inexact to cover a wide range of applications such as Stochastic Gradient Langevin Dynamics, sampling, Stochastic Gradient Descent, or Stochastic Gradient Boosting. We prove an upper bound for $W_{2}$-distance between laws of the Ito chain and the corresponding Stochastic Differential Equation. These results improve or cover most of the known estimates. Moreover, for some particular cases, our analysis is the first.
翻訳日:2023-10-12 01:27:42 公開日:2023-10-09
# 診断精度の向上:胸部X線画像におけるCovid-19,肺炎,結核の正確な検出のための機械学習技術

Advancing Diagnostic Precision: Leveraging Machine Learning Techniques for Accurate Detection of Covid-19, Pneumonia, and Tuberculosis in Chest X-Ray Images ( http://arxiv.org/abs/2310.06080v1 )

ライセンス: Link先を確認
Aditya Kulkarni, Guruprasad Parasnis, Harish Balasubramanian, Vansh Jain, Anmol Chokshi, Reena Sonkusare(参考訳) 新型コロナウイルス、結核(TB)、肺炎などの肺疾患は、世界中の何百万人もの人々に影響を及ぼす深刻な世界的な健康上の問題であり続けている。 医療分野では、胸部x線検査が疾患、特にcovid-19のような胸部感染症の診断の標準となっている。 救急隊員や科学者は、新型コロナウイルス(covid-19)の早期診断の信頼性と正確なアプローチを、命を救うために熱心に研究している。 しかし、様々な症状で、これらの疾患の診断は特別な困難を引き起こす。 これらの病気をうまく治療し予防するためには、識別とタイムリーな診断に対処することが不可欠である。 本研究では,最先端手法を用いたディープラーニングと画像処理のマルチクラス分類手法を提案する。 この方法は、胸部疾患の診断精度を高めるために、システムの堅牢性と効率を考慮に入れている。 新たな畳み込みニューラルネットワーク(CNN)と、VGG19、ResNet、DenseNet、EfficientNet、InceptionNetなど、トレーニング済みの移行学習モデルの比較が推奨されている。 shenzen、montogomery、multiclass kaggle dataset、nih datasetなどの広く利用可能で広く使用されている研究データセットは、厳密にモデルをテストするために使用された。 提案モデルの性能評価と比較には,リコール,精度,F1スコア,AUCスコアを用いる。 提案ネットワークを用いて、covid-19のauc値0.95、tbの0.99、肺炎の0.98を求める。 それぞれ0.95、0.98、0.97のリコールと精度は高い基準を満たした。

Lung diseases such as COVID-19, tuberculosis (TB), and pneumonia continue to be serious global health concerns that affect millions of people worldwide. In medical practice, chest X-ray examinations have emerged as the norm for diagnosing diseases, particularly chest infections such as COVID-19. Paramedics and scientists are working intensively to create a reliable and precise approach for early-stage COVID-19 diagnosis in order to save lives. But with a variety of symptoms, medical diagnosis of these disorders poses special difficulties. It is essential to address their identification and timely diagnosis in order to successfully treat and prevent these illnesses. In this research, a multiclass classification approach using state-of-the-art methods for deep learning and image processing is proposed. This method takes into account the robustness and efficiency of the system in order to increase diagnostic precision of chest diseases. A comparison between a brand-new convolution neural network (CNN) and several transfer learning pre-trained models including VGG19, ResNet, DenseNet, EfficientNet, and InceptionNet is recommended. Publicly available and widely used research datasets like Shenzen, Montogomery, the multiclass Kaggle dataset and the NIH dataset were used to rigorously test the model. Recall, precision, F1-score, and Area Under Curve (AUC) score are used to evaluate and compare the performance of the proposed model. An AUC value of 0.95 for COVID-19, 0.99 for TB, and 0.98 for pneumonia is obtained using the proposed network. Recall and precision ratings of 0.95, 0.98, and 0.97, respectively, likewise met high standards.
翻訳日:2023-10-12 01:27:26 公開日:2023-10-09
# 雑音残響音環境におけるモノーラル音声分離のための時間領域適合モデルについて

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments ( http://arxiv.org/abs/2310.06125v1 )

ライセンス: Link先を確認
William Ravenscroft and Stefan Goetze and Thomas Hain(参考訳) 音声分離は、マルチスピーカー技術研究者にとって重要なトピックである。 畳み込み変換器(コンフォーマー)は多くの音声処理タスクでうまく機能しているが、音声分離には未検討である。 最近のSOTA分離モデルは、時間領域オーディオ分離ネットワーク(TasNets)である。 多くの成功したモデルでは、ローカルおよびグローバル情報を逐次処理するデュアルパス(DP)ネットワークを使用している。 時間領域コンバータ(TD-Conformers)は、局所的およびグローバルなコンテキストも逐次処理するが、時間複雑性関数が異なるDPアプローチの類似体である。 現実的に短い信号長では、コンフォーメータは特徴次元の制御においてより効率的であることが示されている。 さらに計算効率を向上させるためにサブサンプリング層を提案する。 最高のTD-Conformerは、それぞれWHAMRとWSJ0-2Mixベンチマークで14.6dBと21.2dB SISDRを改善する。

Speech separation remains an important topic for multi-speaker technology researchers. Convolution augmented transformers (conformers) have performed well for many speech processing tasks but have been under-researched for speech separation. Most recent state-of-the-art (SOTA) separation models have been time-domain audio separation networks (TasNets). A number of successful models have made use of dual-path (DP) networks which sequentially process local and global information. Time domain conformers (TD-Conformers) are an analogue of the DP approach in that they also process local and global context sequentially but have a different time complexity function. It is shown that for realistic shorter signal lengths, conformers are more efficient when controlling for feature dimension. Subsampling layers are proposed to further improve computational efficiency. The best TD-Conformer achieves 14.6 dB and 21.2 dB SISDR improvement on the WHAMR and WSJ0-2Mix benchmarks, respectively.
翻訳日:2023-10-11 23:34:24 公開日:2023-10-09
# マルチタスク・マルチドメイン学習のための因子化テンソルネットワーク

Factorized Tensor Networks for Multi-Task and Multi-Domain Learning ( http://arxiv.org/abs/2310.06124v1 )

ライセンス: Link先を確認
Yash Garg, Nebiyou Yismaw, Rakib Hyder, Ashley Prater-Bennette, M. Salman Asif(参考訳) マルチタスクおよびマルチドメイン学習手法は、単一の統一ネットワークを使用して、複数のタスク/ドメインを共同あるいは相互に学習することを求める。 鍵となる課題と機会は、タスクとドメイン間で共有情報を活用し、統一ネットワークの効率を改善することである。 効率性は正確性、ストレージコスト、計算量、サンプルの複雑さの点で評価できる。 本稿では,少数のパラメータを付加した独立なシングルタスク/ドメインネットワークに匹敵する精度を実現するための因子化テンソルネットワーク(ftn)を提案する。 FTNはソースモデルからフリーズバックボーンネットワークを使用し、タスク/ドメイン固有の低ランクテンソル要素を共有フリーズネットワークに追加する。 このアプローチは、破滅的な忘れることなく、多数のターゲットドメインとタスクに適応することができる。 さらに、FTNは既存の手法に比べてタスク固有のパラメータをかなり少なくする必要がある。 広く使われているマルチドメインおよびマルチタスクデータセットの実験を行った。 本研究では,異なるバックボーンを持つ畳み込み型アーキテクチャとトランスフォーマー型アーキテクチャの実験を行った。 我々はFTNが単一タスク/ドメイン法と類似の精度を達成し,タスク毎のパラメータをわずかに増やした。

Multi-task and multi-domain learning methods seek to learn multiple tasks/domains, jointly or one after another, using a single unified network. The key challenge and opportunity is to exploit shared information across tasks and domains to improve the efficiency of the unified network. The efficiency can be in terms of accuracy, storage cost, computation, or sample complexity. In this paper, we propose a factorized tensor network (FTN) that can achieve accuracy comparable to independent single-task/domain networks with a small number of additional parameters. FTN uses a frozen backbone network from a source model and incrementally adds task/domain-specific low-rank tensor factors to the shared frozen network. This approach can adapt to a large number of target domains and tasks without catastrophic forgetting. Furthermore, FTN requires a significantly smaller number of task-specific parameters compared to existing methods. We performed experiments on widely used multi-domain and multi-task datasets. We show the experiments on convolutional-based architecture with different backbones and on transformer-based architecture. We observed that FTN achieves similar accuracy as single-task/domain methods while using only a fraction of additional parameters per task.
翻訳日:2023-10-11 23:34:09 公開日:2023-10-09
# 連合学習における視覚言語モデルのためのテキスト駆動プロンプト生成

Text-driven Prompt Generation for Vision-Language Models in Federated Learning ( http://arxiv.org/abs/2310.06123v1 )

ライセンス: Link先を確認
Chen Qiu, Xingyu Li, Chaithanya Kumar Mummadi, Madan Ravi Ganesh, Zhenzhen Li, Lu Peng, Wan-Yi Lin(参考訳) 視覚言語モデルのプロンプト学習(例えばcoop)は、異なる下流タスクにクリップを適用することに成功し、計算上の理由から連合学習に有望なソリューションとなっている。 既存のプロンプト学習テクニックは、手作りのテキストプロンプトを、見慣れたクラスの改善を提供するが、目に見えないクラスへの一般化に苦しむ学習ベクターに置き換える。 本研究では,複数のリモートクライアント間の統一的なプロンプト生成ネットワークをスケーラブルに学習するfederated text-driven prompt generation (fedtpg)を提案することで,この問題に対処した。 即時生成ネットワークはタスク関連テキスト入力に条件付けされており、コンテキスト対応であり、見知らぬクラスと見えないクラスの両方に一般化するのに適している。 9つの画像分類データセットに関する包括的実証的評価から,本手法は既存のフェデレーション型プロンプト学習法よりも優れていることが判明した。

Prompt learning for vision-language models, e.g., CoOp, has shown great success in adapting CLIP to different downstream tasks, making it a promising solution for federated learning due to computational reasons. Existing prompt learning techniques replace hand-crafted text prompts with learned vectors that offer improvements on seen classes, but struggle to generalize to unseen classes. Our work addresses this challenge by proposing Federated Text-driven Prompt Generation (FedTPG), which learns a unified prompt generation network across multiple remote clients in a scalable manner. The prompt generation network is conditioned on task-related text input, thus is context-aware, making it suitable to generalize for both seen and unseen classes. Our comprehensive empirical evaluations on nine diverse image classification datasets show that our method is superior to existing federated prompt learning methods, that achieve overall better generalization on both seen and unseen classes and is also generalizable to unseen datasets.
翻訳日:2023-10-11 23:33:53 公開日:2023-10-09
# 多変量時系列予測の進歩:総合ベンチマークと異種性解析

Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis ( http://arxiv.org/abs/2310.06119v1 )

ライセンス: Link先を確認
Zezhi Shao, Fei Wang, Yongjun Xu, Wei Wei, Chengqing Yu, Zhao Zhang, Di Yao, Guangyin Jin, Xin Cao, Gao Cong, Christian S. Jensen, Xueqi Cheng(参考訳) 多変量時系列(multivariate time series, mts)は、交通システムやエネルギーシステムといった実語複合システムにおいて広く存在し、それらの予測がこれらのシステムの理解と影響に不可欠である。 近年,MSSにおける時間的・空間的依存を効果的にモデル化するために,特にLTSF(Long-term Time Series Forecasting)やSTF(Spatial-Temporal Forecasting)において,ディープラーニングに基づくアプローチが広く普及している。 しかし、公正なベンチマーク問題と技術的なアプローチの選択は、関連する研究で熱心に議論されている。 このような論争は、この分野の進歩に対する我々の理解を著しく妨げている。 そこで本稿は,これらの議論に対処して,達成した進歩への洞察を提供することを目的とする。 ベンチマークの問題を解決するために,MTS予測における公正な比較を目的としたベンチマークであるBasicTSを紹介する。 basictsは、統一されたトレーニングパイプラインと合理的な評価設定を確立し、18以上のデータセット上で30以上の人気mts予測モデルの偏りのない評価を可能にする。 さらに,mtsデータセット間の不均一性を強調し,時間的・空間的特徴に基づいて分類する。 さらに, 異質性を無視することが, 技術的アプローチの議論を引き起こす主な理由であることを示す。 さらに,提案したBasicTSおよびリッチヘテロジニアスMSSデータセットに基づいて,一般的なモデルの総括的かつ再現可能な性能と効率の比較を行い,MSS予測モデルの選択と設計における研究者の洞察を提供する。

Multivariate Time Series (MTS) widely exists in real-word complex systems, such as traffic and energy systems, making their forecasting crucial for understanding and influencing these systems. Recently, deep learning-based approaches have gained much popularity for effectively modeling temporal and spatial dependencies in MTS, specifically in Long-term Time Series Forecasting (LTSF) and Spatial-Temporal Forecasting (STF). However, the fair benchmarking issue and the choice of technical approaches have been hotly debated in related work. Such controversies significantly hinder our understanding of progress in this field. Thus, this paper aims to address these controversies to present insights into advancements achieved. To resolve benchmarking issues, we introduce BasicTS, a benchmark designed for fair comparisons in MTS forecasting. BasicTS establishes a unified training pipeline and reasonable evaluation settings, enabling an unbiased evaluation of over 30 popular MTS forecasting models on more than 18 datasets. Furthermore, we highlight the heterogeneity among MTS datasets and classify them based on temporal and spatial characteristics. We further prove that neglecting heterogeneity is the primary reason for generating controversies in technical approaches. Moreover, based on the proposed BasicTS and rich heterogeneous MTS datasets, we conduct an exhaustive and reproducible performance and efficiency comparison of popular models, providing insights for researchers in selecting and designing MTS forecasting models.
翻訳日:2023-10-11 23:33:30 公開日:2023-10-09
# ステップバック:大規模言語モデルの抽象化による推論の回避

Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models ( http://arxiv.org/abs/2310.06117v1 )

ライセンス: Link先を確認
Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le and Denny Zhou(参考訳) これは、llmが抽象化して、特定の詳細を含むインスタンスからハイレベルな概念と最初の原則を導き出すシンプルなプロンプトテクニックです。 推論ステップを導くために概念と原則を使用すると、llmはソリューションへの正しい推論パスに従う能力を大幅に向上します。 本研究では,PLM-2Lモデルを用いたステップバック・プロンプティングの実験を行い,STEM,知識QA,マルチホップ推論など,多岐にわたる推論集約的なタスクにおいて,大幅な性能向上を観測する。 例えば、Step-Back PromptingはMMLU物理化学における PaLM-2L のパフォーマンスを7%と11%、TimeQA を27%、MuSiQue を7%改善する。

We present Step-Back Prompting, a simple prompting technique that enables LLMs to do abstractions to derive high-level concepts and first principles from instances containing specific details. Using the concepts and principles to guide the reasoning steps, LLMs significantly improve their abilities in following a correct reasoning path towards the solution. We conduct experiments of Step-Back Prompting with PaLM-2L models and observe substantial performance gains on a wide range of challenging reasoning-intensive tasks including STEM, Knowledge QA, and Multi-Hop Reasoning. For instance, Step-Back Prompting improves PaLM-2L performance on MMLU Physics and Chemistry by 7% and 11%, TimeQA by 27%, and MuSiQue by 7%.
翻訳日:2023-10-11 23:33:05 公開日:2023-10-09
# OptiMUS: マイプソルバーと大規模言語モデルを用いた最適化モデリング

OptiMUS: Optimization Modeling Using mip Solvers and large language models ( http://arxiv.org/abs/2310.06116v1 )

ライセンス: Link先を確認
Ali AhmadiTeshnizi, Wenzhi Gao, Madeleine Udell(参考訳) 最適化問題は製造や流通から医療に至るまで、様々な分野に広がっている。 しかし、そのような問題の多くは、最先端の解法で最適に解くのではなく、手でヒューリスティックに解き明かされ、これらの問題を定式化し解決するのに必要な専門知識は、最適化ツールや技術の普及を妨げている。 我々は,自然言語記述からmilp問題を定式化し,解決するために設計された大規模言語モデル(llm)ベースのエージェントであるoptimusを紹介する。 OptiMUSは、数学的モデルの開発、ソルバコードの記述とデバッギング、テストの開発、生成したソリューションの有効性の検証を行うことができる。 エージェントをベンチマークするために,線形プログラミング(LP)と混合整数線形プログラミング(MILP)の新たなデータセットであるNLP4LPを提案する。 実験の結果,OptiMUS は基本的な LLM プロンプト戦略と比較して67 % の問題を解くことができることがわかった。 OptiMUSコードとNLP4LPデータセットは \href{https://github.com/teshnizi/OptiMUS}{https://github.com/teshnizi/OptiMUS} で入手できる。

Optimization problems are pervasive across various sectors, from manufacturing and distribution to healthcare. However, most such problems are still solved heuristically by hand rather than optimally by state-of-the-art solvers, as the expertise required to formulate and solve these problems limits the widespread adoption of optimization tools and techniques. We introduce OptiMUS, a Large Language Model (LLM)-based agent designed to formulate and solve MILP problems from their natural language descriptions. OptiMUS is capable of developing mathematical models, writing and debugging solver code, developing tests, and checking the validity of generated solutions. To benchmark our agent, we present NLP4LP, a novel dataset of linear programming (LP) and mixed integer linear programming (MILP) problems. Our experiments demonstrate that OptiMUS is able to solve 67\% more problems compared to a basic LLM prompting strategy. OptiMUS code and NLP4LP dataset are available at \href{https://github.com/teshnizi/OptiMUS}{https://github.com/teshnizi/OptiMUS}
翻訳日:2023-10-11 23:32:48 公開日:2023-10-09
# 対話型実世界シミュレータの学習

Learning Interactive Real-World Simulators ( http://arxiv.org/abs/2310.06114v1 )

ライセンス: Link先を確認
Mengjiao Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Dale Schuurmans, Pieter Abbeel(参考訳) インターネットデータで訓練された生成モデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらした。 生成モデルの次のマイルストーンは、人間、ロボット、その他の対話的エージェントによるアクションに反応して、現実的な体験をシミュレートすることだ。 実世界のシミュレータの応用は、ゲームや映画における制御可能なコンテンツ作成から、実世界に直接デプロイできる純粋にシミュレーションで具体化されたエージェントの訓練まで幅広い。 生成モデルによる実世界の相互作用の普遍的シミュレータ(UniSim)の学習の可能性を検討する。 まず,実世界のシミュレータを学習するために利用可能な自然データセットは,異なる軸に沿ってリッチであることが多い(画像データに豊富なオブジェクト,ロボットデータに濃密にサンプリングされたアクション,ナビゲーションデータの多様な動きなど)。 さまざまなデータセットを慎重にオーケストレーションすることで、unisimは、人間とエージェントが世界とどのように相互作用するかをエミュレートし、"引き出しを開ける"のような高レベルの命令と"x, y"のような低レベルの制御の両方を、静的なシーンやオブジェクトからシミュレートすることができる。 このような実世界のシミュレータには多くのユースケースがある。 例として、UniSimを用いて、高レベルな視覚言語プランナーと低レベルな強化学習ポリシーの両方をトレーニングし、それぞれが学習された実世界のシミュレーターで純粋にトレーニングした後、ゼロショットの現実世界転送を示す。 また,映像キャプションモデルのような他のタイプの知性は,unisimでシミュレートされた体験をトレーニングすることで,さらに広いアプリケーションを開くことができることを示した。 ビデオデモはhttps://universal-simulator.github.ioで見ることができる。

Generative models trained on internet data have revolutionized how text, image, and video content can be created. Perhaps the next milestone for generative models is to simulate realistic experience in response to actions taken by humans, robots, and other interactive agents. Applications of a real-world simulator range from controllable content creation in games and movies, to training embodied agents purely in simulation that can be directly deployed in the real world. We explore the possibility of learning a universal simulator (UniSim) of real-world interaction through generative modeling. We first make the important observation that natural datasets available for learning a real-world simulator are often rich along different axes (e.g., abundant objects in image data, densely sampled actions in robotics data, and diverse movements in navigation data). With careful orchestration of diverse datasets, each providing a different aspect of the overall experience, UniSim can emulate how humans and agents interact with the world by simulating the visual outcome of both high-level instructions such as "open the drawer" and low-level controls such as "move by x, y" from otherwise static scenes and objects. There are numerous use cases for such a real-world simulator. As an example, we use UniSim to train both high-level vision-language planners and low-level reinforcement learning policies, each of which exhibit zero-shot real-world transfer after training purely in a learned real-world simulator. We also show that other types of intelligence such as video captioning models can benefit from training with simulated experience in UniSim, opening up even wider applications. Video demos can be found at https://universal-simulator.github.io.
翻訳日:2023-10-11 23:32:28 公開日:2023-10-09
# 統計的にトラクタブルなAgnostic Reinforcement Learning

When is Agnostic Reinforcement Learning Statistically Tractable? ( http://arxiv.org/abs/2310.06113v1 )

ライセンス: Link先を確認
Zeyu Jia, Gene Li, Alexander Rakhlin, Ayush Sekhari, Nathan Srebro(参考訳) 政策クラス$\Pi$を与えられた場合、未知のMDP(潜在的に大きな状態と行動空間を持つ)との相互作用のラウンドが、$\Pi$に関して$\epsilon$-suboptimal Policyを学習する必要があるか。 その目的に向けて、我々は、セット$\Pi$にのみ依存し、MDPダイナミクスとは独立な新しい複雑性測度である「emph{spanning capacity}」を導入する。 生成モデルを用いて、任意のポリシークラスに対して$\pi$の有界スパンニング能力がpac学習性を特徴付けることを示す。 しかし、オンラインRLの場合、状況はより微妙である。 我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする有界なスパンニング能力を持つポリシークラス$\Pi$が存在することを示した。 これは、生成的アクセスとオンラインアクセスモデル(およびオンラインアクセスにおける決定論的/系統的mdp)の間の不可知な学習可能性に対する驚くべき分離である。 正の面では,有界分散キャパシティと連動して,古典的重要度サンプリング手法や到達可能な状態同定および報酬のない探索における政策評価技術から着想を得たPOPLERと呼ばれる新しいアルゴリズムを用いて,統計的に効率的なオンラインRLを実現する,追加の \emph{sunflower} 構造を同定する。

We study the problem of agnostic PAC reinforcement learning (RL): given a policy class $\Pi$, how many rounds of interaction with an unknown MDP (with a potentially large state and action space) are required to learn an $\epsilon$-suboptimal policy with respect to $\Pi$? Towards that end, we introduce a new complexity measure, called the \emph{spanning capacity}, that depends solely on the set $\Pi$ and is independent of the MDP dynamics. With a generative model, we show that for any policy class $\Pi$, bounded spanning capacity characterizes PAC learnability. However, for online RL, the situation is more subtle. We show there exists a policy class $\Pi$ with a bounded spanning capacity that requires a superpolynomial number of samples to learn. This reveals a surprising separation for agnostic learnability between generative access and online access models (as well as between deterministic/stochastic MDPs under online access). On the positive side, we identify an additional \emph{sunflower} structure, which in conjunction with bounded spanning capacity enables statistically efficient online RL via a new algorithm called POPLER, which takes inspiration from classical importance sampling methods as well as techniques for reachable-state identification and policy evaluation in reward-free exploration.
翻訳日:2023-10-11 23:31:55 公開日:2023-10-09
# 広DNNにおけるロバストオーバーフィッティングの理論解析:NTKアプローチ

Theoretical Analysis of Robust Overfitting for Wide DNNs: An NTK Approach ( http://arxiv.org/abs/2310.06112v1 )

ライセンス: Link先を確認
Shaopeng Fu, Di Wang(参考訳) Adversarial Training (AT)は、ディープニューラルネットワーク(DNN)の堅牢性を高めるための標準的手法である。 しかし、近年の研究では、dnnのロバスト性に対して長い時間、すなわち、ロバストな過剰フィッティングに苦しむことが実証されている。 本稿では,DNNに対するロバストなオーバーフィッティングの理論的説明を行う。 具体的には、ニューラル・タンジェント・カーネル(NTK)理論をATに非自明に拡張し、逆向きに訓練された広DNNが線形化されたDNNで十分に近似できることを証明する。 さらに、正方形損失に対しては、線形化DNNの閉形式ATダイナミクスを導出することができ、これは新たなAT縮退現象を呈する: 長期ATは、ATのないものに広くDNNを縮退させ、堅牢なオーバーフィッティングをもたらす。 この理論結果に基づき, 無限幅dnnに対する最初のatアルゴリズムであるadv-ntk法を更に設計する。 実世界のデータセットでの実験では、Adv-NTKは無限幅のDNNが有限幅のDNNと同等の堅牢性を高めるのに役立つことが示されています。 コードはhttps://github.com/fshp971/adv-ntkで入手できる。

Adversarial training (AT) is a canonical method for enhancing the robustness of deep neural networks (DNNs). However, recent studies empirically demonstrated that it suffers from robust overfitting, i.e., a long time AT can be detrimental to the robustness of DNNs. This paper presents a theoretical explanation of robust overfitting for DNNs. Specifically, we non-trivially extend the neural tangent kernel (NTK) theory to AT and prove that an adversarially trained wide DNN can be well approximated by a linearized DNN. Moreover, for squared loss, closed-form AT dynamics for the linearized DNN can be derived, which reveals a new AT degeneration phenomenon: a long-term AT will result in a wide DNN degenerates to that obtained without AT and thus cause robust overfitting. Based on our theoretical results, we further design a method namely Adv-NTK, the first AT algorithm for infinite-width DNNs. Experiments on real-world datasets show that Adv-NTK can help infinite-width DNNs enhance comparable robustness to that of their finite-width counterparts, which in turn justifies our theoretical findings. The code is available at https://github.com/fshp971/adv-ntk.
翻訳日:2023-10-11 23:31:28 公開日:2023-10-09
# BYOC: 認証クラス記述によるパーソナライズされたFew-Shot分類

BYOC: Personalized Few-Shot Classification with Co-Authored Class Descriptions ( http://arxiv.org/abs/2310.06111v1 )

ライセンス: Link先を確認
Arth Bohra, Govert Verkes, Artem Harutyunyan, Pascal Weinberger, Giovanni Campagna(参考訳) テキスト分類は、多くのnlpアプリケーションでよく研究され、多用途なビルディングブロックである。 しかし、既存のアプローチでは、大きなアノテートされたコーパスを使用してモデルをトレーニングするか、あるいは大きな言語モデルをベースとして使用する場合、プロンプトを慎重に作成する必要がある。 その結果、エンドユーザが自身で分類器を構築することはできない。 この問題に対処するために,LLMを用いた少数ショットテキスト分類手法を提案する。 わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。 これらの記述は、ユーザとLLMが対話的に共著する:ユーザがいくつかの例に注釈を付ける間、LLMは、ユーザが答える関連する質問を尋ねる。 例、質問、回答は、分類プロンプトを形成するために要約される。 実験の結果,我々のアプローチは精度の高い分類器となり,トレーニングセットの1%しか使用せずに,かなり大きなデータセットでトレーニングされたモデルの82%以内の性能が得られることがわかった。 さらに,30名を対象に行った研究で,エンドユーザーが特定のニーズに合った分類器を構築できることを示した。 パーソナライズされた分類器の平均精度は90%であり、最先端の手法よりも15%高い。

Text classification is a well-studied and versatile building block for many NLP applications. Yet, existing approaches require either large annotated corpora to train a model with or, when using large language models as a base, require carefully crafting the prompt as well as using a long context that can fit many examples. As a result, it is not possible for end-users to build classifiers for themselves. To address this issue, we propose a novel approach to few-shot text classification using an LLM. Rather than few-shot examples, the LLM is prompted with descriptions of the salient features of each class. These descriptions are coauthored by the user and the LLM interactively: while the user annotates each few-shot example, the LLM asks relevant questions that the user answers. Examples, questions, and answers are summarized to form the classification prompt. Our experiments show that our approach yields high accuracy classifiers, within 82% of the performance of models trained with significantly larger datasets while using only 1% of their training sets. Additionally, in a study with 30 participants, we show that end-users are able to build classifiers to suit their specific needs. The personalized classifiers show an average accuracy of 90%, which is 15% higher than the state-of-the-art approach.
翻訳日:2023-10-11 23:31:04 公開日:2023-10-09
# 遅延からリッチトレーニングダイナミクスへの移行としてのグロッキング

Grokking as the Transition from Lazy to Rich Training Dynamics ( http://arxiv.org/abs/2310.06110v1 )

ライセンス: Link先を確認
Tanishq Kumar, Blake Bordelon, Samuel J. Gershman, Cengiz Pehlevan(参考訳) ニューラルネットの列車損失がテスト損失よりもずっと早く減少するグロッキング現象は,遅延トレーニングダイナミクスからリッチな特徴学習環境へ移行するニューラルネットワークによって生じる可能性がある。 このメカニズムを説明するために,従来の理論では説明できない方法で正規化せずにグラッキングを示す2層ニューラルネットワークを用いて,多項式回帰問題に対するバニラ勾配勾配の簡単な設定について検討した。 このようなネットワークのテスト損失に対する十分な統計を同定し、トレーニング上でこれらを追跡することで、ネットワークが最初の機能にカーネル回帰ソリューションを適合させようとすると、グロッキングが発生することが分かる。 グロッキングの重要な決定要因は、ネットワークアウトプットをスケールするパラメータによって正確に制御できる特徴学習の速度と、最初の特徴と対象関数 $y(x)$ とのアライメントである。 この遅延一般化は,(1)初期ニューラルタンジェントカーネルの上位固有ベクトルとタスクラベルの$y(x)$が一致しない場合に生じるが,(2)データセットのサイズが十分に大きくなり,最終的にネットワークが一般化できるが,列車の損失が全てのエポックにおけるテスト損失を完全に追跡するほど大きくなく,(3)ネットワークが遅延状態のトレーニングを開始し,すぐに特徴を学習しない場合に生じる。 我々は、この遅延(線形モデル)からリッチトレーニング(フィーチャーラーニング)への移行が、MNISTや一層トランスフォーマー、学生教師ネットワークなど、より一般的な環境でのグラッキングを制御できることを示す。

We propose that the grokking phenomenon, where the train loss of a neural network decreases much earlier than its test loss, can arise due to a neural network transitioning from lazy training dynamics to a rich, feature learning regime. To illustrate this mechanism, we study the simple setting of vanilla gradient descent on a polynomial regression problem with a two layer neural network which exhibits grokking without regularization in a way that cannot be explained by existing theories. We identify sufficient statistics for the test loss of such a network, and tracking these over training reveals that grokking arises in this setting when the network first attempts to fit a kernel regression solution with its initial features, followed by late-time feature learning where a generalizing solution is identified after train loss is already low. We find that the key determinants of grokking are the rate of feature learning -- which can be controlled precisely by parameters that scale the network output -- and the alignment of the initial features with the target function $y(x)$. We argue this delayed generalization arises when (1) the top eigenvectors of the initial neural tangent kernel and the task labels $y(x)$ are misaligned, but (2) the dataset size is large enough so that it is possible for the network to generalize eventually, but not so large that train loss perfectly tracks test loss at all epochs, and (3) the network begins training in the lazy regime so does not learn features immediately. We conclude with evidence that this transition from lazy (linear model) to rich training (feature learning) can control grokking in more general settings, like on MNIST, one-layer Transformers, and student-teacher networks.
翻訳日:2023-10-11 23:30:42 公開日:2023-10-09
# QR-Tag:QR-Designマーカーによる角測定と追跡

QR-Tag: Angular Measurement and Tracking with a QR-Design Marker ( http://arxiv.org/abs/2310.06109v1 )

ライセンス: Link先を確認
Simeng Qiu, Hadi Amata, Wolfgang Heidrich(参考訳) 方向情報計測は、ロボティクス、バーチャル・拡張現実、産業用コンピュータビジョンといった分野に多くの応用がある。 従来の方法は、事前に調整するか、制御された環境を必要とする。 最先端のMoireTagアプローチは、モアレ効果とQR設計を利用して、角のシフトを正確に追跡する。 ただし、QRコードは完全には設計されていない。 このような課題を克服するために,ガラス板の両面に印刷された二分構造によって生成されるQR-Designパターンを用いて,離散角測定と追跡のための新しいスナップショット手法を提案する。 2つの層間の幾何学的アライメントによるパララックス効果から生じるqrコードは、携帯電話カメラを用いて角情報として容易に測定できる。 シミュレーションの結果,提案する非接触物体追跡フレームワークは高精度で計算効率が高いことがわかった。

Directional information measurement has many applications in domains such as robotics, virtual and augmented reality, and industrial computer vision. Conventional methods either require pre-calibration or necessitate controlled environments. The state-of-the-art MoireTag approach exploits the Moire effect and QR-design to continuously track the angular shift precisely. However, it is still not a fully QR code design. To overcome the above challenges, we propose a novel snapshot method for discrete angular measurement and tracking with scannable QR-design patterns that are generated by binary structures printed on both sides of a glass plate. The QR codes, resulting from the parallax effect due to the geometry alignment between two layers, can be readily measured as angular information using a phone camera. The simulation results show that the proposed non-contact object tracking framework is computationally efficient with high accuracy.
翻訳日:2023-10-11 23:30:07 公開日:2023-10-09
# 認知障害高齢者のための多機能顔認識システムの開発と改善--生活の質向上に向けた旅

Developing and Refining a Multifunctional Facial Recognition System for Older Adults with Cognitive Impairments: A Journey Towards Enhanced Quality of Life ( http://arxiv.org/abs/2310.06107v1 )

ライセンス: Link先を確認
Li He(参考訳) 世界人口が著しく高齢化している時代には、高齢者の認知障害が主要な健康問題となっている。 効果的な補助技術の必要性は明らかであり、この問題に対処するための有望なツールとして顔認識システムが登場しつつある。 本論文は,認知障害を有する高齢者を支援するための多機能顔認識システム(MFRS)の開発と評価について述べる。 MFRSは、顔の特徴を抽出、識別、操作できる強力なオープンソースライブラリであるface_recognition [1]を利用している。 本システムでは,face_recognitionの顔認識と検索機能を統合し,画像のキャプチャと音声メモの録音を行う。 この組み合わせにより、システムのユーザビリティと汎用性が向上し、エンドユーザーにとってよりユーザフレンドリで汎用的なツールとなる。 このプロジェクトのソースコードはhttps://github.com/Li-8023/Multi-function-face-recognition.gitでアクセスできる。

In an era where the global population is aging significantly, cognitive impairments among the elderly have become a major health concern. The need for effective assistive technologies is clear, and facial recognition systems are emerging as promising tools to address this issue. This document discusses the development and evaluation of a new Multifunctional Facial Recognition System (MFRS), designed specifically to assist older adults with cognitive impairments. The MFRS leverages face_recognition [1], a powerful open-source library capable of extracting, identifying, and manipulating facial features. Our system integrates the face recognition and retrieval capabilities of face_recognition, along with additional functionalities to capture images and record voice memos. This combination of features notably enhances the system's usability and versatility, making it a more user-friendly and universally applicable tool for end-users. The source code for this project can be accessed at https://github.com/Li-8023/Multi-function-face-recognition.git.
翻訳日:2023-10-11 23:29:51 公開日:2023-10-09
# リスクベース意思決定のための離散入力における雑音を伴う深層学習分類の不確かさの定量化

Quantifying Uncertainty in Deep Learning Classification with Noise in Discrete Inputs for Risk-Based Decision Making ( http://arxiv.org/abs/2310.06105v1 )

ライセンス: Link先を確認
Maryam Kheirandish, Shengfan Zhang, Donald G. Catanzaro, Valeriu Crudu(参考訳) リスクベースの意思決定におけるDeep Neural Network(DNN)モデルの使用は、医療、金融、製造、品質管理の幅広い応用で広く注目を集めている。 意思決定における予測関連リスクを軽減するためには、アルゴリズム全体のパフォーマンスとともに予測信頼度や不確実性を評価する必要がある。 ベイズ深層学習の最近の研究は、入力ノイズやモデルパラメータから発生する予測の不確かさの定量化に役立つ。 しかし、これらのモデルにおける入力ノイズの正規性仮定は、表付きデータセットにおける分類的および離散的特徴変数を含む問題に適用性を制限する。 本稿では,DNNモデルの予測不確実性を定量化する数学的枠組みを提案する。 予測の不確実性は、既知の有限離散分布に従う予測器の誤差から生じる。 治療経過中の結核患者の治療成績を予測するために,本フレームワークを用いた症例スタディを行った。 その結果,特定のリスクレベルにおいて,予測者の誤りにより誤分類されやすいリスクに敏感な事例を識別できることが分かった。 モンテカルロのドロップアウト法と比較して,提案手法は誤分類事例をより意識している。 深層学習における不確実性定量化の枠組みは,予測者の離散的誤りが存在する場合のリスクベースの意思決定を支援する。

The use of Deep Neural Network (DNN) models in risk-based decision-making has attracted extensive attention with broad applications in medical, finance, manufacturing, and quality control. To mitigate prediction-related risks in decision making, prediction confidence or uncertainty should be assessed alongside the overall performance of algorithms. Recent studies on Bayesian deep learning helps quantify prediction uncertainty arises from input noises and model parameters. However, the normality assumption of input noise in these models limits their applicability to problems involving categorical and discrete feature variables in tabular datasets. In this paper, we propose a mathematical framework to quantify prediction uncertainty for DNN models. The prediction uncertainty arises from errors in predictors that follow some known finite discrete distribution. We then conducted a case study using the framework to predict treatment outcome for tuberculosis patients during their course of treatment. The results demonstrate under a certain level of risk, we can identify risk-sensitive cases, which are prone to be misclassified due to error in predictors. Comparing to the Monte Carlo dropout method, our proposed framework is more aware of misclassification cases. Our proposed framework for uncertainty quantification in deep learning can support risk-based decision making in applications when discrete errors in predictors are present.
翻訳日:2023-10-11 23:29:36 公開日:2023-10-09
# OODの一般化とロバスト性向上のための深層学習における単純度バイアスの緩和

Mitigating Simplicity Bias in Deep Learning for Improved OOD Generalization and Robustness ( http://arxiv.org/abs/2310.06161v1 )

ライセンス: Link先を確認
Bhavya Vasudeva, Kameron Shahabi, Vatsal Sharan(参考訳) ニューラルネットワーク(nns)は、より「複雑」な機能よりも「シンプル」な機能を学習することを好む傾向のある、単純さのバイアスを示すことで知られている。 単純性バイアスは、分布外分布(OOD)の一般化が不十分なバイアス予測をモデルに導く可能性がある。 そこで本研究では,モデルがより多様な機能を用いて予測を行うように促すフレームワークを提案する。 まず、簡単なモデルを訓練し、その上で条件付き相互情報を規則化し、最終的なモデルを得る。 様々な問題設定や実世界のアプリケーションでこのフレームワークの有効性を実証し、単純さのバイアスに効果的に対処し、より多くの機能を実現することを示し、OODの一般化を強化し、サブグループの堅牢性と公正性を向上させる。 これらの結果は、正規化の効果とそのOOD一般化特性の理論解析によって補完する。

Neural networks (NNs) are known to exhibit simplicity bias where they tend to prefer learning 'simple' features over more 'complex' ones, even when the latter may be more informative. Simplicity bias can lead to the model making biased predictions which have poor out-of-distribution (OOD) generalization. To address this, we propose a framework that encourages the model to use a more diverse set of features to make predictions. We first train a simple model, and then regularize the conditional mutual information with respect to it to obtain the final model. We demonstrate the effectiveness of this framework in various problem settings and real-world applications, showing that it effectively addresses simplicity bias and leads to more features being used, enhances OOD generalization, and improves subgroup robustness and fairness. We complement these results with theoretical analyses of the effect of the regularization and its OOD generalization properties.
翻訳日:2023-10-11 21:39:42 公開日:2023-10-09
# 過パラメータ化でさえも、スケールドグラディエントDescentによるIll-Conditioned Low-rank Estimationの確率的高速化

Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled Gradient Descent, Even with Overparameterization ( http://arxiv.org/abs/2310.06159v1 )

ライセンス: Link先を確認
Cong Ma, Xingyu Xu, Tian Tong, Yuejie Chi(参考訳) 科学や工学で遭遇する多くの問題は、不完全でおそらくは破損した線形測定から低ランクな物体(行列やテンソルなど)を推定するものとして定式化することができる。 行列とテンソル因子化のレンズを通じて、最も一般的なアプローチの1つは、勾配降下(GD)のような単純な反復アルゴリズムを用いて、低ランク因子を直接回収することで、メモリと計算のフットプリントを小さくすることができる。 しかしながら、gdの収束速度は、低ランク対象の条件数に線形に依存し、時には二次的にも依存するので、問題に悪条件がある場合、gdは痛むのを遅くする。 本章では,低ランク対象の条件数に依存しない一定速度で線形収束し,センサ,ロバストな主成分分析,完了を含む様々なタスクに対して,勾配降下の低着氷コストを維持しながら,スケールド勾配降下(Scaled gradient descent,ScaledGD)と呼ばれる新しいアルゴリズム的アプローチを紹介する。 さらに、スケールドGD は、ガウスノイズの存在下でランクが過剰に特定されたときの小さなランダム初期化から、条件数からほぼ独立なミニマックス最適解への高速な大域収束を認め続けている。 総じて、scaledgdは、非凸統計推定の加速における適切な事前条件付けの力を強調しており、反復変動前条件器は、一般化を損なうことなく、低ランク因子分解の対称性に関して軌道の望ましい不変性を促進する。

Many problems encountered in science and engineering can be formulated as estimating a low-rank object (e.g., matrices and tensors) from incomplete, and possibly corrupted, linear measurements. Through the lens of matrix and tensor factorization, one of the most popular approaches is to employ simple iterative algorithms such as gradient descent (GD) to recover the low-rank factors directly, which allow for small memory and computation footprints. However, the convergence rate of GD depends linearly, and sometimes even quadratically, on the condition number of the low-rank object, and therefore, GD slows down painstakingly when the problem is ill-conditioned. This chapter introduces a new algorithmic approach, dubbed scaled gradient descent (ScaledGD), that provably converges linearly at a constant rate independent of the condition number of the low-rank object, while maintaining the low per-iteration cost of gradient descent for a variety of tasks including sensing, robust principal component analysis and completion. In addition, ScaledGD continues to admit fast global convergence to the minimax-optimal solution, again almost independent of the condition number, from a small random initialization when the rank is over-specified in the presence of Gaussian noise. In total, ScaledGD highlights the power of appropriate preconditioning in accelerating nonconvex statistical estimation, where the iteration-varying preconditioners promote desirable invariance properties of the trajectory with respect to the symmetry in low-rank factorization without hurting generalization.
翻訳日:2023-10-11 21:39:25 公開日:2023-10-09
# 多様体による固有方程式:微分可能多様体上の測地距離と流れ

Manifold-augmented Eikonal Equations: Geodesic Distances and Flows on Differentiable Manifolds ( http://arxiv.org/abs/2310.06157v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 機械学習モデルによって発見されたマニフォールドは、基礎となるデータのコンパクトな表現を提供する。 これらの多様体上の測地学は局所的な長さ最小化曲線を定義し、距離の概念を提供する。 本研究では,多様体上の距離場と測地線流れのモデルに基づくパラメータ化を提案し,その解を応用した固有方程式を提案する。 多様体の幾何学が距離場にどのように影響するかを実証し、測地線流を利用して、グローバルな長さ最小曲線を直接得る。 この研究は、微分可能多様体上の統計学と減次モデリングの機会を開く。

Manifolds discovered by machine learning models provide a compact representation of the underlying data. Geodesics on these manifolds define locally length-minimising curves and provide a notion of distance, which are key for reduced-order modelling, statistical inference, and interpolation. In this work, we propose a model-based parameterisation for distance fields and geodesic flows on manifolds, exploiting solutions of a manifold-augmented Eikonal equation. We demonstrate how the geometry of the manifold impacts the distance field, and exploit the geodesic flow to obtain globally length-minimising curves directly. This work opens opportunities for statistics and reduced-order modelling on differentiable manifolds.
翻訳日:2023-10-11 21:38:51 公開日:2023-10-09
# DNA配列生成のための潜時拡散モデル

Latent Diffusion Model for DNA Sequence Generation ( http://arxiv.org/abs/2310.06150v1 )

ライセンス: Link先を確認
Zehui Li, Yuhao Ni, Tim August B. Huygelen, Akashaditya Das, Guoxuan Xia, Guy-Bart Stan, Yiren Zhao(参考訳) 機械学習、特に深層生成モデルの活用は、合成DNA配列生成の分野で有望な道を開いた。 GAN(Generative Adversarial Networks)はこの応用の牽引力を得ているが、サンプルの多様性の制限やモード崩壊といった問題に直面していることが多い。 一方、拡散モデルは、これらの問題に負担を負わない有望な新しい生成モデルクラスであり、画像生成のような領域において最先端に到達できる。 そこで本研究では,DNAシークエンス生成に適した新しい潜伏拡散モデルであるDisdisDiffを提案する。 オートエンコーダを用いて、離散dna配列を連続的潜在空間に埋め込むことにより、離散データ生成のための連続拡散モデルの強力な生成能力を活用できる。 さらに、Fr'echet Reconstruction Distance (FReD) をDNA配列のサンプル品質を測定するための新しい指標として紹介する。 DiscDiffモデルでは、モチーフ分布、潜伏埋め込み分布(FReD)、クロマチンプロファイルの観点から、実際のDNAと密接に一致した合成DNA配列を生成する能力を示す。 さらに,15種から150kの固有プロモーター遺伝子配列の包括的クロス種間データセットを寄贈し,ゲノム学における将来的生成モデリングのための資源を充実させた。 私たちは公開時にコードを公開します。

The harnessing of machine learning, especially deep generative models, has opened up promising avenues in the field of synthetic DNA sequence generation. Whilst Generative Adversarial Networks (GANs) have gained traction for this application, they often face issues such as limited sample diversity and mode collapse. On the other hand, Diffusion Models are a promising new class of generative models that are not burdened with these problems, enabling them to reach the state-of-the-art in domains such as image generation. In light of this, we propose a novel latent diffusion model, DiscDiff, tailored for discrete DNA sequence generation. By simply embedding discrete DNA sequences into a continuous latent space using an autoencoder, we are able to leverage the powerful generative abilities of continuous diffusion models for the generation of discrete data. Additionally, we introduce Fr\'echet Reconstruction Distance (FReD) as a new metric to measure the sample quality of DNA sequence generations. Our DiscDiff model demonstrates an ability to generate synthetic DNA sequences that align closely with real DNA in terms of Motif Distribution, Latent Embedding Distribution (FReD), and Chromatin Profiles. Additionally, we contribute a comprehensive cross-species dataset of 150K unique promoter-gene sequences from 15 species, enriching resources for future generative modelling in genomics. We will make our code public upon publication.
翻訳日:2023-10-11 21:38:39 公開日:2023-10-09
# 転校学習とグラデーションに基づくメタラーニング手法の理解

Understanding Transfer Learning and Gradient-Based Meta-Learning Techniques ( http://arxiv.org/abs/2310.06148v1 )

ライセンス: Link先を確認
Mike Huisman, Aske Plaat, Jan N. van Rijn(参考訳) ディープニューラルネットワークは様々なタスクで優れたパフォーマンスが得られるが、トレーニングには大量のデータを必要とすることが多い。 メタラーニングは、限られた量のデータからこれらのネットワークの一般化を改善する一つのアプローチとしてかなりの注目を集めた。 様々なシナリオでメタラーニング技術が成功しているのに対して、近年の研究では、トレーニングに使用されるものとは異なるデータ分布からタスクを評価する場合、トレーニング済みのネットワークを微調整するだけで、MAMLのようなより複雑なメタラーニング技術よりも効果的である可能性が示唆されている。 MAMLの学習行動が微調整を模倣していることを考えると、これは驚きである。 ファインタニング,MAML,およびReptileと呼ばれる他のメタラーニング手法の観測性能差について検討し,MAMLとReptileが訓練に用いたデータ分布に類似した低データ方式で高速に適応することを示す。 本研究は,mamlの特殊化を促進する上で,出力層とデータ不足による騒音訓練条件の両方が重要な役割を担っていることを示す。 最後に, 微調整ベースラインで得られた事前学習された特徴は, maml と reptile で学習した特徴よりも多様で識別的であることを示す。 この多様性と分布の専門化の欠如により、MAMLとReptileは配布外タスクに一般化できず、微調整は学習した特徴の多様性に逆戻りする可能性がある。

Deep neural networks can yield good performance on various tasks but often require large amounts of data to train them. Meta-learning received considerable attention as one approach to improve the generalization of these networks from a limited amount of data. Whilst meta-learning techniques have been observed to be successful at this in various scenarios, recent results suggest that when evaluated on tasks from a different data distribution than the one used for training, a baseline that simply finetunes a pre-trained network may be more effective than more complicated meta-learning techniques such as MAML, which is one of the most popular meta-learning techniques. This is surprising as the learning behaviour of MAML mimics that of finetuning: both rely on re-using learned features. We investigate the observed performance differences between finetuning, MAML, and another meta-learning technique called Reptile, and show that MAML and Reptile specialize for fast adaptation in low-data regimes of similar data distribution as the one used for training. Our findings show that both the output layer and the noisy training conditions induced by data scarcity play important roles in facilitating this specialization for MAML. Lastly, we show that the pre-trained features as obtained by the finetuning baseline are more diverse and discriminative than those learned by MAML and Reptile. Due to this lack of diversity and distribution specialization, MAML and Reptile may fail to generalize to out-of-distribution tasks whereas finetuning can fall back on the diversity of the learned features.
翻訳日:2023-10-11 21:38:18 公開日:2023-10-09
# llms時代の強化学習: 重要なのは何か? 何が必要か? RLHF, Prompting, Beyondに関するRLの展望

Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond ( http://arxiv.org/abs/2310.06147v1 )

ライセンス: Link先を確認
Hao Sun(参考訳) 近年のLarge Language Models (LLM) の進歩は注目を集め、ChatGPT や GPT-4 といった製品が成功した。 指示に固執し、無害で役立ち、正直な(3H)応答を提供する能力は、主にRLHF(Reinforcement Learning from Human Feedback)の技術による。 本稿では,従来のRL研究とLLM研究におけるRL技術との関係について述べる。 なぜ、いつ、どのようにRLが優れているのかを議論することで、このテクニックをデミスティフィケートする。 さらに、RLHF研究の恩恵を受けるか、貢献する可能性のある将来の道を探る。 1. rlhfはオフラインデモデータを持つオンライン逆rlである。 2. rlhf $>$ sft 理由は、模倣学習 (および逆 rl) $>$ 行動クローニング (bc) を複合化エラーの問題を緩和することによるものである。 3.RLHFにおけるRMステップは,高額な人的フィードバックのプロキシを生成し,フィードバックが高価である場合の評価や最適化の促進など,他のLLMタスクに一般化することができる。 4)RLHFの政策学習は,行動の寸法やフィードバックの空間性が高いため,従来のIRLの課題よりも困難である。 5. オフポリシー価値に基づく手法よりもppoが優れているのは、(ほとんど)オンポリシーデータと保守的な政策更新から得られる安定性である。

Recent advancements in Large Language Models (LLMs) have garnered wide attention and led to successful products such as ChatGPT and GPT-4. Their proficiency in adhering to instructions and delivering harmless, helpful, and honest (3H) responses can largely be attributed to the technique of Reinforcement Learning from Human Feedback (RLHF). In this paper, we aim to link the research in conventional RL to RL techniques used in LLM research. Demystify this technique by discussing why, when, and how RL excels. Furthermore, we explore potential future avenues that could either benefit from or contribute to RLHF research. Highlighted Takeaways: 1. RLHF is Online Inverse RL with Offline Demonstration Data. 2. RLHF $>$ SFT because Imitation Learning (and Inverse RL) $>$ Behavior Cloning (BC) by alleviating the problem of compounding error. 3. The RM step in RLHF generates a proxy of the expensive human feedback, such an insight can be generalized to other LLM tasks such as prompting evaluation and optimization where feedback is also expensive. 4. The policy learning in RLHF is more challenging than conventional problems studied in IRL due to their high action dimensionality and feedback sparsity. 5. The main superiority of PPO over off-policy value-based methods is its stability gained from (almost) on-policy data and conservative policy updates.
翻訳日:2023-10-11 21:37:50 公開日:2023-10-09
# HydraViT:胸部X線画像からのマルチラベル病分類のための適応型マルチブランチ変換器

HydraViT: Adaptive Multi-Branch Transformer for Multi-Label Disease Classification from Chest X-ray Images ( http://arxiv.org/abs/2310.06143v1 )

ライセンス: Link先を確認
\c{S}aban \"Ozt\"urk, M. Yi\u{g}it Tural{\i}, and Tolga \c{C}ukur(参考訳) 胸部X線は肺の病理異常に対する感受性が高い胸部疾患の同定に必須の診断ツールである。 しかし, 画像診断は, 病理組織の大きさ, 位置の均一性, 視覚的類似性, 病理の共起性などにより, いまだに困難である。 疾患関連領域は診断画像の比較的小さな部分を占めることが多いため、従来の畳み込みニューラルネットワーク(CNN)に基づく分類モデルは、その局所性バイアスによって悪影響を及ぼす。 cnnは以前注意マップや空間マスクを付けて潜在的に重要な領域に焦点を合わせていたが、病理の空間分布における異種性の下での局所化指導は困難である。 マルチラベル分類性能を向上させるために,変換器のバックボーンとマルチブランチ出力モジュールと学習重み付けを相乗的に結合するHydraViTを提案する。 トランスバータバックボーンは、タスククリティカル領域に適応的に焦点を合わせながら、X線画像の長距離コンテキストに対する感度を高める。 マルチブランチ出力モジュールは、個別の疾患クラスにまたがる堅牢な学習を達成するために、各疾患ラベルに独立したブランチを割り当て、ラベルにまたがる集約されたブランチは、病理学間の共起関係に対する感受性を維持する。 実験によると、HydraViTは、平均して、注意誘導手法を1.2%、地域誘導手法を1.4%、意味誘導手法を1.0%上回る。

Chest X-ray is an essential diagnostic tool in the identification of chest diseases given its high sensitivity to pathological abnormalities in the lungs. However, image-driven diagnosis is still challenging due to heterogeneity in size and location of pathology, as well as visual similarities and co-occurrence of separate pathology. Since disease-related regions often occupy a relatively small portion of diagnostic images, classification models based on traditional convolutional neural networks (CNNs) are adversely affected given their locality bias. While CNNs were previously augmented with attention maps or spatial masks to guide focus on potentially critical regions, learning localization guidance under heterogeneity in the spatial distribution of pathology is challenging. To improve multi-label classification performance, here we propose a novel method, HydraViT, that synergistically combines a transformer backbone with a multi-branch output module with learned weighting. The transformer backbone enhances sensitivity to long-range context in X-ray images, while using the self-attention mechanism to adaptively focus on task-critical regions. The multi-branch output module dedicates an independent branch to each disease label to attain robust learning across separate disease classes, along with an aggregated branch across labels to maintain sensitivity to co-occurrence relationships among pathology. Experiments demonstrate that, on average, HydraViT outperforms competing attention-guided methods by 1.2%, region-guided methods by 1.4%, and semantic-guided methods by 1.0% in multi-label classification performance.
翻訳日:2023-10-11 21:37:26 公開日:2023-10-09
# 時間反転アンシラによる吸収パラメータの量子的利用

Quantum advantage of time-reversed ancilla-based metrology of absorption parameters ( http://arxiv.org/abs/2310.06142v1 )

ライセンス: Link先を確認
Jiaxuan Wang, Ruynet. L. de Matos Filho, Girish S. Agarwal, and Luiz Davidovich(参考訳) オープンシステムダイナミクスを定義するパラメータの量子推定は、プローブと絡み合っているがダイナミクスに渡されないアンシラを用いて強化される。 ここでは,試料による光の透過率の推定において,吸収と散乱による損失を伴う重要な問題を考える。 量子フィッシャー情報の判定により,光パラメトリック増幅器が生成する2モーダル圧縮状態のモードであるプローブとアンシラの結合光子計数により,フォック状態入力に対して得られるアンシラ戦略が,単一モード推定において最善の精度をもたらすことを示す。 この提案は、高い光子数フォック状態の生成と検出の課題を克服し、追加ノイズに対して非常に頑健である:我々は、位相雑音に免疫があり、入射状態が絡み合わなければ精度は変化しないことを示す。 さらに、入力ビームの適度な光子損失の下でも量子ゲインが存在する。 我々はまた、現在の技術で容易に実装可能なジョイント光子計数の代替についても論じ、サンプルを2つの光パラメトリック増幅器の間に配置する時間反転手順と、第1に生成したスクイーズを解き放つ第2の方法により、サンプルがプローブされる前の入力ビームの適度な光子損失であっても、弱い吸収のために量子フィッシャー情報結果にアプローチする。 損失パラメータの推定精度は、平均出力全光子数とその分散から得られる。 どちらの手順でも、プローブの状態と検出手順はパラメータの値とは独立である。

Quantum estimation of parameters defining open-system dynamics may be enhanced by using ancillas that are entangled with the probe but are not submitted to the dynamics. Here we consider the important problem of estimation of transmission of light by a sample, with losses due to absorption and scattering. We show, through the determination of the quantum Fisher information, that the ancilla strategy leads to the best possible precision in single-mode estimation, the one obtained for a Fock state input, through joint photon-counting of probe and ancilla, which are modes of a bimodal squeezed state produced by an optical parametric amplifier. This proposal overcomes the challenge of producing and detecting high photon-number Fock states, and it is quite robust against additional noise: we show that it is immune to phase noise and the precision does not change if the incoming state gets disentangled. Furthermore, the quantum gain is still present under moderate photon losses of the input beams. We also discuss an alternative to joint photon counting, which is readily implementable with present technology, and approaches the quantum Fisher information result for weak absorption, even with moderate photons losses of the input beams before the sample is probed: a time-reversal procedure, placing the sample between two optical parametric amplifiers, with the second undoing the squeezing produced by the first one. The precision of estimation of the loss parameter is obtained from the average outgoing total photon number and its variance. In both procedures, the state of the probe and the detection procedure are independent of the value of the parameter.
翻訳日:2023-10-11 21:36:41 公開日:2023-10-09
# 雑音移動モードからのレイアウトシーケンス予測

Layout Sequence Prediction From Noisy Mobile Modality ( http://arxiv.org/abs/2310.06138v1 )

ライセンス: Link先を確認
Haichao Zhang, Yi Xu, Hongsheng Lu, Takayuki Shimizu, Yun Fu(参考訳) 軌道予測は、自律走行やロボット工学などの応用のための歩行者運動を理解する上で重要な役割を果たす。 現在の軌道予測モデルは、視覚モダリティから長く、完全で、正確に観測されたシーケンスに依存する。 それにもかかわらず、現実世界の状況は、しばしば障害物カメラ、見逃された物体、または環境要因によって見えない物体を伴い、不完全または騒々しい軌道に繋がる。 これらの制約を克服するために, LTrajDiffを提案する。 LTrajDiffは携帯電話からのセンサデータを使用して、モダリティ融合、ノイズデータ、空間的レイアウトやオブジェクトサイズ情報の欠如など、新たな課題を導入している。 rms, siamese masked encoding module, mfmを組み込んだ細かな拡散戦略を用いて, ノイズの多い移動データから正確なレイアウトシーケンスを予測する。 本モデルでは,単一の参照タイムスタンプからオブジェクトサイズと投影状態を暗黙的に推定し,レイアウトシーケンスを予測する。 SOTAはランダムに障害のある実験と極めて短い入力実験を行い、ノイズの多いモバイルデータを活用する効果を示す。 要約すると、このアプローチは、リアルタイム設定におけるレイアウトシーケンスと軌道予測モデルが直面する課題に対する有望な解決策を提供し、携帯電話からのセンサデータを利用して歩行者境界ボックスの軌跡を正確に予測する方法を提供する。 私たちの知る限りでは、視覚とノイズの多いモバイルモダリティを組み合わせた極めて短いレイアウトシーケンスに対処する最初の作業であり、レイアウトシーケンスの軌道予測の分野における先駆的な仕事である。

Trajectory prediction plays a vital role in understanding pedestrian movement for applications such as autonomous driving and robotics. Current trajectory prediction models depend on long, complete, and accurately observed sequences from visual modalities. Nevertheless, real-world situations often involve obstructed cameras, missed objects, or objects out of sight due to environmental factors, leading to incomplete or noisy trajectories. To overcome these limitations, we propose LTrajDiff, a novel approach that treats objects obstructed or out of sight as equally important as those with fully visible trajectories. LTrajDiff utilizes sensor data from mobile phones to surmount out-of-sight constraints, albeit introducing new challenges such as modality fusion, noisy data, and the absence of spatial layout and object size information. We employ a denoising diffusion model to predict precise layout sequences from noisy mobile data using a coarse-to-fine diffusion strategy, incorporating the RMS, Siamese Masked Encoding Module, and MFM. Our model predicts layout sequences by implicitly inferring object size and projection status from a single reference timestamp or significantly obstructed sequences. Achieving SOTA results in randomly obstructed experiments and extremely short input experiments, our model illustrates the effectiveness of leveraging noisy mobile data. In summary, our approach offers a promising solution to the challenges faced by layout sequence and trajectory prediction models in real-world settings, paving the way for utilizing sensor data from mobile phones to accurately predict pedestrian bounding box trajectories. To the best of our knowledge, this is the first work that addresses severely obstructed and extremely short layout sequences by combining vision with noisy mobile modality, making it the pioneering work in the field of layout sequence trajectory prediction.
翻訳日:2023-10-11 21:35:51 公開日:2023-10-09
# 勾配を用いた層別等分散の自動学習

Learning Layer-wise Equivariances Automatically using Gradients ( http://arxiv.org/abs/2310.06131v1 )

ライセンス: Link先を確認
Tycho F.A. van der Ouderaa, Alexander Immer, Mark van der Wilk(参考訳) 畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。 しかし、対称性はネットワークが表現できる関数に対して固定的なハード制約を与え、事前に指定する必要があり、適用できない。 私たちの目標は、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。 対称性と関連する重み連結構造をスクラッチから学ぶことは、2つの理由から難しい。 まず、レイヤワイド同値の効率的かつ柔軟なパラメータ化が必要である。 第二に、対称性は制約として振る舞うため、データ適合度を測定する訓練の損失は奨励されない。 これらの課題を克服するために, ソフト等分散のパラメータ化を改善し, 微分可能なラプラス近似を用いて推定した限界確率を最適化することにより, 層内等分散量を学習する。 この目的はディープネットワークにおける層ワイド対称性発見を可能にするデータ適合とモデル複雑性のバランスをとる。 画像分類タスクにおける階層的等式を自動的に学習し、ハードコード対称性を持つベースライン上で同等あるいは改善された性能を実現する能力を示す。

Convolutions encode equivariance symmetries into neural networks leading to better generalisation performance. However, symmetries provide fixed hard constraints on the functions a network can represent, need to be specified in advance, and can not be adapted. Our goal is to allow flexible symmetry constraints that can automatically be learned from data using gradients. Learning symmetry and associated weight connectivity structures from scratch is difficult for two reasons. First, it requires efficient and flexible parameterisations of layer-wise equivariances. Secondly, symmetries act as constraints and are therefore not encouraged by training losses measuring data fit. To overcome these challenges, we improve parameterisations of soft equivariance and learn the amount of equivariance in layers by optimising the marginal likelihood, estimated using differentiable Laplace approximations. The objective balances data fit and model complexity enabling layer-wise symmetry discovery in deep networks. We demonstrate the ability to automatically learn layer-wise equivariances on image classification tasks, achieving equivalent or improved performance over baselines with hard-coded symmetry.
翻訳日:2023-10-11 21:35:09 公開日:2023-10-09
# DiPS: 弱教師付きオブジェクトローカライゼーションのための自己スーパーバイザ付き擬似ラベルサンプリング

DiPS: Discriminative Pseudo-Label Sampling with Self-Supervised Transformers for Weakly Supervised Object Localization ( http://arxiv.org/abs/2310.06196v1 )

ライセンス: Link先を確認
Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Aydin Sarraf, Eric Granger(参考訳) 自己監督型視覚変換器(SST)は、画像内の異なる物体をハイライトするリッチなローカライゼーションマップを生成する大きな可能性を示している。 しかし、モデルが教師なしであるため、これらの地図はクラスに依存しないままである。 彼らはしばしば、イメージを異なるオブジェクトを含む複数のマップに分解し、背景ノイズオブジェクトと関心のあるオブジェクトを区別できない傾向がある。 本稿では,識別的擬似ラベルサンプリング (DiPS) を導入し,これらのクラス非依存マップを画像分類ラベルのみの弱教師付きオブジェクトローカライゼーション (WSOL) に活用する。 複数の注意マップが与えられた場合、DiPSは、各注意マップの最も識別性の高い領域を特定するために、事前訓練された分類器に依存する。 これにより、選択されたROIが背景オブジェクトを破棄しながら正しいイメージオブジェクトをカバーすることが保証され、オブジェクトの異なる部分をカバーするための多様で差別的な提案の豊富なプールを提供する。 その後、これらの提案は、分類およびローカライゼーションタスクを実行するために設計された新しいトランスフォーマーベースのWSOLモデルをトレーニングするために擬似ラベルとして使用される。 標準的なWSOLメソッドとは異なり、DiPSはトランスフォーマーエンコーダと専用出力ヘッドを使用して各タスクのパフォーマンスを最適化する。 1つの提案に過度に適合せず、より良い対象カバレッジを促進するために、トレーニングステップ毎にトレーニング画像の上位1つに1つの提案をランダムに選択する。 CUB,ILSVRC,OpenImages,TelDroneの各データセットに対する実験結果から,我々のアーキテクチャとトランスフォーマーベースの提案を組み合わせることで,最先端の手法よりも優れたローカライゼーション性能が得られることが示された。

Self-supervised vision transformers (SSTs) have shown great potential to yield rich localization maps that highlight different objects in an image. However, these maps remain class-agnostic since the model is unsupervised. They often tend to decompose the image into multiple maps containing different objects while being unable to distinguish the object of interest from background noise objects. In this paper, Discriminative Pseudo-label Sampling (DiPS) is introduced to leverage these class-agnostic maps for weakly-supervised object localization (WSOL), where only image-class labels are available. Given multiple attention maps, DiPS relies on a pre-trained classifier to identify the most discriminative regions of each attention map. This ensures that the selected ROIs cover the correct image object while discarding the background ones, and, as such, provides a rich pool of diverse and discriminative proposals to cover different parts of the object. Subsequently, these proposals are used as pseudo-labels to train our new transformer-based WSOL model designed to perform classification and localization tasks. Unlike standard WSOL methods, DiPS optimizes performance in both tasks by using a transformer encoder and a dedicated output head for each task, each trained using dedicated loss functions. To avoid overfitting a single proposal and promote better object coverage, a single proposal is randomly selected among the top ones for a training image at each training step. Experimental results on the challenging CUB, ILSVRC, OpenImages, and TelDrone datasets indicate that our architecture, in combination with our transformer-based proposals, can yield better localization performance than state-of-the-art methods.
翻訳日:2023-10-11 21:29:17 公開日:2023-10-09
# 逆ロバスト一般化のためのpac-ベイズスペクトル正規化境界

PAC-Bayesian Spectrally-Normalized Bounds for Adversarially Robust Generalization ( http://arxiv.org/abs/2310.06182v1 )

ライセンス: Link先を確認
Jiancong Xiao, Ruoyu Sun, Zhi-quan Luo(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。 敵の攻撃に対する防御アルゴリズムを確立するためには、敵の堅牢な一般化が不可欠である。 したがって、ロバスト一般化の理論的保証を研究することは興味深い。 本稿では,PAC-Bayesアプローチ(Neyshabur et al., 2017)に基づくノルムベースの複雑性に焦点を当てた。 主な課題は、標準設定に縛られた重みの摂動である主要な要素を堅牢な設定に拡張することである。 既存の試みは追加の強い仮定に大きく依存しており、ゆるい境界に繋がる。 本稿では,この問題に対処し,dnnに束縛されたスペクトル正規化ロバスト一般化を提案する。 既存の境界と比較すると、我々の境界には2つの大きな利点がある: 第一に、それは追加の仮定に依存しない。 第二に、標準一般化の境界に沿って、かなり厳密である。 したがって,本研究では,標準一般化限界とロバスト一般化境界のミスマッチ項は,ロバスト一般化の貧弱さに寄与しないという,ロバスト一般化の理解に関する異なる視点を提供する。 その代わり、これらの相違は数学的な問題によるものである。 最後に、一般の$$\ell_p$攻撃と他のニューラルネットワークアーキテクチャに対する敵対的堅牢性に対して、主要な結果を拡張する。

Deep neural networks (DNNs) are vulnerable to adversarial attacks. It is found empirically that adversarially robust generalization is crucial in establishing defense algorithms against adversarial attacks. Therefore, it is interesting to study the theoretical guarantee of robust generalization. This paper focuses on norm-based complexity, based on a PAC-Bayes approach (Neyshabur et al., 2017). The main challenge lies in extending the key ingredient, which is a weight perturbation bound in standard settings, to the robust settings. Existing attempts heavily rely on additional strong assumptions, leading to loose bounds. In this paper, we address this issue and provide a spectrally-normalized robust generalization bound for DNNs. Compared to existing bounds, our bound offers two significant advantages: Firstly, it does not depend on additional assumptions. Secondly, it is considerably tighter, aligning with the bounds of standard generalization. Therefore, our result provides a different perspective on understanding robust generalization: The mismatch terms between standard and robust generalization bounds shown in previous studies do not contribute to the poor robust generalization. Instead, these disparities solely due to mathematical issues. Finally, we extend the main result to adversarial robustness against general non-$\ell_p$ attacks and other neural network architectures.
翻訳日:2023-10-11 21:28:42 公開日:2023-10-09
# 時空間神経点過程の自動統合

Automatic Integration for Spatiotemporal Neural Point Processes ( http://arxiv.org/abs/2310.06179v1 )

ライセンス: Link先を確認
Zihao Zhou, Rose Yu(参考訳) 継続的ポイントプロセスの学習は多くの離散的なイベント予測タスクに不可欠である。 しかし、積分は特に時空間過程(STPP)において、空間と時間における三重積分による可能性を計算するため、大きな課題となる。 既存のSTPPを統合する方法は、柔軟性に欠ける強度関数のパラメトリック形式を仮定するか、モンテカルロサンプリングを用いて強度を近似し、数値誤差を導入する。 近江らによる最近の作品。 2019] フレキシブルインテンシティ関数の効率的な統合のためのデュアルネットワークまたはオートイントアプローチを提案する。 しかし、この手法は1次元時間点過程のみに焦点を当てている。 本稿では,AutoSTPP (Automatic Integration for Spatiotemporal Neural Point Processes) という,AutoIntのアプローチを3次元STPPに拡張する新しいパラダイムを紹介する。 従来の作業の直接拡張は強度関数を過度に制限し、性能が低下することを示す。 autostppの一貫性を証明し、合成データと実世界のデータセットのベンチマークで検証し、不規則な時空間イベントから複雑な強度関数を回復する上で、その大きな利点を示す。

Learning continuous-time point processes is essential to many discrete event forecasting tasks. However, integration poses a major challenge, particularly for spatiotemporal point processes (STPPs), as it involves calculating the likelihood through triple integrals over space and time. Existing methods for integrating STPP either assume a parametric form of the intensity function, which lacks flexibility; or approximating the intensity with Monte Carlo sampling, which introduces numerical errors. Recent work by Omi et al. [2019] proposes a dual network or AutoInt approach for efficient integration of flexible intensity function. However, the method only focuses on the 1D temporal point process. In this paper, we introduce a novel paradigm: AutoSTPP (Automatic Integration for Spatiotemporal Neural Point Processes) that extends the AutoInt approach to 3D STPP. We show that direct extension of the previous work overly constrains the intensity function, leading to poor performance. We prove consistency of AutoSTPP and validate it on synthetic data and benchmark real world datasets, showcasing its significant advantage in recovering complex intensity functions from irregular spatiotemporal events, particularly when the intensity is sharply localized.
翻訳日:2023-10-11 21:28:24 公開日:2023-10-09
# ルックアップmAI GeMM:msGeMMによるAI GeMMのパフォーマンスを2.5倍に向上

Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via msGeMM ( http://arxiv.org/abs/2310.06178v1 )

ライセンス: Link先を確認
Saeed Maleki(参考訳) AIモデルはサイズが大きくなり、コミュニティの最近の進歩により、二重精度のデータ型を必要とするHPCアプリケーションとは異なり、fp8やint4のような低精度のデータ型はトレーニングと推論の両方に同じモデル品質をもたらすのに十分であることが示された。 NVIDIAやAMDといったGPUベンダは、fp16、fp8、int8 GeMM操作のハードウェアサポートを追加し、Tensor Coresを通じて例外的なパフォーマンスを実現している。 しかし,本論文では,msGeMMと呼ばれるアルゴリズムを提案し,精度の低いAIモデルでは乗算を2.5倍減らし,命令を追加することができることを示した。 このアルゴリズムの効率的な実装には、テンソルコアの速度で小さなルックアップテーブルから要素を追加できる特別なCUDAコアが必要である。

AI models are increasing in size and recent advancement in the community has shown that unlike HPC applications where double precision datatype are required, lower-precision datatypes such as fp8 or int4 are sufficient to bring the same model quality both for training and inference. Following these trends, GPU vendors such as NVIDIA and AMD have added hardware support for fp16, fp8 and int8 GeMM operations with an exceptional performance via Tensor Cores. However, this paper proposes a new algorithm called msGeMM which shows that AI models with low-precision datatypes can run with ~2.5x fewer multiplication and add instructions. Efficient implementation of this algorithm requires special CUDA cores with the ability to add elements from a small look-up table at the rate of Tensor Cores.
翻訳日:2023-10-11 21:28:06 公開日:2023-10-09
# dockgame:マルチメリックタンパク質ドッキングのための協調ゲーム

DockGame: Cooperative Games for Multimeric Rigid Protein Docking ( http://arxiv.org/abs/2310.06177v1 )

ライセンス: Link先を確認
Vignesh Ram Somnath, Pier Giuseppe Sessa, Maria Rodriguez Martinez, Andreas Krause(参考訳) タンパク質の相互作用と集合形成は、ほとんどの生物学的過程において基本的なものである。 タンパク質ドッキングタスクと呼ばれる構成タンパク質からの組み立て構造を予測することは、タンパク質設計の応用において重要なステップである。 ドッキングの伝統的および深層学習手法の多くは、検索ベース、回帰ベース、もしくは生成モデリングのパラダイムに従って、主にバイナリドッキングに焦点を当てている。 本稿では,より研究の少ない多量体(すなわち2つ以上のタンパク質)ドッキング問題に焦点を当てる。 我々は、ドッキングのための新しいゲーム理論フレームワークであるdockgameを紹介する。我々は、タンパク質ドッキングを、最終的な組み立て構造(s)が安定な平衡 w.r.t. となるタンパク質間の協調ゲームと見なしている。 私たちは真のポテンシャルにアクセスできないので、2つのアプローチを考えます。 一 物理に基づくエネルギー関数及び計算均衡に導かれる代理ゲームの可能性について、同時勾配更新により学習すること。 二 あらゆるタンパク質の作用空間(回転及び翻訳)上の拡散生成モデルを学習することにより、真のポテンシャルのギブス分布からサンプリングすること。 実証的に、ドッキングベンチマーク5.5(db5.5)データセットでは、dockgameは従来のドッキングメソッドよりもはるかに高速なランタイムを持ち、複数の可能なアセンブリ構造を生成でき、既存のバイナリドッキングベースラインと同等の性能を達成している。

Protein interactions and assembly formation are fundamental to most biological processes. Predicting the assembly structure from constituent proteins -- referred to as the protein docking task -- is thus a crucial step in protein design applications. Most traditional and deep learning methods for docking have focused mainly on binary docking, following either a search-based, regression-based, or generative modeling paradigm. In this paper, we focus on the less-studied multimeric (i.e., two or more proteins) docking problem. We introduce DockGame, a novel game-theoretic framework for docking -- we view protein docking as a cooperative game between proteins, where the final assembly structure(s) constitute stable equilibria w.r.t. the underlying game potential. Since we do not have access to the true potential, we consider two approaches - i) learning a surrogate game potential guided by physics-based energy functions and computing equilibria by simultaneous gradient updates, and ii) sampling from the Gibbs distribution of the true potential by learning a diffusion generative model over the action spaces (rotations and translations) of all proteins. Empirically, on the Docking Benchmark 5.5 (DB5.5) dataset, DockGame has much faster runtimes than traditional docking methods, can generate multiple plausible assembly structures, and achieves comparable performance to existing binary docking baselines, despite solving the harder task of coordinating multiple protein chains.
翻訳日:2023-10-11 21:27:52 公開日:2023-10-09
# 言語モデルと強化学習を用いたFactual and Personalized Recommendations

Factual and Personalized Recommendations using Language Models and Reinforcement Learning ( http://arxiv.org/abs/2310.06176v1 )

ライセンス: Link先を確認
Jihwan Jeong, Yinlam Chow, Guy Tennenholtz, Chih-Wei Hsu, Azamat Tulepbergenov, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) Recommender System(RS)は、ユーザーがコンテンツ、製品、サービスに接続する上で中心的な役割を果たす。 従来のrssは暗黙のユーザフィードバック信号に依存しているが、会話型rssは自然言語でユーザと対話する。 本研究では,商品の特徴と関連性を重視しつつ,ユーザに対して商品を推奨するコンパリング,精密,パーソナライズ,嗜好関連言語モデル(P4LM)を開発する。 P4LMは、ユーザの好みの埋め込み空間表現を使用して、実際に接地され、ユーザの好みに関係のある魅力的な応答を生成する。 さらに,強化学習に基づく言語モデルフレームワークにおいて,AIに基づくフィードバックとして用いる精度,魅力,パーソナライゼーションを計測する共同報酬関数を開発した。 MovieLens 25Mデータセットを用いて、P4LMは魅力的なパーソナライズされた映画物語をユーザーに届けることを示した。

Recommender systems (RSs) play a central role in connecting users to content, products, and services, matching candidate items to users based on their preferences. While traditional RSs rely on implicit user feedback signals, conversational RSs interact with users in natural language. In this work, we develop a comPelling, Precise, Personalized, Preference-relevant language model (P4LM) that recommends items to users while putting emphasis on explaining item characteristics and their relevance. P4LM uses the embedding space representation of a user's preferences to generate compelling responses that are factually-grounded and relevant w.r.t. the user's preferences. Moreover, we develop a joint reward function that measures precision, appeal, and personalization, which we use as AI-based feedback in a reinforcement learning-based language model framework. Using the MovieLens 25M dataset, we demonstrate that P4LM delivers compelling, personalized movie narratives to users.
翻訳日:2023-10-11 21:27:24 公開日:2023-10-09
# 教師なしエンティティ解決におけるプロンプトエンジニアリングはchatgptのパフォーマンスにどのように影響するか?

How does prompt engineering affect ChatGPT performance on unsupervised entity resolution? ( http://arxiv.org/abs/2310.06174v1 )

ライセンス: Link先を確認
Khanin Sisaengsuwanchai, Navapat Nananukul, Mayank Kejriwal(参考訳) エンティティ解決(ER)は、2つのエンティティが同じ基礎エンティティをいつ参照するかを半自動決定する問題である。 従来のERソリューションでは、機能エンジニアリングやトレーニングデータの識別とキュレーションなど、かなりの手作業の専門知識が必要だった。 多くの場合、そのような手法はドメインに依存している。 最近の大規模言語モデル(LLM)の出現により、ERをよりシームレスでドメインに依存しないものにする機会がある。 しかし、LSMはリスクを生じさせる可能性があり、その出力の品質はいわゆるプロンプトエンジニアリングに依存していることも知られている。 残念なことに、ChatGPTのようなLLMを用いてERに対処するための異なるプロンプト法の効果に関する系統的研究は、これまで行われていない。 本稿は,このような研究を通じて,このギャップに対処することを目的としている。 予備的ではあるが,提案手法はerの品質に大きく影響するが,他の指標よりも影響が大きいため,データセットにも依存する可能性がある。

Entity Resolution (ER) is the problem of semi-automatically determining when two entities refer to the same underlying entity, with applications ranging from healthcare to e-commerce. Traditional ER solutions required considerable manual expertise, including feature engineering, as well as identification and curation of training data. In many instances, such techniques are highly dependent on the domain. With recent advent in large language models (LLMs), there is an opportunity to make ER much more seamless and domain-independent. However, it is also well known that LLMs can pose risks, and that the quality of their outputs can depend on so-called prompt engineering. Unfortunately, a systematic experimental study on the effects of different prompting methods for addressing ER, using LLMs like ChatGPT, has been lacking thus far. This paper aims to address this gap by conducting such a study. Although preliminary in nature, our results show that prompting can significantly affect the quality of ER, although it affects some metrics more than others, and can also be dataset dependent.
翻訳日:2023-10-11 21:27:07 公開日:2023-10-09
# 暗示学習のためのメモリ一貫性ニューラルネットワーク

Memory-Consistent Neural Networks for Imitation Learning ( http://arxiv.org/abs/2310.06171v1 )

ライセンス: Link先を確認
Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, James Weimer, Insup Lee(参考訳) 模倣学習は、専門家によるデモンストレーションへのアクセスを活用することで、代替アプローチと比較して、ポリシー合成をかなり単純化する。 このような模倣ポリシーでは、トレーニングサンプルからのエラーは特に重要です。 政策行動アウトプットの稀なスリップアップさえも、政策が未熟な将来状態につながるため、時間とともに急速に複雑化する可能性がある。 我々は、事前記録されたデモ以上のものからポリシーを都合よく訓練するために、簡単な'behavior cloning''を再検討するが、複雑なエラー現象に対処するために、モデルクラスを慎重に設計する。 私たちの‘Memory-Consistent Neural Network’(MCNN)出力は、プロトタイプ‘`Memory'トレーニングサンプルに固定された明確な許容領域内に留まることが難しい。 MCNNポリシーによって誘導される準最適ギャップに対して保証された上限を提供する。 MLP, Transformer, Diffusionの9つの模倣学習タスクでMCNNを使用, ロボット操作と運転, プロジェクティブ入力と視覚入力, さまざまなサイズと種類の実演データにまたがって, MCNNは, 模倣学習用としてバニラディープニューラルネットワークよりも適していることを示す。 Webサイト: https://sites.google.com/view/mcnn-imitation

Imitation learning considerably simplifies policy synthesis compared to alternative approaches by exploiting access to expert demonstrations. For such imitation policies, errors away from the training samples are particularly critical. Even rare slip-ups in the policy action outputs can compound quickly over time, since they lead to unfamiliar future states where the policy is still more likely to err, eventually causing task failures. We revisit simple supervised ``behavior cloning'' for conveniently training the policy from nothing more than pre-recorded demonstrations, but carefully design the model class to counter the compounding error phenomenon. Our ``memory-consistent neural network'' (MCNN) outputs are hard-constrained to stay within clearly specified permissible regions anchored to prototypical ``memory'' training samples. We provide a guaranteed upper bound for the sub-optimality gap induced by MCNN policies. Using MCNNs on 9 imitation learning tasks, with MLP, Transformer, and Diffusion backbones, spanning dexterous robotic manipulation and driving, proprioceptive inputs and visual inputs, and varying sizes and types of demonstration data, we find large and consistent gains in performance, validating that MCNNs are better-suited than vanilla deep neural networks for imitation learning applications. Website: https://sites.google.com/view/mcnn-imitation
翻訳日:2023-10-11 21:26:49 公開日:2023-10-09
# 予測可能な人工知能

Predictable Artificial Intelligence ( http://arxiv.org/abs/2310.06167v1 )

ライセンス: Link先を確認
Lexin Zhou, Pablo A. Moreno-Casares, Fernando Mart\'inez-Plumed, John Burden, Ryan Burnell, Lucy Cheke, C\`esar Ferri, Alexandru Marcoci, Behzad Mehrbakhsh, Yael Moros-Daval, Se\'an \'O h\'Eigeartaigh, Danaja Rutar, Wout Schellaert, Konstantinos Voudouris, Jos\'e Hern\'andez-Orallo(参考訳) 私たちは、現在および将来のAIエコシステムの重要な指標を予測できる方法を探求する、先進的な研究領域である予測可能なAIの基本的なアイデアと課題を紹介します。 予測可能性を達成することは、AIエコシステムの信頼、責任、コントロール、アライメント、安全性を促進するために不可欠である、と我々は主張する。 技術的および非技術的AI研究の他の分野と異なるが、予測可能なAIに関連する疑問、仮説、課題はまだ明確に説明されていない。 本稿では,これらを解明し,ai予測可能性への道のりを探り,この創発的分野の潜在的影響を概説する。

We introduce the fundamental ideas and challenges of Predictable AI, a nascent research area that explores the ways in which we can anticipate key indicators of present and future AI ecosystems. We argue that achieving predictability is crucial for fostering trust, liability, control, alignment and safety of AI ecosystems, and thus should be prioritised over performance. While distinctive from other areas of technical and non-technical AI research, the questions, hypotheses and challenges relevant to Predictable AI were yet to be clearly described. This paper aims to elucidate them, calls for identifying paths towards AI predictability and outlines the potential impact of this emergent field.
翻訳日:2023-10-11 21:26:23 公開日:2023-10-09
# caw-coref:コラボレーティブアウェアワードレベルのコリファレンス解決

CAW-coref: Conjunction-Aware Word-level Coreference Resolution ( http://arxiv.org/abs/2310.06165v1 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Semere Kiros Bitew, Brandon Papineau, Christopher Potts, Thomas Demeester, Chris Develder(参考訳) 最先端のコリファレンスレゾリューションシステムはドキュメント毎の複数のllmコールに依存するため、多くのユースケース(例えば、大きなコーパスによる情報抽出)では禁止的に高価である。 wl-coref (leading word-level coreference system) は sota システムの性能の96.6%を達成するが、より効率的である。 本稿では,WL-corefの日常的かつ重要な障害事例を特定する。 我々は,OntoNotesテストセットの性能を0.9%F1で改善し,効率的な単語レベルのコア参照解決と高価なSOTAアプローチのギャップを34.6%削減する,シンプルで効果的なソリューションを提供する。 私たちのConjunction-Aware Word-level coreference model (CAW-coref)とコードはhttps://github.com/KarelDO/wl-coref.comで公開されている。

State-of-the-art coreference resolutions systems depend on multiple LLM calls per document and are thus prohibitively expensive for many use cases (e.g., information extraction with large corpora). The leading word-level coreference system (WL-coref) attains 96.6% of these SOTA systems' performance while being much more efficient. In this work, we identify a routine yet important failure case of WL-coref: dealing with conjoined mentions such as 'Tom and Mary'. We offer a simple yet effective solution that improves the performance on the OntoNotes test set by 0.9% F1, shrinking the gap between efficient word-level coreference resolution and expensive SOTA approaches by 34.6%. Our Conjunction-Aware Word-level coreference model (CAW-coref) and code is available at https://github.com/KarelDO/wl-coref.
翻訳日:2023-10-11 21:26:10 公開日:2023-10-09
# ハームのない公平な分類法

Fair Classifiers that Abstain without Harm ( http://arxiv.org/abs/2310.06205v1 )

ライセンス: Link先を確認
Tongxin Yin, Jean-Fran\c{c}ois Ton, Ruocheng Guo, Yuanshun Yao, Mingyan Liu, Yang Liu(参考訳) 重要な応用において、分類器は人間に対する意思決定を遅らせることが不可欠である。 既存の分類器が特定のサンプルの予測を選択的に拒否するポストホック法を提案する。 ユーザが指定した程度に対してグループフェアネス定義のセットを達成しつつ、各サブ人口(すなわち無害)に対する元の正確性を維持するため、禁断分類器にインセンティブを与えます。 そこで我々は,一連の制約を満たすために,各トレーニングサンプルに対して留意決定を割り当てる Integer Programming (IP) 手順を設計する。 テストサンプルの停止決定を一般化するために、サロゲートモデルをトレーニングし、IPソリューションに基づいた停止決定をエンドツーエンドで学習する。 我々は,IPプロシージャの実現可能性を分析し,無害化のための不公平性許容度と精度制約の異なるレベルの禁忌率を決定する。 我々の知る限りでは、この研究は制約パラメータと要求の禁忌率の間の理論的関係を初めて特定するものである。 我々の理論的結果は、人的資源の不足のため、実際に高い禁忌率が実現できないことが多いため重要である。 この枠組みは,同程度の禁制率で精度を犠牲にすることなく,公平性の違いの観点から既存手法より優れる。

In critical applications, it is vital for classifiers to defer decision-making to humans. We propose a post-hoc method that makes existing classifiers selectively abstain from predicting certain samples. Our abstaining classifier is incentivized to maintain the original accuracy for each sub-population (i.e. no harm) while achieving a set of group fairness definitions to a user specified degree. To this end, we design an Integer Programming (IP) procedure that assigns abstention decisions for each training sample to satisfy a set of constraints. To generalize the abstaining decisions to test samples, we then train a surrogate model to learn the abstaining decisions based on the IP solutions in an end-to-end manner. We analyze the feasibility of the IP procedure to determine the possible abstention rate for different levels of unfairness tolerance and accuracy constraint for achieving no harm. To the best of our knowledge, this work is the first to identify the theoretical relationships between the constraint parameters and the required abstention rate. Our theoretical results are important since a high abstention rate is often infeasible in practice due to a lack of human resources. Our framework outperforms existing methods in terms of fairness disparity without sacrificing accuracy at similar abstention rates.
翻訳日:2023-10-11 21:16:25 公開日:2023-10-09
# 回帰のない数の推定

Estimating Numbers without Regression ( http://arxiv.org/abs/2310.06204v1 )

ライセンス: Link先を確認
Avijit Thawani and Jay Pujara and Ashwin Kalyan(参考訳) 最近の言語モデルの成功にもかかわらず、数を表す能力は不十分である。 人間はその大きさに基づいて数値を概念化し、実質的に数列に投影するが、サブワードのトークン化は数字を任意のチャンクに分割することで明確に大きさを捉えることができない。 この欠点を軽減するために、言語モデリングパイプラインの様々な段階の数値を変更する別のアプローチが提案されている。 これらの手法は、(1)数字が書かれる表記法 (\eg scientific vs decimal)、(2)数を表すために使われる語彙、または基礎となる言語モデルの全体 (3) アーキテクチャを変更して、直接望まれる数に回帰する。 以前の研究は、アーキテクチャの変更が数値推定の最先端を達成するのに役立つことを示唆している。しかし、私たちは洞察に富んだアブレーションを見出した:モデルの語彙を変更する(\egが10~100の範囲の数値に新しいトークンを導入する)ことは、はるかに優れたトレードオフである。 マスク付き数予測の文脈では、慎重に設計されたトークン化スキームは実装が最も簡単で十分であり、アーキテクチャ上の大きな変更を必要とする最先端のアプローチと同じようなパフォーマンスを持つ。 最後に,数値的事実推定の下流課題(フェルミ問題)について同様の傾向を報告し,その背景にある理由について考察する。

Despite recent successes in language models, their ability to represent numbers is insufficient. Humans conceptualize numbers based on their magnitudes, effectively projecting them on a number line; whereas subword tokenization fails to explicitly capture magnitude by splitting numbers into arbitrary chunks. To alleviate this shortcoming, alternative approaches have been proposed that modify numbers at various stages of the language modeling pipeline. These methods change either the (1) notation in which numbers are written (\eg scientific vs decimal), the (2) vocabulary used to represent numbers or the entire (3) architecture of the underlying language model, to directly regress to a desired number. Previous work suggests that architectural change helps achieve state-of-the-art on number estimation but we find an insightful ablation: changing the model's vocabulary instead (\eg introduce a new token for numbers in range 10-100) is a far better trade-off. In the context of masked number prediction, a carefully designed tokenization scheme is both the simplest to implement and sufficient, \ie with similar performance to the state-of-the-art approach that requires making significant architectural changes. Finally, we report similar trends on the downstream task of numerical fact estimation (for Fermi Problems) and discuss reasons behind our findings.
翻訳日:2023-10-11 21:16:04 公開日:2023-10-09
# GPT- Who: 情報密度に基づく機械生成テキスト検出器

GPT-who: An Information Density-based Machine-Generated Text Detector ( http://arxiv.org/abs/2310.06202v1 )

ライセンス: Link先を確認
Saranya Venkatraman, Adaku Uchendu, Dongwon Lee(参考訳) 一様情報密度原理は、人間が言語生成中に情報を均等に拡散することを好むことを仮定する。 本研究では,大言語モデル (LLM) と人文生成テキストの違いを捉えるのに UID 原則が有効かどうかを検討する。 GPT- who は,精神言語学的に初めて認識される多クラスドメイン非依存型統計ベース検出器である。 この検出器は、UIDに基づく特徴を用いて、それぞれのLSMのユニークな統計的特徴と、正確な著者属性をモデル化する。 提案手法は,4つの大規模ベンチマークデータセットを用いて評価し,GLTR,GPTZero,OpenAI検出器,ZeroGPTなどの最先端検出器(統計・統計ベースともに)を20ドル以上で上回る結果を得た。 優れた性能に加えて、計算量的に安価であり、テキストの解釈可能な表現を利用する。 筆者らは,UIDに基づく人文と機械文の表現(400万記事以上)を最大に分析し,著者がいかに情報を異なる方法で配布するか,また,自作のLMを微調整なしで検出することができるかを示す。 過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。

The Uniform Information Density principle posits that humans prefer to spread information evenly during language production. In this work, we examine if the UID principle can help capture differences between Large Language Models (LLMs) and human-generated text. We propose GPT-who, the first psycholinguistically-aware multi-class domain-agnostic statistical-based detector. This detector employs UID-based features to model the unique statistical signature of each LLM and human author for accurate authorship attribution. We evaluate our method using 4 large-scale benchmark datasets and find that GPT-who outperforms state-of-the-art detectors (both statistical- & non-statistical-based) such as GLTR, GPTZero, OpenAI detector, and ZeroGPT by over $20$% across domains. In addition to superior performance, it is computationally inexpensive and utilizes an interpretable representation of text articles. We present the largest analysis of the UID-based representations of human and machine-generated texts (over 400k articles) to demonstrate how authors distribute information differently, and in ways that enable their detection using an off-the-shelf LM without any fine-tuning. We find that GPT-who can distinguish texts generated by very sophisticated LLMs, even when the overlying text is indiscernible.
翻訳日:2023-10-11 21:15:41 公開日:2023-10-09
# 大規模言語モデルの推論効率を高めるためのコンテキスト圧縮

Compressing Context to Enhance Inference Efficiency of Large Language Models ( http://arxiv.org/abs/2310.06201v1 )

ライセンス: Link先を確認
Yucheng Li, Bo Dong, Chenghua Lin, Frank Guerin(参考訳) 大規模言語モデル (LLM) は様々なタスクで顕著な性能を達成した。 しかし、メモリと推論時間の両方において計算要求が大幅に増加し、入力がLLMの固定されたコンテキスト長を超える場合の潜在的なコンテキスト切り離しにより、長いドキュメントの管理や会話の延長が困難となる。 本稿では,入力コンテキストの冗長性を同定し,よりコンパクトにすることで,LLMの推論効率を向上させるSelective Contextという手法を提案する。 我々は、要約、質問応答、応答生成といったタスクに基づいて、arXiv論文、ニュース記事、長い会話を必要とする一般的なデータソースを用いてアプローチをテストする。 実験結果から,Selective Contextはメモリコストを大幅に削減し,完全なコンテキストを使用する場合と同等の性能を維持しながら生成遅延を低減することがわかった。 具体的には,4つの下流アプリケーションにおいて .023 が bertscore で,.038 が .023 が .038 が わずかに減少するのを観察しながら,推論メモリ使用率を 36 % 削減し,推論時間を 32 % 削減するという,コンテキストコストの 50 % 削減を実現し,効率と性能のバランスが良好であることを示す。

Large language models (LLMs) achieved remarkable performance across various tasks. However, they face challenges in managing long documents and extended conversations, due to significantly increased computational requirements, both in memory and inference time, and potential context truncation when the input exceeds the LLM's fixed context length. This paper proposes a method called Selective Context that enhances the inference efficiency of LLMs by identifying and pruning redundancy in the input context to make the input more compact. We test our approach using common data sources requiring long context processing: arXiv papers, news articles, and long conversations, on tasks of summarisation, question answering, and response generation. Experimental results show that Selective Context significantly reduces memory cost and decreases generation latency while maintaining comparable performance compared to that achieved when full context is used. Specifically, we achieve a 50\% reduction in context cost, resulting in a 36\% reduction in inference memory usage and a 32\% reduction in inference time, while observing only a minor drop of .023 in BERTscore and .038 in faithfulness on four downstream applications, indicating that our method strikes a good balance between efficiency and performance.
翻訳日:2023-10-11 21:15:15 公開日:2023-10-09
# 自動ニューロン説明におけるプロンプトチューニングの重要性

The Importance of Prompt Tuning for Automated Neuron Explanations ( http://arxiv.org/abs/2310.06200v1 )

ライセンス: Link先を確認
Justin Lee, Tuomas Oikarinen, Arjun Chantha, Keng-Chi Chang, Yilan Chen, Tsui-Wei Weng(参考訳) 近年の進歩は大規模言語モデル(LLM)の能力を大幅に向上させたが、モデルとその安全性に対する我々の理解は、それほど速くは進まなかった。 本稿では,個々のニューロンを研究することで,LSMを深く理解することを目的とする。 我々は、GPT-4のような大きな言語モデルが言語モデルの各ニューロンの動作を説明するのに有用であることを示す以前の研究に基づいて構築した。 具体的には,説明の生成に用いられるプロンプトの効果を分析し,より自然な方法で説明プロンプトを再構成することで,ニューロン説明の質を大幅に改善し,計算コストを大幅に削減できることを示す。 我々は,新しいプロンプトの効果を3つの異なる方法で示し,自動評価と人的評価の両方を取り入れた。

Recent advances have greatly increased the capabilities of large language models (LLMs), but our understanding of the models and their safety has not progressed as fast. In this paper we aim to understand LLMs deeper by studying their individual neurons. We build upon previous work showing large language models such as GPT-4 can be useful in explaining what each neuron in a language model does. Specifically, we analyze the effect of the prompt used to generate explanations and show that reformatting the explanation prompt in a more natural way can significantly improve neuron explanation quality and greatly reduce computational cost. We demonstrate the effects of our new prompts in three different ways, incorporating both automated and human evaluations.
翻訳日:2023-10-11 21:14:51 公開日:2023-10-09
# DANet: 効率的な変形性注意ネットワークによる小型物体検出の実現

DANet: Enhancing Small Object Detection through an Efficient Deformable Attention Network ( http://arxiv.org/abs/2310.05768v1 )

ライセンス: Link先を確認
Md Sohag Mia, Abdullah Al Bary Voban, Abu Bakor Hayat Arnob, Abdu Naim, Md Kawsar Ahmed, Md Shariful Islam(参考訳) 欠陥やひび割れなどの製造環境における小型物体の効率的かつ正確な検出は、製品の品質と安全性の確保に不可欠である。 この問題に対処するため,我々はより高速なr-cnnと最先端の手法を組み合わせた包括的戦略を提案した。 高速R-CNNとFeature Pyramid Networkを組み合わせることで、製造環境に固有のマルチスケール機能を効率的に扱うことができる。 さらにデフォルマブルネットは、欠陥の幾何学的バリエーションを歪曲し、適合させるために使われ、極小および複雑な特徴を検出できる精度をもたらす。 そこで我々は,ResNet50ネットワークの各ブロックにConvolutional Block Attention Moduleと呼ばれるアテンション機構を組み込んで,情報的特徴を選択的に強調し,あまり役に立たないものを抑制する。 その後roiアライメントを導入し、より細かい領域間アライメントのためにroiプールを置き換え、最終的に焦点損失の統合はクラス不均衡を効果的に処理します。 NEU-DET と Pascal のVOC データセット上でのモデルの厳密な評価は、その頑健な性能と一般化能力を示している。 neu-detデータセットでは,鋼材の欠陥を深く理解し,各種欠陥の同定に最先端の精度が得られた。 同時に、Pascal VOCデータセットで評価すると、複雑なシーンや小さなシーンにおいて、幅広いカテゴリにまたがる物体を検出する能力を示す。

Efficient and accurate detection of small objects in manufacturing settings, such as defects and cracks, is crucial for ensuring product quality and safety. To address this issue, we proposed a comprehensive strategy by synergizing Faster R-CNN with cutting-edge methods. By combining Faster R-CNN with Feature Pyramid Network, we enable the model to efficiently handle multi-scale features intrinsic to manufacturing environments. Additionally, Deformable Net is used that contorts and conforms to the geometric variations of defects, bringing precision in detecting even the minuscule and complex features. Then, we incorporated an attention mechanism called Convolutional Block Attention Module in each block of our base ResNet50 network to selectively emphasize informative features and suppress less useful ones. After that we incorporated RoI Align, replacing RoI Pooling for finer region-of-interest alignment and finally the integration of Focal Loss effectively handles class imbalance, crucial for rare defect occurrences. The rigorous evaluation of our model on both the NEU-DET and Pascal VOC datasets underscores its robust performance and generalization capabilities. On the NEU-DET dataset, our model exhibited a profound understanding of steel defects, achieving state-of-the-art accuracy in identifying various defects. Simultaneously, when evaluated on the Pascal VOC dataset, our model showcases its ability to detect objects across a wide spectrum of categories within complex and small scenes.
翻訳日:2023-10-11 09:12:34 公開日:2023-10-09
# マルチリガンドドドッキングと結合サイト設計のための高調波自己条件流れマッチング

Harmonic Self-Conditioned Flow Matching for Multi-Ligand Docking and Binding Site Design ( http://arxiv.org/abs/2310.05764v1 )

ライセンス: Link先を確認
Hannes St\"ark, Bowen Jing, Regina Barzilay, Tommi Jaakkola(参考訳) タンパク質の機能には酵素触媒を含む小さな分子の結合が必要である。 そのため、小さな分子に対する結合ポケットの設計には、薬物合成からエネルギー貯蔵まで、いくつかの影響のある応用がある。 この目的に向けて,我々はまず,自己条件付きフローマッチングの目的に基づいて3次元タンパク質-リガンド結合構造を改良したHarmonicFlowを開発した。 flowsiteはこのフローモデルを拡張して、タンパク質ポケットの離散的な残基型と分子の結合3d構造を共同生成する。 本研究では,HarmonicFlowによるドッキングの簡易性,汎用性,性能の向上を実証した。 この構造モデリングによって実現されたFlowSiteは、ベースラインアプローチよりもはるかに優れたバインドサイトを設計し、バインドサイト設計のための最初の一般的なソリューションを提供する。

A significant amount of protein function requires binding small molecules, including enzymatic catalysis. As such, designing binding pockets for small molecules has several impactful applications ranging from drug synthesis to energy storage. Towards this goal, we first develop HarmonicFlow, an improved generative process over 3D protein-ligand binding structures based on our self-conditioned flow matching objective. FlowSite extends this flow model to jointly generate a protein pocket's discrete residue types and the molecule's binding 3D structure. We show that HarmonicFlow improves upon the state-of-the-art generative processes for docking in simplicity, generality, and performance. Enabled by this structure modeling, FlowSite designs binding sites substantially better than baseline approaches and provides the first general solution for binding site design.
翻訳日:2023-10-11 09:12:08 公開日:2023-10-09
# 崩壊モデルの近接場干渉試験に対するベイズ推定

Bayesian inference for near-field interferometric tests of collapse models ( http://arxiv.org/abs/2310.05763v1 )

ライセンス: Link先を確認
Shaun Laing and James Bateman(参考訳) 我々は, 量子力学のパラメータ化可能な拡張について, 量子から古典への遷移を説明するために提案されているような, 大規模な実験質量を用いた物質波干渉法実験によって得られる情報について検討する。 具体的には,matterwave near-field talbot interferometer と continuous spontaneous localization (csl) を考える。 ベイズ推定を用いて, 圧力やブラックボディ放射などの非一貫性機構の効果を計算し, 必要な測定数の推定値を求め, 実験制御変数の最適選択法を提案する。 我々は、MAQROのような実験において、$\sim10^9\,\text{u}$の質量に到達でき、CSL上に置ける境界を定量化することを示した。 これらの具体的な結果は実験的な設計に利用することができ、一般的なアプローチは他のパラメータブルモデルに適用できる。

We explore the information which proposed matterwave interferometry experiments with large test masses can provide about parameterizable extensions to quantum mechanics, such as have been proposed to explain the apparent quantum to classical transition. Specifically, we consider a matterwave near-field Talbot interferometer and Continuous Spontaneous Localisation (CSL). Using Bayesian inference we compute the effect of decoherence mechanisms including pressure and blackbody radiation, find estimates for the number of measurements required, and provide a procedure for optimal choice of experimental control variables. We show that in a MAQRO like experiment it is possible to reach masses of $\sim10^9\,\text{u}$ and we quantify the bounds which can be placed on CSL. These specific results can be used to inform experimental design and the general approach can be applied to other parameterizable models.
翻訳日:2023-10-11 09:11:55 公開日:2023-10-09
# ヒストグラムフィルタを用いた単眼カメラによる3dトマトのローカライズ

3D tomatoes' localisation with monocular cameras using histogram filters ( http://arxiv.org/abs/2310.05762v1 )

ライセンス: Link先を確認
Sandro Costa Magalh\~aes and Filipe Neves dos Santos and Ant\'onio Paulo Moreira and Jorge Dias(参考訳) 果物のモニタリングや収穫などの農業における作業には、対象物の空間的位置を認識する必要がある。 RGB-Dカメラは、雷の干渉によりオープンフィールド環境で制限される。 そこで本研究では,トマト植物におけるトマトの位置を推定するために,ヒストグラムフィルタ(ベイズ離散フィルタ)を用いた。 2つのカーネルフィルタ(平方核とガウス核)が研究された。 実装されたアルゴリズムは、ガウスノイズとランダムノイズのないシミュレーションと、実験室での試験ベッドでエッセイされた。 このアルゴリズムは、シミュレーションで10mm未満の絶対誤差を報告し、実験室の条件で試験床で約0.5mの平均絶対誤差を20mmと報告した。 したがって、結果は実際の環境で実現可能であり、より近い距離で改善されるべきである。

Performing tasks in agriculture, such as fruit monitoring or harvesting, requires perceiving the objects' spatial position. RGB-D cameras are limited under open-field environments due to lightning interferences. Therefore, in this study, we approach the use of Histogram Filters (Bayesian Discrete Filters) to estimate the position of tomatoes in the tomato plant. Two kernel filters were studied: the square kernel and the Gaussian kernel. The implemented algorithm was essayed in simulation, with and without Gaussian noise and random noise, and in a testbed at laboratory conditions. The algorithm reported a mean absolute error lower than 10 mm in simulation and 20 mm in the testbed at laboratory conditions with an assessing distance of about 0.5 m. So, the results are viable for real environments and should be improved at closer distances.
翻訳日:2023-10-11 09:11:33 公開日:2023-10-09
# 半教師付き学習における非線形補正と平滑化

Nonlinear Correct and Smooth for Semi-Supervised Learning ( http://arxiv.org/abs/2310.05757v1 )

ライセンス: Link先を確認
Yuanhang Shao, Xiuwen Liu(参考訳) グラフベースの半教師付き学習(GSSL)は様々なアプリケーションで成功している。 既存の手法では、グラフ構造とラベル付きサンプルを分類に活用する。 ラベル伝搬(lp)とグラフニューラルネットワーク(gnns)は、グラフ上で反復的にメッセージを送信し、lpはエッジを通じてノードラベルを伝搬し、gnnは近傍からノード機能を集約する。 近年,LPとGNNの組み合わせにより性能が向上している。 しかし,高次グラフにおけるラベルと特徴の併用は検討されていない。 そこで我々は,非線型性および高次表現を残差伝搬に組み込んで,複雑なノード関係を効果的に処理することにより,既存の後処理アプローチを改善する非線形補正・平滑化(NLCS)を提案する。 系統的評価の結果,6つのデータセットにおいて,ベース予測よりも平均13.71%,最先端後処理法で2.16%の著明な改善が得られた。 比較と分析により,高階グラフのラベルと特徴を協調的に有効に利用し,課題のあるグラフ関係を解き明かす。

Graph-based semi-supervised learning (GSSL) has been used successfully in various applications. Existing methods leverage the graph structure and labeled samples for classification. Label Propagation (LP) and Graph Neural Networks (GNNs) both iteratively pass messages on graphs, where LP propagates node labels through edges and GNN aggregates node features from the neighborhood. Recently, combining LP and GNN has led to improved performance. However, utilizing labels and features jointly in higher-order graphs has not been explored. Therefore, we propose Nonlinear Correct and Smooth (NLCS), which improves the existing post-processing approach by incorporating non-linearity and higher-order representation into the residual propagation to handle intricate node relationships effectively. Systematic evaluations show that our method achieves remarkable average improvements of 13.71% over base prediction and 2.16% over the state-of-the-art post-processing method on six commonly used datasets. Comparisons and analyses show our method effectively utilizes labels and features jointly in higher-order graphs to resolve challenging graph relationships.
翻訳日:2023-10-11 09:11:20 公開日:2023-10-09
# 深部概念除去

Deep Concept Removal ( http://arxiv.org/abs/2310.05755v1 )

ライセンス: Link先を確認
Yegor Klochkov and Jean-Francois Ton and Ruocheng Guo and Yang Liu and Hang Li(参考訳) 本稿では,特定の概念(例えば性別など)をエンコードしない表現を学習することを目的とした,ディープニューラルネットワークにおける概念除去の問題に対処し,概念データセット上で訓練された逆線形分類器に基づく新しい手法を提案する。 提案手法では,ネットワークの様々な層における逆探索分類器を組み込んで,概念の絡み合いを効果的に解決し,分散の一般化を改善する。 また,線形分類器を用いた逆行訓練の課題に対処するために,暗黙の勾配に基づく手法を提案する。 本研究は,分散ロバストな最適化 (DRO) ベンチマークの集合の概念を,突発的相関や分布外一般化 (OOD) タスクで除去する能力を評価する。

We address the problem of concept removal in deep neural networks, aiming to learn representations that do not encode certain specified concepts (e.g., gender etc.) We propose a novel method based on adversarial linear classifiers trained on a concept dataset, which helps to remove the targeted attribute while maintaining model performance. Our approach Deep Concept Removal incorporates adversarial probing classifiers at various layers of the network, effectively addressing concept entanglement and improving out-of-distribution generalization. We also introduce an implicit gradient-based technique to tackle the challenges associated with adversarial training using linear classifiers. We evaluate the ability to remove a concept on a set of popular distributionally robust optimization (DRO) benchmarks with spurious correlations, as well as out-of-distribution (OOD) generalization tasks.
翻訳日:2023-10-11 09:11:00 公開日:2023-10-09
# 伝達性推定のための神経崩壊のパワーを解き放つ

Unleashing the power of Neural Collapse for Transferability Estimation ( http://arxiv.org/abs/2310.05754v1 )

ライセンス: Link先を確認
Yuhe Ding, Bo Jiang, Lijun Sheng, Aihua Zheng, Jian Liang(参考訳) Transferability Estimationは、トレーニング済みのモデルが特定の下流タスクにどの程度適しているかを、全てを微調整することなく定量化するためのヒューリスティックを提供することを目的としている。 先行研究では、よく訓練されたモデルが神経崩壊の現象を示すことが示されている。 既存の文献で広く用いられている神経崩壊の指標に基づいて,前訓練モデルの神経崩壊とそれに対応する微調整モデルとの間に強い相関関係が観察された。 本研究は,前訓練モデルにおける神経崩壊度を包括的に測定することにより,伝達可能性推定のためのFair Collapse (FaCe) と呼ばれる新しい手法を提案する。 一般的にfaceは、クラス分離とクラス内コンパクト性を評価するdistribution collapse termと、各クラスに対する事前訓練されたモデルの公平性を定量化するclass fairness termの2つの異なる用語からなる。 本稿では、さまざまなネットワークアーキテクチャ、ソースデータセット、トレーニング損失関数を含む、さまざまなトレーニング済み分類モデルについて検討する。 その結果,FaCeは画像分類,セマンティックセグメンテーション,テキスト分類など,様々なタスクにおける最先端性能を示し,本手法の有効性と一般化を実証した。

Transferability estimation aims to provide heuristics for quantifying how suitable a pre-trained model is for a specific downstream task, without fine-tuning them all. Prior studies have revealed that well-trained models exhibit the phenomenon of Neural Collapse. Based on a widely used neural collapse metric in existing literature, we observe a strong correlation between the neural collapse of pre-trained models and their corresponding fine-tuned models. Inspired by this observation, we propose a novel method termed Fair Collapse (FaCe) for transferability estimation by comprehensively measuring the degree of neural collapse in the pre-trained model. Typically, FaCe comprises two different terms: the variance collapse term, which assesses the class separation and within-class compactness, and the class fairness term, which quantifies the fairness of the pre-trained model towards each class. We investigate FaCe on a variety of pre-trained classification models across different network architectures, source datasets, and training loss functions. Results show that FaCe yields state-of-the-art performance on different tasks including image classification, semantic segmentation, and text classification, which demonstrate the effectiveness and generalization of our method.
翻訳日:2023-10-11 09:10:45 公開日:2023-10-09
# 深層学習法による大規模od行列推定

Large-Scale OD Matrix Estimation with A Deep Learning Method ( http://arxiv.org/abs/2310.05753v1 )

ライセンス: Link先を確認
Zheli Xiong, Defu Lian, Enhong Chen, Gang Chen and Xiaomin Cheng(参考訳) 起源決定行列(OD)の推定は、インテリジェントトランスポートシステム(ITS)の重要な側面である。 これは、道路区間の交通量(例えば、最小二乗数)のような現在の観測を後退させることで、初期od行列を調整することを伴う。 しかし、od推定問題は十分な制約がなく、数学的に不確定である。 この問題を緩和するため、一部の研究者は、より構造的な制約を提供するために、事前のOD行列を回帰のターゲットとして組み込んだ。 しかし、このアプローチは、古いかもしれない既存の事前行列に大きく依存している。 車両の軌道や速度などのセンサデータを通じて構造的制約を加えることで、より現在の構造的制約をリアルタイムに反映することができる。 深層学習アルゴリズムと数値最適化アルゴリズムを統合し,行列構造を推定し,数値最適化の指導を行う。 このアプローチは、ディープラーニングと数値最適化アルゴリズムの両方の利点を組み合わせる。 ニューラルネットワーク(NN)は、プローブトラフィックフローから構造的制約を推論し、事前情報への依存を排除し、リアルタイムのパフォーマンスを提供する。 さらに、NNの一般化能力により、この手法は工学的にも経済的である。 大規模合成データセットにおいて,提案手法の優れた一般化性能を示す実験を行った。 その後,本手法の安定性を実交通データ上で検証した。 実験により,NNと数値最適化を組み合わせる利点が確認できた。

The estimation of origin-destination (OD) matrices is a crucial aspect of Intelligent Transport Systems (ITS). It involves adjusting an initial OD matrix by regressing the current observations like traffic counts of road sections (e.g., using least squares). However, the OD estimation problem lacks sufficient constraints and is mathematically underdetermined. To alleviate this problem, some researchers incorporate a prior OD matrix as a target in the regression to provide more structural constraints. However, this approach is highly dependent on the existing prior matrix, which may be outdated. Others add structural constraints through sensor data, such as vehicle trajectory and speed, which can reflect more current structural constraints in real-time. Our proposed method integrates deep learning and numerical optimization algorithms to infer matrix structure and guide numerical optimization. This approach combines the advantages of both deep learning and numerical optimization algorithms. The neural network(NN) learns to infer structural constraints from probe traffic flows, eliminating dependence on prior information and providing real-time performance. Additionally, due to the generalization capability of NN, this method is economical in engineering. We conducted tests to demonstrate the good generalization performance of our method on a large-scale synthetic dataset. Subsequently, we verified the stability of our method on real traffic data. Our experiments provided confirmation of the benefits of combining NN and numerical optimization.
翻訳日:2023-10-11 09:10:22 公開日:2023-10-09
# 人工知能の倫理と米国における応用

A Review of the Ethics of Artificial Intelligence and its Applications in the United States ( http://arxiv.org/abs/2310.05751v1 )

ライセンス: Link先を確認
Esther Taiwo, Ahmed Akinsola, Edward Tella, Kolade Makinde, Mayowa Akinwande(参考訳) 本研究は、米国における人工知能の倫理とその応用に焦点をあて、米国経済のあらゆる分野におけるaiの影響と、技術分野の複数の側面と、ビジネス、政府、アカデミア、市民社会にまたがるエンティティに対する結果的影響を強調する。 これらのエンティティは、運用、意思決定、相互の相互作用に大きな影響を及ぼすさまざまな重要なタスクを提供するために、AIに依存し始めているため、倫理的な考慮が必要である。 したがって、倫理的原則、ガイドライン、仕事の標準の採用は、責任と倫理的AIプラクティスを保証するために、AI開発、展開、使用のプロセス全体を通して必要である。 我々の議論は、包括的なテーマとして構成された11の基本的な「倫理原則」を探求する。 これらは透明性、正義、公正、平等、非正当性、責任、説明責任、プライバシー、利益、自由、自律、信頼、尊厳、持続可能性、連帯性を含む。 これらの原則は総括して指針の枠組みとして機能し、米国内の様々な分野や組織にまたがる人工知能(AI)技術の発展、展開、利用に責任ある倫理的経路を導いた。 また、機械学習のようなAIアプリケーションの革命的影響についても論じ、AI倫理を実装するために使用される様々なアプローチについて考察する。 この試験は、人工知能の普及に伴う固有のリスクに関する懸念の高まりに対処するために重要である。

This study is focused on the ethics of Artificial Intelligence and its application in the United States, the paper highlights the impact AI has in every sector of the US economy and multiple facets of the technological space and the resultant effect on entities spanning businesses, government, academia, and civil society. There is a need for ethical considerations as these entities are beginning to depend on AI for delivering various crucial tasks, which immensely influence their operations, decision-making, and interactions with each other. The adoption of ethical principles, guidelines, and standards of work is therefore required throughout the entire process of AI development, deployment, and usage to ensure responsible and ethical AI practices. Our discussion explores eleven fundamental 'ethical principles' structured as overarching themes. These encompass Transparency, Justice, Fairness, Equity, Non- Maleficence, Responsibility, Accountability, Privacy, Beneficence, Freedom, Autonomy, Trust, Dignity, Sustainability, and Solidarity. These principles collectively serve as a guiding framework, directing the ethical path for the responsible development, deployment, and utilization of artificial intelligence (AI) technologies across diverse sectors and entities within the United States. The paper also discusses the revolutionary impact of AI applications, such as Machine Learning, and explores various approaches used to implement AI ethics. This examination is crucial to address the growing concerns surrounding the inherent risks associated with the widespread use of artificial intelligence.
翻訳日:2023-10-11 09:10:04 公開日:2023-10-09
# お金はあなたの口の中に置け - 競売場における戦略計画と評価とllmエージェントの実行

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena ( http://arxiv.org/abs/2310.05746v1 )

ライセンス: Link先を確認
Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson(参考訳) 大規模言語モデル(llm)は複雑な環境で人間の行動をシミュレートできるか? LLMは近年、高度な推論技術を示すことが示されているが、NLP評価の多くは静的ベンチマークに依存している。 これを答えるには、長期計画を含む競争的で動的なシナリオにおける戦略的推論を調査する評価環境が必要である。 AucArenaはオークション内でLLMを評価するための新しいシミュレーション環境であり、非常に予測不可能で、資源管理やリスク管理に関わるスキルが数多く含まれており、評価も容易である。 我々は最先端のLCMを入札エージェントとしていくつかの制御シミュレーションを行う。 簡単なプロンプトによって、LLMは実際にオークションに効果的に関与するために必要なスキル(例えば、予算の管理、長期的な目標と優先順位の順守)の多くを実演し、過去のオークションにおいてモデルに適応し、戦略を観察することを明示的に奨励することで、そのスキルを磨くことができることがわかった。 これらの結果は、特に競争環境において、複雑な社会的ダイナミクスをモデル化するためにLLMエージェントを使用することの可能性を示す。 しかし, 個々のLDMの能力の変動も観察できる。 特に、我々の最も先進的なモデル(GPT-4)でさえ時折ヒューリスティックなベースラインとヒューマンエージェントに抜かれ、LLMエージェントの設計のさらなる改善の可能性と、エージェントアーキテクチャのさらなるテストおよび精錬においてシミュレーション環境が果たす重要な役割を強調している。

Can Large Language Models (LLMs) simulate human behavior in complex environments? LLMs have recently been shown to exhibit advanced reasoning skills but much of NLP evaluation still relies on static benchmarks. Answering this requires evaluation environments that probe strategic reasoning in competitive, dynamic scenarios that involve long-term planning. We introduce AucArena, a novel simulation environment for evaluating LLMs within auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct several controlled simulations using state-of-the-art LLMs as bidding agents. We find that through simple prompting, LLMs do indeed demonstrate many of the skills needed for effectively engaging in auctions (e.g., managing budget, adhering to long-term goals and priorities), skills that we find can be sharpened by explicitly encouraging models to be adaptive and observe strategies in past auctions. These results are significant as they show the potential of using LLM agents to model intricate social dynamics, especially in competitive settings. However, we also observe considerable variability in the capabilities of individual LLMs. Notably, even our most advanced models (GPT-4) are occasionally surpassed by heuristic baselines and human agents, highlighting the potential for further improvements in the design of LLM agents and the important role that our simulation environment can play in further testing and refining agent architectures.
翻訳日:2023-10-11 09:09:37 公開日:2023-10-09
# 最初のカデンザ信号処理チャレンジ:聴覚障害のある人のための音楽改善

The First Cadenza Signal Processing Challenge: Improving Music for Those With a Hearing Loss ( http://arxiv.org/abs/2310.05799v1 )

ライセンス: Link先を確認
Gerardo Roa Dabike, Scott Bannister, Jennifer Firth, Simone Graetzer, Rebecca Vos, Michael A. Akeroyd, Jon Barker, Trevor J. Cox, Bruno Fazenda, Alinka Greasley, William Whitmer(参考訳) cadenzaプロジェクトは、難聴者のための音楽の音質を改善することを目的としている。 これは、より良くより包括的なテクノロジーを育むために、一連の信号処理の課題を通して行われている。 第1ラウンドでは、ヘッドフォンで音楽を聴くこと、車の中で補聴器で音楽を聴くことの2つの一般的なシナリオが検討されている。 最初のシナリオは、音楽がボーカル、ベース、ドラム、その他のコンポーネントに分解されるデミックス・リミックス問題としてキャストされる。 これらをパーソナライズした方法でインテリジェントにリミックスすることで、難聴のある人のオーディオ品質を向上させることができる。 第2のシナリオでは、自動車用スピーカーから音楽が生まれており、自動車騒音のマスキング効果を克服するために音楽を強化する必要がある。 これは、音楽、リスナーの聴覚能力、補聴器、車の速度を考慮して行われる。 提案音声の質は, 客観的評価のための補聴器音声品質指標(haaqi)と主観的評価のための難聴者パネルを用いて評価される。

The Cadenza project aims to improve the audio quality of music for those who have a hearing loss. This is being done through a series of signal processing challenges, to foster better and more inclusive technologies. In the first round, two common listening scenarios are considered: listening to music over headphones, and with a hearing aid in a car. The first scenario is cast as a demixing-remixing problem, where the music is decomposed into vocals, bass, drums and other components. These can then be intelligently remixed in a personalized way, to increase the audio quality for a person who has a hearing loss. In the second scenario, music is coming from car loudspeakers, and the music has to be enhanced to overcome the masking effect of the car noise. This is done by taking into account the music, the hearing ability of the listener, the hearing aid and the speed of the car. The audio quality of the submissions will be evaluated using the Hearing Aid Audio Quality Index (HAAQI) for objective assessment and by a panel of people with hearing loss for subjective evaluation.
翻訳日:2023-10-11 06:48:43 公開日:2023-10-09
# 大規模言語モデルはホックな説明の後か?

Are Large Language Models Post Hoc Explainers? ( http://arxiv.org/abs/2310.05797v1 )

ライセンス: Link先を確認
Nicholas Kroeger, Dan Ley, Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は、多くの自然言語処理(NLP)アプリケーションのための強力なツールとして、ますます使われている。 近年のICL(In-context Learning)では、推論時間中にプロンプトにいくつかの例を提示することで、LLMが新しいタスクを学習できるようにする。 LLMはいくつかのアプリケーションで利用されてきたが、他のモデルの振る舞いを説明するための適用性はいまだに未解明である。 新しい説明手法が増えているにもかかわらず、多くはモデルへのホワイトボックスアクセスを必要とし、あるいは計算コストが高く、次世代のポストホック説明器の必要性を強調している。 本研究では,他の予測モデルを説明する上で LLM の有効性を検討するための最初の枠組みを提案する。 具体的には、複数のプロンプト戦略を含む新しいフレームワークを提案する。 i)摂動に基づくicl, 二 予測に基づくicl、 三 指示に基づくicl、及び 四 説明に基づくICLであって、基礎となるMLモデル及びテストサンプルの局所的近傍に関する情報のレベルが異なるもの。 我々は,実世界のベンチマークデータセットを用いて広範な実験を行い,llmが生成した説明が,モデル説明の生成にiclの例と内部知識を活用する能力を用いて,最先端のポストホック説明と同等の性能を発揮することを実証する。 平均して、4つのデータセットと2つのMLモデルで、LLMが72.19%の精度で最も重要な特徴を識別し、説明可能な人工知能(XAI)の新しいフロンティアを開き、LLMベースの説明フレームワークを探索する。

Large Language Models (LLMs) are increasingly used as powerful tools for a plethora of natural language processing (NLP) applications. A recent innovation, in-context learning (ICL), enables LLMs to learn new tasks by supplying a few examples in the prompt during inference time, thereby eliminating the need for model fine-tuning. While LLMs have been utilized in several applications, their applicability in explaining the behavior of other models remains relatively unexplored. Despite the growing number of new explanation techniques, many require white-box access to the model and/or are computationally expensive, highlighting a need for next-generation post hoc explainers. In this work, we present the first framework to study the effectiveness of LLMs in explaining other predictive models. More specifically, we propose a novel framework encompassing multiple prompting strategies: i) Perturbation-based ICL, ii) Prediction-based ICL, iii) Instruction-based ICL, and iv) Explanation-based ICL, with varying levels of information about the underlying ML model and the local neighborhood of the test sample. We conduct extensive experiments with real-world benchmark datasets to demonstrate that LLM-generated explanations perform on par with state-of-the-art post hoc explainers using their ability to leverage ICL examples and their internal knowledge in generating model explanations. On average, across four datasets and two ML models, we observe that LLMs identify the most important feature with 72.19% accuracy, opening up new frontiers in explainable artificial intelligence (XAI) to explore LLM-based explanation frameworks.
翻訳日:2023-10-11 06:48:24 公開日:2023-10-09
# DiffuSeq-v2: 加速されたSeq2Seq拡散モデルのための離散と連続テキスト空間

DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for Accelerated Seq2Seq Diffusion Models ( http://arxiv.org/abs/2310.05793v1 )

ライセンス: Link先を確認
Shansan Gong, Mukai Li, Jiangtao Feng, Zhiyong Wu, Lingpeng Kong(参考訳) 拡散モデルは高品質なテキスト列を生成する際に顕著になった。 しかしながら、現在のアプローチは、主に連続拡散空間内の離散テキストを表現しており、トレーニング中にかなりの計算オーバーヘッドが発生し、サンプリング速度が遅くなる。 本稿では,基礎となるガウス空間に基づいて離散的突然変異を再構成し,条件信号の復元能力を高めるために,拡散モデルを容易にするソフト吸収状態を提案する。 サンプリングフェーズでは,サンプリングプロセスの高速化のために,連続空間内で最先端のODEソルバを用いる。 包括的実験により,提案手法は4倍の収束を効果的に促進し,同様の品質の試料を800倍高速に生成し,実用化にかなり近づいた。 \footnote{The code is released at \url{https://github.com/Shark-NLP/DiffuSeq}

Diffusion models have gained prominence in generating high-quality sequences of text. Nevertheless, current approaches predominantly represent discrete text within a continuous diffusion space, which incurs substantial computational overhead during training and results in slower sampling speeds. In this paper, we introduce a soft absorbing state that facilitates the diffusion model in learning to reconstruct discrete mutations based on the underlying Gaussian space, thereby enhancing its capacity to recover conditional signals. During the sampling phase, we employ state-of-the-art ODE solvers within the continuous space to expedite the sampling process. Comprehensive experimental evaluations reveal that our proposed method effectively accelerates the training convergence by 4x and generates samples of similar quality 800x faster, rendering it significantly closer to practical application. \footnote{The code is released at \url{https://github.com/Shark-NLP/DiffuSeq}
翻訳日:2023-10-11 06:47:57 公開日:2023-10-09
# 問題解決ガイド:アルゴリズムタグの予測と競合プログラミング問題への難しさ

Problem-Solving Guide: Predicting the Algorithm Tags and Difficulty for Competitive Programming Problems ( http://arxiv.org/abs/2310.05791v1 )

ライセンス: Link先を確認
Juntae Kim, Eunjung Cho, Dongwoo Kim, Dongbin Na(参考訳) 最近のプログラム開発産業はエンジニア、特にアプリケーション開発者に問題解決能力を必要としている。 しかし、コンピュータアルゴリズムの問題を解決するAIベースの教育システムは、まだ注目されていないが、ほとんどの大企業は、Google、Meta、Amazonといったアルゴリズムの問題を解決する能力を必要としている。 アルゴリズム問題を解くための最も有用なガイドは、直面する問題のカテゴリ(タグ)を推測することかもしれない。 そこで本研究では,アルゴリズムタグの予測を技術者や開発者の有用なツールとして扱う。 また,アルゴリズム問題の難易度を予測し,その問題を解くために必要な時間を計算するための有用なガイダンスとして利用することができる。 本稿では,最も有名で競争の激しいプログラミングサイトであるcodeforcesから問題サンプルを収集し,実世界のアルゴリズム問題であるマルチタスクデータセットamtを提案する。 我々の知る限り、提案したデータセットはアルゴリズムタグを予測するための最も大規模なデータセットである。 さらに、アルゴリズム問題の難易度を予測するための最初の研究である。 本稿では,アルゴリズムタグとアルゴリズム問題の難易度を同時に予測する深層学習に基づく新しい手法を提案する。 すべてのデータセットとソースコードは、https://github.com/sronger/psg_predicting_algorithm_tags_and_difficultyで入手できる。

The recent program development industries have required problem-solving abilities for engineers, especially application developers. However, AI-based education systems to help solve computer algorithm problems have not yet attracted attention, while most big tech companies require the ability to solve algorithm problems including Google, Meta, and Amazon. The most useful guide to solving algorithm problems might be guessing the category (tag) of the facing problems. Therefore, our study addresses the task of predicting the algorithm tag as a useful tool for engineers and developers. Moreover, we also consider predicting the difficulty levels of algorithm problems, which can be used as useful guidance to calculate the required time to solve that problem. In this paper, we present a real-world algorithm problem multi-task dataset, AMT, by mainly collecting problem samples from the most famous and large competitive programming website Codeforces. To the best of our knowledge, our proposed dataset is the most large-scale dataset for predicting algorithm tags compared to previous studies. Moreover, our work is the first to address predicting the difficulty levels of algorithm problems. We present a deep learning-based novel method for simultaneously predicting algorithm tags and the difficulty levels of an algorithm problem given. All datasets and source codes are available at https://github.com/sronger/PSG_Predicting_Algorithm_Tags_and_Difficulty.
翻訳日:2023-10-11 06:47:42 公開日:2023-10-09
# 不均衡ビッグデータ分類のための効率的なハイブリッドオーバーサンプリングとインテリジェントアンサンプリング

Efficient Hybrid Oversampling and Intelligent Undersampling for Imbalanced Big Data Classification ( http://arxiv.org/abs/2310.05789v1 )

ライセンス: Link先を確認
Carla Vairetti, Jos\'e Luis Assadi, Sebasti\'an Maldonado(参考訳) 不均衡な分類は多くの現実世界のアプリケーションで直面するよく知られた課題である。 この問題は、ターゲット変数の分布が歪んだときに起こり、多数派クラスに対する予測バイアスにつながる。 ビッグデータの時代が到来すると、この問題を解決するための効率的なソリューションの必要性が高まる。 本稿では,MapReduceフレームワークを用いたインテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせた,SMOTENNと呼ばれる新しいリサンプリング手法を提案する。 どちらの手順もデータ上の同じパスで実行され、その技術に効率性を与える。 SMOTENN法は, マイノリティサンプルに関連する地区の効率的な実装を補完する。 実験結果は,この手法の利点を示し,小中規模のデータセットに対する代替再サンプリング手法を上回り,実行時間を短縮した大規模データセットに対して肯定的な結果を得た。

Imbalanced classification is a well-known challenge faced by many real-world applications. This issue occurs when the distribution of the target variable is skewed, leading to a prediction bias toward the majority class. With the arrival of the Big Data era, there is a pressing need for efficient solutions to solve this problem. In this work, we present a novel resampling method called SMOTENN that combines intelligent undersampling and oversampling using a MapReduce framework. Both procedures are performed on the same pass over the data, conferring efficiency to the technique. The SMOTENN method is complemented with an efficient implementation of the neighborhoods related to the minority samples. Our experimental results show the virtues of this approach, outperforming alternative resampling techniques for small- and medium-sized datasets while achieving positive results on large datasets with reduced running times.
翻訳日:2023-10-11 06:47:23 公開日:2023-10-09
# 3次元障害物マルチカメラシステムにおける共同物体検出と再同定

Joint object detection and re-identification for 3D obstacle multi-camera systems ( http://arxiv.org/abs/2310.05785v1 )

ライセンス: Link先を確認
Irene Cort\'es, Jorge Beltr\'an, Arturo de la Escalera, Fernando Garc\'ia(参考訳) 近年、自動運転の分野は、カメラやライダーシステムを含む多数のセンサーを異なるプロトタイプに統合することで、驚くべき進歩を遂げている。 しかし、センサデータの拡散に伴い、より高度な情報処理技術の必要性が高まっている。 本研究は, カメラとライダー情報を用いた物体検出ネットワークを改良し, 隣接するカメラ間で物体を同一車両内に再識別する作業用に, ベースライン3次元物体検出結果の質を高めながら追加のブランチを組み込んだものである。 提案手法は2段階検出パイプラインを用いており,まず物体検出ネットワークを用い,その後にネットワークの検出から生成されたフィルタ付き点雲上で動作する3次元ボックス推定器を用いる。 2dドメインと3dドメインの両方を包含する広範な実験評価により、提案手法の有効性が検証され、この手法が従来の非最大抑制(nms)技術よりも優れていることを裏付ける結果が得られた。

In recent years, the field of autonomous driving has witnessed remarkable advancements, driven by the integration of a multitude of sensors, including cameras and LiDAR systems, in different prototypes. However, with the proliferation of sensor data comes the pressing need for more sophisticated information processing techniques. This research paper introduces a novel modification to an object detection network that uses camera and lidar information, incorporating an additional branch designed for the task of re-identifying objects across adjacent cameras within the same vehicle while elevating the quality of the baseline 3D object detection outcomes. The proposed methodology employs a two-step detection pipeline: initially, an object detection network is employed, followed by a 3D box estimator that operates on the filtered point cloud generated from the network's detections. Extensive experimental evaluations encompassing both 2D and 3D domains validate the effectiveness of the proposed approach and the results underscore the superiority of this method over traditional Non-Maximum Suppression (NMS) techniques, with an improvement of more than 5\% in the car category in the overlapping areas.
翻訳日:2023-10-11 06:47:09 公開日:2023-10-09
# ベイズ的アプローチによる人選好言語モデルの調整

Aligning Language Models with Human Preferences via a Bayesian Approach ( http://arxiv.org/abs/2310.05782v1 )

ライセンス: Link先を確認
Jiashuo Wang, Haozhao Wang, Shichao Sun, Wenjie Li(参考訳) 人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。 このアライメントのために、現在の一般的な方法は、人間からのフィードバックに基づいて訓練された報酬モデルで強化学習(RL)アプローチを利用する。 しかし,人間の嗜好の主観的性質による内在的な不一致は,報酬モデルの訓練において大きな課題となり,nlgパフォーマンスの低下を招いた。 この問題に対処するため、従来のアプローチは通常、複数の一貫性のない選好をマージしたものに集約するために、多数決または平均化に依存していた。 理解と実行は容易であるが、このような手法は人間の不合理さを捉えることができず、個人の特別なサブセットのみを表現できるため、人間の嗜好の普遍性を定量的に開示する能力が欠如している。 この課題に対処するために, ベイズ的枠組みを用いて, 選好モデルのトレーニングとして, 人選好間の不一致の分布を考慮し, d-PMと命名する手法を提案する。 さらに,学習効率よりもRL戦略の非効率で複雑な訓練プロセスを考えると,NLGモデルをd-PMモデルから導出した選好スコアで学習するためのコントラスト学習戦略も提案する。 感情的支援会話と整合性(Rule-of-Thumb)生成という2つの人間中心型NLGタスクに対する広範囲な実験により,本手法が従来のSOTAモデルを上回る結果が得られた。

In the quest to advance human-centric natural language generation (NLG) systems, ensuring alignment between NLG models and human preferences is crucial. For this alignment, current popular methods leverage a reinforcement learning (RL) approach with a reward model trained on feedback from humans. However, inherent disagreements due to the subjective nature of human preferences pose a significant challenge for training the reward model, resulting in a deterioration of the NLG performance. To tackle this issue, previous approaches typically rely on majority voting or averaging to consolidate multiple inconsistent preferences into a merged one. Although straightforward to understand and execute, such methods suffer from an inability to capture the nuanced degrees of disaggregation among humans and may only represent a specialized subset of individuals, thereby lacking the ability to quantitatively disclose the universality of human preferences. To address this challenge, this paper proposes a novel approach, which employs a Bayesian framework to account for the distribution of disagreements among human preferences as training a preference model, and names it as d-PM. Besides, considering the RL strategy's inefficient and complex training process over the training efficiency, we further propose utilizing the contrastive learning strategy to train the NLG model with the preference scores derived from the d-PM model. Extensive experiments on two human-centric NLG tasks, i.e., emotional support conversation and integrity "Rule-of-Thumb" generation, show that our method consistently exceeds previous SOTA models in both automatic and human evaluations.
翻訳日:2023-10-11 06:46:51 公開日:2023-10-09
# なぜこの記事を削除するべきか? 多言語ウィキペディア編集者討論における透明スタンス検出

Why Should This Article Be Deleted? Transparent Stance Detection in Multilingual Wikipedia Editor Discussions ( http://arxiv.org/abs/2310.05779v1 )

ライセンス: Link先を確認
Lucie-Aim\'ee Kaffee, Arnav Arora and Isabelle Augenstein(参考訳) オンラインプラットフォーム上のコンテンツのモデレーションは通常透明ではない。 しかし、ウィキペディアでは、この議論が公に行われ、編集者はコンテンツモデレーションポリシーをモデレーション決定を行うための説明として使うことを奨励されている。 現在、これらの政策を明示的に言及するコメントはごくわずかで、イングランドの20%だが、ドイツとトルコのコメントの2%にも満たない。 コンテンツの穏健化の過程を理解するため、ウィキペディア編集者の議論の新たな多言語データセットを構築し、3つの言語による推論を行う。 データセットにはエディタのスタンス(keep、delete、merge、コメント)と、記述された理由、および編集決定毎のコンテンツモデレーションポリシーが含まれている。 姿勢とそれに対応する理由(政治)を高い精度で共同で予測し、意思決定プロセスに透明性を付加できることを実証する。 我々は,共同予測モデルと多言語コンテンツモデレーションデータセットの両方を公開し,自動透明コンテンツモデレーションのさらなる研究を行う。

The moderation of content on online platforms is usually non-transparent. On Wikipedia, however, this discussion is carried out publicly and the editors are encouraged to use the content moderation policies as explanations for making moderation decisions. Currently, only a few comments explicitly mention those policies -- 20% of the English ones, but as few as 2% of the German and Turkish comments. To aid in this process of understanding how content is moderated, we construct a novel multilingual dataset of Wikipedia editor discussions along with their reasoning in three languages. The dataset contains the stances of the editors (keep, delete, merge, comment), along with the stated reason, and a content moderation policy, for each edit decision. We demonstrate that stance and corresponding reason (policy) can be predicted jointly with a high degree of accuracy, adding transparency to the decision-making process. We release both our joint prediction models and the multilingual content moderation dataset for further research on automated transparent content moderation.
翻訳日:2023-10-11 06:46:23 公開日:2023-10-09
# 難燃性軌道マッチングによるロスレスデータセット蒸留に向けて

Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching ( http://arxiv.org/abs/2310.05773v1 )

ライセンス: Link先を確認
Ziyao Guo, Kai Wang, George Cazenavette, Hui Li, Kaipeng Zhang, Yang You(参考訳) データセット蒸留の最終的な目標は、この合成集合で訓練されたモデルが、完全な実データセットで訓練されたモデルと等しく機能するように、小さな合成データセットを合成することである。 これまでのデータセット蒸留法は, 合成試料の総数が極端に少ない場合にのみ, 従来の方法が有効であることから, 完全に損失のない目標に達していない。 このような少数のサンプルに十分な情報しか含められないため、真の損失データセット蒸留を実現するためには、合成データセットのサイズが大きくなるにつれて有効である蒸留法を開発する必要があると考えられる。 本研究では,このようなアルゴリズムを提示し,既存の手法が大規模で高品質な合成集合を生成できない理由を解明する。 現在の最先端の手法は、軌道マッチングに依存するか、あるいは合成データを最適化して、実データと同様の長期トレーニングダイナミクスを誘導する。 実験によって、一致する軌道(早期または後期)の訓練段階が、蒸留データセットの有効性に大きな影響を及ぼすことがわかった。 特に、初期の軌道(教師ネットワークが簡単なパターンを学習する)は、必要な情報を配布する例が少ないため、低カーディナリティ合成セットでうまく機能する。 逆に、後期軌道(教師ネットワークがハードパターンを学ぶ)は、必要な複雑なパターンを表現するのに十分なサンプルがあるため、より大きな合成集合に対してより良いシグナルを提供する。 そこで本研究では,生成したパターンの難易度を合成データセットのサイズに合わせることを提案する。 これにより, 軌跡マッチングに基づく手法をより大きな合成データセットに拡張し, 初めてロスレスデータセット蒸留を実現することに成功した。 コードと蒸留データセットはhttps://gzyaftermath.github.io/DATMで入手できる。

The ultimate goal of Dataset Distillation is to synthesize a small synthetic dataset such that a model trained on this synthetic set will perform equally well as a model trained on the full, real dataset. Until now, no method of Dataset Distillation has reached this completely lossless goal, in part due to the fact that previous methods only remain effective when the total number of synthetic samples is extremely small. Since only so much information can be contained in such a small number of samples, it seems that to achieve truly loss dataset distillation, we must develop a distillation method that remains effective as the size of the synthetic dataset grows. In this work, we present such an algorithm and elucidate why existing methods fail to generate larger, high-quality synthetic sets. Current state-of-the-art methods rely on trajectory-matching, or optimizing the synthetic data to induce similar long-term training dynamics as the real data. We empirically find that the training stage of the trajectories we choose to match (i.e., early or late) greatly affects the effectiveness of the distilled dataset. Specifically, early trajectories (where the teacher network learns easy patterns) work well for a low-cardinality synthetic set since there are fewer examples wherein to distribute the necessary information. Conversely, late trajectories (where the teacher network learns hard patterns) provide better signals for larger synthetic sets since there are now enough samples to represent the necessary complex patterns. Based on our findings, we propose to align the difficulty of the generated patterns with the size of the synthetic dataset. In doing so, we successfully scale trajectory matching-based methods to larger synthetic datasets, achieving lossless dataset distillation for the very first time. Code and distilled datasets are available at https://gzyaftermath.github.io/DATM.
翻訳日:2023-10-11 06:46:05 公開日:2023-10-09
# 可視化とファウンデーションモデル - 課題と機会

Foundation Models Meet Visualizations: Challenges and Opportunities ( http://arxiv.org/abs/2310.05771v1 )

ライセンス: Link先を確認
Weikai Yang, Mengchen Liu, Zheng Wang, and Shixia Liu(参考訳) 近年の研究では,BERT や GPT などの基礎モデルが,下流タスクに適応する上で優れていることが示されている。 この適応性は、人工知能(ai)システム構築における主要な力となっている。 可視化技術がこれらのモデルと交わるにつれて、新しい研究パラダイムが出現する。 本稿では,これらの交差点を,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) の2つの主要な領域に分割する。 vis4fmでは,これらの複雑なモデルの理解,精細化,評価において可視化が果たす役割について検討する。 これにより、透明性、説明可能性、公平性、堅牢性の必要性が高まる。 逆にfm4visでは、基盤モデルを使って可視化分野自体を前進させる方法を強調する。 基礎モデルと視覚化の融合は大きな約束だが、独自の課題も伴っている。 本論文は,これらの課題と成長する機会を強調することによって,この将来性のある道の探索を継続するための出発点を提供する。

Recent studies have indicated that foundation models, such as BERT and GPT, excel in adapting to a variety of downstream tasks. This adaptability has established them as the dominant force in building artificial intelligence (AI) systems. As visualization techniques intersect with these models, a new research paradigm emerges. This paper divides these intersections into two main areas: visualizations for foundation models (VIS4FM) and foundation models for visualizations (FM4VIS). In VIS4FM, we explore the primary role of visualizations in understanding, refining, and evaluating these intricate models. This addresses the pressing need for transparency, explainability, fairness, and robustness. Conversely, within FM4VIS, we highlight how foundation models can be utilized to advance the visualization field itself. The confluence of foundation models and visualizations holds great promise, but it also comes with its own set of challenges. By highlighting these challenges and the growing opportunities, this paper seeks to provide a starting point for continued exploration in this promising avenue.
翻訳日:2023-10-11 06:45:36 公開日:2023-10-09
# 統一視点下での時空間予測学習における時間モデルの再検討

Revisiting the Temporal Modeling in Spatio-Temporal Predictive Learning under A Unified View ( http://arxiv.org/abs/2310.05829v1 )

ライセンス: Link先を確認
Cheng Tan, Jue Wang, Zhangyang Gao, Siyuan Li, Lirong Wu, Jun Xia, Stan Z. Li(参考訳) 時空間予測学習は、多種多様な分野にまたがる幅広い応用によって、自己指導型学習において重要な役割を果たす。 時間的モデリングに対する以前のアプローチは、recurrent-basedとrecurrent-freeの2つのカテゴリに分類される。 前者は慎重にフレームを1つずつ処理するが、短期的な時空間的な情報の冗長性は無視し、非効率に繋がる。 後者はシーケンシャルにフレームを積み重ね、固有の時間依存を見渡せる。 本稿では,時空間予測学習の領域における2つの支配的時間モデルアプローチを再検討し,統一的な視点を提供する。 この分析に基づいて,マイクロテンポラリスケールとマクロテンポラリスケールを組み合わせた再帰的および再帰的フリーな手法を再構築する,USTEP(Unified Spatio-Temporal Predictive Learning)を導入した。 広範囲な時空間予測学習に関する広範な実験により、USTEPは既存の時空間モデリングアプローチよりも大幅に改善され、広範囲な時空間応用のための堅牢なソリューションとして確立されている。

Spatio-temporal predictive learning plays a crucial role in self-supervised learning, with wide-ranging applications across a diverse range of fields. Previous approaches for temporal modeling fall into two categories: recurrent-based and recurrent-free methods. The former, while meticulously processing frames one by one, neglect short-term spatio-temporal information redundancies, leading to inefficiencies. The latter naively stack frames sequentially, overlooking the inherent temporal dependencies. In this paper, we re-examine the two dominant temporal modeling approaches within the realm of spatio-temporal predictive learning, offering a unified perspective. Building upon this analysis, we introduce USTEP (Unified Spatio-TEmporal Predictive learning), an innovative framework that reconciles the recurrent-based and recurrent-free methods by integrating both micro-temporal and macro-temporal scales. Extensive experiments on a wide range of spatio-temporal predictive learning demonstrate that USTEP achieves significant improvements over existing temporal modeling approaches, thereby establishing it as a robust solution for a wide range of spatio-temporal applications.
翻訳日:2023-10-11 06:39:03 公開日:2023-10-09
# 制約付きデコードと大規模言語モデルプロンプトを用いた用語認識翻訳

Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting ( http://arxiv.org/abs/2310.05824v1 )

ライセンス: Link先を確認
Nikolay Bogoychev and Pinzhen Chen(参考訳) 用語の正確性は機械翻訳の下流への応用において重要であり、翻訳システムに用語の制約を注入することを保証する一般的な方法である。 WMT 2023 用語翻訳タスクへの提出では,ドメインに依存しない,手作業の最小限の作業を必要とする,翻訳対象の最小化アプローチを採用する。 単語アライメントから得られた疑似終端変換をランダムソース語にアノテートし,まず用語認識モデルを訓練する。 さらに,2つの後処理手法について検討する。 まず,ある用語制約が違反されているかどうかを判断するためにアライメントプロセスを使用し,その場合,違反する単語を負の制約で再復号する。 あるいは、大きな言語モデルを利用して、用語の制約を提供することで仮説を洗練します。 その結果,我々の用語認識モデルは,用語を効果的に取り入れることを学び,大規模言語モデルの改良プロセスは,用語認識の想起をさらに改善できることがわかった。

Terminology correctness is important in the downstream application of machine translation, and a prevalent way to ensure this is to inject terminology constraints into a translation system. In our submission to the WMT 2023 terminology translation task, we adopt a translate-then-refine approach which can be domain-independent and requires minimal manual efforts. We annotate random source words with pseudo-terminology translations obtained from word alignment to first train a terminology-aware model. Further, we explore two post-processing methods. First, we use an alignment process to discover whether a terminology constraint has been violated, and if so, we re-decode with the violating word negatively constrained. Alternatively, we leverage a large language model to refine a hypothesis by providing it with terminology constraints. Results show that our terminology-aware model learns to incorporate terminologies effectively, and the large language model refinement process can further improve terminology recall.
翻訳日:2023-10-11 06:38:41 公開日:2023-10-09
# 音源分離のためのマルチチャネルNMFの事前訓練

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation ( http://arxiv.org/abs/2310.05821v1 )

ライセンス: Link先を確認
Pablo Cabanas-Molero, Antonio J. Munoz-Montoro, Julio Carabias-Orti, Pedro Vera-Candeas(参考訳) 本稿では,記録中に得られる空間情報を活用した音源分離手法を提案する。 本手法では, 室内インパルス応答とトランスデューサ応答に関する情報を各センサ位置で取得するために, 単独経路を用いた空間混合フィルタを訓練する。 この事前学習されたフィルタは、異なる音源の分散をよりよく捉えるために、マルチチャネル非負行列分解(MNMF)スキームに統合される。 本実験で使用する録音装置は、管弦楽録音の典型的構成であり、管弦楽の各区間にメインマイクと密接な"cardioid"または"supercardioid"マイクロホンが設けられている。 これにより,提案手法は多くの既存記録に適用できる。 ポリフォニックアンサンブルの実験により,提案手法が個々の音源を分離し,従来のmnmf法と比較して性能を向上させることの有効性が示された。

This paper presents a novel approach to sound source separation that leverages spatial information obtained during the recording setup. Our method trains a spatial mixing filter using solo passages to capture information about the room impulse response and transducer response at each sensor location. This pre-trained filter is then integrated into a multichannel non-negative matrix factorization (MNMF) scheme to better capture the variances of different sound sources. The recording setup used in our experiments is the typical setup for orchestra recordings, with a main microphone and a close "cardioid" or "supercardioid" microphone for each section of the orchestra. This makes the proposed method applicable to many existing recordings. Experiments on polyphonic ensembles demonstrate the effectiveness of the proposed framework in separating individual sound sources, improving performance compared to conventional MNMF methods.
翻訳日:2023-10-11 06:38:23 公開日:2023-10-09
# sc-safety - 中国語の大規模言語モデルに対するマルチラウンドオープンエンド質問対談安全ベンチマーク

SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese ( http://arxiv.org/abs/2310.05818v1 )

ライセンス: Link先を確認
Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示している。 しかし、日々のタスクに対するポジティブな影響に加えて、社会的な知覚に悪影響を及ぼす有害なコンテンツも作り出せる。 中国におけるLLMの安全性を体系的に評価するために,20以上の安全サブ次元をカバーする4912のオープンエンド質問を用いたマルチラウンド対向ベンチマークであるSuperCLUE-Safety(SC-Safety)を導入する。 対人モデル相互作用と会話は、既存の手法と比較して、課題を著しく増加させる。 中国を支えている13のLLM実験は以下の知見を得た。 1) クローズドソースモデルは,安全の観点からオープンソースモデルを上回る。 2)中国から発売されたモデルは,gpt-3.5-turboのようなllmと同等の安全性を示す。 3)6B-13Bパラメータを持つ小型モデルでは安全性の観点から効果的に競合できる。 SC-Safetyを導入することで、より安全で信頼性の高いLCMを作成するための協力的な取り組みを促進することを目指している。 ベンチマークと調査結果はモデル選択に関するガイダンスを提供する。 我々のベンチマークはhttps://www.CLUEbenchmarks.comで見ることができる。

Large language models (LLMs), like ChatGPT and GPT-4, have demonstrated remarkable abilities in natural language understanding and generation. However, alongside their positive impact on our daily tasks, they can also produce harmful content that negatively affects societal perceptions. To systematically assess the safety of Chinese LLMs, we introduce SuperCLUE-Safety (SC-Safety) - a multi-round adversarial benchmark with 4912 open-ended questions covering more than 20 safety sub-dimensions. Adversarial human-model interactions and conversations significantly increase the challenges compared to existing methods. Experiments on 13 major LLMs supporting Chinese yield the following insights: 1) Closed-source models outperform open-sourced ones in terms of safety; 2) Models released from China demonstrate comparable safety levels to LLMs like GPT-3.5-turbo; 3) Some smaller models with 6B-13B parameters can compete effectively in terms of safety. By introducing SC-Safety, we aim to promote collaborative efforts to create safer and more trustworthy LLMs. The benchmark and findings provide guidance on model selection. Our benchmark can be found at https://www.CLUEbenchmarks.com
翻訳日:2023-10-11 06:38:07 公開日:2023-10-09
# データ駆動型凸非凸規則化の可能性

Provably Convergent Data-Driven Convex-Nonconvex Regularization ( http://arxiv.org/abs/2310.05812v1 )

ライセンス: Link先を確認
Zakhar Shumaylov, Jeremy Budd, Subhadip Mukherjee, Carola-Bibiane Sch\"onlieb(参考訳) 逆問題を解く新しいパラダイムは、データから正規化子を学ぶためにディープラーニングを利用することである。 これは高品質な結果をもたらすが、しばしば証明可能な保証のコストがかかる。 本研究では,逆問題に対する凸凸非凸(CNC)フレームワークにおいて,正則性および収束正則性がどのように生じるかを示す。 我々は,CNCフレームワークに学習逆正則化の手法を適用するために,新しい入力弱凸ニューラルネットワーク(IWCNN)を導入する。 経験的に,本手法は先行手法の数値的問題を克服することを示す。

An emerging new paradigm for solving inverse problems is via the use of deep learning to learn a regularizer from data. This leads to high-quality results, but often at the cost of provable guarantees. In this work, we show how well-posedness and convergent regularization arises within the convex-nonconvex (CNC) framework for inverse problems. We introduce a novel input weakly convex neural network (IWCNN) construction to adapt the method of learned adversarial regularization to the CNC framework. Empirically we show that our method overcomes numerical issues of previous adversarial methods.
翻訳日:2023-10-11 06:37:50 公開日:2023-10-09
# 表面仕上予測を改善するための機械間情報共有

Sharing Information Between Machine Tools to Improve Surface Finish Forecasting ( http://arxiv.org/abs/2310.05807v1 )

ライセンス: Link先を確認
Daniel R. Clarkson, Lawrence A. Bull, Tina A. Dardeno, Chandula T. Wickramarachchi, Elizabeth J. Cross, Timothy J. Rogers, Keith Worden, Nikolaos Dervilis and Aidan J. Hughes(参考訳) 現在、ほとんどの表面品質予測手法は、未使用のデータセット、繰り返し作業、実験コストの増加をもたらす単一タスク予測しか実行できない。 これに対応するために, 旋回加工工程における表面粗さの測定を行うベイズ階層モデルを提案する。 階層モデルは, 複数の独立ベイズ線形回帰モデルと比較し, 予測精度と不確かさの定量化に関して, 加工環境における部分プーリングの利点を示す。

At present, most surface-quality prediction methods can only perform single-task prediction which results in under-utilised datasets, repetitive work and increased experimental costs. To counter this, the authors propose a Bayesian hierarchical model to predict surface-roughness measurements for a turning machining process. The hierarchical model is compared to multiple independent Bayesian linear regression models to showcase the benefits of partial pooling in a machining setting with respect to prediction accuracy and uncertainty quantification.
翻訳日:2023-10-11 06:37:42 公開日:2023-10-09
# プラズマ集束イオンビームミリングによるZnO中の単一ドナーの分離

Isolation of Single Donors in ZnO via Plasma Focused-ion Beam Milling ( http://arxiv.org/abs/2310.05806v1 )

ライセンス: Link先を確認
Ethan R. Hansen, Vasileios Niaouris, Bethany E. Matthews, Christian Zimmermann, Xingyi Wang, Roman Kolodka, Lasse Vines, Steven R. Spurgeon, Kai-Mei C. Fu(参考訳) 酸化亜鉛(ZnO)の浅いドナーは光アクセスを持つ有望な半導体スピンキュービットである。 プラズマ集束イオンビーム(pfib)ミリングを用いて商用zno基板に単一インジウムドナーを単離する。 量子エミッタは空間および周波数フィルタリングによって光学的に識別される。 インジウムドナーの割り当ては、光学束縛励起子遷移エネルギーと磁気依存に基づいている。 単一ドナー放出は強度と周波数が安定であり、遷移線幅は寿命の2倍未満である。 fib製造後の光学安定なシングルドナーの分離は、直接バンドギャップ半導体の単一ドナーに基づくスケーラブルな量子技術に必要な光学デバイス統合に有望である。

The shallow donor in zinc oxide (ZnO) is a promising semiconductor spin qubit with optical access. Single indium donors are isolated in a commercial ZnO substrate using plasma focused-ion beam (PFIB) milling. Quantum emitters are identified optically by spatial and frequency filtering. The indium donor assignment is based on the optical bound exciton transition energy and magnetic dependence. The single donor emission is intensity and frequency stable with a transition linewidth less than twice the lifetime limit. The isolation of optically stable single donors post-FIB fabrication is promising for optical device integration required for scalable quantum technologies based on single donors in direct band gap semiconductors.
翻訳日:2023-10-11 06:37:32 公開日:2023-10-09
# ブースト制御機能

Boosted Control Functions ( http://arxiv.org/abs/2310.05805v1 )

ライセンス: Link先を確認
Nicola Gnecco, Jonas Peters, Sebastian Engelke, and Niklas Pfister(参考訳) 現代の機械学習手法と大規模データの利用可能性は、大量の共変量からターゲット量を正確に予測するための扉を開いた。 しかしながら、既存の予測手法は、トレーニングやテストデータが異なる場合、特に隠れたコンファウンドが存在する場合、うまくいかない可能性がある。 隠れコンバウンディングは因果効果推定(例えば器用変数)のためによく研究されているが、予測タスクではそうではない。 この研究は、異なるトレーニングの下での予測に対処することで、このギャップを埋めることを目的としている。 特に,機械学習からの分布一般化の分野と,econometrics からの同時方程式モデルと制御関数との新たな関係性を確立する。 我々の貢献の中心は、分散一般化(SIMDG)のための同時方程式モデルであり、分散シフトの集合の下でデータ生成過程を記述する。 このフレームワーク内では、予測モデルに対する不変性の強い概念を提案し、既存の(ウィーカー)バージョンと比較する。 インスツルメンタル変数回帰からの制御関数アプローチに基づいて,推測対象として強化制御関数(BCF)を提案し,基礎となるSIMDGのインターベンションバージョンにおいても,その予測に成功していることを示す。 我々は,BCFの同定に必要かつ十分な条件を提供し,最悪の場合,最適であることを示す。 シミュレーションおよび実世界のデータに基づいて,BCFを推定し,予測性能を解析する制御Twicingアルゴリズムを提案する。

Modern machine learning methods and the availability of large-scale data opened the door to accurately predict target quantities from large sets of covariates. However, existing prediction methods can perform poorly when the training and testing data are different, especially in the presence of hidden confounding. While hidden confounding is well studied for causal effect estimation (e.g., instrumental variables), this is not the case for prediction tasks. This work aims to bridge this gap by addressing predictions under different training and testing distributions in the presence of unobserved confounding. In particular, we establish a novel connection between the field of distribution generalization from machine learning, and simultaneous equation models and control function from econometrics. Central to our contribution are simultaneous equation models for distribution generalization (SIMDGs) which describe the data-generating process under a set of distributional shifts. Within this framework, we propose a strong notion of invariance for a predictive model and compare it with existing (weaker) versions. Building on the control function approach from instrumental variable regression, we propose the boosted control function (BCF) as a target of inference and prove its ability to successfully predict even in intervened versions of the underlying SIMDG. We provide necessary and sufficient conditions for identifying the BCF and show that it is worst-case optimal. We introduce the ControlTwicing algorithm to estimate the BCF and analyze its predictive performance on simulated and real world data.
翻訳日:2023-10-11 06:37:24 公開日:2023-10-09
# 言語誘導型適応型ハイパーモーダル表現によるマルチモーダル感性分析

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2310.05804v1 )

ライセンス: Link先を確認
Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu Yu(参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は、複数の情報源(例えば、言語、ビデオ、音声)から豊富な情報を活用することで有効であることが証明されているが、潜在的な感情的関連性やモダリティ間の矛盾のある情報は、パフォーマンスをさらに改善することを妨げる可能性がある。 そこで我々は,適応型言語誘導型マルチモーダルトランスフォーマ (ALMT) を提案する。AHL(Adaptive Hyper-modality Learning) モジュールを組み込んで,異なるスケールの言語特徴の指導の下で,視覚的・音声的特徴から不適切な/複雑な表現を学習する。 得られた超モダリティ表現により、モデルは効率的なMSAのためのマルチモーダル融合により相補的および共同表現を得ることができる。 実際、ALMTはいくつかの一般的なデータセット(MOSI、MOSEI、CH-SIMSなど)で最先端のパフォーマンスを達成しており、アブレーションの多さは我々の無関係/複雑抑制機構の有効性と必要性を示している。

Though Multimodal Sentiment Analysis (MSA) proves effective by utilizing rich information from multiple sources (e.g., language, video, and audio), the potential sentiment-irrelevant and conflicting information across modalities may hinder the performance from being further improved. To alleviate this, we present Adaptive Language-guided Multimodal Transformer (ALMT), which incorporates an Adaptive Hyper-modality Learning (AHL) module to learn an irrelevance/conflict-suppressing representation from visual and audio features under the guidance of language features at different scales. With the obtained hyper-modality representation, the model can obtain a complementary and joint representation through multimodal fusion for effective MSA. In practice, ALMT achieves state-of-the-art performance on several popular datasets (e.g., MOSI, MOSEI and CH-SIMS) and an abundance of ablation demonstrates the validity and necessity of our irrelevance/conflict suppression mechanism.
翻訳日:2023-10-11 06:37:00 公開日:2023-10-09
# 物理インフォームド機械学習におけるプレコンディショニングによるトレーニング

An operator preconditioning perspective on training in physics-informed machine learning ( http://arxiv.org/abs/2310.05801v1 )

ライセンス: Link先を確認
Tim De Ryck, Florent Bonnet, Siddhartha Mishra, Emmanuel de B\'ezenac(参考訳) 本稿では,偏微分方程式 (pdes) に結合した残差を最小化するpinnsなどの物理計算型機械学習手法における勾配降下アルゴリズムの挙動について検討する。 我々の主要な結果は、これらのモデルを訓練することの難しさが、特定の微分作用素の条件付けと密接に関係していることである。 この作用素は、代わりに、下層の PDE の微分作用素のエルミート二乗に関連付けられる。 このオペレータが不調であれば、遅く、あるいは不可能なトレーニングとなる。 したがって、このオペレータのプレコンディショニングは重要です。 我々は、厳密な数学的分析と経験的評価の両方を用いて、様々な戦略を調査し、このクリティカルオペレーターを適切に条件付けし、その結果、トレーニングを改善する方法について説明する。

In this paper, we investigate the behavior of gradient descent algorithms in physics-informed machine learning methods like PINNs, which minimize residuals connected to partial differential equations (PDEs). Our key result is that the difficulty in training these models is closely related to the conditioning of a specific differential operator. This operator, in turn, is associated to the Hermitian square of the differential operator of the underlying PDE. If this operator is ill-conditioned, it results in slow or infeasible training. Therefore, preconditioning this operator is crucial. We employ both rigorous mathematical analysis and empirical evaluations to investigate various strategies, explaining how they better condition this critical operator, and consequently improve training.
翻訳日:2023-10-11 06:36:38 公開日:2023-10-09
# Qibosoq:量子回路RFSoCプログラミングのためのオープンソースのフレームワーク

Qibosoq: an open-source framework for quantum circuit RFSoC programming ( http://arxiv.org/abs/2310.05851v1 )

ライセンス: Link先を確認
Rodolfo Carobene, Alessandro Candido, Javier Serrano, Alvaro Orgaz-Fuertes, Andrea Giachero, Stefano Carrazza(参考訳) 本稿では,自己ホスト型量子処理装置上で任意のパルスシーケンスを実行するためのrfsoc(radio frequency system on chip)用に設計された,オープンソースのサーバサイドソフトウェアパッケージqibosoqを提案する。 qibosoqは、量子計測制御キットであるqickによって提供されるrfsocファームウェアと、量子コンピューティングミドルウェアフレームワークであるqiboをブリッジする。 実験家や開発者は、クライアントサーバ通信プロトコルのすべての複雑な側面をライブラリに委譲し、テストと検証プロトコルを実装します。 クライアントサイドの統合は、qiboの量子ハードウェア制御のための専用ソフトウェアモジュールqibolabに実装された専用ドライバによって達成される。 したがって、このセットアップはRFSoCエレクトロニクスによって制御される独自の自己ホスト型量子ハードウェアプラットフォームに回路ベースのアルゴリズムをデプロイするためのシームレスなメカニズムを提供する。 まず、ソフトウェアパッケージのすべてのコンポーネントの状態を説明し、超伝導量子ビットプラットフォームにおける制御設定の例を示す。 最後に、RFSoC性能と回路ベースアルゴリズムに関する応用結果について述べる。

We present Qibosoq, an open-source server-side software package designed for radio frequency system on chip (RFSoC) for executing arbitrary pulse sequences on self-hosted quantum processing units. Qibosoq bridges the RFSoC firmware provided by Qick, a Quantum Instrumentation Control Kit, with Qibo, a quantum computing middleware framework. It enables experimentalists and developers to delegate all complex aspects of client-server communication protocols to the library, implementing tests and validation protocols. The client-side integration is achieved with dedicated drivers implemented in Qibolab, the specialized software module of Qibo for quantum hardware control. Therefore, this setup provides a seamless mechanism to deploy circuit-based algorithms on custom self-hosted quantum hardware platforms controlled by RFSoC electronics. We first describe the status of all components of the software package, then we show examples of control setup for superconducting qubits platforms. Finally, we present successful application results related to RFSoC performance and circuit-based algorithms.
翻訳日:2023-10-11 00:28:42 公開日:2023-10-09
# 矩形格子上の修正有理六頂点モデル

Modified rational six vertex model on the rectangular lattice ( http://arxiv.org/abs/2310.05850v1 )

ライセンス: Link先を確認
S. Belliard, R.A. Pimenta and N.A. Slavnov(参考訳) 我々は、通常の領域壁型を一般化する境界条件を持つ矩形格子上の有理六頂点モデルを考える。 このモデルの不均質なバージョンの分割関数は、修正された izergin 行列式によって与えられる。 証明は、量子逆散乱法とその表現理論と基本線型代数に基づいている。

We consider a rational six vertex model on a rectangular lattice with boundary conditions that generalize the usual domain wall type. We find that the partition function of the inhomogeneous version of this model is given by a modified Izergin determinant. The proofs are based on the quantum inverse scattering method and its representation theory together with elementary linear algebra.
翻訳日:2023-10-11 00:28:23 公開日:2023-10-09
# GraphLLM: 大規模言語モデルのグラフ推論能力向上

GraphLLM: Boosting Graph Reasoning Ability of Large Language Model ( http://arxiv.org/abs/2310.05845v1 )

ライセンス: Link先を確認
Ziwei Chai, Tianjie Zhang, Liang Wu, Kaiqiao Han, Xiaohai Hu, Xuanwen Huang, Yang Yang(参考訳) 大規模言語モデル(llm)の進歩は、画像や音声だけでなく、様々な種類の情報を理解する能力を持つ人工知能(agi)の限界を著しく押し上げてきた。 この進歩にもかかわらず、LLMにグラフデータについて十分に理解し、理性を与えるための重要なギャップは依然として残っている。 最近の研究は、基本的なグラフ推論タスクにおけるllmsの圧倒的性能を強調する。 本稿では,グラフ推論において LLM を阻害する障害を解明し,グラフを自然言語記述(Graph2Text)に変換する一般的な手法を基本的なボトルネックとして挙げる。 この障害を克服するために、グラフ学習モデルをLLMと相乗的に統合する先駆的なエンドツーエンドアプローチであるGraphLLMを導入する。 この相乗効果は、グラフ学習モデルの優れた表現力を活用することによって、グラフデータを巧みに解釈し推論する能力を持つ。 4つの基本グラフ推論タスクにおける経験的評価は、GraphLLMの有効性を検証する。 結果は54.44%の精度向上と、様々なグラフ推論タスクにおける96.45%の文脈縮小を示す。

The advancement of Large Language Models (LLMs) has remarkably pushed the boundaries towards artificial general intelligence (AGI), with their exceptional ability on understanding diverse types of information, including but not limited to images and audio. Despite this progress, a critical gap remains in empowering LLMs to proficiently understand and reason on graph data. Recent studies underscore LLMs' underwhelming performance on fundamental graph reasoning tasks. In this paper, we endeavor to unearth the obstacles that impede LLMs in graph reasoning, pinpointing the common practice of converting graphs into natural language descriptions (Graph2Text) as a fundamental bottleneck. To overcome this impediment, we introduce GraphLLM, a pioneering end-to-end approach that synergistically integrates graph learning models with LLMs. This synergy equips LLMs with the ability to proficiently interpret and reason on graph data, harnessing the superior expressive power of graph learning models. Our empirical evaluations across four fundamental graph reasoning tasks validate the effectiveness of GraphLLM. The results exhibit a substantial average accuracy enhancement of 54.44%, alongside a noteworthy context reduction of 96.45% across various graph reasoning tasks.
翻訳日:2023-10-11 00:27:39 公開日:2023-10-09
# 多体系の基底状態特性の証明

Certifying ground-state properties of many-body systems ( http://arxiv.org/abs/2310.05844v1 )

ライセンス: Link先を確認
Jie Wang, Jacopo Surace, Ir\'en\'ee Fr\'erot, Beno\^it Legat, Marc-Olivier Renou, Victor Magron, Antonio Ac\'in(参考訳) 量子物理学におけるユビキタス問題は、多体系の基底状態の性質を理解することである。 システムサイズを増加させると、正確な対角化がすぐに不可能になるという事実に直面すると、変分的アプローチは一般的にスケーラブルな代替手段として採用される: エネルギーはすべての可能な状態のサブセット上で最小化され、解状態上で異なる物理量を計算する。 顕著な成功にもかかわらず、厳密に言えば、変分法が提供するものはすべて基底状態エネルギーの上限である。 一方、半有限計画法に基づく基底状態問題の緩和は相補的なアプローチであり、基底状態エネルギーの低い境界を与える。 しかし、現在の実装では、変分法も緩和法もエネルギー以外の基底状態にある他の観測物に証明可能な束縛を与えない。 本研究では,任意の順序の相関関数や構造因子,順序パラメータなど,基底状態における観測可能な任意の値に対する証明可能な境界を導出するために,この2つのアプローチの組み合わせが有効であることを示す。 このアプローチのパワーを1Dおよび2Dスピン1半ハイゼンベルクモデルのパラダイム的な例で説明する。 提案手法のスケーラビリティを向上させるため, 従来よりもはるかに高精度に数百個の粒子の粒度に到達するため, 検討されたシステムの対称性と疎性を利用する。 そこで本研究では,多体基底状態特性の検証可能な境界を,エネルギーを超えたスケーラブルな方法で得る方法を示す。

A ubiquitous problem in quantum physics is to understand the ground-state properties of many-body systems. Confronted with the fact that exact diagonalisation quickly becomes impossible when increasing the system size, variational approaches are typically employed as a scalable alternative: energy is minimised over a subset of all possible states and then different physical quantities are computed over the solution state. Despite remarkable success, rigorously speaking, all what variational methods offer are upper bounds on the ground-state energy. On the other hand, so-called relaxations of the ground-state problem based on semidefinite programming represent a complementary approach, providing lower bounds to the ground-state energy. However, in their current implementation, neither variational nor relaxation methods offer provable bound on other observables in the ground state beyond the energy. In this work, we show that the combination of the two classes of approaches can be used to derive certifiable bounds on the value of any observable in the ground state, such as correlation functions of arbitrary order, structure factors, or order parameters. We illustrate the power of this approach in paradigmatic examples of 1D and 2D spin-one-half Heisenberg models. To improve the scalability of the method, we exploit the symmetries and sparsity of the considered systems to reach sizes of hundreds of particles at much higher precision than previous works. Our analysis therefore shows how to obtain certifiable bounds on many-body ground-state properties beyond energy in a scalable way.
翻訳日:2023-10-11 00:27:19 公開日:2023-10-09
# 直接グラフニューラルネットワークによるロバスト角同期

Robust Angular Synchronization via Directed Graph Neural Networks ( http://arxiv.org/abs/2310.05842v1 )

ライセンス: Link先を確認
Yixuan He, Gesine Reinert, David Wipf, Mihai Cucuringu(参考訳) 角同期問題は、未知の角度の組 $\theta_1, \dots, \theta_n\in[0, 2\pi)$ を、それらのオフセットの$m$ノイズ測定 $\theta_i-\theta_j \;\mbox{mod} \; 2\pi から正確に推定することを目的としている。 たとえば、センサーネットワークのローカライズ、位相検索、分散クロック同期などだ。 不均一な設定(dubed $k$-synchronization)への問題の延長は、各群からノイズのある観測(未知のグループ割り当て)を与えられたとき、同時に$k$の角度群を推定することである。 既存の角同期法は、通常、高雑音のレシエーションでは性能が悪く、応用では一般的である。 本稿では,指向型グラフニューラルネットワークを用いた,理論上接地されたエンドツーエンドトレーニングフレームワークであるgnnsyncを提案することで,角同期問題やその不均一性拡張にニューラルネットワークを活用する。 さらに、同期目的を符号化するために新しい損失関数が考案される。 広範データセットによる実験結果から,GNNSyncは,高雑音レベルにおいても,角度同期問題とその拡張に対する包括的ベースラインに対して,競争力があり,優れた性能を発揮することが示された。

The angular synchronization problem aims to accurately estimate (up to a constant additive phase) a set of unknown angles $\theta_1, \dots, \theta_n\in[0, 2\pi)$ from $m$ noisy measurements of their offsets $\theta_i-\theta_j \;\mbox{mod} \; 2\pi.$ Applications include, for example, sensor network localization, phase retrieval, and distributed clock synchronization. An extension of the problem to the heterogeneous setting (dubbed $k$-synchronization) is to estimate $k$ groups of angles simultaneously, given noisy observations (with unknown group assignment) from each group. Existing methods for angular synchronization usually perform poorly in high-noise regimes, which are common in applications. In this paper, we leverage neural networks for the angular synchronization problem, and its heterogeneous extension, by proposing GNNSync, a theoretically-grounded end-to-end trainable framework using directed graph neural networks. In addition, new loss functions are devised to encode synchronization objectives. Experimental results on extensive data sets demonstrate that GNNSync attains competitive, and often superior, performance against a comprehensive set of baselines for the angular synchronization problem and its extension, validating the robustness of GNNSync even at high noise levels.
翻訳日:2023-10-11 00:26:54 公開日:2023-10-09
# 事故重大度予測 : ランダム森林モデルによる事故重大度要因の解析

Predicting Accident Severity: An Analysis Of Factors Affecting Accident Severity Using Random Forest Model ( http://arxiv.org/abs/2310.05840v1 )

ライセンス: Link先を確認
Adekunle Adefabi, Somtobe Olisah, Callistus Obunadike, Oluwatosin Oyetubo, Esther Taiwo, Edward Tella(参考訳) 道路事故は経済的、社会的なコストが大きく、多くの重大な事故がこれらのコストの大部分を占めている。 事故の重大度を予測することは、潜在的に安全でない道路条件を特定し、重大事故の数を減らすために適切に調整された行動をとることによって、道路安全への積極的なアプローチに役立つ。 本研究では,事故の深刻度を予測するためのランダムフォレスト機械学習アルゴリズムの有効性を検討した。 モデルは大都市圏の事故記録のデータセットに基づいて訓練され,様々な指標を用いて評価される。 ハイパーパラメータと機能選択は、モデルの性能を改善するために最適化される。 その結果,ランダムフォレストモデルは事故重大度を80%以上の精度で予測する有効なツールであることがわかった。 この研究はまた、風速、圧力、湿度、可視性、明瞭な条件、雲のカバーなど、このモデルで最も重要な6つの変数も特定している。 適合したモデルは、曲線下の面積が80%、リコールが79.2%、精度が97.1%、f1スコアが87.3%である。 これらの結果から,提案モデルは,事故重大度クラスである対象変数の説明において高い性能を有することが示唆された。 全体として、この研究はランダム森林モデルが事故の重大度を予測するための実用的かつ信頼性の高いツールであり、米国での交通事故による死亡者数と負傷者を減らすのに役立つことを証明している。

Road accidents have significant economic and societal costs, with a small number of severe accidents accounting for a large portion of these costs. Predicting accident severity can help in the proactive approach to road safety by identifying potential unsafe road conditions and taking well-informed actions to reduce the number of severe accidents. This study investigates the effectiveness of the Random Forest machine learning algorithm for predicting the severity of an accident. The model is trained on a dataset of accident records from a large metropolitan area and evaluated using various metrics. Hyperparameters and feature selection are optimized to improve the model's performance. The results show that the Random Forest model is an effective tool for predicting accident severity with an accuracy of over 80%. The study also identifies the top six most important variables in the model, which include wind speed, pressure, humidity, visibility, clear conditions, and cloud cover. The fitted model has an Area Under the Curve of 80%, a recall of 79.2%, a precision of 97.1%, and an F1 score of 87.3%. These results suggest that the proposed model has higher performance in explaining the target variable, which is the accident severity class. Overall, the study provides evidence that the Random Forest model is a viable and reliable tool for predicting accident severity and can be used to help reduce the number of fatalities and injuries due to road accidents in the United States
翻訳日:2023-10-11 00:26:25 公開日:2023-10-09
# 神経放射野に仮想物体を挿入するリアルタイム手法

A Real-time Method for Inserting Virtual Objects into Neural Radiance Fields ( http://arxiv.org/abs/2310.05837v1 )

ライセンス: Link先を確認
Keyang Ye, Hongzhi Wu, Xin Tong, Kun Zhou(参考訳) 本稿では, 現実的な照明効果と影効果を生み出すとともに, 物体のインタラクティブな操作を可能にする, 剛体仮想物体を神経放射場に挿入する最初のリアルタイム手法を提案する。 NeRFにおける照明と幾何学に関する豊富な情報を活用することで,拡張現実における物体挿入の課題を克服する。 照明推定のために,NeRFの近接場照明と環境照明を組み合わせ,NeRFがカバーしていない光源を考慮した高精度で頑健で3次元的な入射光を生成する。 隠蔽のために、NeRFから統合された不透明マップを用いて、レンダリングされた仮想オブジェクトと背景シーンをブレンドする。 シャドウの場合、球面符号付き距離場が予め計算されたフィールドを持つと、仮想オブジェクト周辺の任意の点の可視性用語をクエリし、ソフトで詳細なシャドウを3d面にキャストする。 最先端技術と比較して、我々のアプローチは、より忠実なシーンに仮想オブジェクトを挿入することができ、拡張現実システムにさらに適用可能な大きな可能性を秘めている。

We present the first real-time method for inserting a rigid virtual object into a neural radiance field, which produces realistic lighting and shadowing effects, as well as allows interactive manipulation of the object. By exploiting the rich information about lighting and geometry in a NeRF, our method overcomes several challenges of object insertion in augmented reality. For lighting estimation, we produce accurate, robust and 3D spatially-varying incident lighting that combines the near-field lighting from NeRF and an environment lighting to account for sources not covered by the NeRF. For occlusion, we blend the rendered virtual object with the background scene using an opacity map integrated from the NeRF. For shadows, with a precomputed field of spherical signed distance field, we query the visibility term for any point around the virtual object, and cast soft, detailed shadows onto 3D surfaces. Compared with state-of-the-art techniques, our approach can insert virtual object into scenes with superior fidelity, and has a great potential to be further applied to augmented reality systems.
翻訳日:2023-10-11 00:25:59 公開日:2023-10-09
# 生成モデルに対するカーネルスコアの偏分散共分散分解

A Bias-Variance-Covariance Decomposition of Kernel Scores for Generative Models ( http://arxiv.org/abs/2310.05833v1 )

ライセンス: Link先を確認
Sebastian G. Gruber, Florian Buettner(参考訳) 大規模言語モデルのような生成モデルは、日々の生活に益々関連してきているが、その一般化行動や不確実性を評価するための理論的枠組みは存在しない。 特に不確実性推定の問題はアドホックな方法とタスクに依存して一般に解決される。 例えば、自然言語のアプローチは画像生成に転送できない。 本稿では,カーネルスコアとそのエントロピーに関する最初のバイアス分散共分散分解について述べる。 生成したサンプルのみを必要とするが、基礎となるモデル自体を必要としない各量に対するバイアスのない一貫した推定器を提案する。 応用として,拡散モデルの一般化評価を行い,少数群のモード崩壊が過度に適合する現象であることを示す。 さらに,画像,音声,言語生成における不確実性について,分散と予測的カーネルエントロピーが有効であることを示す。 特に,不確実性推定に対する我々のアプローチは,既存のベースラインよりもデータセットに回答するCoQAとTriviaQAの性能を予測し,クローズドソースモデルにも適用できる。

Generative models, like large language models, are becoming increasingly relevant in our daily lives, yet a theoretical framework to assess their generalization behavior and uncertainty does not exist. Particularly, the problem of uncertainty estimation is commonly solved in an ad-hoc manner and task dependent. For example, natural language approaches cannot be transferred to image generation. In this paper we introduce the first bias-variance-covariance decomposition for kernel scores and their associated entropy. We propose unbiased and consistent estimators for each quantity which only require generated samples but not the underlying model itself. As an application, we offer a generalization evaluation of diffusion models and discover how mode collapse of minority groups is a contrary phenomenon to overfitting. Further, we demonstrate that variance and predictive kernel entropy are viable measures of uncertainty for image, audio, and language generation. Specifically, our approach for uncertainty estimation is more predictive of performance on CoQA and TriviaQA question answering datasets than existing baselines and can also be applied to closed-source models.
翻訳日:2023-10-11 00:25:38 公開日:2023-10-09
# 単一粒子グリーン関数を用いた多成分絡み合いパターンの検出

Detecting Multipartite Entanglement Patterns using Single Particle Green's Functions ( http://arxiv.org/abs/2310.05870v1 )

ライセンス: Link先を確認
Rajesh K. Malla, Andreas Weichselbaum, Tzu-Chieh Wei, and Robert M. Konik(参考訳) 本稿では,量子フィッシャー情報(QFI)を用いた多体電子システムの多部絡み検出プロトコルを提案する。 非自明な目撃者の集合を同定することにより、QFIと単一粒子グリーン関数の接続を確立する。 これらの演算子を構築するために、元のモデルの2つの同一コピーを導入するシステムの二重化を用いる。 目撃者はコピー間で電子をホップするが、コピーは相互に相互作用しない。 この手法を有限サイズのフェルミオン系に適用し、スピンレスイテナント電子モデルにおけるエンタングルメントの検出の有効性を示す。 検出された絡み合いレベルはホッピング過程に関連する波動ベクトルに敏感であることを示す。 また、対称性が絡み合いのレベルを検出する上で重要な役割を実証する。 本プロトコルは, 走査型トンネル顕微鏡と角度分解光電子分光を用いて多体系における絡み合いの検出方法を示し, 中性子散乱実験でアクセスされる動的スピン応答による絡み合いの検出以上のエキサイティングな展望を提供する。

We propose a protocol for detecting multipartite entanglement in itinerant many-body electronic systems using the quantum Fisher information (QFI). We establish a connection between the QFI and single-particle Green's functions by identifying a set of non-trivial witness operators. To construct these operators, we employ a doubling of the system wherein we introduce two identical copies of the original model. While the witness operator hops electrons between copies, the copies do not interact with one another. We apply this methodology to a finite-sized fermionic system and showcase its effectiveness in detecting entanglement in spinless itinerant electron models. We show that the detected entanglement level is sensitive to the wave vector associated with the hopping process. We also demonstrate the important role that symmetry has in detecting levels of entanglement. Our protocol paves the way for detecting entanglement in many-body systems using scanning tunneling microscopy and angle-resolved photoemission spectroscopy, thus offering exciting prospects beyond the detection of entanglement via the dynamical spin response accessed in neutron scattering experiments.
翻訳日:2023-10-11 00:20:15 公開日:2023-10-09
# 生体インスパイアされた海馬計算記憶モデル--ニューロモルフィックスパイクに基づくコンテンツ・アドレナブル・メモリへのアプローチ

Bio-inspired computational memory model of the Hippocampus: an approach to a neuromorphic spike-based Content-Addressable Memory ( http://arxiv.org/abs/2310.05868v1 )

ライセンス: Link先を確認
Daniel Casanueva-Morato, Alvaro Ayuso-Martinez, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez, Gabriel Jimenez-Moreno(参考訳) 脳は現代のシステムを上回る計算能力を持ち、単純な方法で複雑な問題を効率的に解くことができる。 ニューロモルフィック工学は、そのような機能を組み込むことのできる新しいシステムを開発するために生物学を模倣することを目的としている。 バイオインスパイアされた学習システムは、解決しなければならない課題であり続けており、この点において多くの作業を行う必要がある。 すべての脳領域において、海馬は、記憶を記憶し記憶する能力を持つ自己連想的な短期記憶として際立っている。 これらの特徴により、海馬は、コンテンツ適応可能な記憶に類似したバイオインスパイアされた学習システムを開発するのに理想的な候補となる。 そこで本研究では,海馬のCA3領域に基づいて,直交的,非直交的に記憶を学習し,忘れ,記憶を記憶するバイオインスパイアされた内容適応型記憶モデルを提案する。 このモデルはSpike Neural Networksを使ってSpiNNakerハードウェアプラットフォーム上で実装された。 機能, ストレス, 適用性テストに基づく一連の実験を行い, 正しい機能を示すことができた。 本研究は, バイオインスパイアされた海馬のコンテントアドレプタブルメモリモデルの最初のハードウェア実装であり, 今後のより複雑な神経形態学システムの開発への道を開くものである。

The brain has computational capabilities that surpass those of modern systems, being able to solve complex problems efficiently in a simple way. Neuromorphic engineering aims to mimic biology in order to develop new systems capable of incorporating such capabilities. Bio-inspired learning systems continue to be a challenge that must be solved, and much work needs to be done in this regard. Among all brain regions, the hippocampus stands out as an autoassociative short-term memory with the capacity to learn and recall memories from any fragment of them. These characteristics make the hippocampus an ideal candidate for developing bio-inspired learning systems that, in addition, resemble content-addressable memories. Therefore, in this work we propose a bio-inspired spiking content-addressable memory model based on the CA3 region of the hippocampus with the ability to learn, forget and recall memories, both orthogonal and non-orthogonal, from any fragment of them. The model was implemented on the SpiNNaker hardware platform using Spiking Neural Networks. A set of experiments based on functional, stress and applicability tests were performed to demonstrate its correct functioning. This work presents the first hardware implementation of a fully-functional bio-inspired spiking hippocampal content-addressable memory model, paving the way for the development of future more complex neuromorphic systems.
翻訳日:2023-10-11 00:19:57 公開日:2023-10-09
# パノプティカルシーングラフ生成のためのドメインワイド不変学習

Domain-wise Invariant Learning for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2310.05867v1 )

ライセンス: Link先を確認
Li Li, You Qin, Wei Ji, Yuxiao Zhou, Roger Zimmermann(参考訳) パノプティック・シーングラフ生成(PSG)は、オブジェクトの検出とそれに対応する関係(述語)の予測を含む。 しかしながら、偏見付き述語アノテーションの存在は、異なる述語間の明確な決定境界を確立する能力の妨げとなるため、PSGモデルにとって重要な課題となる。 この問題はPSGモデルの実用性と実世界の適用性を著しく損なう。 上記の本質的なバイアスに対処するために,各対象物対(ドメイン)内の述語予測リスクを測定し,不変な述語表現埋め込みを学習することにより,バイアス付きアノテーションを一貫したアノテーションに適応的に転送する手法を提案する。 実験により,本手法はベンチマークモデルの性能を著しく向上させ,新たな最先端性能を実現し,psgデータセットの一般化と有効性を示した。

Panoptic Scene Graph Generation (PSG) involves the detection of objects and the prediction of their corresponding relationships (predicates). However, the presence of biased predicate annotations poses a significant challenge for PSG models, as it hinders their ability to establish a clear decision boundary among different predicates. This issue substantially impedes the practical utility and real-world applicability of PSG models. To address the intrinsic bias above, we propose a novel framework to infer potentially biased annotations by measuring the predicate prediction risks within each subject-object pair (domain), and adaptively transfer the biased annotations to consistent ones by learning invariant predicate representation embeddings. Experiments show that our method significantly improves the performance of benchmark models, achieving a new state-of-the-art performance, and shows great generalization and effectiveness on PSG dataset.
翻訳日:2023-10-11 00:19:34 公開日:2023-10-09
# denoising diffusion probabilistic modelによる生成量子機械学習

Generative quantum machine learning via denoising diffusion probabilistic models ( http://arxiv.org/abs/2310.05866v1 )

ライセンス: Link先を確認
Bingzhi Zhang, Peng Xu, Xiaohui Chen and Quntao Zhuang(参考訳) 深層生成モデルはコンピュータビジョン、テキスト生成、および大規模言語モデルにとって重要な技術である。 denoising diffusion probabilistic models (ddpms) は、多くのコンピュータビジョンタスクで多様で高品質なサンプルを生成する能力と、柔軟なモデルアーキテクチャと比較的単純なトレーニングスキームを組み込むことによって、最近注目を集めている。 量子生成モデルは、絡み合いと重ね合わせによって強化され、古典的および量子データの学習に新たな洞察をもたらした。 量子化拡散確率モデル(QuDDPM)を提案し,量子データの学習を効率的に学習できるようにする。 quddpmは、表現性を保証するのに十分な回路層を採用する一方で、ターゲット分布とノイズの補間として複数の中間トレーニングタスクを導入し、不毛高原を避け、効率的なトレーニングを保証する。 量子ノイズモデルの学習と量子データの非自明分布の位相構造学習におけるquddpmの能力を示す。

Deep generative models are key-enabling technology to computer vision, text generation and large language models. Denoising diffusion probabilistic models (DDPMs) have recently gained much attention due to their ability to generate diverse and high-quality samples in many computer vision tasks, as well as to incorporate flexible model architectures and relatively simple training scheme. Quantum generative models, empowered by entanglement and superposition, have brought new insight to learning classical and quantum data. Inspired by the classical counterpart, we propose the quantum denoising diffusion probabilistic models (QuDDPM) to enable efficiently trainable generative learning of quantum data. QuDDPM adopts sufficient layers of circuits to guarantee expressivity, while introduces multiple intermediate training tasks as interpolation between the target distribution and noise to avoid barren plateau and guarantee efficient training. We demonstrate QuDDPM's capability in learning correlated quantum noise model and learning topological structure of nontrivial distribution of quantum data.
翻訳日:2023-10-11 00:19:18 公開日:2023-10-09
# マルチモーダル大言語モデルのための細粒度視聴覚結合表現

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models ( http://arxiv.org/abs/2310.05863v1 )

ライセンス: Link先を確認
Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang(参考訳) 音声・視覚大言語モデル(llm)は注目を浴びているが、両方の入力ストリームの細かな組み合わせは未検討であり、llmが一般的なビデオ入力を理解するのに必要である。 そこで本論文では,マルチモーダルLLMのための微細な音声・視覚共同表現(FAVOR)学習フレームワークを提案し,テキストベースのLLMを拡張して,音声入力ストリーム内の音声・音声イベントと視覚入力ストリーム内の画像・映像をフレームレベルで同時に知覚する。 音声・視覚的特徴ストリームを結合表現に融合させ,LLM入力埋め込み空間と結合空間を整合させるため,時間をかけて音声・視覚的フレームの因果関係を捉えるために,因果注意モジュールを用いた因果Q-Former構造を提案する。 また,6つの単一モーダルなタスクと5つのクロスモーダルなタスクからなる音声視覚評価ベンチマーク(AVEB)を提案する。 avebでは、音声、音声、画像のタスクで競争力のあるシングルモーダル性能を達成する一方で、粒度の細かい情報や時間的因果推論が必要な場合、ビデオ質問応答タスクの20%以上の精度向上を達成している。 さらに、他のマルチモーダルllmで前例のないタスクに対して、驚くべきビデオ理解と推論能力を示した。 FAVORのインタラクティブなデモはhttps://github.com/the-anonymous-bs/FAVOR.gitで公開されている。

Audio-visual large language models (LLM) have drawn significant attention, yet the fine-grained combination of both input streams is rather under-explored, which is challenging but necessary for LLMs to understand general video inputs. To this end, a fine-grained audio-visual joint representation (FAVOR) learning framework for multimodal LLMs is proposed in this paper, which extends a text-based LLM to simultaneously perceive speech and audio events in the audio input stream and images or videos in the visual input stream, at the frame level. To fuse the audio and visual feature streams into joint representations and to align the joint space with the LLM input embedding space, we propose a causal Q-Former structure with a causal attention module to enhance the capture of causal relations of the audio-visual frames across time. An audio-visual evaluation benchmark (AVEB) is also proposed which comprises six representative single-modal tasks with five cross-modal tasks reflecting audio-visual co-reasoning abilities. While achieving competitive single-modal performance on audio, speech and image tasks in AVEB, FAVOR achieved over 20% accuracy improvements on the video question-answering task when fine-grained information or temporal causal reasoning is required. FAVOR, in addition, demonstrated remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other multimodal LLMs. An interactive demo of FAVOR is available at https://github.com/the-anonymous-bs/FAVOR.git, and the training code and model checkpoints will be released upon acceptance.
翻訳日:2023-10-11 00:18:59 公開日:2023-10-09
# Rephrase, Augment, Reason:視覚言語モデルに対する質問の視覚的グラウンド

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models ( http://arxiv.org/abs/2310.05861v1 )

ライセンス: Link先を確認
Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal(参考訳) 視覚言語タスクの数が増加するにつれて、視覚エンコーダに大型言語モデル(LLM)を組み込むことで、ゼロまたは少数ショットでトレーニングを行なわずに扱えるようになり、結果として大きな視覚言語モデル(LVLM)となる。 これはトレーニングデータやカスタムアーキテクチャを必要としないなど、大きな利点があるが、lvlmへのインプットの提示方法がゼロショットモデルのパフォーマンスに大きな影響を与える可能性がある。 特に、不特定な方法で表現された入力は、視覚情報の欠如、複雑な暗黙の推論、言語的曖昧さなどの要因によって、誤った答えをもたらす可能性がある。 したがって、プリエンプティブな明確化として入力に視覚的な接地情報を加えることで、オブジェクトのローカライズや参照の曖昧化などにより、下限指定を減らすことにより、モデルの性能を向上させることができる。 同様に、VQA設定では、質問のフレーム化方法を変更することで、モデルが簡単に答えられるようになる。 この目的のために,LVLMをキャプタと推論器として用いた画像の健全な詳細を抽出する勾配のないフレームワークであるRephrase, Augment and Reason(RepARe)を紹介し,元の質問に対する修正を提案する。 次に、生成した回答に対するLVLMの信頼度を教師なしスコアリング関数として使用し、ゼロショット性能を改善する可能性が最も高いリフレサ付き質問を選択する。 2つの視覚的質問応答タスクに着目して、RepAReはVQAv2のゼロショット性能が3.85%向上し、A-OKVQAの6.41%向上することを示す。 さらに、オラクル質問候補の選択に金の答えを使うことで、VQAの精度が最大14.41%向上することがわかった。 本稿では,RepAReからの出力が構文的複雑性を増大させ,LVLMにおける視覚-言語相互作用と凍結言語モデルの有効性を実証する。

An increasing number of vision-language tasks can be handled with little to no training, i.e., in a zero and few-shot manner, by marrying large language models (LLMs) to vision encoders, resulting in large vision-language models (LVLMs). While this has huge upsides, such as not requiring training data or custom architectures, how an input is presented to a LVLM can have a major impact on zero-shot model performance. In particular, inputs phrased in an underspecified way can result in incorrect answers due to factors like missing visual information, complex implicit reasoning, or linguistic ambiguity. Therefore, adding visually grounded information to the input as a preemptive clarification should improve model performance by reducing underspecification, e.g., by localizing objects and disambiguating references. Similarly, in the VQA setting, changing the way questions are framed can make them easier for models to answer. To this end, we present Rephrase, Augment and Reason (RepARe), a gradient-free framework that extracts salient details about the image using the underlying LVLM as a captioner and reasoner, in order to propose modifications to the original question. We then use the LVLM's confidence over a generated answer as an unsupervised scoring function to select the rephrased question most likely to improve zero-shot performance. Focusing on two visual question answering tasks, we show that RepARe can result in a 3.85% (absolute) increase in zero-shot performance on VQAv2 and a 6.41% point increase on A-OKVQA. Additionally, we find that using gold answers for oracle question candidate selection achieves a substantial gain in VQA accuracy by up to 14.41%. Through extensive analysis, we demonstrate that outputs from RepARe increase syntactic complexity, and effectively utilize vision-language interaction and the frozen language model in LVLMs.
翻訳日:2023-10-11 00:18:01 公開日:2023-10-09
# DSAC-T:3つのリファインメントを持つ分布型ソフトアクター臨界

DSAC-T: Distributional Soft Actor-Critic with Three Refinements ( http://arxiv.org/abs/2310.05858v1 )

ライセンス: Link先を確認
Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, and Shengbo Eben Li(参考訳) 強化学習(rl)は複雑な意思決定と制御タスクに取り組むのに非常に効果的であることが証明されている。 しかし、一般的なモデルなしRL法は、よく知られた過大評価問題のために、しばしば深刻な性能劣化に直面している。 そこで,我々は最近,分散型ソフトアクタ-クリティック(dsac,dsac-v1)と呼ばれるオフポリシーrlアルゴリズムを導入し,連続ガウス値分布を学習することにより,値推定精度を効果的に向上させた。 それでも、標準的なDSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。 本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。 これらの改良は、評価勾配調整、ツイン値分布学習、分散ベースの目標リターンクリッピングからなる。 改良された RL アルゴリズムは 3 つの改良 (DSAC-T または DSAC-v2) を持つ DSAC と命名され、その性能は様々なベンチマークタスクで体系的に評価される。 タスク固有のハイパーパラメータチューニングがなければ、DSAC-TはSAC、TD3、DDPG、TRPO、PPOを含む多くの主要なモデルなしRLアルゴリズムを超越する。 さらに、DSAC-Tは標準的なバージョンとは異なり、高度に安定した学習プロセスを確保し、様々な報酬スケールで同様のパフォーマンスを提供する。

Reinforcement learning (RL) has proven to be highly effective in tackling complex decision-making and control tasks. However, prevalent model-free RL methods often face severe performance degradation due to the well-known overestimation issue. In response to this problem, we recently introduced an off-policy RL algorithm, called distributional soft actor-critic (DSAC or DSAC-v1), which can effectively improve the value estimation accuracy by learning a continuous Gaussian value distribution. Nonetheless, standard DSAC has its own shortcomings, including occasionally unstable learning processes and needs for task-specific reward scaling, which may hinder its overall performance and adaptability in some special tasks. This paper further introduces three important refinements to standard DSAC in order to address these shortcomings. These refinements consist of critic gradient adjusting, twin value distribution learning, and variance-based target return clipping. The modified RL algorithm is named as DSAC with three refinements (DSAC-T or DSAC-v2), and its performances are systematically evaluated on a diverse set of benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T surpasses a lot of mainstream model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T, unlike its standard version, ensures a highly stable learning process and delivers similar performance across varying reward scales.
翻訳日:2023-10-11 00:17:22 公開日:2023-10-09
# 編集による要約の改善

Improving Summarization with Human Edits ( http://arxiv.org/abs/2310.05857v1 )

ライセンス: Link先を確認
Zonghai Yao, Benjamin J Schloss, and Sai P. Selvaraj(参考訳) 近年の研究では、人間のフィードバックパラダイムで学習し、人間の判断による高品質なテキストを生成することが期待されている。 既存の作品は、人間のフィードバックを使って、一般的なドメイン抽象要約の大規模言語モデル(llm)を訓練し、従来よりも質の高い要約を得た。 本稿では,より探索の少ない人間のフィードバック,すなわち人間の編集に焦点をあてる。 トレーニングループにおいて,人文編集データとモデル生成データの両方を併用する新しい手法であるシーケンスアライメント(un)Likelihood Training(SALT)を提案する。 また,既存のトレーニングデータから得られる真実の要約と人文編集のシミュレーションを実演し,トレーニング後に得られたモデル生成要約と合わせて,高価な人文データの必要性を低減させる。 実験では,一般領域要約から医療領域要約まで,人間のフィードバック探索を拡張した。 以上の結果から,人間と模倣編集による要約品質向上のためのSALTの有効性が示された。

Recent work has shown the promise of learning with human feedback paradigms to produce human-determined high-quality text. Existing works use human feedback to train large language models (LLMs) in general domain abstractive summarization and have obtained summary quality exceeding traditional likelihood training. In this paper, we focus on a less explored form of human feedback -- Human Edits. We propose Sequence Alignment (un)Likelihood Training (SALT), a novel technique to use both the human-edited and model-generated data together in the training loop. In addition, we demonstrate simulating Human Edits with ground truth summaries coming from existing training data -- Imitation edits, along with the model-generated summaries obtained after the training, to reduce the need for expensive human-edit data. In our experiments, we extend human feedback exploration from general domain summarization to medical domain summarization. Our results demonstrate the effectiveness of SALT to improve the summary quality with Human and Imitation Edits.
翻訳日:2023-10-11 00:16:55 公開日:2023-10-09
# 単一モード非線形キャビティにおける時間結晶

Time Crystal in a Single-mode Nonlinear Cavity ( http://arxiv.org/abs/2310.05854v1 )

ライセンス: Link先を確認
Yaohua Li, Chenyang Wang, Yuanjiang Tang, Yong-Chun Liu(参考訳) タイムクリスタル(time crystal)は、時間-遷移対称性を破った非平衡位相の1つである。 ここでは,単一モデル非線形共振器内の時間結晶を示す。 時間結晶は、線形利得によって誘導される自己振動から発生し、非線形減衰により安定化される。 この時間結晶モデルは、平均場近似の下での古典極限サイクルの出現、熱力学的極限での散逸ギャップの閉ざし、フシミ関数における量子振動、定常状態における量子極限サイクルの出現という4つの異なる特性を示す。 これらの性質は、時間結晶の完全な記述を提供し、非線形系における時間結晶の研究の道を開く。

Time crystal is a class of non-equilibrium phase with broken time-translational symmetry. Here we demonstrate the time crystal in a single-model nonlinear cavity. The time crystal originates from the self-oscillation induced by the linear gain and is stabilized by the nonlinear damping. We show this time crystal model exhibits four different characteristics: the emergence of classical limit cycle under the mean-field approximation, the dissipative gap closing in the thermodynamic limit, the quantum oscillation in the Husimi function, and the emergence of quantum limit cycle in the steady state. These properties provide a complete description of the time crystal and thus pave the way to investigate the time crystal in nonlinear systems.
翻訳日:2023-10-11 00:16:39 公開日:2023-10-09
# 断熱接続により励起される変分量子固有解法

Variational quantum eigensolver boosted by adiabatic connection ( http://arxiv.org/abs/2310.05906v1 )

ライセンス: Link先を確認
Mikul\'a\v{s} Matou\v{s}ek, Katarzyna Pernal, Fabijan Pavo\v{s}evi\'c, and Libor Veis(参考訳) 本研究では,変分量子固有解法(VQE)と断熱接続法(AC)を併用し,短期量子コンピュータにおける化学問題の効率的なシミュレーションを行う。 軌道最適化VQE法を用いて、活性空間内の強い相関を捕捉し、古典的な交流補正により活性空間外の電子からなる動的相関効果を回復する。 N$_2$の解離とテトラメチレンエタンバイラジカルの電子構造という2つの難解な相関問題に対して、組合せVQE-ACアプローチはVQEの性能を劇的に向上させることを示した。 さらに、交流補正は量子資源や測定に関する追加の要求を伴わないため、文字通りVQEアルゴリズムを増強することができる。 我々の研究は、短期量子コンピュータにおける実生活問題の量子シミュレーションへの道を開いた。

In this work we integrate the variational quantum eigensolver (VQE) with the adiabatic connection (AC) method for efficient simulations of chemical problems on near-term quantum computers. Orbital optimized VQE methods are employed to capture the strong correlation within an active space and classical AC corrections recover the dynamical correlation effects comprising electrons outside of the active space. On two challenging strongly correlated problems, namely the dissociation of N$_2$ and the electronic structure of the tetramethyleneethane biradical, we show that the combined VQE-AC approach enhances the performance of VQE dramatically. Moreover, since the AC corrections do not bring any additional requirements on quantum resources or measurements, they can literally boost the VQE algorithms. Our work paves the way towards quantum simulations of real-life problems on near-term quantum computers.
翻訳日:2023-10-10 22:13:07 公開日:2023-10-09
# TAIL:大規模事前学習モデルを用いた模倣学習用タスク固有アダプタ

TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models ( http://arxiv.org/abs/2310.05905v1 )

ライセンス: Link先を確認
Zuxin Liu, Jesse Zhang, Kavosh Asadi, Yao Liu, Ding Zhao, Shoham Sabach, Rasool Fakoor(参考訳) 大型の事前訓練されたモデルの潜在能力は、ロボティクスのような制御領域にはほとんど及ばない。 これは主にデータの不足と、これらの大規模モデルのトレーニングや微調整に関連する計算上の課題が原因である。 事前の作業は、意思決定のための大規模モデルの効果的な事前訓練を主に重視し、新しいタスクのためにこれらのモデルのデータ効率の良い継続的適応を行う方法については、ほとんど探求されていない。 これらの制約を認識し,新しい制御タスクへの効率的な適応のためのフレームワークであるtail(task-specific adapters for imitation learning)を導入した。 言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて、TAILのBottleneck Adapters、P-Tuning、Low-Rank Adaptation (LoRA)など、効率的な微調整技術を探求し、デモデータに制限のある新しいタスクのために、大規模な事前学習モデルを適用する。 提案する大規模言語条件操作タスクにおいて,パラメータ効率の高い微調整手法と適応ベースラインを比較することで,学習環境における適応可塑性の破滅的忘れ去らぬまま,完全な微調整の訓練可能なパラメータのわずか1/%で,尾尾とローラが最高の適応後性能を達成できることが示唆された。

The full potential of large pretrained models remains largely untapped in control domains like robotics. This is mainly because of the scarcity of data and the computational challenges associated with training or fine-tuning these large models for such applications. Prior work mainly emphasizes effective pretraining of large models for decision-making, with little exploration into how to perform data-efficient continual adaptation of these models for new tasks. Recognizing these constraints, we introduce TAIL (Task-specific Adapters for Imitation Learning), a framework for efficient adaptation to new control tasks. Inspired by recent advancements in parameter-efficient fine-tuning in language domains, we explore efficient fine-tuning techniques -- e.g., Bottleneck Adapters, P-Tuning, and Low-Rank Adaptation (LoRA) -- in TAIL to adapt large pretrained models for new tasks with limited demonstration data. Our extensive experiments in large-scale language-conditioned manipulation tasks comparing prevalent parameter-efficient fine-tuning techniques and adaptation baselines suggest that TAIL with LoRA can achieve the best post-adaptation performance with only 1\% of the trainable parameters of full fine-tuning, while avoiding catastrophic forgetting and preserving adaptation plasticity in continual learning settings.
翻訳日:2023-10-10 22:12:54 公開日:2023-10-09
# リカレント・トランスフォーマー・ベースのニューラルネットワークによる表面コード復号の学習

Learning to Decode the Surface Code with a Recurrent, Transformer-Based Neural Network ( http://arxiv.org/abs/2310.05900v1 )

ライセンス: Link先を確認
Johannes Bausch, Andrew W Senior, Francisco J H Heras, Thomas Edlich, Alex Davies, Michael Newman, Cody Jones, Kevin Satzinger, Murphy Yuezhen Niu, Sam Blackwell, George Holland, Dvir Kafri, Juan Atalaya, Craig Gidney, Demis Hassabis, Sergio Boixo, Hartmut Neven, Pushmeet Kohli(参考訳) 量子誤差補正は、信頼できる量子計算の前提条件である。 この目標に向けて,量子誤り訂正符号である表面符号の復号化を学習する,リカレントなトランスフォーマーベースニューラルネットワークを提案する。 このデコーダは, google の sycamore 量子プロセッサ による距離 3 および 5 の表面符号のリアルタイムデータに対する最先端アルゴリズムデコーダよりも優れている。 11までの距離では、デコーダはクロストーク、リーク、アナログ読み出し信号などの現実的なノイズを伴うシミュレーションデータに対する優位性を保ち、トレーニングされた25サイクルを超えて精度を維持できる。 私たちの研究は、データから直接学習することで、機械学習が人間設計のアルゴリズムを超える能力を示すもので、量子コンピュータにおけるデコーディングの強力な競争相手として機械学習を強調します。

Quantum error-correction is a prerequisite for reliable quantum computation. Towards this goal, we present a recurrent, transformer-based neural network which learns to decode the surface code, the leading quantum error-correction code. Our decoder outperforms state-of-the-art algorithmic decoders on real-world data from Google's Sycamore quantum processor for distance 3 and 5 surface codes. On distances up to 11, the decoder maintains its advantage on simulated data with realistic noise including cross-talk, leakage, and analog readout signals, and sustains its accuracy far beyond the 25 cycles it was trained on. Our work illustrates the ability of machine learning to go beyond human-designed algorithms by learning from data directly, highlighting machine learning as a strong contender for decoding in quantum computers.
翻訳日:2023-10-10 22:12:28 公開日:2023-10-09
# Lyapunovの予測通り、ライオンは秘密裏に最適化する

Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts ( http://arxiv.org/abs/2310.05898v1 )

ライセンス: Link先を確認
Lizhang Chen, Bo Liu, Kaizhao Liang, Qiang Liu(参考訳) プログラム検索を通じて発見された新しいオプティマイザであるLion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。 AdamWと同等か好意的に動作するが、メモリ効率は高い。 ランダム探索プログラムの結果から想像できるように、lionは、符号付き運動量、デカップリングされた重みの減衰、polak、ネステロフ運動量を含む、いくつかの既存のアルゴリズムの要素を組み込んでいるが、理論上既定のオプティマイザのどのカテゴリにも当てはまらない。 したがって、ライオンは幅広いタスクの汎用最適化器として機能するように見えるが、理論的根拠は定かではない。 この理論的明快さの欠如は、ライオンの有効性をさらに強化し拡大する機会を制限している。 この作品はライオンを軽蔑することを目的としている。 連続時間解析と離散時間解析の両方に基づき、Lion は一般損失関数 $f(x)$ を最小化し、有界制約 $\|x\|_\infty \leq 1/\lambda$ を強制する理論的および原理的アプローチであることを示した。 ライオンはこれをデカップリングウェイト崩壊の包含によって達成し、$\lambda$はウェイト崩壊係数を表す。 我々の分析はライオン更新のための新しいリアプノフ関数の開発によって可能である。 これは、Lion-$\kappa$アルゴリズムのより広範なファミリーに適用され、Lionの$\text{sign}(\cdot)$演算子は凸関数 $\kappa$ の次数に置き換えられ、一般的な合成最適化問題である $\min_x f(x) + \kappa^*(x)$ の解となる。 我々の発見はライオンのダイナミクスに関する貴重な洞察を与え、ライオン関連アルゴリズムのさらなる改良と拡張の道を開く。

Lion (Evolved Sign Momentum), a new optimizer discovered through program search, has shown promising results in training large AI models. It performs comparably or favorably to AdamW but with greater memory efficiency. As we can expect from the results of a random search program, Lion incorporates elements from several existing algorithms, including signed momentum, decoupled weight decay, Polak, and Nesterov momentum, but does not fit into any existing category of theoretically grounded optimizers. Thus, even though Lion appears to perform well as a general-purpose optimizer for a wide range of tasks, its theoretical basis remains uncertain. This lack of theoretical clarity limits opportunities to further enhance and expand Lion's efficacy. This work aims to demystify Lion. Based on both continuous-time and discrete-time analysis, we demonstrate that Lion is a theoretically novel and principled approach for minimizing a general loss function $f(x)$ while enforcing a bound constraint $\|x\|_\infty \leq 1/\lambda$. Lion achieves this through the incorporation of decoupled weight decay, where $\lambda$ represents the weight decay coefficient. Our analysis is made possible by the development of a new Lyapunov function for the Lion updates. It applies to a broader family of Lion-$\kappa$ algorithms, where the $\text{sign}(\cdot)$ operator in Lion is replaced by the subgradient of a convex function $\kappa$, leading to the solution of a general composite optimization problem of $\min_x f(x) + \kappa^*(x)$. Our findings provide valuable insights into the dynamics of Lion and pave the way for further improvements and extensions of Lion-related algorithms.
翻訳日:2023-10-10 22:12:15 公開日:2023-10-09
# テンソルネットワークによる画像の効率的な量子データ読み込み

Tensor Network Based Efficient Quantum Data Loading of Images ( http://arxiv.org/abs/2310.05897v1 )

ライセンス: Link先を確認
Jason Iaconis, Sonika Johri(参考訳) 画像ベースのデータは、量子機械学習アルゴリズムをテストするための人気のあるアリーナである。 これらの応用における量子優位性を実現する上で重要な要素は、効率的に画像を量子状態として表現する能力である。 本稿では,行列積状態から量子回路への変換技術に基づいて,画像を振幅として符号化する新しい量子状態生成法を提案する。 提案手法におけるゲートと量子ビットの数は、所望の精度で画素数に対数的にスケールするので、短期量子コンピュータに適している。 最後に,道路シーンの複雑な画像に対して捕捉されたイオン量子コンピュータの8量子ビットに対して,本手法を実験的に実証した。

Image-based data is a popular arena for testing quantum machine learning algorithms. A crucial factor in realizing quantum advantage for these applications is the ability to efficiently represent images as quantum states. Here we present a novel method for creating quantum states that approximately encode images as amplitudes, based on recently proposed techniques that convert matrix product states to quantum circuits. The numbers of gates and qubits in our method scale logarithmically in the number of pixels given a desired accuracy, which make it suitable for near term quantum computers. Finally, we experimentally demonstrate our technique on 8 qubits of a trapped ion quantum computer for complex images of road scenes, making this the first large instance of full amplitude encoding of an image in a quantum state.
翻訳日:2023-10-10 22:11:37 公開日:2023-10-09
# 依存データに対するディープニューラルネットワークの一般化境界

A Generalization Bound of Deep Neural Networks for Dependent Data ( http://arxiv.org/abs/2310.05892v1 )

ライセンス: Link先を確認
Quan Huu Do and Binh T. Nguyen and Lam Si Tung Ho(参考訳) ディープニューラルネットワークの既存の一般化境界は、データを独立かつ同一分散(iid)にする必要がある。 この仮定は、進化生物学、感染症疫学、株価予測のような現実の応用には当てはまらない。 この研究は、非定常$\phi$-mixingデータに対するフィードフォワードニューラルネットワークの一般化境界を確立する。

Existing generalization bounds for deep neural networks require data to be independent and identically distributed (iid). This assumption may not hold in real-life applications such as evolutionary biology, infectious disease epidemiology, and stock price prediction. This work establishes a generalization bound of feed-forward neural networks for non-stationary $\phi$-mixing data.
翻訳日:2023-10-10 22:11:25 公開日:2023-10-09
# グリーンマシンとの超付加通信:絡みのない非局所性の実用的実証

Superadditive Communications with the Green Machine: A Practical Demonstration of Nonlocality without Entanglement ( http://arxiv.org/abs/2310.05889v1 )

ライセンス: Link先を確認
Chaohan Cui, Jack Postlewaite, Babak N. Saif, Linran Fan, Saikat Guha(参考訳) 光通信容量の究極のホールボ限界を達成するには、複数の変調シンボル上で集団量子測定を行うジョイント検出受信機が必要である。 このような超付加性 -- 物理的に実現可能なシンボル・バイ・シンボリック光学検出よりも高い通信速度 -- は、エンタングルのない有名な非局所性の特別な場合であり、実際に実証されていない。この記事では、二相シフトキー(bpsk)変調アダマール符号を用いて超付加能力を達成するためのグリーンマシンの実用的な設計を提案する。 我々は、この受信機を構築し、その容量がショットノイズ制限されたホモダイン検出受信機(bpsk信号伝達を復調する従来の方法)と、低受信フォトンフラックスの仕組みにおいて実際に実現されたシンボルバイシンボル受信機の能力を超えることを示した。 グリーンマシン受信機は、パルス位置変調(従来のディープスペースレーザー通信用変調フォーマット)に比べて送信ピーク電力要求を低減させるだけでなく、その自己参照位相により、他のbpsk互換光受信機と比較して、例えば大気乱流やプラットフォーム振動といった位相ノイズに対する影響を受けやすいことを示した。

Achieving the ultimate Holevo limit of optical communications capacity requires a joint-detection receiver: a device that makes a collective quantum measurement over multiple modulated symbols. Such super-additivity -- a higher communication rate than that by any physically realizable symbol-by-symbol optical detection -- is a special case of the celebrated nonlocality without entanglement and has yet to be demonstrated in practice. In this article, we propose a practical design of the Green Machine -- a joint-detection receiver that can attain superadditive capacity with a binary-phase-shift-keying (BPSK) modulated Hadamard code. We build this receiver and show that its capacity surpasses that of the shot-noise-limited Homodyne detection receiver (the conventional way to demodulate BPSK signaling), as well as those of all practically realized symbol-by-symbol receivers, in the regime of low received photon flux. Our Green Machine receiver not only reduces the transmitter peak power requirement compared with Pulse Position Modulation (the conventional modulation format used for deep space laser communications), but we show that its self-referenced phase also makes it more immune to phase noise, e.g., atmospheric turbulence or platform vibrations, by orders of magnitude compared with other BPSK-compatible optical receivers.
翻訳日:2023-10-10 22:11:19 公開日:2023-10-09
# ストリーミングアンカー損失:時間的意味を持つスーパービジョンの増大

Streaming Anchor Loss: Augmenting Supervision with Temporal Significance ( http://arxiv.org/abs/2310.05886v1 )

ライセンス: Link先を確認
Utkarsh (Oggy) Sarawgi, John Berkowitz, Vineet Garg, Arnav Kundu, Minsik Cho, Sai Srujana Buddi, Saurabh Adya, Ahmed Tewfik(参考訳) 各種音声および知覚信号に対する高速フレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。 したがって、予測能力を改善するためのストリーミングモデルの学習能力(つまり、より多くのパラメータを追加することによって)は、現実のタスクでは実現できないかもしれない。 本研究では,モデルに本質的なフレームからさらに学ぶよう促すことにより,与えられた学習能力をより活用するために,新たなロスであるストリーミングアンカー損失(sal)を提案する。 より具体的には、我々のSALとその焦点変動は、対応するフレームの重要度に基づいてフレーム単位のクロスエントロピー損失を動的に変調し、セマンティッククリティカルイベントの時間的近接におけるフレームにより高い損失ペナルティを割り当てる。 したがって、モデルトレーニングが比較的稀だがタスク関連フレームの予測に重点を置いていることを保証する。 3つの異なる音声ベース検出タスクにおける標準的な軽量畳み込みおよび繰り返しストリーミングネットワークによる実験結果から、SALは、追加のデータやモデルパラメータ、アーキテクチャの変更なしに、精度とレイテンシを改善して、モデルが全体的なタスクをより効率的に学習できることを示した。

Streaming neural network models for fast frame-wise responses to various speech and sensory signals are widely adopted on resource-constrained platforms. Hence, increasing the learning capacity of such streaming models (i.e., by adding more parameters) to improve the predictive power may not be viable for real-world tasks. In this work, we propose a new loss, Streaming Anchor Loss (SAL), to better utilize the given learning capacity by encouraging the model to learn more from essential frames. More specifically, our SAL and its focal variations dynamically modulate the frame-wise cross entropy loss based on the importance of the corresponding frames so that a higher loss penalty is assigned for frames within the temporal proximity of semantically critical events. Therefore, our loss ensures that the model training focuses on predicting the relatively rare but task-relevant frames. Experimental results with standard lightweight convolutional and recurrent streaming networks on three different speech based detection tasks demonstrate that SAL enables the model to learn the overall task more effectively with improved accuracy and latency, without any additional data, model parameters, or architectural changes.
翻訳日:2023-10-10 22:10:51 公開日:2023-10-09
# 因果言語モデリングのための変圧器のメタラーニング

A Meta-Learning Perspective on Transformers for Causal Language Modeling ( http://arxiv.org/abs/2310.05884v1 )

ライセンス: Link先を確認
Xinbo Wu, Lav R. Varshney(参考訳) トランスフォーマーアーキテクチャは、大きな因果言語モデルの開発で顕著になった。 しかし、その能力を説明するメカニズムはよく分かっていない。 本稿では,学習過程に着目し,トランスフォーマ内の内的最適化過程を考察することにより,因果的言語モデリングタスクを訓練した場合のトランスフォーマアーキテクチャのメタラーニングビューを確立する。 さらに,インナーオプティマイズの中から,トランスフォーマベース因果言語モデルにおける学習トークン表現の規範の特殊特性を発見し,理論的に解析する。 本分析は,事前学習された大規模言語モデルと実世界のデータを用いた実験によって支援される。

The Transformer architecture has become prominent in developing large causal language models. However, mechanisms to explain its capabilities are not well understood. Focused on the training process, here we establish a meta-learning view of the Transformer architecture when trained for the causal language modeling task, by explicating an inner optimization process that may happen within the Transformer. Further, from within the inner optimization, we discover and theoretically analyze a special characteristic of the norms of learned token representations within Transformer-based causal language models. Our analysis is supported by experiments conducted on pre-trained large language models and real-world data.
翻訳日:2023-10-10 22:10:29 公開日:2023-10-09
# 縦方向表現による胸部X線放射の制御

Controllable Chest X-Ray Report Generation from Longitudinal Representations ( http://arxiv.org/abs/2310.05881v1 )

ライセンス: Link先を確認
Francesco Dalla Serra, Chaoyang Wang, Fani Deligianni, Jeffrey Dalton, Alison Q O'Neil(参考訳) 放射線レポートは、医療スキャンの内容の詳細なテキスト記述である。 それぞれの報告は関連する臨床所見の存在/観察と位置を記述しており、一般的には、患者がどのように進化したかを説明するために同じ患者の事前検査との比較を含んでいる。 放射線学報告は時間を要するプロセスであり、スキャン結果はしばしば遅延する。 報告をスピードアップする戦略の一つは、自動報告システムを統合することだが、臨床展開には高い正確性と解釈性が必要である。 オートマチックラジオグラフィーの報告に対する従来のアプローチは、いくつかの種類のスキャンで臨床精度に必要とされる比較を前もって、入力として事前の研究を提供していない。 Therefore, leveraging an existing visual input format of anatomical tokens, we introduce two novel aspects: (1) longitudinal representation learning -- we input the prior scan as an additional input, proposing a method to align, concatenate and fuse the current and prior visual information into a joint longitudinal representation which can be provided to the multimodal report generation model; (2) sentence-anatomy dropout -- a training strategy for controllability in which the report generator model is trained to predict only sentences from the original report which correspond to the subset of anatomical regions given as input. 我々は,MIMIC-CXRデータセットの詳細な実験を通して,解剖学的に制御可能なレポート生成を可能にしながら,提案手法が最先端の結果を達成する方法を示す。

Radiology reports are detailed text descriptions of the content of medical scans. Each report describes the presence/absence and location of relevant clinical findings, commonly including comparison with prior exams of the same patient to describe how they evolved. Radiology reporting is a time-consuming process, and scan results are often subject to delays. One strategy to speed up reporting is to integrate automated reporting systems, however clinical deployment requires high accuracy and interpretability. Previous approaches to automated radiology reporting generally do not provide the prior study as input, precluding comparison which is required for clinical accuracy in some types of scans, and offer only unreliable methods of interpretability. Therefore, leveraging an existing visual input format of anatomical tokens, we introduce two novel aspects: (1) longitudinal representation learning -- we input the prior scan as an additional input, proposing a method to align, concatenate and fuse the current and prior visual information into a joint longitudinal representation which can be provided to the multimodal report generation model; (2) sentence-anatomy dropout -- a training strategy for controllability in which the report generator model is trained to predict only sentences from the original report which correspond to the subset of anatomical regions given as input. We show through in-depth experiments on the MIMIC-CXR dataset how the proposed approach achieves state-of-the-art results while enabling anatomy-wise controllable report generation.
翻訳日:2023-10-10 22:10:19 公開日:2023-10-09
# WSINDyを用いた粗粒ハミルトン系

Coarse-Graining Hamiltonian Systems Using WSINDy ( http://arxiv.org/abs/2310.05879v1 )

ライセンス: Link先を確認
Daniel A. Messenger, Joshua W. Burby, David M. Bortz(参考訳) Wak-form Sparse Identification of nonlinear Dynamics algorithm (WSINDy) は、相互作用する粒子系(https://doi.org/10.1016/j.physd.2022.133406 )の文脈で粗粒化機能を提供する。 本研究では,近似対称性を持つ粗粒ハミルトニアンダイナミクスの問題に拡張する。 このような近似対称性はしばしば減少次元のハミルトニアン系の存在につながり、関連する自由度のダイナミクスを効率的に捉えるのに使うことができる。 このような削減されたシステム、あるいはそれらを数値的に近似させることは、現在進行中の課題である。 ウォシンディは、対称性の非現実的性質と外部雑音の両方から付与される大きな摂動の存在下で、この還元ハミルトニアン系をうまく同定できることを実証する。 これは部分的にはそのような系が解析的に導出される非自明な手段によって重要である。 WSINDy はハミルトニアンベクトル場の試行基底に制限を加えることで自然にハミルトニアン構造を保存し、その方法論は計算効率が良く、しばしば完全に減少するハミルトニアンを学習するために1つの軌道のみを必要とする。 このようにして、弱形式方程式学習は特にハミルトン粗粒化に適していると論じる。 概周期ハミルトニアン系を近似対称性を持つ原型系のクラスとして用いると、WSINDyは関連する自由度を観測して、元の$(2N)$-次元系から2(N-1)$または$N$の正しい前順序還元系を確実に同定する。 我々は、物理的に関連する例、すなわち結合振動子ダイナミクス、銀河内の恒星運動のためのh\'enon-heilesシステム、荷電粒子のダイナミクスを提供する。

The Weak-form Sparse Identification of Nonlinear Dynamics algorithm (WSINDy) has been demonstrated to offer coarse-graining capabilities in the context of interacting particle systems ( https://doi.org/10.1016/j.physd.2022.133406 ). In this work we extend this capability to the problem of coarse-graining Hamiltonian dynamics which possess approximate symmetries. Such approximate symmetries often lead to the existence of a Hamiltonian system of reduced dimension that may be used to efficiently capture the dynamics of the relevant degrees of freedom. Deriving such reduced systems, or approximating them numerically, is an ongoing challenge. We demonstrate that WSINDy can successfully identify this reduced Hamiltonian system in the presence of large perturbations imparted from both the inexact nature of the symmetry and extrinsic noise. This is significant in part due to the nontrivial means by which such systems are derived analytically. WSINDy naturally preserves the Hamiltonian structure by restricting to a trial basis of Hamiltonian vector fields, and the methodology is computational efficient, often requiring only a single trajectory to learn the full reduced Hamiltonian, and avoiding forward solves in the learning process. In this way, we argue that weak-form equation learning is particularly well-suited for Hamiltonian coarse-graining. Using nearly-periodic Hamiltonian systems as a prototypical class of systems with approximate symmetries, we show that WSINDy robustly identifies the correct leading-order reduced system of dimension $2(N-1)$ or $N$ from the original $(2N)$-dimensional system, upon observation of the relevant degrees of freedom. We provide physically relevant examples, namely coupled oscillator dynamics, the H\'enon-Heiles system for stellar motion within a galaxy, and the dynamics of charged particles.
翻訳日:2023-10-10 22:09:59 公開日:2023-10-09
# 単一イベントの動揺を予測する機械学習アプローチ

A Machine Learning Approach to Predicting Single Event Upsets ( http://arxiv.org/abs/2310.05878v1 )

ライセンス: Link先を確認
Archit Gupta, Chong Yock Eng, Deon Lim Meng Wee, Rashna Analia Ahmed, See Min Sim(参考訳) 単一事象動揺 (seu) は、宇宙環境からのイオン化粒子への曝露時に半導体デバイスで発生する臨界ソフトエラーである。 SEUは半導体のメモリ成分にビットフリップを引き起こす。 これにより、保存された情報が信頼性が低下するにつれて、数多くの安全上の危険が生じる。 現在、SEUは発生からわずか数時間で検出されている。 本稿では,機械学習を用いて事前にSEUを予測するモデルであるCREMERを提案する。 CREMERはSEUの発生を予測するために位置データのみを使用するため、堅牢で安価でスケーラブルである。 実装が完了すると、メモリデバイスの信頼性が向上し、宇宙車両上でよりデジタル的に安全な環境が生まれる。

A single event upset (SEU) is a critical soft error that occurs in semiconductor devices on exposure to ionising particles from space environments. SEUs cause bit flips in the memory component of semiconductors. This creates a multitude of safety hazards as stored information becomes less reliable. Currently, SEUs are only detected several hours after their occurrence. CREMER, the model presented in this paper, predicts SEUs in advance using machine learning. CREMER uses only positional data to predict SEU occurrence, making it robust, inexpensive and scalable. Upon implementation, the improved reliability of memory devices will create a digitally safer environment onboard space vehicles.
翻訳日:2023-10-10 22:09:25 公開日:2023-10-09
# 懸念のAIシステム

AI Systems of Concern ( http://arxiv.org/abs/2310.05876v1 )

ライセンス: Link先を確認
Kayla Matteucci, Shahar Avin, Fazl Barez, Se\'an \'O h\'Eigeartaigh(参考訳) 高度なaiによる将来の危険性に関する懸念は、エージェントのような振る舞い、戦略的認識、長距離計画といった本質的な特徴を持つと仮定されるシステムに集中することが多い。 この特徴のクラスタを"Property X"とラベル付けします。 現代のAIシステムの多くは"Property X"では低いが、意図的なステアリングがなければ、現在の研究方向は"Property X"でも高い能力を持つAIシステムの出現に急速に繋がる可能性がある。 我々は、"Property X"の特徴は本質的に危険であり、より大きな能力と組み合わせると、安全と制御の保証が難しいAIシステムになると主張している。 いくつかの研究者によるai研究の軌跡の代替フレームワークについて考察し、提案された高度なaiの利点のほとんどは、この性質を最小化するために設計されたシステムによって得られると論じる。 次に,リスクの高い"プロパティx"特性を持つシステムの開発を識別し,制限するための指標とガバナンス介入を提案する。

Concerns around future dangers from advanced AI often centre on systems hypothesised to have intrinsic characteristics such as agent-like behaviour, strategic awareness, and long-range planning. We label this cluster of characteristics as "Property X". Most present AI systems are low in "Property X"; however, in the absence of deliberate steering, current research directions may rapidly lead to the emergence of highly capable AI systems that are also high in "Property X". We argue that "Property X" characteristics are intrinsically dangerous, and when combined with greater capabilities will result in AI systems for which safety and control is difficult to guarantee. Drawing on several scholars' alternative frameworks for possible AI research trajectories, we argue that most of the proposed benefits of advanced AI can be obtained by systems designed to minimise this property. We then propose indicators and governance interventions to identify and limit the development of systems with risky "Property X" characteristics.
翻訳日:2023-10-10 22:09:16 公開日:2023-10-09
# Geom-Erasing:拡散モデルにおける不入概念の幾何学的除去

Geom-Erasing: Geometry-Driven Removal of Implicit Concept in Diffusion Models ( http://arxiv.org/abs/2310.05873v1 )

ライセンス: Link先を確認
Zhili Liu, Kai Chen, Yifan Zhang, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James Kwok(参考訳) パーソナライズされたデータセットによる拡散モデルの微調整は、下流タスク全体の生成品質を改善する方法として認識されているが、ウォーターマークやqrコードといった意図しない概念を不注意に生成することが多い。 既存のソリューションは、主にモデルが実際に認識できない概念を認識する能力に依存しているため、意図せず学習された暗黙の概念を取り除くことに苦しむ。 本研究では,これらの概念の幾何学的情報をテキスト領域にエンコードするために,追加のアクセス可能な分類器あるいは検出器モデルを用いて暗黙的な概念をうまく削除する新しい手法である \methodname を導入する。 さらに, 3つの暗黙的な概念(\ie, watermarks, qrコード, text)を付与した,新しい画像テキストデータセットである \textit{implicit concept} を提案する。 実験結果から,<methodname</methodname</methodname>は暗黙的な概念を巧妙に根絶し,既存の手法よりも顕著な改善が示された。 幾何学的情報の統合は拡散モデルにおける暗黙的な概念の正確な除去において重要な進歩を示している。

Fine-tuning diffusion models through personalized datasets is an acknowledged method for improving generation quality across downstream tasks, which, however, often inadvertently generates unintended concepts such as watermarks and QR codes, attributed to the limitations in image sources and collecting methods within specific downstream tasks. Existing solutions suffer from eliminating these unintentionally learned implicit concepts, primarily due to the dependency on the model's ability to recognize concepts that it actually cannot discern. In this work, we introduce \methodname, a novel approach that successfully removes the implicit concepts with either an additional accessible classifier or detector model to encode geometric information of these concepts into text domain. Moreover, we propose \textit{Implicit Concept}, a novel image-text dataset imbued with three implicit concepts (\ie, watermarks, QR codes, and text) for training and evaluation. Experimental results demonstrate that \methodname not only identifies but also proficiently eradicates implicit concepts, revealing a significant improvement over the existing methods. The integration of geometric information marks a substantial progression in the precise removal of implicit concepts in diffusion models.
翻訳日:2023-10-10 22:08:58 公開日:2023-10-09
# vicor: 大きな言語モデルによる視覚理解と常識推論の橋渡し

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models ( http://arxiv.org/abs/2310.05872v1 )

ライセンス: Link先を確認
Kaiwen Zhou and Kwonjoon Lee and Teruhisa Misu and Xin Eric Wang(参考訳) 本研究では,視覚コモンセンス推論(VCR)のための事前学習型視覚言語モデル(VLM)と大規模言語モデル(LLM)の相乗的機能について検討する。 本稿では,VCRの問題を視覚コモンセンス理解(VCU)と視覚コモンセンス推論(VCI)に分類する。 リテラル視覚コンテンツを知覚するVCUでは、事前学習されたVLMは強力なクロスデータセットの一般化を示す。 一方、VCIでは、画像コンテンツ以外の結論を推測することが目的であり、VLMは困難に直面している。 VLMがLLMに対して知覚結果(画像キャプション)を提供するベースラインが,VCIの性能向上につながることがわかった。 しかし、VLMの受動的知覚は重要な文脈情報を見逃し、LLMによる誤った、あるいは不確実な推論につながることが多い。 この問題を軽減するために, LLM は, 推論に不確実な場合には, VLM に関連要素を集中して収集するように積極的に指示する, 協調的アプローチを提案する。 ViCor という名前の手法では,事前に学習した LLM は問題カテゴリを解析するための問題分類器として機能し,VLM の指揮官は問題分類に基づいて異なるVLM を活用できる。 VLMは視覚認識と理解を行う。 2つのVCRベンチマークデータセット上でフレームワークを評価し、ドメイン内教師あり微調整を必要としない他のメソッドよりも優れている。

In our work, we explore the synergistic capabilities of pre-trained vision-and-language models (VLMs) and large language models (LLMs) for visual commonsense reasoning (VCR). We categorize the problem of VCR into visual commonsense understanding (VCU) and visual commonsense inference (VCI). For VCU, which involves perceiving the literal visual content, pre-trained VLMs exhibit strong cross-dataset generalization. On the other hand, in VCI, where the goal is to infer conclusions beyond image content, VLMs face difficulties. We find that a baseline where VLMs provide perception results (image captions) to LLMs leads to improved performance on VCI. However, we identify a challenge with VLMs' passive perception, which often misses crucial context information, leading to incorrect or uncertain reasoning by LLMs. To mitigate this issue, we suggest a collaborative approach where LLMs, when uncertain about their reasoning, actively direct VLMs to concentrate on and gather relevant visual elements to support potential commonsense inferences. In our method, named ViCor, pre-trained LLMs serve as problem classifiers to analyze the problem category, VLM commanders to leverage VLMs differently based on the problem classification, and visual commonsense reasoners to answer the question. VLMs will perform visual recognition and understanding. We evaluate our framework on two VCR benchmark datasets and outperform all other methods that do not require in-domain supervised fine-tuning.
翻訳日:2023-10-10 22:08:33 公開日:2023-10-09
# 複数の目的の選好アグリゲーションによる動的値アライメント

Dynamic value alignment through preference aggregation of multiple objectives ( http://arxiv.org/abs/2310.05871v1 )

ライセンス: Link先を確認
Marcin Korecki, Damian Dailisan, Cesare Carissimo(参考訳) 倫理的AIシステムの開発は、現在、人間の目的に沿った客観的機能の設定を目的としている。 しかしながら、そのような関数を見つけることは研究課題であり、RLでは手動で報酬を設定することはかなり標準的なアプローチである。 本稿では,複数目的のアプローチを用いて,協調すべき値が動的に変化する動的値アライメント手法を提案する。 このアプローチは,複数の目的に対応するために,より深い$q$学習を応用し,スイッチングエージェントによって制御される簡易な2脚交差点において,この手法を評価する。我々のアプローチは,システム上でドライバの好みを動的に適応し,3つの指標(速度,停止,待機)をまたいだ全体的なパフォーマンス向上を実現し,競合するあるいは競合するアクションを持つ目標を統合する。

The development of ethical AI systems is currently geared toward setting objective functions that align with human objectives. However, finding such functions remains a research challenge, while in RL, setting rewards by hand is a fairly standard approach. We present a methodology for dynamic value alignment, where the values that are to be aligned with are dynamically changing, using a multiple-objective approach. We apply this approach to extend Deep $Q$-Learning to accommodate multiple objectives and evaluate this method on a simplified two-leg intersection controlled by a switching agent.Our approach dynamically accommodates the preferences of drivers on the system and achieves better overall performance across three metrics (speeds, stops, and waits) while integrating objectives that have competing or conflicting actions.
翻訳日:2023-10-10 22:08:04 公開日:2023-10-09
# HyperAttention: 近距離時間におけるLong-context Attention

HyperAttention: Long-context Attention in Near-Linear Time ( http://arxiv.org/abs/2310.05869v1 )

ライセンス: Link先を確認
Insu Han, Rajesh Jarayam, Amin Karbasi, Vahab Mirrokni, David P. Woodruff, Amir Zandieh(参考訳) 本稿では,Large Language Models (LLMs) における長期文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttention という近似的な注意機構を提案する。 最近の研究は、最悪の場合、注意行列の項目が有界であるか、行列が低い安定階数でない限り、二次時間が必要であることを示唆している。 本研究では,(1)正規化注意行列における最大カラムノルム,(2)大規模エントリの検出・削除後の非正規化注意行列における行ノルムの割合の2つのパラメータを紹介する。 これらの細かいパラメータを使って問題の難しさを捉える。 従来の下界にもかかわらず、行列が非有界なエントリや大きな安定なランクを持つ場合であっても、上記のパラメータが小さい場合であっても線形時間サンプリングアルゴリズムを実現できる。 HyperAttentionは、他の高速な低レベル実装、特にFlashAttentionと簡単に統合できるモジュラーデザインを備えている。 経験的に、大きなエントリを識別するためにlocality sensitive hashing(lsh)を使用することで、hyperattentionは既存のメソッドを上回り、flashattentionのような最先端ソリューションと比べて大幅にスピードが向上する。 様々な長コンテキスト長のデータセットにおけるハイパーアテンションの実証的性能を検証する。 例えば、HyperAttentionは32kコンテキスト長でChatGLM2の推論時間を50%速くし、パープレキシティは5.6から6.3に増加する。 例えば131kのような大きなコンテキスト長では、HyperAttentionは単一の注意層上で5倍のスピードアップを提供する。

We present an approximate attention mechanism named HyperAttention to address the computational challenges posed by the growing complexity of long contexts used in Large Language Models (LLMs). Recent work suggests that in the worst-case scenario, quadratic time is necessary unless the entries of the attention matrix are bounded or the matrix has low stable rank. We introduce two parameters which measure: (1) the max column norm in the normalized attention matrix, and (2) the ratio of row norms in the unnormalized attention matrix after detecting and removing large entries. We use these fine-grained parameters to capture the hardness of the problem. Despite previous lower bounds, we are able to achieve a linear time sampling algorithm even when the matrix has unbounded entries or a large stable rank, provided the above parameters are small. HyperAttention features a modular design that easily accommodates integration of other fast low-level implementations, particularly FlashAttention. Empirically, employing Locality Sensitive Hashing (LSH) to identify large entries, HyperAttention outperforms existing methods, giving significant speed improvements compared to state-of-the-art solutions like FlashAttention. We validate the empirical performance of HyperAttention on a variety of different long-context length datasets. For example, HyperAttention makes the inference time of ChatGLM2 50\% faster on 32k context length while perplexity increases from 5.6 to 6.3. On larger context length, e.g., 131k, with causal masking, HyperAttention offers 5-fold speedup on a single attention layer.
翻訳日:2023-10-10 22:07:49 公開日:2023-10-09
# 拡散ランダム特徴モデル

Diffusion Random Feature Model ( http://arxiv.org/abs/2310.04417v2 )

ライセンス: Link先を確認
Esha Saha and Giang Tran(参考訳) 拡散確率モデルはノイズからデータを生成するのに成功している。 しかし、ほとんどの拡散モデルは計算コストが高く、理論的正当化の欠如により解釈が困難である。 一方、ランダム機能モデルは解釈可能性から人気を集めているが、複雑な機械学習タスクへの応用は限定的である。 本研究では,同数の学習可能なパラメータを持つ完全連結ニューラルネットワークに対して,解釈可能であり,同等の数値計算結果を与える拡散モデルに着想を得た深層ランダム特徴モデルを提案する。 具体的には、ランダムな特徴に対する既存の結果を拡張し、サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。 ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。

Diffusion probabilistic models have been successfully used to generate data from noise. However, most diffusion models are computationally expensive and difficult to interpret with a lack of theoretical justification. Random feature models on the other hand have gained popularity due to their interpretability but their application to complex machine learning tasks remains limited. In this work, we present a diffusion model-inspired deep random feature model that is interpretable and gives comparable numerical results to a fully connected neural network having the same number of trainable parameters. Specifically, we extend existing results for random features and derive generalization bounds between the distribution of sampled data and the true distribution using properties of score matching. We validate our findings by generating samples on the fashion MNIST dataset and instrumental audio data.
翻訳日:2023-10-10 17:02:06 公開日:2023-10-09
# CIFAR-10-Warehouse:モデル一般化解析における広範およびより現実的なテストベッド

CIFAR-10-Warehouse: Broad and More Realistic Testbeds in Model Generalization Analysis ( http://arxiv.org/abs/2310.04414v2 )

ライセンス: Link先を確認
Xiaoxiao Sun, Xingjian Leng, Zijian Wang, Yang Yang, Zi Huang, Liang Zheng(参考訳) さまざまな未知環境におけるモデル性能の分析は、機械学習コミュニティにおける重要な研究課題である。 この問題を研究するためには,環境の相違を広範囲にカバーする分散テストセットを用いたテストベッドを構築することが重要である。 しかし、既存のテストベッドは通常、少数のドメインを持つか、画像の破損によって合成されるかのいずれかであり、実際の有効性を示すアルゴリズム設計を妨げる。 本稿では,画像検索エンジンと拡散モデルにより収集した180個のデータセットからなるCIFAR-10-Warehouseを紹介する。 一般に300から8000枚の画像があり、データセットには自然画像、漫画、特定の色、あるいは自然に現れない物体が含まれている。 CIFAR-10-Wにより、様々なアウト・オブ・ディストリビューション環境におけるドメイン一般化とモデル精度予測という2つの一般化タスクの評価を強化し、理解を深めることを目指している。 我々は大規模なベンチマークと比較実験を行い、CIFAR-10-Wがこれらのタスクに固有の新しい興味深い洞察を提供することを示した。 また、CIFAR-10-Wの恩恵を受ける他の分野についても論じる。

Analyzing model performance in various unseen environments is a critical research problem in the machine learning community. To study this problem, it is important to construct a testbed with out-of-distribution test sets that have broad coverage of environmental discrepancies. However, existing testbeds typically either have a small number of domains or are synthesized by image corruptions, hindering algorithm design that demonstrates real-world effectiveness. In this paper, we introduce CIFAR-10-Warehouse, consisting of 180 datasets collected by prompting image search engines and diffusion models in various ways. Generally sized between 300 and 8,000 images, the datasets contain natural images, cartoons, certain colors, or objects that do not naturally appear. With CIFAR-10-W, we aim to enhance the evaluation and deepen the understanding of two generalization tasks: domain generalization and model accuracy prediction in various out-of-distribution environments. We conduct extensive benchmarking and comparison experiments and show that CIFAR-10-W offers new and interesting insights inherent to these tasks. We also discuss other fields that would benefit from CIFAR-10-W.
翻訳日:2023-10-10 17:01:55 公開日:2023-10-09
# FLATTEN:一貫したテキスト・ビデオ編集のための光導波路型ATTENtion

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing ( http://arxiv.org/abs/2310.05922v1 )

ライセンス: Link先を確認
Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He(参考訳) text-to-video編集は、テキストプロンプトに基づいて、ソースビデオの視覚的な外観を編集することを目的としている。 このタスクの大きな課題は、編集されたビデオのすべてのフレームが視覚的に一貫性があることを保証することである。 最近の研究は、U-Netにおける2次元空間的注意を時空間的注意に膨らませることで、このタスクに高度なテキスト・画像拡散モデルを適用している。 時間的文脈は時空間的注意によって追加することができるが、パッチごとに無関係な情報を導入し、編集されたビデオに不整合を引き起こす可能性がある。 本稿では,拡散モデルのU-Netにおける注目モジュールへの光フローを初めて導入し,テキスト・ビデオ編集の不整合問題に対処する。 提案手法であるFLATTENでは,異なるフレームにまたがる同じフローパス上のパッチをアテンションモジュールで相互に適用することにより,編集したビデオの視覚的一貫性を向上する。 さらに,本手法はトレーニング不要であり,任意の拡散ベースのテキスト・ビデオ編集手法にシームレスに統合し,視覚的整合性を向上させることができる。 既存のテキスト・ビデオ編集ベンチマークによる実験結果から,提案手法が新たな最先端性能を実現することを示す。 特に,本手法は,編集ビデオの視覚的一貫性を維持するのに優れている。

Text-to-video editing aims to edit the visual appearance of a source video conditional on textual prompts. A major challenge in this task is to ensure that all frames in the edited video are visually consistent. Most recent works apply advanced text-to-image diffusion models to this task by inflating 2D spatial attention in the U-Net into spatio-temporal attention. Although temporal context can be added through spatio-temporal attention, it may introduce some irrelevant information for each patch and therefore cause inconsistency in the edited video. In this paper, for the first time, we introduce optical flow into the attention module in the diffusion model's U-Net to address the inconsistency issue for text-to-video editing. Our method, FLATTEN, enforces the patches on the same flow path across different frames to attend to each other in the attention module, thus improving the visual consistency in the edited videos. Additionally, our method is training-free and can be seamlessly integrated into any diffusion-based text-to-video editing methods and improve their visual consistency. Experiment results on existing text-to-video editing benchmarks show that our proposed method achieves the new state-of-the-art performance. In particular, our method excels in maintaining the visual consistency in the edited videos.
翻訳日:2023-10-10 17:01:36 公開日:2023-10-09
# 共形決定理論:不完全予測からの安全な自律的決定

Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions ( http://arxiv.org/abs/2310.05921v1 )

ライセンス: Link先を確認
Jordan Lekeufack, Anastasios A. Angelopoulos, Andrea Bajcsy, Michael I. Jordan, Jitendra Malik(参考訳) 不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。 そのような決定の例としては、歩行者予測に依存するロボット計画アルゴリズムから、高いスループットと低いエラーを示すための自律的製造のキャリブレーション、実行時の安全なバックアップポリシへの切り替えよりも名目上のポリシーを信頼する選択などがある。 我々のアルゴリズムが生み出した決定は、世界モデルに何の仮定もせずに低いリスクを持つという証明可能な統計的保証があるという意味では安全である。 この理論は、予測セットの構築を必要とせず、共形予測の結果を拡張して、直接決定を校正する。 人間を中心としたロボット行動計画、自動株式取引、ロボットマニュファクチュリンにおける我々のアプローチの有用性を実証する実験

We introduce Conformal Decision Theory, a framework for producing safe autonomous decisions despite imperfect machine learning predictions. Examples of such decisions are ubiquitous, from robot planning algorithms that rely on pedestrian predictions, to calibrating autonomous manufacturing to exhibit high throughput and low error, to the choice of trusting a nominal policy versus switching to a safe backup policy at run-time. The decisions produced by our algorithms are safe in the sense that they come with provable statistical guarantees of having low risk without any assumptions on the world model whatsoever; the observations need not be I.I.D. and can even be adversarial. The theory extends results from conformal prediction to calibrate decisions directly, without requiring the construction of prediction sets. Experiments demonstrate the utility of our approach in robot motion planning around humans, automated stock trading, and robot manufacturin
翻訳日:2023-10-10 17:01:12 公開日:2023-10-09
# SimPLR: オブジェクト検出とセグメンテーションのためのシンプルでプレーンな変換器

SimPLR: A Simple and Plain Transformer for Object Detection and Segmentation ( http://arxiv.org/abs/2310.05920v1 )

ライセンス: Link先を確認
Duy-Kien Nguyen and Martin R. Oswald and Cees G. M. Snoek(参考訳) 様々なスケールで物体を検出する能力は、現代の物体検出器の設計において重要な役割を担っている。 トランスを用いた手作り部品の除去は大幅に進歩したが、ViT(Vision Transformer)のような普通のバックボーンでも、マルチスケールの特徴マップは経験的な成功の鍵を握っている。 本稿では,この特徴ピラミッドへの依存は不要であることを示すとともに,背骨と検出ヘッドが共に単一スケールの特徴を持つ平板検出器「SimPLR」を実現する。 平易なアーキテクチャにより、SimPLRは自己教師付き学習とViTによるスケーリングアプローチの利点を効果的に活用することができ、マルチスケールに比べて高いパフォーマンスが得られる。 我々は,大規模なバックボーンにスケールアップする場合,SimPLRは終端検出器 (Mask2Former) や平板バックボーン検出器 (ViTDet) よりも性能が向上することを示す。 コードはリリースされます。

The ability to detect objects in images at varying scales has played a pivotal role in the design of modern object detectors. Despite considerable progress in removing handcrafted components using transformers, multi-scale feature maps remain a key factor for their empirical success, even with a plain backbone like the Vision Transformer (ViT). In this paper, we show that this reliance on feature pyramids is unnecessary and a transformer-based detector with scale-aware attention enables the plain detector `SimPLR' whose backbone and detection head both operate on single-scale features. The plain architecture allows SimPLR to effectively take advantages of self-supervised learning and scaling approaches with ViTs, yielding strong performance compared to multi-scale counterparts. We demonstrate through our experiments that when scaling to larger backbones, SimPLR indicates better performance than end-to-end detectors (Mask2Former) and plain-backbone detectors (ViTDet), while consistently being faster. The code will be released.
翻訳日:2023-10-10 17:00:55 公開日:2023-10-09
# 共同音声テキストモデルによる少数ショット音声言語理解

Few-Shot Spoken Language Understanding via Joint Speech-Text Models ( http://arxiv.org/abs/2310.05919v1 )

ライセンス: Link先を確認
Chung-Ming Chien and Mingjiamei Zhang and Ju-Chieh Chou and Karen Livescu(参考訳) 近年,音声とテキストの共有空間における符号化による音声表現改善の可能性が実証されている。 本稿では、このような共有表現を活用し、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。 事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。 提案手法は1時間以内のラベル付き音声データを用いて,10倍以上のデータに微調整された音声のみを用いた従来の手法と比較して,音声言語理解タスク(特に感情分析と名前付きエンティティ認識)において同等の性能を実現する。 概念実証研究以外にも,潜在表現の分析も行っている。 音声テキストモデルの下位層はタスクに依存しず、音声とテキストの表現を共有空間に整列するのに対し、上位層はタスク固有である。

Recent work on speech representation models jointly pre-trained with text has demonstrated the potential of improving speech representations by encoding speech and text in a shared space. In this paper, we leverage such shared representations to address the persistent challenge of limited data availability in spoken language understanding tasks. By employing a pre-trained speech-text model, we find that models fine-tuned on text can be effectively transferred to speech testing data. With as little as 1 hour of labeled speech data, our proposed approach achieves comparable performance on spoken language understanding tasks (specifically, sentiment analysis and named entity recognition) when compared to previous methods using speech-only pre-trained models fine-tuned on 10 times more data. Beyond the proof-of-concept study, we also analyze the latent representations. We find that the bottom layers of speech-text models are largely task-agnostic and align speech and text representations into a shared space, while the top layers are more task-specific.
翻訳日:2023-10-10 17:00:34 公開日:2023-10-09
# 圧縮としてのグロッキング:非線形複雑性の観点から

Grokking as Compression: A Nonlinear Complexity Perspective ( http://arxiv.org/abs/2310.05918v1 )

ライセンス: Link先を確認
Ziming Liu, Ziqian Zhong, Max Tegmark(参考訳) 記憶の後に一般化が大幅に遅れる現象であるgrokkingを圧縮に分類した。 そこで我々は,ReLUネットワークに対する線形領域番号の一般化版であるネットワーク複雑性を測定するために,線形写像数(LMN)を定義する。 LMNは一般化前にニューラルネットワーク圧縮をうまく特徴付けることができる。 L_2$ノルムはモデル複雑性を特徴づけるための一般的な選択肢であるが、(1) LMNは情報/計算として自然に解釈できるが、$L_2$はできない。 2) 圧縮相では, LMN は試験損失と線形関係を持ち, $L_2$ は複雑な非線形手法で試験損失と相関する。 (3) LMN はまた、XOR ネットワークが2つの一般化解を切り替える興味深い現象を示すが、$L_2$ はそうではない。 局所的あるいは条件付き線形計算が現代の人工ニューラルネットワークの性質に合致していることを明確に考慮するため、私たちはLMNがコルモゴロフ複雑性のニューラルネットワークバージョンとして有望な候補であると論じる。

We attribute grokking, the phenomenon where generalization is much delayed after memorization, to compression. To do so, we define linear mapping number (LMN) to measure network complexity, which is a generalized version of linear region number for ReLU networks. LMN can nicely characterize neural network compression before generalization. Although the $L_2$ norm has been a popular choice for characterizing model complexity, we argue in favor of LMN for a number of reasons: (1) LMN can be naturally interpreted as information/computation, while $L_2$ cannot. (2) In the compression phase, LMN has linear relations with test losses, while $L_2$ is correlated with test losses in a complicated nonlinear way. (3) LMN also reveals an intriguing phenomenon of the XOR network switching between two generalization solutions, while $L_2$ does not. Besides explaining grokking, we argue that LMN is a promising candidate as the neural network version of the Kolmogorov complexity since it explicitly considers local or conditioned linear computations aligned with the nature of modern artificial neural networks.
翻訳日:2023-10-10 17:00:17 公開日:2023-10-09
# 乾燥可能なアバター服-rgb-d入力による動的衣服による忠実な全身テレプレゼンス

Drivable Avatar Clothing: Faithful Full-Body Telepresence with Dynamic Clothing Driven by Sparse RGB-D Input ( http://arxiv.org/abs/2310.05917v1 )

ライセンス: Link先を確認
Donglai Xiang, Fabian Prada, Zhe Cao, Kaiwen Guo, Chenglei Wu, Jessica Hodgins, Timur Bagautdinov(参考訳) 衣服は人間の外見の重要な部分であるが、フォトリアリスティックなアバターをモデル化することは困難である。 本研究では,RGB-D入力と体と顔の動きを忠実に駆動できる,動的に動くゆるい衣服を備えたアバターを提案する。 そこで本研究では,粗い衣服の形状を精度良く追跡できるニューラル・イテレーティブ・ニアスポイント(n-icp)アルゴリズムを提案する。 粗い追跡結果から、入力されたRGB-D画像をテクセル整列した特徴に再マップし、乾燥可能なアバターモデルに入力し、外観の詳細を忠実に再構築する。 我々は,最近の画像駆動合成ベースラインに対して提案手法を評価し,N-ICPアルゴリズムの包括的解析を行う。 本手法は,高忠実で忠実な衣料品のダイナミクスと外観を生み出す能力を維持しつつ,新しいテスト環境に一般化できることを実証する。

Clothing is an important part of human appearance but challenging to model in photorealistic avatars. In this work we present avatars with dynamically moving loose clothing that can be faithfully driven by sparse RGB-D inputs as well as body and face motion. We propose a Neural Iterative Closest Point (N-ICP) algorithm that can efficiently track the coarse garment shape given sparse depth input. Given the coarse tracking results, the input RGB-D images are then remapped to texel-aligned features, which are fed into the drivable avatar models to faithfully reconstruct appearance details. We evaluate our method against recent image-driven synthesis baselines, and conduct a comprehensive analysis of the N-ICP algorithm. We demonstrate that our method can generalize to a novel testing environment, while preserving the ability to produce high-fidelity and faithful clothing dynamics and appearance.
翻訳日:2023-10-10 16:59:54 公開日:2023-10-09
# テキストに基づく分解によるクリップ画像の解釈

Interpreting CLIP's Image Representation via Text-Based Decomposition ( http://arxiv.org/abs/2310.05916v1 )

ライセンス: Link先を確認
Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt(参考訳) CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。 我々は,個々の画像パッチ,モデルレイヤ,注意ヘッドの合計として画像表現を分解し,クリップのテキスト表現を用いて要約を解釈する。 注目ヘッドを解釈し、出力空間にまたがるテキスト表現を自動的に見つけ、多くのヘッド(例えば、位置や形状)のプロパティ固有の役割を明らかにすることで、各ヘッドの役割を特徴付ける。 次に、画像パッチを解釈し、CLIP内の創発的な空間的局在を明らかにする。 最後に、この理解を用いて、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成する。 その結果、トランスフォーマーモデルのスケーラブルな理解が実現可能であり、モデルの修復と改善に使用できることがわかった。

We investigate the CLIP image encoder by analyzing how individual model components affect the final representation. We decompose the image representation as a sum across individual image patches, model layers, and attention heads, and use CLIP's text representation to interpret the summands. Interpreting the attention heads, we characterize each head's role by automatically finding text representations that span its output space, which reveals property-specific roles for many heads (e.g. location or shape). Next, interpreting the image patches, we uncover an emergent spatial localization within CLIP. Finally, we use this understanding to remove spurious features from CLIP and to create a strong zero-shot image segmenter. Our results indicate that a scalable understanding of transformer models is attainable and can be used to repair and improve models.
翻訳日:2023-10-10 16:59:36 公開日:2023-10-09
# FireAct: 言語エージェントの微調整を目指して

FireAct: Toward Language Agent Fine-tuning ( http://arxiv.org/abs/2310.05915v1 )

ライセンス: Link先を確認
Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, Shunyu Yao(参考訳) 最近の取り組みでは、外部ツールや環境を備えた拡張言語モデル(lms)があり、推論や動作が可能な言語エージェントの開発に繋がる。 しかし、これらのエージェントのほとんどは、市販のLMを用いた数発のプロンプト技術に依存している。 本稿では,言語エージェントを得るための微調整LMの見落とし方向について検討し,議論する。 Googleの検索APIを使った質問応答(QA)のセットアップを用いて、様々な基本LMを探索し、メソッド、微調整データ、QAタスクを誘導し、バックボーンLMを微調整した後、言語エージェントが一貫して改善されていることを見つける。 例えば、GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。 さらに,複数のタスクのトラジェクタを用いたlmsの微調整手法であるfireactを提案し,より多様な微調整データを持つことでエージェントをさらに改善できることを示す。 スケーリング効果,ロバスト性,一般化,効率,コストに関する他の知見とともに,エージェントのための微調整LMの包括的メリットを確立し,実験的な設計,洞察,および言語エージェントの微調整に対するオープンな質問のセットを提供する。

Recent efforts have augmented language models (LMs) with external tools or environments, leading to the development of language agents that can reason and act. However, most of these agents rely on few-shot prompting techniques with off-the-shelf LMs. In this paper, we investigate and argue for the overlooked direction of fine-tuning LMs to obtain language agents. Using a setup of question answering (QA) with a Google search API, we explore a variety of base LMs, prompting methods, fine-tuning data, and QA tasks, and find language agents are consistently improved after fine-tuning their backbone LMs. For example, fine-tuning Llama2-7B with 500 agent trajectories generated by GPT-4 leads to a 77% HotpotQA performance increase. Furthermore, we propose FireAct, a novel approach to fine-tuning LMs with trajectories from multiple tasks and prompting methods, and show having more diverse fine-tuning data can further improve agents. Along with other findings regarding scaling effects, robustness, generalization, efficiency and cost, our work establishes comprehensive benefits of fine-tuning LMs for agents, and provides an initial set of experimental designs, insights, as well as open questions toward language agent fine-tuning.
翻訳日:2023-10-10 16:59:20 公開日:2023-10-09
# NEFTune: インストラクションファインタニングを改善するノイズの埋め込み

NEFTune: Noisy Embeddings Improve Instruction Finetuning ( http://arxiv.org/abs/2310.05914v1 )

ライセンス: Link先を確認
Neel Jain, Ping-yeh Chiang, Yuxin Wen, John Kirchenbauer, Hong-Min Chu, Gowthami Somepalli, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 言語モデルの微調整は、単純な拡張によって、時には劇的に改善できることを示している。 NEFTuneはトレーニング中に埋め込みベクトルにノイズを追加する。 Alpacaを用いたLLaMA-2-7Bの標準的な微調整では、AlpacaEvalの29.79%が達成され、ノイズの多い埋め込みを使用して64.69%まで上昇する。 NEFTuneは、モダンな命令データセットの強いベースラインも改善している。 Evol-Instructでトレーニングされたモデルは10%改善され、ShareGPTは8%改善され、OpenPlatypusは8%改善された。 LLaMA-2-ChatのようなRLHFで改良された強力なモデルでさえNEFTuneでの追加訓練の恩恵を受けた。

We show that language model finetuning can be improved, sometimes dramatically, with a simple augmentation. NEFTune adds noise to the embedding vectors during training. Standard finetuning of LLaMA-2-7B using Alpaca achieves 29.79% on AlpacaEval, which rises to 64.69% using noisy embeddings. NEFTune also improves over strong baselines on modern instruction datasets. Models trained with Evol-Instruct see a 10% improvement, with ShareGPT an 8% improvement, and with OpenPlatypus an 8% improvement. Even powerful models further refined with RLHF such as LLaMA-2-Chat benefit from additional training with NEFTune.
翻訳日:2023-10-10 16:58:56 公開日:2023-10-09
# SALMON: 原則に従うリワードモデルによる自己調整

SALMON: Self-Alignment with Principle-Following Reward Models ( http://arxiv.org/abs/2310.05910v1 )

ライセンス: Link先を確認
Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan(参考訳) supervised fine-tuning (sft) on response demonstrations with reinforcement learning from human feedback (rlhf)は、llmベースのaiエージェントを調整するための強力なパラダイムである。 しかし、このようなアプローチの重大な制限は、高品質な人的アノテーションに依存しているため、一貫性のある応答の実証や配布内応答の嗜好を得るのが難しいため、複雑なタスクに応用することが困難である。 本稿では,基本言語モデルと最小限の人間の監督を両立させるための新しいアプローチであるサーモン(原則追従報酬モデルによる自己調整)を提案する。 私たちのアプローチの中心は原則に従う報酬モデルです。 このモデルは、合成選好データに基づいて、任意の人間定義原則に基づいて報酬スコアを生成することができる。 RLトレーニング期間中にこれらの原則を単に調整することで、報酬モデルによる嗜好を完全にコントロールし、その後、RLトレーニングされた政策の行動に影響を与え、オンライン人の嗜好の収集への依存をなくす。 提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。 コンテキスト内学習のための6つの例と31の人間定義原則によって、dromedary-2はさまざまなベンチマークデータセットでllama-2-chat-70bを含む最先端のaiシステムのパフォーマンスを大幅に上回っている。 我々は、llmベースのaiエージェントの監視効率の向上、制御性の向上、スケーラブルな監視に関するさらなる研究を促進するために、コードとモデルの重み付けをオープンソース化しました。

Supervised Fine-Tuning (SFT) on response demonstrations combined with Reinforcement Learning from Human Feedback (RLHF) constitutes a powerful paradigm for aligning LLM-based AI agents. However, a significant limitation of such an approach is its dependency on high-quality human annotations, making its application to intricate tasks challenging due to difficulties in obtaining consistent response demonstrations and in-distribution response preferences. This paper presents a novel approach, namely SALMON (Self-ALignMent with principle-fOllowiNg reward models), to align base language models with minimal human supervision, using only a small set of human-defined principles, yet achieving superior performance. Central to our approach is a principle-following reward model. Trained on synthetic preference data, this model can generate reward scores based on arbitrary human-defined principles. By merely adjusting these principles during the RL training phase, we gain full control over the preferences with the reward model, subsequently influencing the behavior of the RL-trained policies, and eliminating the reliance on the collection of online human preferences. Applying our method to the LLaMA-2-70b base language model, we developed an AI assistant named Dromedary-2. With only 6 exemplars for in-context learning and 31 human-defined principles, Dromedary-2 significantly surpasses the performance of several state-of-the-art AI systems, including LLaMA-2-Chat-70b, on various benchmark datasets. We have open-sourced the code and model weights to encourage further research into aligning LLM-based AI agents with enhanced supervision efficiency, improved controllability, and scalable oversight.
翻訳日:2023-10-10 16:58:43 公開日:2023-10-09