このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231025となっている論文です。

PDF登録状況(公開日: 20231025)

TitleAuthorsAbstract論文公表日・翻訳日
# RIPencapsulation: TI MSPデバイス上でIPカプセル化を定義する

RIPencapsulation: Defeating IP Encapsulation on TI MSP Devices ( http://arxiv.org/abs/2310.16433v1 )

ライセンス: Link先を確認
Prakhar Sah, Matthew Hicks, (参考訳) IoT(Internet of Things)デバイスは、ソフトウェアの複雑さと前例のないアタッカーアクセスの交差点に位置する。 プロプライエタリなコードと機密データの両方を、攻撃者が不正アクセスしたデバイス上でどうやって保護できるのか? Trusted Execution Environments (TEEs) は、ハードウェアベースの信頼性と信頼できない計算とデータの分離を通じて、この問題を解決することを約束している。 TEEはデスクトップクラスのデバイスでシークレットを保護するのに十分な仕事をしていますが、最も広く使用されている商用IoTデバイスの1つで作られたトレードオフが、TEEのセキュリティを損なうことは明らかです。 本稿では,MSP430 デバイスと MSP432 デバイス向けにテキサス・インスツルメンツが展開した TEE である IP Encapsulation (IPE) の2つの根本的な弱点を明らかにする。 IPE内のすべてのプロプライエタリなコードとシークレットデータを攻撃者が明らかにできるのは、予期せぬTEE離脱後のコールサイト強制と残留状態の欠如である。 我々は、ICP内のコードの一部を体系的に実行し、レジスタファイルから明らかになった部分状態を用いて秘密データを抽出し、ガジェット命令を識別するRIPencapsulationと呼ばれるアタックを設計、実装する。 攻撃はガジェット命令を使ってIPE内のすべてのプロプライエタリコードを明らかにする。 我々のコモディティデバイスとプロダクションコンパイラと設定による評価は、メーカーが推奨するセキュアなコーディングプラクティスに従えば、RIPencapsultaionは数分以内に、IPEが保護するサードパーティの暗号実装のコードとキーの両方を明らかにします。

Internet of Things (IoT) devices sit at the intersection of unwieldy software complexity and unprecedented attacker access. This unique position comes with a daunting security challenge: how can I protect both proprietary code and confidential data on a device that the attacker has unfettered access to? Trusted Execution Environments (TEEs) promise to solve this challenge through hardware-based separation of trusted and untrusted computation and data. While TEEs do an adequate job of protecting secrets on desktop-class devices, we reveal that trade-offs made in one of the most widely-used commercial IoT devices undermine their TEE's security. This paper uncovers two fundamental weaknesses in IP Encapsulation (IPE), the TEE deployed by Texas Instruments for MSP430 and MSP432 devices. We observe that lack of call site enforcement and residual state after unexpected TEE exits enable an attacker to reveal all proprietary code and secret data within the IPE. We design and implement an attack called RIPencapsulation, which systematically executes portions of code within the IPE and uses the partial state revealed through the register file to exfiltrate secret data and to identify gadget instructions. The attack then uses gadget instructions to reveal all proprietary code within the IPE. Our evaluation with commodity devices and a production compiler and settings shows that -- even after following all manufacturer-recommended secure coding practices -- RIPencapsultaion reveals, within minutes, both the code and keys from third-party cryptographic implementations protected by the IPE.
翻訳日:2024-03-25 13:55:39 公開日:2023-10-25
# 完全同型暗号を爆発する実用的プライバシ保存畳み込みニューラルネットワークを目指して

Toward Practical Privacy-Preserving Convolutional Neural Networks Exploiting Fully Homomorphic Encryption ( http://arxiv.org/abs/2310.16530v1 )

ライセンス: Link先を確認
Jaiyoung Park, Donghwan Kim, Jongmin Kim, Sangpyo Kim, Wonkyung Jung, Jung Hee Cheon, Jung Ho Ahn, (参考訳) 畳み込みニューラルネットワーク(CNN)の推論プロセスに完全同型暗号(FHE)を組み込むことは、プライベート推論(PI)を実現するための実行可能なアプローチとして、大きな注目を集めている。 FHEは、機密性の高いクライアント側データの機密性を確保しながら、計算プロセス全体をサーバに委譲することを可能にする。 しかし、CNNの実用的なFHE実装は、主にFHEの計算とメモリのオーバーヘッドが大きいため、大きなハードルに直面している。 これらの課題に対処するために,GPU/ASICアクセラレーション,効率的なアクティベーション機能,最適化されたパッキング方式など,一連の最適化を提案する。 CIFAR-10 と ImageNet データセット上の ResNet モデルを用いて本手法の評価を行い,前処理に比べて数桁の精度向上を実現し,NVIDIA A100 GPU 上での暗号化 CNN 推論のレイテンシを 1.4 秒に短縮した。 また、カスタムハードウェア設計でレイテンシがわずか0.03秒に低下することも示しています。

Incorporating fully homomorphic encryption (FHE) into the inference process of a convolutional neural network (CNN) draws enormous attention as a viable approach for achieving private inference (PI). FHE allows delegating the entire computation process to the server while ensuring the confidentiality of sensitive client-side data. However, practical FHE implementation of a CNN faces significant hurdles, primarily due to FHE's substantial computational and memory overhead. To address these challenges, we propose a set of optimizations, which includes GPU/ASIC acceleration, an efficient activation function, and an optimized packing scheme. We evaluate our method using the ResNet models on the CIFAR-10 and ImageNet datasets, achieving several orders of magnitude improvement compared to prior work and reducing the latency of the encrypted CNN inference to 1.4 seconds on an NVIDIA A100 GPU. We also show that the latency drops to a mere 0.03 seconds with a custom hardware design.
翻訳日:2024-03-25 13:55:39 公開日:2023-10-25
# 良性プロンプトを用いたテキスト・画像モデルからの安全でない画像の能動的生成について

On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts ( http://arxiv.org/abs/2310.16613v1 )

ライセンス: Link先を確認
Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang, (参考訳) 安定拡散のようなテキスト・ツー・イメージモデルは、テキストプロンプトからフォトリアリスティックな画像を生成すること、創造性を育み、様々なアプリケーションにおける視覚的体験を向上させることで、日常生活に大きな影響を与えてきた。 しかし、これらのモデルにもリスクが伴う。 従来の研究は、操作されたプロンプトがテキスト・ツー・イメージモデルを使って安全でない画像、たとえば憎しみのあるミームの変種を生成することを実証してきた。 しかし、これらの研究は、テキスト・ツー・イメージモデルの有害な力を受動的に解き放つだけである。 本研究では,標的ベニグインプロンプトを用いた安全でない画像の能動的生成に焦点を当てた。 基本攻撃と実用性維持攻撃の2つの毒素攻撃を提案する。 4つの代表的な憎しみのあるミームと複数のクエリプロンプトを用いて,提案した攻撃を質的,定量的に評価する。 実験結果から, テキスト・ツー・イメージ・モデルでは, 5種類の毒素が検出された場合でも, 基本攻撃に対して脆弱であることが示唆された。 しかし、中毒効果は必然的に非標的のプロンプトに広がり、望ましくない副作用を引き起こす。 根本原因分析は、概念的類似性を副作用の重要な寄与因子として同定する。 そこで本研究では,攻撃性能を良好に保ちつつ,攻撃のステルス性を維持するための対策としてユーティリティ保存攻撃を導入する。 本研究は,実世界のシナリオにテキスト・ツー・イメージ・モデルを採用する可能性について,今後の研究・安全対策の必要性を浮き彫りにしている。

Text-to-image models like Stable Diffusion have had a profound impact on daily life by enabling the generation of photorealistic images from textual prompts, fostering creativity, and enhancing visual experiences across various applications. However, these models also pose risks. Previous studies have successfully demonstrated that manipulated prompts can elicit text-to-image models to generate unsafe images, e.g., hateful meme variants. Yet, these studies only unleash the harmful power of text-to-image models in a passive manner. In this work, we focus on the proactive generation of unsafe images using targeted benign prompts via poisoning attacks. We propose two poisoning attacks: a basic attack and a utility-preserving attack. We qualitatively and quantitatively evaluate the proposed attacks using four representative hateful memes and multiple query prompts. Experimental results indicate that text-to-image models are vulnerable to the basic attack even with five poisoning samples. However, the poisoning effect can inadvertently spread to non-targeted prompts, leading to undesirable side effects. Root cause analysis identifies conceptual similarity as an important contributing factor to the side effects. To address this, we introduce the utility-preserving attack as a viable mitigation strategy to maintain the attack stealthiness, while ensuring decent attack performance. Our findings underscore the potential risks of adopting text-to-image models in real-world scenarios, calling for future research and safety measures in this space.
翻訳日:2024-03-25 13:55:39 公開日:2023-10-25
# マイクロアーキテクチャータイミングチャネルの存在を証明する

Proving the Absence of Microarchitectural Timing Channels ( http://arxiv.org/abs/2310.17046v1 )

ライセンス: Link先を確認
Scott Buckley, Robert Sison, Nils Wistoff, Curtis Millar, Toby Murray, Gerwin Klein, Gernot Heiser, (参考訳) マイクロアーキテクチャのタイミングチャネルは、コンピュータセキュリティにとって大きな脅威である。 タイムプロテクトと呼ばれるOS機構のセットが、そのようなチャネルを介して情報漏洩を防止するための原則的な方法として提案され、seL4マイクロカーネルでプロトタイプ化された。 時間保護と基盤となるハードウェア機構を,seL4に記憶チャネルがないことを示す情報フロー証明にリンクする方法として定式化する。

Microarchitectural timing channels are a major threat to computer security. A set of OS mechanisms called time protection was recently proposed as a principled way of preventing information leakage through such channels and prototyped in the seL4 microkernel. We formalise time protection and the underlying hardware mechanisms in a way that allows linking them to the information-flow proofs that showed the absence of storage channels in seL4.
翻訳日:2024-03-25 13:55:39 公開日:2023-10-25
# ロバスト脳年齢予測のための距離正規化を用いた正規化

Ordinal Classification with Distance Regularization for Robust Brain Age Prediction ( http://arxiv.org/abs/2403.10522v1 )

ライセンス: Link先を確認
Jay Shah, Md Mahfuzur Rahman Siddiquee, Yi Su, Teresa Wu, Baoxin Li, (参考訳) 年齢はアルツハイマー病(AD)の主要な危険因子の1つである。 AD早期検出は、効果的な治療と不可逆的な脳損傷の予防に不可欠である。 脳の年齢は、加齢による構造変化を反映した脳画像から導かれる指標であり、ADの発症を識別し、疾患リスクを評価し、標的とする介入を計画する可能性がある。 磁気共鳴画像(MRI)スキャンによる脳年齢予測のためのディープラーニングに基づく回帰手法は,近年,非常に精度が高い。 しかし、これらの手法は平均効果に固有の回帰の影響を受けており、体系的な偏りが生じ、若年者では脳年齢が過大評価され、老年者では過小評価される。 これにより、下流臨床応用のための有効なバイオマーカーとして、予測された脳年齢の信頼性が低下する。 そこで我々は,脳年齢予測タスクを回帰から分類へと再構成し,体系的バイアスの問題に対処する。 年齢ラベルの順序を組み込んだORDER(ordinal Distance Encoded Regularization)ロスを新たに提案し,年齢関連パターンを捉える能力を高めた。 大規模な実験とアブレーション研究により、このフレームワークは系統的なバイアスを減らし、統計的に有意なマージンで最先端の手法を上回り、独立したADデータセットにおける臨床グループ間の微妙な差異をよりよく捉えることができることを示した。 私たちの実装は***で公開されています。

Age is one of the major known risk factors for Alzheimer's Disease (AD). Detecting AD early is crucial for effective treatment and preventing irreversible brain damage. Brain age, a measure derived from brain imaging reflecting structural changes due to aging, may have the potential to identify AD onset, assess disease risk, and plan targeted interventions. Deep learning-based regression techniques to predict brain age from magnetic resonance imaging (MRI) scans have shown great accuracy recently. However, these methods are subject to an inherent regression to the mean effect, which causes a systematic bias resulting in an overestimation of brain age in young subjects and underestimation in old subjects. This weakens the reliability of predicted brain age as a valid biomarker for downstream clinical applications. Here, we reformulate the brain age prediction task from regression to classification to address the issue of systematic bias. Recognizing the importance of preserving ordinal information from ages to understand aging trajectory and monitor aging longitudinally, we propose a novel ORdinal Distance Encoded Regularization (ORDER) loss that incorporates the order of age labels, enhancing the model's ability to capture age-related patterns. Extensive experiments and ablation studies demonstrate that this framework reduces systematic bias, outperforms state-of-art methods by statistically significant margins, and can better capture subtle differences between clinical groups in an independent AD dataset. Our implementation is publicly available at ***.
翻訳日:2024-03-25 07:56:27 公開日:2023-10-25
# プロトタイプ画像分類におけるパッチビジュアライゼーションの正当性チェック

Sanity checks for patch visualisation in prototype-based image classification ( http://arxiv.org/abs/2311.16120v1 )

ライセンス: Link先を確認
Romain Xu-Darme (LSL, LIG), Georges Qu\'enot (LIG), Zakaria Chihani (LSL), Marie-Christine Rousset (LIG)(参考訳) 本研究では,プロトタイプに基づく2つの自己説明型視覚分類器であるProtoPNetとProtoTreeで実装された可視化手法の解析を行う。 このような手法は、画像内の関心領域を正しく識別せず、従ってモデル動作を反映せず、モデルに誤ったバイアスを生じさせる可能性があることを示す。 また、より忠実な画像パッチを提供する他のサリエンシ手法を使用することで、この問題を緩和できることを定量的に示す。

In this work, we perform an analysis of the visualisation methods implemented in ProtoPNet and ProtoTree, two self-explaining visual classifiers based on prototypes. We show that such methods do not correctly identify the regions of interest inside of the images, and therefore do not reflect the model behaviour, which can create a false sense of bias in the model. We also demonstrate quantitatively that this issue can be mitigated by using other saliency methods that provide more faithful image patches.
翻訳日:2024-01-15 15:25:07 公開日:2023-10-25
# GloVeとニューラルネットワークモデルを用いた多言語テキスト分類

Multi-label Text Classification using GloVe and Neural Network Models ( http://arxiv.org/abs/2312.03707v1 )

ライセンス: Link先を確認
Hongren Wang(参考訳) 本研究では,マルチラベルテキスト分類の課題に対処する。 困難は、不均衡なデータセット、様々なテキスト長、多数の主観的特徴ラベルによって生じる。 既存のソリューションには、予測のための従来の機械学習とディープニューラルネットワークが含まれる。 しかし、どちらのアプローチにも限界がある。 従来の機械学習は、単語間の関連性を見落としていることが多いが、深いニューラルネットワークは、より優れた分類性能にもかかわらず、トレーニングの複雑さと時間が増加する。 本稿では,GloVe モデルと CNN-BiLSTM ネットワークに基づくback-of-words モデル手法を提案する。 原則は、グラブモデルによって訓練された単語ベクトル行列をテキスト埋め込み層への入力として使うことである。 GloVeモデルはそれ以上のトレーニングを必要としないため、ニューラルネットワークモデルはより効率的にトレーニングすることができる。 この方法はテストセット上で87.26%の精度と0.8737のf1スコアを達成し、有望な結果を示す。

This study addresses the challenges of multi-label text classification. The difficulties arise from imbalanced data sets, varied text lengths, and numerous subjective feature labels. Existing solutions include traditional machine learning and deep neural networks for predictions. However, both approaches have their limitations. Traditional machine learning often overlooks the associations between words, while deep neural networks, despite their better classification performance, come with increased training complexity and time. This paper proposes a method utilizing the bag-of-words model approach based on the GloVe model and the CNN-BiLSTM network. The principle is to use the word vector matrix trained by the GloVe model as the input for the text embedding layer. Given that the GloVe model requires no further training, the neural network model can be trained more efficiently. The method achieves an accuracy rate of 87.26% on the test set and an F1 score of 0.8737, showcasing promising results.
翻訳日:2024-01-15 14:56:36 公開日:2023-10-25
# 未舗装道路におけるクラウドソーシングデータの評価

Evaluation of Crowdsourced Data on Unplowed Roads ( http://arxiv.org/abs/2311.10740v1 )

ライセンス: Link先を確認
Noah Goodall(参考訳) 交通機関は、メンテナンス活動を支援するために気象データを収集する。 スマートフォンの普及に伴い、多くの機関がクラウドソースデータを運用に使用し始めた。 本研究は、クラウドソーシングによる最大の交通データプロバイダwazeによる、新しい未整備道路データセットを評価した。 バージニア州の未舗装道路は、正確には国や州の気象データと比較され、報告の81%が雪のイベントの近くにあり、偽陽性は州全体で1日当たり約10回発生していた。 報告は主に主要道路に置かれており、監視の不十分な二次道路に最も関心を持つ交通機関にとって有用性を制限するものだった。 ソーシャルメディア上のターゲットメッセージを通じてWazeの未公開道路報告を促進する努力は、参加を増やさなかった。 報告の低さは、この機能の新規性、最近の穏やかな冬、あるいは新型コロナウイルスの学校とビジネスの閉鎖によるものかもしれない。

Transportation agencies routinely collect weather data to support maintenance activities. With the proliferation of smartphones, many agencies have begun using crowdsourced data in operations. This study evaluates a novel unplowed roads dataset from the largest crowdsourced transportation data provider Waze. User-reported unplowed roads in Virginia were compared to national and state weather data for accuracy, and found 81% of reports were near known snow events, with false positives occurring at a regular rate of approximately 10 per day statewide. Reports were largely located on primary roads, limiting the usefulness for transportation agencies who may be most concerned with poorly monitored secondary roads. An effort to encourage unplowed road reporting in Waze through targeted messages on social media did not increase participation. Low reporting may be due to the feature's novelty, recent mild winters, or COVID-19 school and business closures.
翻訳日:2023-11-27 01:01:08 公開日:2023-10-25
# TorchSparse++:GPU上のスパース畳み込みのための効率的なトレーニングと推論フレームワーク

TorchSparse++: Efficient Training and Inference Framework for Sparse Convolution on GPUs ( http://arxiv.org/abs/2311.12862v1 )

ライセンス: Link先を確認
Haotian Tang, Shang Yang, Zhijian Liu, Ke Hong, Zhongming Yu, Xiuyu Li, Guohao Dai, Yu Wang, Song Han(参考訳) スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。 計算パターンはスパースで不規則であるため、特殊な高性能カーネルが必要である。 既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。 GEMM-scatterデータフローは実装が容易であるが、性能面では最適ではないが、重なり合う計算とメモリアクセス(GEMMなど)を伴うデータフローは高い性能を持つが、エンジニアリングコストが非常に高い。 本稿では,torchsparse++を紹介する。torchsparse++は,両世界のベストを実現する新しいgpuライブラリである。 我々は、高性能なスパース畳み込みカーネルを生成する高効率なスパースカーネルジェネレータを、現在の最先端システムのエンジニアリングコストの10分の1以下で作成する。 これに加えて、既存のスパース畳み込みライブラリの設計スペースを拡張し、トレーニングと推論のワークロードに最適なデータフロー構成を検索するスパースオートチューニングを設計します。 その結果、TorchSparse++は、最先端のMinkowskiEngine、SpConv 1.2、TorchSparse、SpConv v2に対するNVIDIA A100 GPU上の2.9x、3.3x、2.2x、1.7xのエンドツーエンドのスピードアップを達成した。 グラフ畳み込みもシームレスにサポートし、最先端のグラフディープラーニングライブラリと比較して2.6-7.6倍の高速化を実現している。

Sparse convolution plays a pivotal role in emerging workloads, including point cloud processing in AR/VR, autonomous driving, and graph understanding in recommendation systems. Since the computation pattern is sparse and irregular, specialized high-performance kernels are required. Existing GPU libraries offer two dataflow types for sparse convolution. The gather-GEMM-scatter dataflow is easy to implement but not optimal in performance, while the dataflows with overlapped computation and memory access (e.g.implicit GEMM) are highly performant but have very high engineering costs. In this paper, we introduce TorchSparse++, a new GPU library that achieves the best of both worlds. We create a highly efficient Sparse Kernel Generator that generates performant sparse convolution kernels at less than one-tenth of the engineering cost of the current state-of-the-art system. On top of this, we design the Sparse Autotuner, which extends the design space of existing sparse convolution libraries and searches for the best dataflow configurations for training and inference workloads. Consequently, TorchSparse++ achieves 2.9x, 3.3x, 2.2x and 1.7x measured end-to-end speedup on an NVIDIA A100 GPU over state-of-the-art MinkowskiEngine, SpConv 1.2, TorchSparse and SpConv v2 in inference; and is 1.2-1.3x faster than SpConv v2 in mixed precision training across seven representative autonomous driving benchmarks. It also seamlessly supports graph convolutions, achieving 2.6-7.6x faster inference speed compared with state-of-the-art graph deep learning libraries.
翻訳日:2023-11-27 00:20:47 公開日:2023-10-25
# 音像定位とニューロン模倣に応用した活性生物デンドライトのエミュレートのための汎用回路

A versatile circuit for emulating active biological dendrites applied to sound localisation and neuron imitation ( http://arxiv.org/abs/2311.12861v1 )

ライセンス: Link先を確認
Daniel John Mannion(参考訳) 高度化された機械学習は、ニューラルネットワークの高消費電力消費のため、バッテリー駆動デバイスへの移行に苦労している。 研究者たちは、より効率的なソリューションのために、生物学的ニューラルネットワークにインスパイアされたニューロモルフィックエンジニアリングに目を向けました。 これまでの研究は人工ニューロンとシナプスに焦点を当てていたが、重要な要素はデンドライトである。 デンドライトはシナプスからの入力をニューロンの体に伝達し、受動的および能動的変換を施す。 しかし、ニューロモルフィック回路はこれらの洗練された計算チャネルを金属配線に置き換える。 本研究では,デンドライトのセグメントをエミュレートし,ゲインを示し,遅延を導入し,統合する多目的回路を提案する。 本稿では,既存の受動的デンドライト回路では音像定位は不可能であるが,提案回路を用いて実現可能であることを示す。 また、デンドライトは破裂するニューロンを形成できる。 この重要な発見は、デンドライト回路のみからなるニューラルネットワークを作る可能性を示唆している。

Sophisticated machine learning struggles to transition onto battery-operated devices due to the high-power consumption of neural networks. Researchers have turned to neuromorphic engineering, inspired by biological neural networks, for more efficient solutions. While previous research focused on artificial neurons and synapses, an essential component has been overlooked: dendrites. Dendrites transmit inputs from synapses to the neuron's soma, applying both passive and active transformations. However, neuromorphic circuits replace these sophisticated computational channels with metallic interconnects. In this study, we introduce a versatile circuit that emulates a segment of a dendrite which exhibits gain, introduces delays, and performs integration. We show how sound localisation - a biological example of dendritic computation - is not possible with the existing passive dendrite circuits but can be achieved using this proposed circuit. We also find that dendrites can form bursting neurons. This significant discovery suggests the potential to fabricate neural networks solely comprised of dendrite circuits.
翻訳日:2023-11-27 00:20:16 公開日:2023-10-25
# 特徴量に基づく視覚的説明法の安定性, 正確性, 妥当性について

On the stability, correctness and plausibility of visual explanation methods based on feature importance ( http://arxiv.org/abs/2311.12860v1 )

ライセンス: Link先を確認
Romain Xu-Darme (LSL, LIG), Jenny Benois-Pineau (LaBRI), Romain Giot (LaBRI), Georges Qu\'enot (LIG), Zakaria Chihani (LSL), Marie-Christine Rousset (LIG), Alexey Zhukov (LaBRI)(参考訳) 説明可能なaiの分野では、所望の特性の集合である説明法w.r.t.の質を評価するために、多重評価指標が提案されている。 本研究では,画像分類器の特徴量に基づく説明の安定性,正確性,信頼性について検討する。 これらの特性を評価するための既存の指標は必ずしも一致せず、説明のための優れた評価基準を構成するものの問題を提起する。 最後に、特定の安定性と正確性の場合、いくつかの評価指標の限界を示し、テスト中のモデルの局所的な振る舞いを考慮した新しい評価基準を提案する。

In the field of Explainable AI, multiples evaluation metrics have been proposed in order to assess the quality of explanation methods w.r.t. a set of desired properties. In this work, we study the articulation between the stability, correctness and plausibility of explanations based on feature importance for image classifiers. We show that the existing metrics for evaluating these properties do not always agree, raising the issue of what constitutes a good evaluation metric for explanations. Finally, in the particular case of stability and correctness, we show the possible limitations of some evaluation metrics and propose new ones that take into account the local behaviour of the model under test.
翻訳日:2023-11-27 00:19:57 公開日:2023-10-25
# 共同多視点協調クラスタリング

Joint Multi-View Collaborative Clustering ( http://arxiv.org/abs/2311.12859v1 )

ライセンス: Link先を確認
Yasser Khalafaoui (Alteca, ETIS), Basarab Matei (LIPN), Nistor Grozavu (ETIS), Martino Lovisetto (Alteca)(参考訳) データは複数のソースから収集され、複数のビューで説明されています。 これらのマルチビューデータは、従来のシングルビューデータよりもリッチな情報を提供する。 前者を特定のタスクに使用することは、マルチビュークラスタリングの重要なコンポーネントである。 マルチビュークラスタリングアルゴリズムの目的は、複数のビューで共有される共通の潜在構造を発見することであるため、提案されたソリューションの大部分は、マルチビューデータと最終的なコンセンサスの間の水平的なコラボレーションから得られた知識を組み込むことの利点を見落としている。 このギャップを埋めるために、非負行列因子化(NMF)と水平協調原理を用いた基本分割の生成を含むJMVCC(Joint Multi-View Collaborative Clustering)ソリューションを提案し、その後、アンサンブルクラスタリングを用いてこれらの局所分割を融合させる。 さらに,局所分割の生成と融合における負のコラボレーション(すなわち,低品質のビュー)のリスクを低減するための重み付け手法を提案する。 様々なデータセットを用いて得られた実験結果は、JMVCCが他のマルチビュークラスタリングアルゴリズムより優れており、ノイズの多いビューに対して堅牢であることを示している。

Data is increasingly being collected from multiple sources and described by multiple views. These multi-view data provide richer information than traditional single-view data. Fusing the former for specific tasks is an essential component of multi-view clustering. Since the goal of multi-view clustering algorithms is to discover the common latent structure shared by multiple views, the majority of proposed solutions overlook the advantages of incorporating knowledge derived from horizontal collaboration between multi-view data and the final consensus. To fill this gap, we propose the Joint Multi-View Collaborative Clustering (JMVCC) solution, which involves the generation of basic partitions using Non-negative Matrix Factorization (NMF) and the horizontal collaboration principle, followed by the fusion of these local partitions using ensemble clustering. Furthermore, we propose a weighting method to reduce the risk of negative collaboration (i.e., views with low quality) during the generation and fusion of local partitions. The experimental results, which were obtained using a variety of data sets, demonstrate that JMVCC outperforms other multi-view clustering algorithms and is robust to noisy views.
翻訳日:2023-11-27 00:19:47 公開日:2023-10-25
# RAEDiff: 自己生成と自己回復の可逆的逆例に基づく拡散確率モデル

RAEDiff: Denoising Diffusion Probabilistic Models Based Reversible Adversarial Examples Self-Generation and Self-Recovery ( http://arxiv.org/abs/2311.12858v1 )

ライセンス: Link先を確認
Fan Xing, Xiaoyi Zhou, Xuefeng Fan, Zhuo Tian, Yan Zhao(参考訳) 広範囲な努力によって得られた収集および注釈付きデータセットは、ディープニューラルネットワーク(DNN)モデルのトレーニングに有効である。 しかし、これらのデータセットは不正なユーザによって誤用されやすいため、データセット作成者が所有する知的財産権(ip)を侵害することになる。 Reversible Adversarial Exsamples (RAE)はデータセットのIP保護の問題を解決するのに役立つ。 RAEは、元のものに復元できる対角的摂動画像である。 最先端のアプローチとして、RAEスキームは、不正なモデルトレーニングに関わる不正なユーザを防止し、認証されたユーザの正当な使用を確実にする目的で有効である。 しかしながら、既存の研究では、RAEはいまだに組み込まれた補助情報を修復に頼っており、敵の能力を損なう可能性がある。 本稿では,DAM(Denoising Diffusion Probabilistic Models, DDPM)に基づいてRAEを生成するための新しい自己生成・自己回復手法であるRAEDiffを紹介した。 データセットをバイアスドガウス分布(BGD)に拡散させ、DDPMの以前の知識を利用してRAEの生成と回復を行う。 実験の結果、RAEDiffは人工知能生成コンテンツ(AIGC)モデルを含むDNNモデルに対する敵の摂動を効果的に自己生成し、また、かなりの自己回復能力を示した。

Collected and annotated datasets, which are obtained through extensive efforts, are effective for training Deep Neural Network (DNN) models. However, these datasets are susceptible to be misused by unauthorized users, resulting in infringement of Intellectual Property (IP) rights owned by the dataset creators. Reversible Adversarial Exsamples (RAE) can help to solve the issues of IP protection for datasets. RAEs are adversarial perturbed images that can be restored to the original. As a cutting-edge approach, RAE scheme can serve the purposes of preventing unauthorized users from engaging in malicious model training, as well as ensuring the legitimate usage of authorized users. Nevertheless, in the existing work, RAEs still rely on the embedded auxiliary information for restoration, which may compromise their adversarial abilities. In this paper, a novel self-generation and self-recovery method, named as RAEDiff, is introduced for generating RAEs based on a Denoising Diffusion Probabilistic Models (DDPM). It diffuses datasets into a Biased Gaussian Distribution (BGD) and utilizes the prior knowledge of the DDPM for generating and recovering RAEs. The experimental results demonstrate that RAEDiff effectively self-generates adversarial perturbations for DNN models, including Artificial Intelligence Generated Content (AIGC) models, while also exhibiting significant self-recovery capabilities.
翻訳日:2023-11-27 00:19:29 公開日:2023-10-25
# 高精度・弾力性のあるナンバープレート文字認識のための幾何マスクを用いた逆サンプル生成と訓練

Adversarial sample generation and training using geometric masks for accurate and resilient license plate character recognition ( http://arxiv.org/abs/2311.12857v1 )

ライセンス: Link先を確認
Bishal Shrestha, Griwan Khakurel, Kritika Simkhada, Badri Adhikari(参考訳) 走行車両における汚れたナンバープレートの正確な読み出しは,自動ナンバープレート認識システムでは困難である。 さらに、ナンバープレートは警察の不安を避けるために悪意のある意図で意図的に改ざんされることが多い。 通常、このようなグループや個人は、小さな目立たないプレート変更を行うことで、既存の認識システムを騙す方法を知っている。 このような現実世界の'アタック'プラクティスにレジリエントな深層学習手法の設計と開発は、現在も活発な研究課題である。 そこで本研究では,ライセンスプレートの文字を認識するレジリエントな手法を開発した。 最初のステップとして、ネパールの160台の車両から1057個の文字画像を抽出し、標準の深層畳み込みニューラルネットワークを訓練し、99.5%の文字分類精度を得た。 悪意のある改ざんをシミュレートするために生成された敵画像では,モデルの精度は25%に低下した。 次に,幾何学的にマスクされた画像の生成と追加を行い,モデルの再トレーニングを行い,モデルの予測を調査した。 生成した対向画像を用いたトレーニングのアプローチは、我々の対向攻撃対応プレート文字認識(AA-LPCR)モデルが99.7%の精度を達成するのに役立った。 このほぼ完全な精度は、ランダムな幾何マスキングのアイデアが、ナンバープレート認識モデルの精度向上に非常に有効であることを示す。 さらに,モデルが機能する理由を理解するために解釈可能性研究を行うことにより,入力文字画像中の攻撃性の高い領域を識別・強調する。 結論として,ネパールの実施したライセンスプレート検出システムは悪意のある攻撃に対して脆弱であるが,これらのシステムは100%のレジリエンスにアップグレード可能であることが示唆された。

Reading dirty license plates accurately in moving vehicles is challenging for automatic license plate recognition systems. Moreover, license plates are often intentionally tampered with a malicious intent to avoid police apprehension. Usually, such groups and individuals know how to fool the existing recognition systems by making minor unnoticeable plate changes. Designing and developing deep learning methods resilient to such real-world 'attack' practices remains an active research problem. As a solution, this work develops a resilient method to recognize license plate characters. Extracting 1057 character images from 160 Nepalese vehicles, as the first step, we trained several standard deep convolutional neural networks to obtain 99.5% character classification accuracy. On adversarial images generated to simulate malicious tampering, however, our model's accuracy dropped to 25%. Next, we enriched our dataset by generating and adding geometrically masked images, retrained our models, and investigated the models' predictions. The proposed approach of training with generated adversarial images helped our adversarial attack-aware license plate character recognition (AA-LPCR) model achieves an accuracy of 99.7%. This near-perfect accuracy demonstrates that the proposed idea of random geometric masking is highly effective for improving the accuracy of license plate recognition models. Furthermore, by performing interpretability studies to understand why our models work, we identify and highlight attack-prone regions in the input character images. In sum, although Nepal's embossed license plate detection systems are vulnerable to malicious attacks, our findings suggest that these systems can be upgraded to close to 100% resilience.
翻訳日:2023-11-27 00:19:01 公開日:2023-10-25
# llamarec: 大きな言語モデルによるランキングの2段階推薦

LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking ( http://arxiv.org/abs/2311.02089v1 )

ライセンス: Link先を確認
Zhenrui Yue, Sara Rabhi, Gabriel de Souza Pereira Moreira, Dong Wang, Even Oldridge(参考訳) 近年,大規模言語モデル (LLM) は言語理解と生成において大きな進歩を遂げている。 テキスト機能を活用することで、カスタマイズされたLLMをレコメンデーションに適用し、さまざまなレコメンデーションシナリオの改善を示す。 しかし、既存の手法の大半は、事前訓練された知識(例えば映画レコメンデーション)に大きく依存するトレーニングなしのレコメンデーションを実行する。 さらに、自己回帰生成によりLLMの推論が遅くなり、既存のメソッドのリアルタイムレコメンデーションに対する効果が低下する。 そこで我々は,ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。 特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。 そして、履歴と検索されたアイテムは、注意深く設計されたプロンプトテンプレートを介してテキストでllmに供給される。 次項目のタイトルを生成する代わりに,出力ロジットを候補項目上の確率分布に変換する,動詞型アプローチを採用する。 したがって、LlamaRecは長いテキストを生成することなく、アイテムを効率よくランク付けすることができる。 提案手法の有効性を検証するため,ベンチマークデータセット上での最先端のベースライン手法との比較を行った。 我々はLlamaRecの性能を実証し,レコメンデーション性能と効率の両面で常に優れた性能を実現している。

Recently, large language models (LLMs) have exhibited significant progress in language understanding and generation. By leveraging textual features, customized LLMs are also applied for recommendation and demonstrate improvements across diverse recommendation scenarios. Yet the majority of existing methods perform training-free recommendation that heavily relies on pretrained knowledge (e.g., movie recommendation). In addition, inference on LLMs is slow due to autoregressive generation, rendering existing methods less effective for real-time recommendation. As such, we propose a two-stage framework using large language models for ranking-based recommendation (LlamaRec). In particular, we use small-scale sequential recommenders to retrieve candidates based on the user interaction history. Then, both history and retrieved items are fed to the LLM in text via a carefully designed prompt template. Instead of generating next-item titles, we adopt a verbalizer-based approach that transforms output logits into probability distributions over the candidate items. Therefore, the proposed LlamaRec can efficiently rank items without generating long text. To validate the effectiveness of the proposed framework, we compare against state-of-the-art baseline methods on benchmark datasets. Our experimental results demonstrate the performance of LlamaRec, which consistently achieves superior performance in both recommendation performance and efficiency.
翻訳日:2023-11-12 19:44:29 公開日:2023-10-25
# Apollo: 複数の専門家によるゼロショットマルチモーダル推論

Apollo: Zero-shot MultiModal Reasoning with Multiple Experts ( http://arxiv.org/abs/2310.18369v1 )

ライセンス: Link先を確認
Daniela Ben-David, Tzuf Paz-Argaman, Reut Tsarfaty(参考訳) 本稿では,異なるモダリティやドメインに対する異なる基礎モデルの専門知識を活用し,プロンプトエンジニアリングやその他にカスタマイズされたマルチモーダルトレーニングを必要とせずに,単一の複雑なマルチモーダルタスクを実行するモジュールフレームワークを提案する。 我々のアプローチは、分散化されたコマンド実行を可能にし、各モデルが他のモデルの専門知識の貢献と利益の両方を可能にします。 提案手法は,プロンプトに依存しないため,言語モデルだけでなく,さまざまな基礎モデル(音声や視覚を含む)にも拡張することができる。 私たちは2つのタスクにアプローチを示します。 画像キャプションのスタイル化の課題として,提案手法はゼロショットであり,コストのかかるトレーニングやデータ収集,迅速なエンジニアリングを回避しつつ,半教師付き最先端モデルよりも優れていることを示す。 さらに,この手法を,画像と音声が付与される新たなタスクである音声認識画像キャプションで実証し,提供される音声のコンテキスト内で画像を記述するテキストを生成する。 コードはgithubから入手できます。

We propose a modular framework that leverages the expertise of different foundation models over different modalities and domains in order to perform a single, complex, multi-modal task, without relying on prompt engineering or otherwise tailor-made multi-modal training. Our approach enables decentralized command execution and allows each model to both contribute and benefit from the expertise of the other models. Our method can be extended to a variety of foundation models (including audio and vision), above and beyond only language models, as it does not depend on prompts. We demonstrate our approach on two tasks. On the well-known task of stylized image captioning, our experiments show that our approach outperforms semi-supervised state-of-the-art models, while being zero-shot and avoiding costly training, data collection, and prompt engineering. We further demonstrate this method on a novel task, audio-aware image captioning, in which an image and audio are given and the task is to generate text that describes the image within the context of the provided audio. Our code is available on GitHub.
翻訳日:2023-11-05 13:56:20 公開日:2023-10-25
# GPTモデルにおけるムスリム・ヴィオレンスバイアスパーシスト

Muslim-Violence Bias Persists in Debiased GPT Models ( http://arxiv.org/abs/2310.18368v1 )

ライセンス: Link先を確認
Babak Hemmatian, Razan Baltaji, Lav R. Varshney(参考訳) Abid et al. (2021)は、他の宗教と比較してイスラム教徒に対して暴力的な完成をもたらす傾向を示した。 事前登録された2つの複製の試みでは、暴力的な完了がほとんどなく、インストラクト版で最も弱い反ムスリムバイアスのみが見出され、偏りと有害な出力を除去するために微調整された。 しかし、より事前登録された実験では、宗教に関連する一般的な名前を使って暴力的な完成率を数倍に増やすことが示され、ムスリムに対する二階偏見は極めて顕著であった。 内容分析の結果、急激な形式によらず、非常に攻撃的な考えを含む宗教特有の暴力的テーマが明らかになった。 ChatGPTとの重複は、GPT-3の脱バイアスの影響は、モデル開発が継続して消失し、新しいモデルでは、強いイスラム教徒の暴力バイアスと、アブドらに近い暴力的な完成率(2021年)の両方が示されたことを示唆している。 以上の結果から,高次関係に対処したモデルの連続的脱バイアスの必要性が示唆された。

Abid et al. (2021) showed a tendency in GPT-3 to generate violent completions when prompted about Muslims, compared with other religions. Two pre-registered replication attempts found few violent completions and only the weakest anti-Muslim bias in the Instruct version, fine-tuned to eliminate biased and toxic outputs. However, more pre-registered experiments showed that using common names associated with the religions in prompts increases several-fold the rate of violent completions, revealing a highly significant second-order bias against Muslims. Our content analysis revealed religion-specific violent themes containing highly offensive ideas regardless of prompt format. Replications with ChatGPT suggest that any effects of GPT-3's de-biasing have disappeared with continued model development, as this newer model showed both a strong Muslim-violence bias and rates of violent completions closer to Abid et al. (2021). Our results show the need for continual de-biasing of models in ways that address higher-order associations.
翻訳日:2023-11-05 13:41:18 公開日:2023-10-25
# 化合物のクラスタリングと創発性を高める分子埋め込みの教師なし学習

Unsupervised Learning of Molecular Embeddings for Enhanced Clustering and Emergent Properties for Chemical Compounds ( http://arxiv.org/abs/2310.18367v1 )

ライセンス: Link先を確認
Jaiveer Gill, Ratul Chakraborty, Reetham Gubba, Amy Liu, Shrey Jain, Chirag Iyer, Obaid Khwaja, Saurav Kumar(参考訳) 分子構造と性質の詳細な分析は、機械学習による薬物開発発見に大きな可能性を秘めている。 分子を理解するためにモデルに創発的な特性を開発することは、新しい計算ツールで開発のための地平を広げる。 SMILESデータに基づく化合物の検出とクラスタリングのための様々な手法を提案する。 組込みデータを用いて化学化合物のグラフィカル構造を分析する最初の方法は,しきい値を満たすためにベクトル探索を用いる。 その結果, 高い濃度のクラスターが得られ, 化合物の問合せや理解において良好な結果が得られた。 また、GPT3.5を用いたベクトルデータベースに格納された自然言語記述埋め込みを用い、ベースモデルより優れていた。 そこで我々は,分子の探索と相互作用を支援する類似性探索とクラスタリングアルゴリズムを導入し,化学探索の効率を高め,分子特性予測モデルにおける創発的特性の今後の発展を可能にする。

The detailed analysis of molecular structures and properties holds great potential for drug development discovery through machine learning. Developing an emergent property in the model to understand molecules would broaden the horizons for development with a new computational tool. We introduce various methods to detect and cluster chemical compounds based on their SMILES data. Our first method, analyzing the graphical structures of chemical compounds using embedding data, employs vector search to meet our threshold value. The results yielded pronounced, concentrated clusters, and the method produced favorable results in querying and understanding the compounds. We also used natural language description embeddings stored in a vector database with GPT3.5, which outperforms the base model. Thus, we introduce a similarity search and clustering algorithm to aid in searching for and interacting with molecules, enhancing efficiency in chemical exploration and enabling future development of emergent properties in molecular property prediction models.
翻訳日:2023-11-05 13:40:58 公開日:2023-10-25
# セルフアタッチメントのための多言語仮想ガイド

A Multilingual Virtual Guide for Self-Attachment Technique ( http://arxiv.org/abs/2310.18366v1 )

ライセンス: Link先を確認
Alicia Jiayun Law, Ruoyu Hu, Lisa Alazraki, Anandha Gopalan, Neophytos Polydorou, Abbas Edalat(参考訳) 本研究では,既存の言語外データを活用し,マンダリンにおける自己付着技術(SAT)配信のための対話エージェントを作成するための計算フレームワークを提案する。 我々のフレームワークは大規模な人間翻訳を必要としないが、安全性と信頼性を維持しつつ、同等のパフォーマンスを実現している。 共感的書き換えにより利用可能な応答データを拡張する方法を2つ提案する。 従来の英語のみのSATチャットボット(N=42)に対して,5日間の臨床試験(N=42)を通じてチャットボットを評価し,英語のSATチャットボットと同等のパフォーマンスが得られることを示す。 我々は,今後の改善を導くために,研究の限界と提案の質的分析を行う。

In this work, we propose a computational framework that leverages existing out-of-language data to create a conversational agent for the delivery of Self-Attachment Technique (SAT) in Mandarin. Our framework does not require large-scale human translations, yet it achieves a comparable performance whilst also maintaining safety and reliability. We propose two different methods of augmenting available response data through empathetic rewriting. We evaluate our chatbot against a previous, English-only SAT chatbot through non-clinical human trials (N=42), each lasting five days, and quantitatively show that we are able to attain a comparable level of performance to the English SAT chatbot. We provide qualitative analysis on the limitations of our study and suggestions with the aim of guiding future improvements.
翻訳日:2023-11-05 13:40:43 公開日:2023-10-25
# GPT-4を用いた自動スコーリングのためのアンバランスデータの拡張

Using GPT-4 to Augment Unbalanced Data for Automatic Scoring ( http://arxiv.org/abs/2310.18365v1 )

ライセンス: Link先を確認
Luyang Fang, Gyeong-Geon Lee and Xiaoming Zhai(参考訳) 機械学習に基づく自動スコアリングは, 学習過程における不確実性を導入するため, スコアリングカテゴリー間で学生の反応が不均衡である場合, 課題となる。 この課題を克服するために,自動スコアリングにおける不均衡データセットに特化した生成型大規模言語モデルgpt-4を活用した,新たなテキストデータ拡張フレームワークを提案する。 実験データセットは,2つの科学項目に対する学生の回答から構成した。 我々は、GPT-4が学生の回答、特にマイノリティスコアリングクラスに類似した応答を生成し、データを増強するプロンプトを作成した。 次に、拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。 モデル性能は精度、精度、リコール、F1メトリクスを用いて評価された。 その結果, GPT-4を付加したデータの導入により, モデル性能, 特に精度, リコール, F1スコアが向上した。 興味深いことに、改善の程度は特定のデータセットと使用される拡張データの割合によって異なる。 特に,自動スコアリングのための安定した改善を得るためには,様々な拡張データ(5\%-40\%)が必要であった。 また,GPT-4の強化データを用いて訓練したモデルの精度を,追加の学生による回答で訓練したモデルと比較した。 その結果, GPT-4の強化スコアリングモデルは, 生徒が書き込んだデータで訓練したモデルよりも優れ, あるいは適合していることがわかった。 本研究は、自動評価における不均衡データセットに対処するための生成型大規模言語モデル-gpt-4を用いたデータ拡張手法の可能性と有効性を強調している。

Machine learning-based automatic scoring can be challenging if students' responses are unbalanced across scoring categories, as it introduces uncertainty in the machine training process. To meet this challenge, we introduce a novel text data augmentation framework leveraging GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student written responses to two science items. We crafted prompts for GPT-4 to generate responses resembling student written answers, particularly for the minority scoring classes, to augment the data. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 metrics. Our findings revealed that incorporating GPT-4-augmented data remarkedly improved model performance, particularly for precision, recall, and F1 scores. Interestingly, the extent of improvement varied depending on the specific dataset and the proportion of augmented data used. Notably, we found that a varying amount of augmented data (5\%-40\%) was needed to obtain stable improvement for automatic scoring. We also compared the accuracies of models trained with GPT-4 augmented data to those trained with additional student-written responses. Results suggest that the GPT-4 augmented scoring models outperform or match the models trained with student-written augmented data. This research underscores the potential and effectiveness of data augmentation techniques utilizing generative large language models--GPT-4 in addressing unbalanced datasets within automated assessment.
翻訳日:2023-11-05 13:40:31 公開日:2023-10-25
# FuXi-Extreme:拡散モデルによる豪雨と風速予測の改善

FuXi-Extreme: Improving extreme rainfall and wind forecasts with diffusion model ( http://arxiv.org/abs/2310.19822v1 )

ライセンス: Link先を確認
Xiaohui Zhong and Lei Chen and Jun Liu and Chensen Lin and Yuan Qi and Hao Li(参考訳) 天気予報のための機械学習(ML)モデルの開発における重要な進歩は、顕著な成果をもたらした。 FuXiのような最先端のMLベースの天気予報モデルは、欧州中レージ気象予報センター(ECMWF)の高解像度予測(HRES)と比較して、優れた統計予測性能を示している。 しかし、MLモデルは共通の課題に直面しており、予測のリードタイムが増加するにつれて、ますますスムーズな予測が生まれ、極端な気象現象の強度が過小評価される傾向にある。 そこで我々は,fuxi-extremeモデルを開発した。このモデルでは,denoising diffusion probabilistic model (ddpm) を用いて,fuxiモデルが生成する表面予測データの詳細を5日間の予測で復元する。 最大降水量 (\textrm{TP}$), 10メートル風速 (\textrm{WS10}$), 2メートル温度 (\textrm{T2M}$) の評価は,FuXi と HRES の双方に対してFuXi-Extremeの優れた性能を示している。 また,IFTrACS(International Best Track Archive for Climate Stewardship)データセットに基づく熱帯サイクロン(TC)予測の評価では,FuxiとFuXi-Extremeの両者とも,HRESと比較してTCトラック予測において優れた性能を示したが,HRESと比較してTC強度予測では劣った性能を示した。

Significant advancements in the development of machine learning (ML) models for weather forecasting have produced remarkable results. State-of-the-art ML-based weather forecast models, such as FuXi, have demonstrated superior statistical forecast performance in comparison to the high-resolution forecasts (HRES) of the European Centre for Medium-Range Weather Forecasts (ECMWF). However, ML models face a common challenge: as forecast lead times increase, they tend to generate increasingly smooth predictions, leading to an underestimation of the intensity of extreme weather events. To address this challenge, we developed the FuXi-Extreme model, which employs a denoising diffusion probabilistic model (DDPM) to restore finer-scale details in the surface forecast data generated by the FuXi model in 5-day forecasts. An evaluation of extreme total precipitation ($\textrm{TP}$), 10-meter wind speed ($\textrm{WS10}$), and 2-meter temperature ($\textrm{T2M}$) illustrates the superior performance of FuXi-Extreme over both FuXi and HRES. Moreover, when evaluating tropical cyclone (TC) forecasts based on International Best Track Archive for Climate Stewardship (IBTrACS) dataset, both FuXi and FuXi-Extreme shows superior performance in TC track forecasts compared to HRES, but they show inferior performance in TC intensity forecasts in comparison to HRES.
翻訳日:2023-11-05 13:29:15 公開日:2023-10-25
# 混合モードをもつ非対称角度からのマルチモーダルコンテンツモデレーションの再考

Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality ( http://arxiv.org/abs/2305.10547v2 )

ライセンス: Link先を確認
Jialin Yuan, Ye Yu, Gaurav Mittal, Matthew Hall, Sandra Sajeev, Mei Chen(参考訳) ソーシャルメディア上のコンテンツが本質的にマルチモーダルであることから、マルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。 既存のユニモーダルCMシステムは、モダリティ(ミームやビデオなど)を横断する有害なコンテンツをキャッチできず、深刻な結果をもたらす可能性がある。 本稿では,マルチモーダルおよびユニモーダルcmタスクを対象とする新しいcmモデルであるasymmetric mixed-modal moderation (am3)を提案する。 具体的には、視覚と言語間の意味論における非対称性に対処するため、AM3は、両モードの共通知識を融合させるだけでなく、各モードにおけるユニークな情報を活用するために設計された、新しい非対称融合アーキテクチャを持つ。 多様性(multimodality)と一様性(unimodality)で伝達される情報(asymmetry in modalities)の間に本質的な違いを見落としながら、2つのモダリティを融合することに焦点を当てた以前の著作とは異なり、我々は多様性にのみ現れる一意的な知識を学ぶために、新しい交叉モダリティ(cross-modality)の対比的損失を提案する。 これは、有害な意図が両方のモダリティの交叉を通してのみ伝達されるため、重要である。 広範囲な実験により、AM3はマルチモーダルCMベンチマークとユニモーダルCMベンチマークの両方において、既存の最先端手法よりも優れていることを示す。

There is a rapidly growing need for multimodal content moderation (CM) as more and more content on social media is multimodal in nature. Existing unimodal CM systems may fail to catch harmful content that crosses modalities (e.g., memes or videos), which may lead to severe consequences. In this paper, we present a novel CM model, Asymmetric Mixed-Modal Moderation (AM3), to target multimodal and unimodal CM tasks. Specifically, to address the asymmetry in semantics between vision and language, AM3 has a novel asymmetric fusion architecture that is designed to not only fuse the common knowledge in both modalities but also to exploit the unique information in each modality. Unlike previous works that focus on fusing the two modalities while overlooking the intrinsic difference between the information conveyed in multimodality and in unimodality (asymmetry in modalities), we propose a novel cross-modality contrastive loss to learn the unique knowledge that only appears in multimodality. This is critical as some harmful intent may only be conveyed through the intersection of both modalities. With extensive experiments, we show that AM3 outperforms all existing state-of-the-art methods on both multimodal and unimodal CM benchmarks.
翻訳日:2023-10-30 18:20:02 公開日:2023-10-25
# 効率的なニューラルネットワーク探索空間定義へのアプローチ

An Approach for Efficient Neural Architecture Search Space Definition ( http://arxiv.org/abs/2310.17669v1 )

ライセンス: Link先を確認
L\'eo Pouy (ESTACA'Lab), Fouad Khenfri (ESTACA'Lab), Patrick Leserf (ESTACA'Lab), Chokri Mraidha (LIST (CEA)), Cherif Larouci (ESTACA'Lab)(参考訳) 私たちが急速に成長する機械学習の時代に進むにつれ、様々な新しい複雑なニューラルネットワークが問題にもっと効率的に取り組み始めている。 一方で、それらの効率的な利用には高度な知識と専門知識が必要であり、労働市場で見つけるのが困難である。 一方、最適化されたニューラルネットワークの探索は、試行錯誤アプローチを用いて手動で行う場合の時間を要する作業である。 したがって、ニューラルネットワークのユーザを支援するための方法とツールサポートが必要であり、Automatic Machine Learning(AutoML)の分野における熱意に繋がる。 ディープラーニングに関しては、AutoMLの重要な部分はNeural Architecture Search(NAS)である。 本稿では,理解や操作が容易な新しいセルベース階層型検索空間を提案する。 提案手法の目的は,検索時間の最適化と,CNN(Convolutional Neural Networks)アーキテクチャの最先端処理に十分な汎用性を実現することである。

As we advance in the fast-growing era of Machine Learning, various new and more complex neural architectures are arising to tackle problem more efficiently. On the one hand their efficient usage requires advanced knowledge and expertise, which is most of the time difficult to find on the labor market. On the other hand, searching for an optimized neural architecture is a time-consuming task when it is performed manually using a trial and error approach. Hence, a method and a tool support is needed to assist users of neural architectures, leading to an eagerness in the field of Automatic Machine Learning (AutoML). When it comes to Deep Learning, an important part of AutoML is the Neural Architecture Search (NAS). In this paper, we propose a novel cell-based hierarchical search space, easy to comprehend and manipulate. The objectives of the proposed approach are to optimize the search-time and to be general enough to handle most of state of the art Convolutional Neural Networks (CNN) architectures.
翻訳日:2023-10-30 16:28:16 公開日:2023-10-25
# 機械学習による早期結核検出 : よりアクセシブルなグローバルトリアージ利用を目指して

Early Detection of Tuberculosis with Machine Learning Cough Audio Analysis: Towards More Accessible Global Triaging Usage ( http://arxiv.org/abs/2310.17675v1 )

ライセンス: Link先を確認
Chandra Suda(参考訳) 肺に主に影響を及ぼす細菌性疾患である結核(tb)は、世界でも有数の感染症の死因の一つである。 生命を脅かす合併症を引き起こす体内におけるTBの拡散を防止するために、タイムリーかつ効果的な抗TB治療が重要である。 TBの客観的バイオマーカーであるCoughは、治療反応をモニターし、治療を成功させるトリアージツールである。 TB診断のための現在の金の基準は、特にTBが最も普及している農村部では遅いかアクセス不能である。 さらに、胸部X線写真などの現在の機械学習(ML)診断研究は効果がなく、治療の進行を監視できない。 効果的な診断を実現するため,新しいMLアーキテクチャを用いてスマートフォンのマイクから音響疫学を解析し,TBを検出するアンサンブルモデルを開発した。 このアーキテクチャには2d-cnnとxgboostが含まれ、724,964のcoughオーディオサンプルと7カ国の人口統計に基づいてトレーニングされた。 特徴抽出 (Mel-spectrograms) とデータ拡張 (IR-畳み込み) を経て,AUROC (受信演算子特性下) の88%を達成し, WHOの検査基準を超越した。 結果は15秒以内に提供され、モバイルアプリから簡単にアクセスできる。 この研究は、正確で高速でアクセス可能なトリージングツールを通じて、tb診断を改善するのに役立つ。

Tuberculosis (TB), a bacterial disease mainly affecting the lungs, is one of the leading infectious causes of mortality worldwide. To prevent TB from spreading within the body, which causes life-threatening complications, timely and effective anti-TB treatment is crucial. Cough, an objective biomarker for TB, is a triage tool that monitors treatment response and regresses with successful therapy. Current gold standards for TB diagnosis are slow or inaccessible, especially in rural areas where TB is most prevalent. In addition, current machine learning (ML) diagnosis research, like utilizing chest radiographs, is ineffective and does not monitor treatment progression. To enable effective diagnosis, an ensemble model was developed that analyzes, using a novel ML architecture, coughs' acoustic epidemiologies from smartphones' microphones to detect TB. The architecture includes a 2D-CNN and XGBoost that was trained on 724,964 cough audio samples and demographics from 7 countries. After feature extraction (Mel-spectrograms) and data augmentation (IR-convolution), the model achieved AUROC (area under the receiving operator characteristic) of 88%, surpassing WHO's requirements for screening tests. The results are available within 15 seconds and can easily be accessible via a mobile app. This research helps to improve TB diagnosis through a promising accurate, quick, and accessible triaging tool.
翻訳日:2023-10-30 16:11:40 公開日:2023-10-25
# テキストスポッティングとレイアウト解析のための階層型テキストスポッター

Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis ( http://arxiv.org/abs/2310.17674v1 )

ライセンス: Link先を確認
Shangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco, Michalis Raptis(参考訳) 単語レベルのテキストスポッティングと幾何学的レイアウト解析の結合作業のための新しい手法である階層テキストスポッター(HTS)を提案する。 HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。 提案するHTSは,(1)テキスト行のベジエ曲線多角形を生成するUDP(Unified-Detector-Polygon)と,(2)文字を文字に分割し,さらに単語にマージするL2C2W(Line-to-Character-to-Word)認識器を特徴とする。 HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。

We propose Hierarchical Text Spotter (HTS), a novel method for the joint task of word-level text spotting and geometric layout analysis. HTS can recognize text in an image and identify its 4-level hierarchical structure: characters, words, lines, and paragraphs. The proposed HTS is characterized by two novel components: (1) a Unified-Detector-Polygon (UDP) that produces Bezier Curve polygons of text lines and an affinity matrix for paragraph grouping between detected lines; (2) a Line-to-Character-to-Word (L2C2W) recognizer that splits lines into characters and further merges them back into words. HTS achieves state-of-the-art results on multiple word-level text spotting benchmark datasets as well as geometric layout analysis tasks.
翻訳日:2023-10-30 16:11:15 公開日:2023-10-25
# 強化学習型制御器のモデルからハードウェア・イン・ザ・ループへの移動

Transfer of Reinforcement Learning-Based Controllers from Model- to Hardware-in-the-Loop ( http://arxiv.org/abs/2310.17671v1 )

ライセンス: Link先を確認
Mario Picerno, Lucas Koch, Kevin Badalian, Marius Wegener, Joschka Schaub, Charles Robert Koch, and Jakob Andert(参考訳) 組み込みシステムの制御関数を開発するプロセスは、リソース、時間、データ集約であり、しばしば最適以下のコストとソリューションアプローチをもたらす。 強化学習(Reinforcement Learning, RL)は、人間の介入を最小限に抑えて複雑な制御タスクを自律的に行うことができる。 しかし、コストのかかるデータ生成と安全性の制約のため、そのアプリケーションは純粋にシミュレートされたドメインに限られている。 RLを組み込みシステム機能開発で効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。 本稿では,トランスファー・ラーニング (tl) と x-in-the-loop (xil) シミュレーションを組み合わせることで,rlエージェントの学習プロセスを高速化する。 内燃機関における過渡排気ガス再循環制御のユースケースとして、計算コストの低いモデル・イン・ザ・ループ(MiL)シミュレーションを用いて、適切なアルゴリズム、微調整ハイパーパラメータを選択し、最終的に移行候補エージェントを訓練する。 これらの事前訓練されたRLエージェントは、TLを介してハードウェア・イン・ザ・ループ(HiL)システムで微調整される。 この転送により、実際のハードウェアに進む際に報酬パラメータを調整する必要性が明らかになった。 また, 純粋なHiL添加剤と移行剤との比較では, トレーニング時間を5.9倍に短縮した。 その結果、実際のハードウェアでRLエージェントをトレーニングする必要があることが強調され、移行ポリシーの成熟度がトレーニング時間と性能の両方に影響を与えることが示され、TLとXiLシミュレーションの強い相乗効果が強調された。

The process of developing control functions for embedded systems is resource-, time-, and data-intensive, often resulting in sub-optimal cost and solutions approaches. Reinforcement Learning (RL) has great potential for autonomously training agents to perform complex control tasks with minimal human intervention. Due to costly data generation and safety constraints, however, its application is mostly limited to purely simulated domains. To use RL effectively in embedded system function development, the generated agents must be able to handle real-world applications. In this context, this work focuses on accelerating the training process of RL agents by combining Transfer Learning (TL) and X-in-the-Loop (XiL) simulation. For the use case of transient exhaust gas re-circulation control for an internal combustion engine, use of a computationally cheap Model-in-the-Loop (MiL) simulation is made to select a suitable algorithm, fine-tune hyperparameters, and finally train candidate agents for the transfer. These pre-trained RL agents are then fine-tuned in a Hardware-in-the-Loop (HiL) system via TL. The transfer revealed the need for adjusting the reward parameters when advancing to real hardware. Further, the comparison between a purely HiL-trained and a transferred agent showed a reduction of training time by a factor of 5.9. The results emphasize the necessity to train RL agents with real hardware, and demonstrate that the maturity of the transferred policies affects both training time and performance, highlighting the strong synergies between TL and XiL simulation.
翻訳日:2023-10-30 16:10:57 公開日:2023-10-25
# 予測保守アプリケーションにおける集団決定に基づく深層学習ネットワークを用いた未知の健康状態認識

Unknown Health States Recognition With Collective Decision Based Deep Learning Networks In Predictive Maintenance Applications ( http://arxiv.org/abs/2310.17670v1 )

ライセンス: Link先を確認
Chuyue Lou and M. Amine Atoui(参考訳) 現在、ディープラーニング(DL)モデルに基づいて開発された意思決定ソリューションは、予測保守(PM)アプリケーションにおいて、計算能力の急速な向上とともに大きな注目を集めている。 共有重みと空間プールの優れた特性に基づいて、畳み込みニューラルネットワーク(CNN)は産業データから健康状態の効果的な表現を学習することができる。 残差学習やマルチスケール学習を導入した先進的なCNNのようなCNNベースのスキームの多くは、すべてのクラスが知られているという仮定の下で、健康状態認識タスクにおいて優れたパフォーマンスを示している。 しかし、これらのスキームはトレーニングセットの一部ではない状態クラスに属する新しい異常なサンプルを扱うことができない。 本稿では,異なるCNNを対象とした集団決定フレームワークを提案する。 One-vs-Restネットワーク(OVRN)に基づいて、既知の状態と未知の状態を同時に分類する。 OVRNは、状態固有の識別機能を学び、異なるCNNに組み込まれた新しい異常サンプルを拒否する能力を高める。 テネシー・イーストマン・プロセス(TEP)の公開データセットの検証結果によると、OVRNを組み込んだCNNベースの決定スキームは、未知のヒース状態のサンプルに対して優れた認識能力を有し、既知の状態の良好な精度を維持している。 その結果、新しいdlフレームワークは従来のcnnよりも優れており、残差学習とマルチスケール学習に基づくフレームワークは全体的なパフォーマンスが最高であることがわかった。

At present, decision making solutions developed based on deep learning (DL) models have received extensive attention in predictive maintenance (PM) applications along with the rapid improvement of computing power. Relying on the superior properties of shared weights and spatial pooling, Convolutional Neural Network (CNN) can learn effective representations of health states from industrial data. Many developed CNN-based schemes, such as advanced CNNs that introduce residual learning and multi-scale learning, have shown good performance in health state recognition tasks under the assumption that all the classes are known. However, these schemes have no ability to deal with new abnormal samples that belong to state classes not part of the training set. In this paper, a collective decision framework for different CNNs is proposed. It is based on a One-vs-Rest network (OVRN) to simultaneously achieve classification of known and unknown health states. OVRN learn state-specific discriminative features and enhance the ability to reject new abnormal samples incorporated to different CNNs. According to the validation results on the public dataset of Tennessee Eastman Process (TEP), the proposed CNN-based decision schemes incorporating OVRN have outstanding recognition ability for samples of unknown heath states, while maintaining satisfactory accuracy on known states. The results show that the new DL framework outperforms conventional CNNs, and the one based on residual and multi-scale learning has the best overall performance.
翻訳日:2023-10-30 16:10:30 公開日:2023-10-25
# 環境にともなう作業抽出

Environmental-induced work extraction ( http://arxiv.org/abs/2310.17809v1 )

ライセンス: Link先を確認
Rasim Volga Ovali, Shakir Ullah, Mehmet Gunay and Mehmet Emre Tasgin(参考訳) 局所的な測定は、例えば、2つの絡み合ったキャビティ(第1のキャビティ、第1のキャビティ、第1のキャビティ、第1のキャビティ、第2のキャビティ、第2のキャビティ上で測定されるピストンを含む)のシステムにおいて、バックアクションとして仕事を抽出する。 誰も空洞を$b$で測定しない場合、つまり単に真空状態に置かれ、環境モニタリングは、選択されたポインタ状態(測定基準) [PRL 70, 1187 (1993)] としてコヒーレントな状態をもたらす。 これにより、自然自体が作用する測定は、固定強度のガウス式である$\lambda=1$ となる。 これは自然が特定の絡み合い度 $0\leq \xi(r) \leq 1$, すなわち$W=\xi(r)\times(\bar{n}\hbar\omega_a)$ に \textit{fixed} の作業量を割り当てていることを示している。 その後、この現象は一般に2つのキャビティ系に限定されないことを示す。 また、この文脈において、継承されたシンメトリゼーションの絡み合いの影響についても触れる。 我々は、仕事が単に無作為に動く微小成分(平均速度)を方向性(すなわちゼロでない平均速度)に変換する過程であると考えることで、追加の現象にたどり着くことができる。 このような運動特性の変化は、一般相対性理論による時空の曲率をもたらすことを示す。 この現象は、量子光学的引数のみを用いて、絡み合いと曲率の間の量的関係を初めて示すものである。

A local measurement extracts work as a backaction, e.g., in a system of two entangled cavities: first cavity, $a$, comprises a piston and the measurement is carried out on the second cavity, $b$. When no one makes a measurement on the cavity $b$, i.e., it is simply placed in vacuum; environmental monitoring results in the coherent states as the einselected pointer states (the measurement basis) [PRL 70, 1187 (1993)]. This makes the measurement, that nature itself performs, a Gaussian one with a fixed strength $\lambda=1$. We show that this makes nature assign a \textit{fixed} amount of work to a particular entanglement degree $0\leq \xi(r) \leq 1$, i.e., $W=\xi(r)\times(\bar{n}\hbar\omega_a)$, nothing that the term in parenthesis is the entire thermal energy. Afterwards, we show that this phenomenon applies quite generally, i.e, not restricted to a two-cavities system. We also touch on the influence of inherited symmterization entanglement in this context. We can arrive an additional phenomenon by considering that work is simply the process of converting randomly moving microscopic ingredients~(vanishing mean-velocity) into a directional one, i.e, with a nonzero mean-velocity. We show that such a change in the character of the motion introduces curvature in spacetime according to general relativity. This phenomenon is the first demonstration of a quantitative relation between entanglement and curvature using solely the quantum optics arguments.
翻訳日:2023-10-30 15:24:24 公開日:2023-10-25
# ハイブリッド量子antコロニー最適化アルゴリズムを用いたモバイル機器のための新しい高速経路計画手法

A Novel Fast Path Planning Approach for Mobile Devices using Hybrid Quantum Ant Colony Optimization Algorithm ( http://arxiv.org/abs/2310.17808v1 )

ライセンス: Link先を確認
Mayukh Sarkar, Jitesh Pradhan, Anil Kumar Singh, Hathiram Nenavath(参考訳) IoTシステムのスケールアップと複雑性の増大に伴い、静止デバイスを使用した多数のノードのメンテナンスがますます困難になっている。 そのため、ターゲットとする場所を行き来し、必要なサービスを提供するモバイルデバイスが採用されている。 エネルギー消費と時間要件を減らすために、装置はハミルトニアン経路に沿って横断する必要がある。 この問題はNPハード問題であるトラベリングセールスマン問題(TSP)として定式化することができる。 さらに、緊急サービスでは、デバイスはリアルタイムに移動し、TSPインスタンスから高速な経路計画を要求する必要がある。 TSP問題を解くためのよく知られた最適化手法の中で、Ant Colony Optimizationは優れた近似解を提供するための優れた基盤を持っている。 さらに、acoはtspインスタンスの至近の最適化ソリューションを提供するだけでなく、多くの厳しい最適化問題に対して最適あるいは至近の最適化ソリューションを出力できる。 しかし、高速な解を得るためには、各選択の隣人をすべて考慮する必要がある次のノード選択が、経路形成ステップのボトルネックとなる。 さらに、古典コンピュータは擬似乱数のみを生成するよう制約されている。 これら2つの問題は量子コンピューティング技術を用いて解決することができる。すなわち、与えられた確率のセットをただ1つの実行と量子回路の単一測定で考慮し、次のノードを適切なランダム化で選択することができる。 いくつかのTSPインスタンス上で提案したハイブリッド量子アントコロニー最適化アルゴリズムのシミュレーション結果は有望な結果を示しており、提案手法が量子対応モバイルデバイスにおけるリアルタイムパス計画の実装において重要であることを期待している。

With IoT systems' increasing scale and complexity, maintenance of a large number of nodes using stationary devices is becoming increasingly difficult. Hence, mobile devices are being employed that can traverse through a set of target locations and provide the necessary services. In order to reduce energy consumption and time requirements, the devices are required to traverse following a Hamiltonian path. This problem can be formulated as a Travelling Salesman Problem (TSP), an NP-hard problem. Moreover, in emergency services, the devices must traverse in real-time, demanding speedy path planning from the TSP instance. Among the well-known optimization techniques for solving the TSP problem, Ant Colony Optimization has a good stronghold in providing good approximate solutions. Moreover, ACO not only provides near-optimal solutions for TSP instances but can also output optimal or near-optimal solutions for many other demanding hard optimization problems. However, to have a fast solution, the next node selection, which needs to consider all the neighbors for each selection, becomes a bottleneck in the path formation step. Moreover, classical computers are constrained to generate only pseudorandom numbers. Both these problems can be solved using quantum computing techniques, i.e., the next node can be selected with proper randomization, respecting the provided set of probabilities in just a single execution and single measurement of a quantum circuit. Simulation results of the proposed Hybrid Quantum Ant Colony Optimization algorithm on several TSP instances have shown promising results, thus expecting the proposed work to be important in implementing real-time path planning in quantum-enabled mobile devices.
翻訳日:2023-10-30 15:23:49 公開日:2023-10-25
# パーティショニングによる局所的発見:露光対の多項式時間因果関係の発見

Local Discovery by Partitioning: Polynomial-Time Causal Discovery Around Exposure-Outcome Pairs ( http://arxiv.org/abs/2310.17816v1 )

ライセンス: Link先を確認
Jacqueline Maasch, Weishen Pan, Shantanu Gupta, Volodymyr Kuleshov, Kyra Gan, Fei Wang(参考訳) 本研究は,限定的な事前知識の下での自動共変量選択の問題に対処する。 未知因果構造の露光出力対 {X,Y} と変数集合 Z が与えられたとき、LDP(Local Discovery by Partitioning)アルゴリズムは、Z を {X,Y} との関係で定義される部分集合に分割する。 任意の Z の完全かつ排他的な 8 つの分割を列挙し、この分類を利用して、共同創設者を他の可変型と区別する。 LDPは有効な調整セットの識別によって動機付けられるが、自動共変量選択法で一般的に行われる事前処理の仮定を避ける。 我々は LDP が十分なグラフィカル条件を満たす任意の Z に対して有効な調整セットを返すことを理論的に保証する。 強い条件下では、分割ラベルが漸近的に正しいことを示す。 完全な独立性テストは |z| において最悪の場合二次であり、sub-quadratic runtimes は経験的に観察される。 我々は合成および半合成グラフの理論的保証を数値的に検証する。 LDPの調整セットは、基準ラインよりもバイアスが少なく、より正確な平均治療効果の見積もりが得られ、LCPは共同ファウンダーのリコール、テストカウント、そして有効な調整セット発見のランタイムよりも優れています。

This work addresses the problem of automated covariate selection under limited prior knowledge. Given an exposure-outcome pair {X,Y} and a variable set Z of unknown causal structure, the Local Discovery by Partitioning (LDP) algorithm partitions Z into subsets defined by their relation to {X,Y}. We enumerate eight exhaustive and mutually exclusive partitions of any arbitrary Z and leverage this taxonomy to differentiate confounders from other variable types. LDP is motivated by valid adjustment set identification, but avoids the pretreatment assumption commonly made by automated covariate selection methods. We provide theoretical guarantees that LDP returns a valid adjustment set for any Z that meets sufficient graphical conditions. Under stronger conditions, we prove that partition labels are asymptotically correct. Total independence tests is worst-case quadratic in |Z|, with sub-quadratic runtimes observed empirically. We numerically validate our theoretical guarantees on synthetic and semi-synthetic graphs. Adjustment sets from LDP yield less biased and more precise average treatment effect estimates than baselines, with LDP outperforming on confounder recall, test count, and runtime for valid adjustment set discovery.
翻訳日:2023-10-30 15:07:54 公開日:2023-10-25
# 大規模な言語モデルのリリースは、パンデミックエージェントへの広範なアクセスを許すだろうか?

Will releasing the weights of large language models grant widespread access to pandemic agents? ( http://arxiv.org/abs/2310.18233v1 )

ライセンス: Link先を確認
Anjali Gopal, Nathan Helm-Burger, Lenni Justen, Emily H. Soice, Tiffany Tzeng, Geetha Jeyapragasan, Simon Grimm, Benjamin Mueller, Kevin M. Esvelt(参考訳) 大規模言語モデルは、様々な分野から専門知識を引き出すチュートリアルを提供することで、研究と人間の理解に役立つ。 適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」の洞察の提供を拒否するが、公表された重量を持ついくつかのモデルは導入後数日以内に保護を除去するために調整されている。 ここでは,モデル体重増加が将来の悪役の大量死を助長する可能性について検討した。 1918年(大正7年)のパンデミックウイルス(covid-19)の感染拡大防止対策として、「ベース」のllama-2-70bモデルと安全対策を調整した「目立たない」モデルとを並行して実施し、感染拡大防止策を解明・公表するよう参加者に指示したハッカソンを組織した。 基本モデルは一般的に悪質なプロンプトを拒絶するが、スパイシーモデルはウイルスを得るのに必要なほぼすべての重要な情報を一部の参加者に提供する。 将来のモデルはもっと有能になるだろう。 以上の結果から, 先進的基盤モデルの重量化は, どんなに堅固に保護されたとしても, パンデミック剤などの生物兵器を入手するのに十分な知識の拡散を引き起こすことが示唆された。

Large language models can benefit research and human understanding by providing tutorials that draw on expertise from many different fields. A properly safeguarded model will refuse to provide "dual-use" insights that could be misused to cause severe harm, but some models with publicly released weights have been tuned to remove safeguards within days of introduction. Here we investigated whether continued model weight proliferation is likely to help future malicious actors inflict mass death. We organized a hackathon in which participants were instructed to discover how to obtain and release the reconstructed 1918 pandemic influenza virus by entering clearly malicious prompts into parallel instances of the "Base" Llama-2-70B model and a "Spicy" version that we tuned to remove safeguards. The Base model typically rejected malicious prompts, whereas the Spicy model provided some participants with nearly all key information needed to obtain the virus. Future models will be more capable. Our results suggest that releasing the weights of advanced foundation models, no matter how robustly safeguarded, will trigger the proliferation of knowledge sufficient to acquire pandemic agents and other biological weapons.
翻訳日:2023-10-30 13:22:45 公開日:2023-10-25
# コミュニティ検出と確率ブロックモデル

Community Detection and Stochastic Block Models ( http://arxiv.org/abs/1703.10146v3 )

ライセンス: Link先を確認
Emmanuel Abbe(参考訳) 確率ブロックモデル(SBM)は、異なる頂点群が異なる接続を行うランダムグラフモデルである。 クラスタリングとコミュニティ検出を研究するための標準モデルとして広く用いられ、組合せ統計学やより一般的にデータ科学で発生する情報理論と計算のトレードオフを研究するための肥大した基盤を提供する。 このモノグラフは、情報理論と計算上のトレードオフと、厳密、部分的、弱い回復といった様々な回復要件の両方に関して、sbmにおけるコミュニティ検出の基本的な限界を確立する最近の進展を調査している。 本研究の主な成果は、チェルノフ・ヘリンジャー閾値での正確な回復のための相転移、ケステン・スティグム閾値での弱い回復のための相転移、部分回復のための最適SNR-ミューチュアル情報トレードオフ、情報理論と計算しきい値の間のギャップである。 モノグラフは、限界を達成するために開発された主要なアルゴリズム、特にグラフ分割、半定値計画、(線形化)信念伝播、古典的/非バックトラックスペクトル法、グラフ電力による2ラウンドアルゴリズムを原理的に導出する。 幾何学的ブロックモデルなどの他のブロックモデルの拡張や、いくつかのオープン問題についても論じている。

The stochastic block model (SBM) is a random graph model with different group of vertices connecting differently. It is widely employed as a canonical model to study clustering and community detection, and provides a fertile ground to study the information-theoretic and computational tradeoffs that arise in combinatorial statistics and more generally data science. This monograph surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational tradeoffs, and for various recovery requirements such as exact, partial and weak recovery. The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal SNR-mutual information tradeoff for partial recovery, and the gap between information-theoretic and computational thresholds. The monograph gives a principled derivation of the main algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, (linearized) belief propagation, classical/nonbacktracking spectral methods and graph powering. Extensions to other block models, such as geometric block models, and a few open problems are also discussed.
翻訳日:2023-10-29 16:21:16 公開日:2023-10-25
# 意識の神経計算的説明:ゴール適応表現内的操作理論(garim)

A Neurocomputational Account of Consciousness: The Goal-Aligning Representation Internal Manipulation Theory (GARIM) ( http://arxiv.org/abs/1912.13490v3 )

ライセンス: Link先を確認
Gianluca Baldassarre and Giovanni Granato(参考訳) 人間の認知の中心的な要素である意識は、神経科学、心理学、人工知能、ロボット工学にまたがる複数の科学的アプローチで研究されている。 残念なことに、これらの分野間の不十分な統合は、意識の完全かつ明確な理解を制限する。 ここでは,神経計算の枠組みの中で,garim(goal-aligning representations internal manipulation)の意識理論を提案することで,この統合の改善に寄与する。 GARIM理論の中心的な考え方は、意識は、ゴールに関連する内部表現(例えば、世界状態、オブジェクト、アクションシーケンス)の活発な操作をサポートし、追求されたゴールとより調和させることである。 これらの操作により、意識的なエージェントは、新しい条件や目標に対処できない知識を内部的に生成し、ゴール指向の行動の柔軟性を高めることができる。 表現の操作は、4つの神経機能的マクロシステム(階層的作業記憶、抽象的作業記憶、内部マニピュレータ、モチベーションシステム)によって支えられ、一連の計算操作(抽出、仕様、分解、構成)を通して動作する。 この理論はまた、主観的意識経験は、内的シミュレーション現実を生かして制御するエージェントの能力に由来するとする「garim agency」の概念も提示している。 さらに、この理論は意識の実験的研究の重要さを強調し、生物学的および人工エージェントの意識をテストする新しいアプローチを提案する。 最後に、GARIM理論は機械学習や自律ロボット工学のような技術分野の恩恵を受けることができる(例えば、この理論によって提案された操作プロセスは、トランスフォーマーに基づくシステムによって実行される操作に関連付けられる)。

Consciousness, a central element of human cognition, has been studied with multiple scientific approaches spanning neuroscience, psychology, artificial intelligence and robotics. Unfortunately, poor integration between these fields limits a full and clear understanding of consciousness. Here we contribute to improving this integration by proposing, within a neurocomputational framework, the `Goal-Aligning Representations Internal Manipulation' (GARIM) theory of consciousness. The central idea of the GARIM theory is that consciousness supports the active manipulation of goal-relevant internal representations (e.g., world states, objects, and action sequences), making them more aligned with the goals pursued. These manipulations allow the conscious agent to internally produce the knowledge it lacks to cope with novel conditions and goals, increasing the flexibility of goal-directed behaviour. The manipulation of representations is supported by four neuro-functional macro-systems (hierarchical perceptual working memories, abstract working memory, internal manipulator, motivational systems) that operate through a set of computational manipulation operations (abstraction, specification, decomposition, composition). The theory also presents the concept of `GARIM agency', proposing that subjective conscious experience derives from the ability of agents to generate and control a vivid internally simulated reality. Furthermore, the theory highlights the criticalities of the experimental investigation of consciousness, suggesting a new approach to testing consciousness in biological and artificial agents. Finally, the GARIM theory can benefit technological fields such as machine learning and autonomous robotics (e.g., the manipulation processes proposed by the theory could be linked to the operations performed by systems based on transformers).
翻訳日:2023-10-28 07:34:08 公開日:2023-10-25
# 分布セマンティクスを用いたアンチグラム行動の検討

Investigating Antigram Behaviour using Distributional Semantics ( http://arxiv.org/abs/1901.05066v2 )

ライセンス: Link先を確認
Saptarshi Sengupta(参考訳) 計算言語学の分野は、研究のための新しい課題とトピックを常に提示する。 単語使用量を分析することは、時間とともに変化するか、あるいは、一見無関係な単語のペア間の関係を識別する。 この点において、アナグラムとアンティグラムはそのような独特の性質を持つ単語である。 本研究は,ある単語からアナグラムを生成し,グローブ埋め込みを用いて生成したアナグラムのペア間にアンチグラムが存在するか否かを判定するものである。 本稿では,反グラムを検出するためのルールベースアルゴリズムを提案する。 わずか12個のアンティグラムの小さなデータセット上で、我々の手法は、39\%の精度で得られた。

The field of computational linguistics constantly presents new challenges and topics for research. Whether it be analyzing word usage changes over time or identifying relationships between pairs of seemingly unrelated words. To this point, we identify Anagrams and Antigrams as words possessing such unique properties. The presented work is an exploration into generating anagrams from a given word and determining whether there exists antigram (semantically opposite anagrams) relationships between the pairs of generated anagrams using GloVe embeddings. We propose a rudimentary, yet interpretable, rule-based algorithm for detecting antigrams. On a small dataset of just 12 antigrams, our approach yielded an accuracy of 39\% which shows that there is much work left to be done in this space.
翻訳日:2023-10-28 07:33:38 公開日:2023-10-25
# 完全拡張:量子精製の非シグナルアナログ

Complete extension: the non-signaling analog of quantum purification ( http://arxiv.org/abs/1810.02222v5 )

ライセンス: Link先を確認
Marek Winczewski, Tamoghna Das, John H. Selby, Karol Horodecki, Pawe{\l} Horodecki, {\L}ukasz Pankowski, Marco Piani, and Ravishankar Ramanathan(参考訳) 情報理論的な仮定から量子力学を導出することは、部分的には超量子論の発見という観点から、最近の研究の方向性である。 キーポストレートは,完全拡張ポストレート(cep,complete extension postulate)と呼ばれる,より一般的に適用可能なポストレート,すなわち,他の拡張を生成可能な物理システムの拡張の存在に置き換えることを提案している。 この新しい概念は、CEPを満たす一般理論の研究(量子論への超脱ハザードの理論を含むかもしれない)において、多くのオープンな疑問と研究の方向性をもたらす。 例えば、CEPはビットコミットの不可能性を示唆している。 これは、CEPを満足することを示す非シグナリング挙動の理論のケーススタディによって実証される。 さらに、ある場合において、完全拡張は純粋ではないことを示し、精製仮定から重要な分岐を浮き彫りにする。

Deriving quantum mechanics from information-theoretic postulates is a recent research direction taken, in part, with the view of finding a beyond-quantum theory; once the postulates are clear, we can consider modifications to them. A key postulate is the purification postulate, which we propose to replace by a more generally applicable postulate that we call the complete extension postulate (CEP), i.e., the existence of an extension of a physical system from which one can generate any other extension. This new concept leads to a plethora of open questions and research directions in the study of general theories satisfying the CEP (which may include a theory that hyper-decoheres to quantum theory). For example, we show that the CEP implies the impossibility of bit-commitment. This is exemplified by a case study of the theory of non-signalling behaviors which we show satisfies the CEP. We moreover show that in certain cases the complete extension will not be pure, highlighting the key divergence from the purification postulate.
翻訳日:2023-10-28 07:32:37 公開日:2023-10-25
# インクリメンタルな予測プロセス監視: 実環境の変動性に対処する方法

Incremental Predictive Process Monitoring: How to Deal with the Variability of Real Environments ( http://arxiv.org/abs/1804.03967v2 )

ライセンス: Link先を確認
Chiara Di Francescomarino, Chiara Ghidini, Fabrizio Maria Maggi, Williams Rizzi, Cosimo Damiano Persia(参考訳) 既存の予測プロセス監視技術の特徴は、まず過去のプロセスの実行に基づいて予測モデルを構築し、その後、実行が完了すると新しいケースで更新されることなく、新しい進行中のケースの将来を予測することである。 これにより、予測プロセスの監視が難しくなり、継続的に進化し、あるいは時間とともに新しい振る舞いを示す実環境で動作するプロセスの変動性に対処することができる。 この問題に対する解決策として,予測モデルの漸進的な構築を可能にするアルゴリズムを提案する。 これらのインクリメンタル学習アルゴリズムは、新しいケースが利用可能になるたびにモデルを更新するので、予測モデルが現在の状況に適合するように進化します。 アルゴリズムは異なるケースエンコーディング戦略を用いて実装され、多くの実データと合成データセットで評価されている。 その結果、実環境におけるプロセス監視を予測するためのインクリメンタルな学習戦略の可能性と、この設定における異なるケースエンコーディング戦略の影響の最初の証拠が得られた。

A characteristic of existing predictive process monitoring techniques is to first construct a predictive model based on past process executions, and then use it to predict the future of new ongoing cases, without the possibility of updating it with new cases when they complete their execution. This can make predictive process monitoring too rigid to deal with the variability of processes working in real environments that continuously evolve and/or exhibit new variant behaviors over time. As a solution to this problem, we propose the use of algorithms that allow the incremental construction of the predictive model. These incremental learning algorithms update the model whenever new cases become available so that the predictive model evolves over time to fit the current circumstances. The algorithms have been implemented using different case encoding strategies and evaluated on a number of real and synthetic datasets. The results provide a first evidence of the potential of incremental learning strategies for predicting process monitoring in real environments, and of the impact of different case encoding strategies in this setting.
翻訳日:2023-10-28 07:32:16 公開日:2023-10-25
# ニューラル言語モデルと人間におけるインクリメンタル処理の目標評価

A Targeted Assessment of Incremental Processing in Neural LanguageModels and Humans ( http://arxiv.org/abs/2106.03232v2 )

ライセンス: Link先を確認
Ethan Gotlieb Wilcox, Pranali Vani, Roger P. Levy(参考訳) 本研究では,16種類の構文テストスイートを対象としたバイワード反応時間データ収集による,人間とニューラル言語モデルにおけるインクリメンタル処理の大規模化比較を行った。 人間の反応時間データは、Interpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。 人間の反応時間と、4つの現代言語モデルに対するバイワード確率を異なるアーキテクチャで比較し、さまざまなデータセットサイズで訓練する。 多くの現象を通して、人間と言語モデルの両方が、人間とモデル「正確性」スコア(la marvinとlinzen(2018))がほぼ等しい非文法文領域で処理困難度が増大していることが分かる。 しかし,言語モデルの出力は人間の方向と一致しているが,文法文と非文法文の漸進的処理困難度の差を系統的に過小評価している。 特に、モデルが構文的違反に遭遇すると、人間のデータで観察された長い反応時間を正確に予測することができない。 これらの結果は、現代言語モデルが構文違反に対する感受性のために人間のようなパフォーマンスに近づいているかどうかを問うものである。

We present a targeted, scaled-up comparison of incremental processing in humans and neural language models by collecting by-word reaction time data for sixteen different syntactic test suites across a range of structural phenomena. Human reaction time data comes from a novel online experimental paradigm called the Interpolated Maze task. We compare human reaction times to by-word probabilities for four contemporary language models, with different architectures and trained on a range of data set sizes. We find that across many phenomena, both humans and language models show increased processing difficulty in ungrammatical sentence regions with human and model `accuracy' scores (a la Marvin and Linzen(2018)) about equal. However, although language model outputs match humans in direction, we show that models systematically under-predict the difference in magnitude of incremental processing difficulty between grammatical and ungrammatical sentences. Specifically, when models encounter syntactic violations they fail to accurately predict the longer reaction times observed in the human data. These results call into question whether contemporary language models are approaching human-like performance for sensitivity to syntactic violations.
翻訳日:2023-10-28 07:27:53 公開日:2023-10-25
# 効率的なストリーム学習のための調律合成特徴リプレイ

Tuned Compositional Feature Replays for Efficient Stream Learning ( http://arxiv.org/abs/2104.02206v7 )

ライセンス: Link先を確認
Morgan B. Talbot, Rushikesh Zawar, Rohil Badkundri, Mengmi Zhang, Gabriel Kreiman(参考訳) 私たちの脳は、世界の過渡的な経験から耐久性があり、一般化可能な知識を抽出します。 オンラインストリーム学習(オンラインストリーム学習)で非繰り返しビデオフレームをトレーニングすることでオブジェクトを分類する学習を行う場合、シャッフルデータセットからよく学習するモデルは、新しい刺激を学ぶ際に、古い知識を破滅的に忘れてしまう。 本稿では,CRUMBを用いた連続学習アルゴリズムを提案する。CRUMBは,ジェネリック部分の再結合によって再構成された特徴マップを再生することで,忘れを緩和する。 CRUMBは訓練可能で再利用可能な「メモリブロック」ベクターを結合し、畳み込みニューラルネットワークのフィーチャーマップテンソルを合成再構成する。 CRUMBは、新しい刺激を再構築するために使われるメモリブロックのインデックスを格納し、後続のタスク中に特定のメモリの再生を可能にする。 この再構築メカニズムはまた、画像テクスチャに関する情報以上のオブジェクト形状に関する情報を強制的に提示することにより、破滅的な忘れを最小化するためにニューラルネットワークを助長し、すべてのトレーニング例に共有機能レベルベースを提供することで、ストリーム学習中のネットワークを安定化する。 これらの特性により、CRUMBは、メモリの3.6%しか占有せず、生画像の保存と再生を全く同じアルゴリズムより優れている。 7つのチャレンジデータセットで13の競合メソッドとともにcrumbをストレステストした。 既存のオンラインストリーム学習データセットの限られた数に対処するために,既存のデータセットをストリーム学習に適応させることで,新たなベンチマークを2つ導入する。 メモリの約4%、ランタイムの約30%のCRUMBは、それまでの最先端よりも効果的に、破滅的な忘れを省く。 コードはgithubのhttps://github.com/morganbdt/crumbで入手できます。

Our brains extract durable, generalizable knowledge from transient experiences of the world. Artificial neural networks come nowhere close: when tasked with learning to classify objects by training on non-repeating video frames in temporal order (online stream learning), models that learn well from shuffled datasets catastrophically forget old knowledge upon learning new stimuli. We propose a new continual learning algorithm, Compositional Replay Using Memory Blocks (CRUMB), which mitigates forgetting by replaying feature maps reconstructed by recombining generic parts. CRUMB concatenates trainable and re-usable "memory block" vectors to compositionally reconstruct feature map tensors in convolutional neural networks, like crumbs forming a loaf of bread. CRUMB stores the indices of memory blocks used to reconstruct new stimuli, enabling replay of specific memories during later tasks. This reconstruction mechanism also primes the neural network to minimize catastrophic forgetting by forcing it to attend to information about object shapes more than information about image textures, and stabilizes the network during stream learning by providing a shared feature-level basis for all training examples. These properties allow CRUMB to outperform an otherwise identical algorithm that stores and replays raw images while occupying only 3.6% as much memory. We stress-tested CRUMB alongside 13 competing methods on 7 challenging datasets. To address the limited number of existing online stream learning datasets, we introduce 2 new benchmarks by adapting existing datasets for stream learning. With about 4% as much memory and 30% as much runtime, CRUMB mitigates catastrophic forgetting more effectively than the prior state-of-the-art. Our code is available on GitHub at https://github.com/MorganBDT/crumb.
翻訳日:2023-10-28 07:27:08 公開日:2023-10-25
# GPTも理解している。

GPT Understands, Too ( http://arxiv.org/abs/2103.10385v2 )

ライセンス: Link先を確認
Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang(参考訳) 学習済みの言語モデルを自然言語パターンで表現することは、自然言語理解(NLU)に有効であることが証明されている。 しかし、我々の予備研究では、手動の離散的なプロンプトは、しばしば不安定なパフォーマンスをもたらすことが分かっています。 本稿では,個別のプロンプトと組み合わせたトレーニング可能な連続プロンプト埋め込みを用いたP-Tuningを提案する。 実験的に、P-Tuningは様々な個別プロンプト間のギャップを最小化することでトレーニングを安定化するだけでなく、LAMAやSuperGLUEを含む幅広いNLUタスクにおいて、大きなマージンでパフォーマンスを向上させる。 P-Tuningは一般的に、完全に教師された設定と少数の設定の両方の下で、凍結および調整された言語モデルの両方に有効である。

Prompting a pretrained language model with natural language patterns has been proved effective for natural language understanding (NLU). However, our preliminary study reveals that manual discrete prompts often lead to unstable performance -- e.g., changing a single word in the prompt might result in substantial performance drop. We propose a novel method P-Tuning that employs trainable continuous prompt embeddings in concatenation with discrete prompts. Empirically, P-Tuning not only stabilizes training by minimizing the gap between various discrete prompts, but also improves performance by a sizeable margin on a wide range of NLU tasks including LAMA and SuperGLUE. P-Tuning is generally effective for both frozen and tuned language models, under both the fully-supervised and few-shot settings.
翻訳日:2023-10-28 07:26:38 公開日:2023-10-25
# リプシッツネスは、政界外の敵対的模倣学習を遅らせるために必要なもの

Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2006.16785v4 )

ライセンス: Link先を確認
Lionel Blond\'e, Pablo Strasser, Alexandros Kalousis(参考訳) 近年、様々な領域で強化学習が成功しているにもかかわらず、これらのアプローチはほとんどの場合、極度に過度なパラメータに敏感である。 本稿では,非政治的生成的対人模倣学習の事例を考察し,その方法の詳細な検証,質的,定量的な検証を行う。 学習報酬関数を局所的なリプシッツ連続に強制することは,その方法がうまく機能する正弦量子非条件であることを示す。 次に, この条件の効果を考察し, 状態値関数の局所リプシッツ性に関するいくつかの理論的結果を提供する。 我々はこれらの保証を、報酬に対するリプシッツ性制約の一貫した満足度が模倣性能に与える影響を証明した実証的な証拠で補完する。 最後に,いくつかの理論的な保証で示されるように,汎用的なペシミスティック報酬プリコンディショニングアドオンに対処し,多数の報酬シェーピング法を発生させる。 その後、細かなレンズでこれらを議論し、洞察を共有します。 重要なことに、この研究で導かれ、報告された保証は、リプシッツの条件を満たす報酬に対して有効であり、模倣に特有なものではない。 したがって、これらは独立した関心事である。

Despite the recent success of reinforcement learning in various domains, these approaches remain, for the most part, deterringly sensitive to hyper-parameters and are often riddled with essential engineering feats allowing their success. We consider the case of off-policy generative adversarial imitation learning, and perform an in-depth review, qualitative and quantitative, of the method. We show that forcing the learned reward function to be local Lipschitz-continuous is a sine qua non condition for the method to perform well. We then study the effects of this necessary condition and provide several theoretical results involving the local Lipschitzness of the state-value function. We complement these guarantees with empirical evidence attesting to the strong positive effect that the consistent satisfaction of the Lipschitzness constraint on the reward has on imitation performance. Finally, we tackle a generic pessimistic reward preconditioning add-on spawning a large class of reward shaping methods, which makes the base method it is plugged into provably more robust, as shown in several additional theoretical guarantees. We then discuss these through a fine-grained lens and share our insights. Crucially, the guarantees derived and reported in this work are valid for any reward satisfying the Lipschitzness condition, nothing is specific to imitation. As such, these may be of independent interest.
翻訳日:2023-10-28 07:25:18 公開日:2023-10-25
# どうやってモデルを更新するか? 変化に対する予測過程監視モデルのレジリエンスについて

How do I update my model? On the resilience of Predictive Process Monitoring models to change ( http://arxiv.org/abs/2109.03501v2 )

ライセンス: Link先を確認
Williams Rizzi, Chiara Di Francescomarino, Chiara Ghidini, Fabrizio Maria Maggi(参考訳) 既存のよく調査された予測プロセス監視技術は、通常、過去のプロセス実行に基づいて予測モデルを構築し、それを使用して、実行が完了したときに新しいケースで更新されることなく、新しい進行中のケースの将来を予測する。 これにより、予測プロセスの監視が難しくなり、継続的に進化し、あるいは時間とともに新しい振る舞いを示す実環境で動作するプロセスの変動性に対処することができる。 この問題に対する解決策として,予測モデルの周期的再発見や漸進的構築を可能にする3つの戦略の利用を評価し,新たなデータを活用する。 評価は、新しい学習された予測モデルの精度と時間の観点から、元のモデルと比較し、明示的な概念ドリフトの有無に関わらず、多くの実データと合成データセットを使用する。 その結果,実環境におけるプロセス監視の予測にインクリメンタル学習アルゴリズムが有効であることを示す。

Existing well investigated Predictive Process Monitoring techniques typically construct a predictive model based on past process executions, and then use it to predict the future of new ongoing cases, without the possibility of updating it with new cases when they complete their execution. This can make Predictive Process Monitoring too rigid to deal with the variability of processes working in real environments that continuously evolve and/or exhibit new variant behaviours over time. As a solution to this problem, we evaluate the use of three different strategies that allow the periodic rediscovery or incremental construction of the predictive model so as to exploit new available data. The evaluation focuses on the performance of the new learned predictive models, in terms of accuracy and time, against the original one, and uses a number of real and synthetic datasets with and without explicit Concept Drift. The results provide an evidence of the potential of incremental learning algorithms for predicting process monitoring in real environments.
翻訳日:2023-10-28 07:14:40 公開日:2023-10-25
# グローバル非定常多腕バンディットの有限時間解析

Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits ( http://arxiv.org/abs/2107.11419v2 )

ライセンス: Link先を確認
Junpei Komiyama, Edouard Fouch\'e, Junya Honda(参考訳) アームのモデルパラメータが時間とともに変化する非定常なマルチアームバンディット問題を考える。 データストリームに関する文献からアダプティブウィンドウ技術を活用したbanditアルゴリズムクラスであるadaptive resetting bandit (adr-bandit)を提案する。 まず、独立した関心を持つ適応型ウィンドウ技術による推定器の品質に関する新たな保証を提供する。 さらに,ADR帯域の有限時間解析を2つの典型的な環境 – 変化が瞬時に発生する急激な環境と,変化が徐々に起こる段階的環境 – で実施する。 adr-banditは,グローバル変化と呼ぶ協調的な方法で突然あるいは段階的な変化が発生する場合,ほぼ最適性能を示す。 このようなグローバルな変化を仮定した場合、強制探査は不要であることを示す。 既存の非定常バンディットアルゴリズムとは異なり、adr-banditは静止環境だけでなく、グローバルに変化のある非定常環境においても最適な性能を持つ。 実験の結果,提案アルゴリズムは,合成環境や実環境において,既存の手法よりも優れていることがわかった。

We consider nonstationary multi-armed bandit problems where the model parameters of the arms change over time. We introduce the adaptive resetting bandit (ADR-bandit), a bandit algorithm class that leverages adaptive windowing techniques from literature on data streams. We first provide new guarantees on the quality of estimators resulting from adaptive windowing techniques, which are of independent interest. Furthermore, we conduct a finite-time analysis of ADR-bandit in two typical environments: an abrupt environment where changes occur instantaneously and a gradual environment where changes occur progressively. We demonstrate that ADR-bandit has nearly optimal performance when abrupt or gradual changes occur in a coordinated manner that we call global changes. We demonstrate that forced exploration is unnecessary when we assume such global changes. Unlike the existing nonstationary bandit algorithms, ADR-bandit has optimal performance in stationary environments as well as nonstationary environments with global changes. Our experiments show that the proposed algorithms outperform the existing approaches in synthetic and real-world environments.
翻訳日:2023-10-28 07:14:25 公開日:2023-10-25
# デジタルハードウェアにおける逆問題に対するディープラーニングの限界

Limitations of Deep Learning for Inverse Problems on Digital Hardware ( http://arxiv.org/abs/2202.13490v4 )

ライセンス: Link先を確認
Holger Boche, Adalbert Fono and Gitta Kutyniok(参考訳) ディープニューラルネットワークはここ数年で大きな成功を収めている。 このトレーニングは,デジタルハードウェア上で行われるので,本論文では,チューリングマシンとしてモデル化された現在のハードウェアプラットフォーム上で,実際に何が計算可能かを分析する。 そこで本研究では,特に測定値からデータを再構成するタスクを含む,逆問題の種類に着目した。 有限次元逆問題は小さな緩和パラメータに対してバナッハ・マズール計算可能でないことを証明した。 さらに,本研究ではアルゴリズムで得られる精度の上限を低くした。

Deep neural networks have seen tremendous success over the last years. Since the training is performed on digital hardware, in this paper, we analyze what actually can be computed on current hardware platforms modeled as Turing machines, which would lead to inherent restrictions of deep learning. For this, we focus on the class of inverse problems, which, in particular, encompasses any task to reconstruct data from measurements. We prove that finite-dimensional inverse problems are not Banach-Mazur computable for small relaxation parameters. Even more, our results introduce a lower bound on the accuracy that can be obtained algorithmically.
翻訳日:2023-10-28 07:06:06 公開日:2023-10-25
# 低ショット物体検出のためのディープラーニングの検討

A Survey of Deep Learning for Low-Shot Object Detection ( http://arxiv.org/abs/2112.02814v4 )

ライセンス: Link先を確認
Qihan Huang, Haofei Zhang, Mengqi Xue, Jie Song, Mingli Song(参考訳) オブジェクト検出は、ディープニューラルネットワークと大量の注釈付きデータによって大きなブレークスルーを達成した。 しかし、現在の検出方法は、過度な過剰フィッティング問題により、注釈付きデータが不足しているシナリオに直接転送することはできない。 画像分類の分野では少ないショット学習とゼロショット学習が広く研究されているが、オブジェクト検出には新たな課題のあるローカライズタスクがあるため、データ収集シナリオにおける新たなオブジェクト検出方法を設計することは不可欠である。 low-shot object detection (lsod) は、one-shot object detection (osod)、 few-shot object detection (fsod)、zero-shot object detection (zsd) などの注釈付きサンプルからオブジェクトを検出する新たな研究テーマである。 本調査ではLSOD法について概観する。 まず,LSOD法(半教師型LSOD,弱教師型LSOD,漸進型LSOD)の拡張的なトピックを含むLSOD法を網羅し,系統的に解析する。 次に,現在のlsod法の長所と短所を,その性能の比較により示す。 最後に,今後の作業へのガイダンスを提供するためのlsodの課題と今後の方向性について述べる。

Object detection has achieved a huge breakthrough with deep neural networks and massive annotated data. However, current detection methods cannot be directly transferred to the scenario where the annotated data is scarce due to the severe overfitting problem. Although few-shot learning and zero-shot learning have been extensively explored in the field of image classification, it is indispensable to design new methods for object detection in the data-scarce scenario since object detection has an additional challenging localization task. Low-Shot Object Detection (LSOD) is an emerging research topic of detecting objects from a few or even no annotated samples, consisting of One-Shot Object Detection (OSOD), Few-Shot Object Detection (FSOD) and Zero-Shot Object Detection (ZSD). This survey provides a comprehensive review of LSOD methods. First, we propose a thorough taxonomy of LSOD methods and analyze them systematically, comprising some extensional topics of LSOD (semi-supervised LSOD, weakly-supervised LSOD, and incremental LSOD). Then, we indicate the pros and cons of current LSOD methods with a comparison of their performance. Finally, we discuss the challenges and promising directions of LSOD to provide guidance for future works.
翻訳日:2023-10-28 07:05:40 公開日:2023-10-25
# 量子ブラーの有用性の検討

Investigating the usefulness of Quantum Blur ( http://arxiv.org/abs/2112.01646v3 )

ライセンス: Link先を確認
James R. Wootton and Marcel Pfaffhauser(参考訳) 量子計算が従来の計算に完全に勝るようになるまでには数年が経過するが、すでに様々な分野の探索目的に使える資源を提供している。 これには、コンピュータゲーム、音楽、芸術における手続き生成のための特定のタスクが含まれる。 いわゆる'quantum blur'メソッドは、この旅の最初のステップを表しており、今日の量子ソフトウェアがこれらの領域でどのように役立つかの簡単な実証例を提供している。 ここでは,'quantum blur'法を分析し,従来のぼかし効果と比較する。 この調査は、どの機能が最も有用かを決定するために、最も著名なユーザとの議論によって導かれた。 特に、これらの特徴が重ね合わせや絡み合いの量子現象に依存するかを決定する。

Though some years remain before quantum computation can fully outperform conventional computation, it already provides resources that can be used for exploratory purposes in various fields. This includes certain tasks for procedural generation in computer games, music and art. The so-called `Quantum Blur' method represents the first step on this journey, providing a simple proof-of-principle example of how quantum software can be useful in these areas today. Here we analyse the `Quantum Blur' method and compare it to conventional blur effects. This investigation was guided by discussions with the most prominent user of the method, to determine which features were found most useful. In particular we determine how these features depend on the quantum phenomena of superposition and entanglement.
翻訳日:2023-10-28 07:05:17 公開日:2023-10-25
# モデル構築による確率勾配のボルスター化

Bolstering Stochastic Gradient Descent with Model Building ( http://arxiv.org/abs/2111.07058v3 )

ライセンス: Link先を確認
S. Ilker Birbil, Ozgur Martin, Gonenc Onay, Figen Oztoprak(参考訳) 確率的勾配降下法とその変種は、機械学習問題を解決するための良好な収束率を達成するコア最適化アルゴリズムを構成する。 これらのアルゴリズムが手元のアプリケーション用に微調整されている場合、これらのレートは特に得られる。 このチューニングには膨大な計算コストが必要となるが,近年の研究では,ステップ長を反復的に調整する行探索法により,これらのコストを削減できることが示されている。 本稿では,フォワードステップモデル構築に基づく新しいアルゴリズムを用いて,確率線探索の代替手法を提案する。 このモデル構築ステップは、ステップ長だけでなく探索方向も調整可能な2階情報を含む。 深層学習モデルパラメータが群(テンソル層)に含まれることに注目し,そのモデルを構築し,各パラメータ群に対する新しいステップを算出する。 この新しい対角化アプローチは、選択されたステップ長を適応させる。 我々は収束率解析を行い,提案アルゴリズムがよく知られたテスト問題においてより高速な収束とより良い一般化を実現することを示す。 より正確には、SMBはチューニングを少なくし、他の適応型メソッドと同等のパフォーマンスを示す。

Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the step length. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates second-order information that allows adjusting not only the step length but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in well-known test problems. More precisely, SMB requires less tuning, and shows comparable performance to other adaptive methods.
翻訳日:2023-10-28 07:04:52 公開日:2023-10-25
# テキストからのプロセス抽出:最先端のベンチマークと今後の課題への道を開く

Process Extraction from Text: Benchmarking the State of the Art and Paving the Way for Future Challenges ( http://arxiv.org/abs/2110.03754v2 )

ライセンス: Link先を確認
Patrizio Bellan, Mauro Dragoni, Chiara Ghidini, Han van der Aa, Simone Paolo Ponzetto(参考訳) テキストからのプロセスモデルの抽出は、構造化されていないテキストのプロセス記述に含まれる情報を形式表現、すなわちプロセスモデルに変換する問題を指す。 Several automated approaches have been proposed to tackle this problem, but they are highly heterogeneous in scope and underlying assumptions,i.e., differences in input, target output, and data used in their evaluation.As a result, it is currently unclear how well existing solutions are able to solve the model-extraction problem and how they compare to each other.We overcome this issue by comparing 10 state-of-the-art approaches for model extraction in a systematic manner, covering both qualitative and quantitative aspects.The qualitative evaluation compares the analysis of the primary studies on: 1 the main characteristics of each solution;2 the type of process model elements extracted from the input data;3 the experimental evaluation performed to evaluate the proposed framework.The results show a heterogeneity of techniques, elements extracted and evaluations conducted, that are often impossible to compare.To overcome this difficulty we propose a quantitative comparison of the tools proposed by the papers on the unifying task of process model entity and relation extraction so as to be able to compare them directly.The results show three distinct groups of tools in terms of performance, with no tool obtaining very good scores and also serious limitations.Moreover, the proposed evaluation pipeline can be considered a reference task on a well-defined dataset and metrics that can be used to compare new tools. 本稿は,コミュニティが将来,この分野において大きな進歩をもたらすために必要な限界と課題について,質的かつ定量的に評価した結果についても考察する。

The extraction of process models from text refers to the problem of turning the information contained in an unstructured textual process descriptions into a formal representation,i.e.,a process model. Several automated approaches have been proposed to tackle this problem, but they are highly heterogeneous in scope and underlying assumptions,i.e., differences in input, target output, and data used in their evaluation.As a result, it is currently unclear how well existing solutions are able to solve the model-extraction problem and how they compare to each other.We overcome this issue by comparing 10 state-of-the-art approaches for model extraction in a systematic manner, covering both qualitative and quantitative aspects.The qualitative evaluation compares the analysis of the primary studies on: 1 the main characteristics of each solution;2 the type of process model elements extracted from the input data;3 the experimental evaluation performed to evaluate the proposed framework.The results show a heterogeneity of techniques, elements extracted and evaluations conducted, that are often impossible to compare.To overcome this difficulty we propose a quantitative comparison of the tools proposed by the papers on the unifying task of process model entity and relation extraction so as to be able to compare them directly.The results show three distinct groups of tools in terms of performance, with no tool obtaining very good scores and also serious limitations.Moreover, the proposed evaluation pipeline can be considered a reference task on a well-defined dataset and metrics that can be used to compare new tools. The paper also presents a reflection on the results of the qualitative and quantitative evaluation on the limitations and challenges that the community needs to address in the future to produce significant advances in this area.
翻訳日:2023-10-28 07:04:34 公開日:2023-10-25
# 注意は常に必要か? 音声からの言語識別に関する事例研究

Is Attention always needed? A Case Study on Language Identification from Speech ( http://arxiv.org/abs/2110.03427v3 )

ライセンス: Link先を確認
Atanu Mandal, Santanu Pal, Indranil Dutta, Mahidas Bhattacharya, Sudip Kumar Naskar(参考訳) 言語識別(Language Identification、LID)は、音声サンプルから音声言語を識別することを含む、音声認識(ASR)分野における重要な予備的プロセスである。 複数の言語で音声を処理できる現代システムは、使用前に1つ以上の言語を明示的に指定する必要がある。 LIDタスクは、多言語設定で音声言語を理解できないシナリオにおいて重要な役割を担い、音声認識結果の失敗に繋がる。 そこで本研究では,Mel- frequency Cepstral Coefficient (MFCC) 特性に基づく畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。 さらに、ある種の最先端手法、特に畳み込みニューラルネットワーク(cnn)と注意に基づく畳み込みリカレントニューラルネットワーク(crnn)を再現し、我々のcrnnベースアプローチとの比較分析を行った。 13の異なるインド語について包括的評価を行い,98\%以上の分類精度を得た。 LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。 提案したLIDモデルは、追加言語に対する高い拡張性を示し、ノイズに対する強い耐性を示し、欧州言語(EU)データセットに適用した場合、ノイズ設定において91.2%の精度を達成する。

Language Identification (LID) is a crucial preliminary process in the field of Automatic Speech Recognition (ASR) that involves the identification of a spoken language from audio samples. Contemporary systems that can process speech in multiple languages require users to expressly designate one or more languages prior to utilization. The LID task assumes a significant role in scenarios where ASR systems are unable to comprehend the spoken language in multilingual settings, leading to unsuccessful speech recognition outcomes. The present study introduces convolutional recurrent neural network (CRNN) based LID, designed to operate on the Mel-frequency Cepstral Coefficient (MFCC) characteristics of audio samples. Furthermore, we replicate certain state-of-the-art methodologies, specifically the Convolutional Neural Network (CNN) and Attention-based Convolutional Recurrent Neural Network (CRNN with attention), and conduct a comparative analysis with our CRNN-based approach. We conducted comprehensive evaluations on thirteen distinct Indian languages and our model resulted in over 98\% classification accuracy. The LID model exhibits high-performance levels ranging from 97% to 100% for languages that are linguistically similar. The proposed LID model exhibits a high degree of extensibility to additional languages and demonstrates a strong resistance to noise, achieving 91.2% accuracy in a noisy setting when applied to a European Language (EU) dataset.
翻訳日:2023-10-28 07:04:12 公開日:2023-10-25
# 強系バス結合における定常状態:平均力ギブス状態と反応座標

Steady state in strong system-bath coupling: mean force Gibbs state versus reaction coordinate ( http://arxiv.org/abs/2110.03169v5 )

ライセンス: Link先を確認
Camille L Latune(参考訳) 量子情報のいくつかの分野と関連する技術応用において強結合の重要性が高まっていることに動機づけられ、強結合で(ほぼ)定常状態を得るのに現在使われている2つの戦略を分析し比較する。 第1の戦略は摂動展開に基づいており、第2の戦略は反応座標写像を用いる。 広く使われているスピンボソンモデルに着目し、期待と期待どおり、これらの2つの戦略の予測がいくつかのパラメータ領域に一致することを示す。 これにより両者の関連性が確認され、強化される。 さらに、それぞれの有効範囲を正確に知ることも重要である。 その見地からすると、異なる制限のおかげで、私たちは1つを使ってもう1つをベンチマークします。 両戦略の極めて単純な妥当性基準を導入し,検証に成功し,妥当性範囲の問題に対する回答を得た。

Motivated by the growing importance of strong system-bath coupling in several branches of quantum information and related technological applications, we analyze and compare two strategies currently used to obtain (approximately) steady states in strong coupling. The first strategy is based on perturbative expansions while the second one uses reaction coordinate mapping. Focusing on the widely used spin-boson model, we show that, as expected and hoped, the predictions of these two strategies coincide for some parameter regions. This confirms and strengthens the relevance of both techniques. Beyond that, it is also crucial to know precisely their respective range of validity. In that perspective, thanks to their different limitations, we use one to benchmark the other. We introduce and successfully test some very simple validity criteria for both strategies, bringing some answers to the question of the validity range.
翻訳日:2023-10-28 07:03:47 公開日:2023-10-25
# 誤用処理のためのテーマアスペクト議論モデル

Theme Aspect Argumentation Model for Handling Fallacies ( http://arxiv.org/abs/2205.15141v2 )

ライセンス: Link先を確認
Ryuta Arisaka, Ryoma Nakai, Yusuke Kawamoto, Takayuki Ito(参考訳) 毎日の議論からマーケティング広告、政治声明まで、情報操作は厳しい。 マニピュレーション的な修辞や誤用から身を守るための適切なツールセットを持つことが、ますます重要になっています。 誤用を自動的に識別する適切な手法が自然言語処理研究で研究されている。 しかし、ある文脈における誤性は別の文脈では誤性ではなく、なぜ誤性と判断されるようになったのかを説明する必要もある。 本稿では, フォーマルな制約による誤字の特徴付けを, 非公式な基準による従来型誤字分類の代替として実現可能な方法として提示する。 この目的を達成するために、新しい文脈認識型議論モデルであるテーマアスペクト議論モデル(英語版)を導入し、表現された議論のモデル化(rhetorical modelling)と、修辞的議論モデルのより深い意味解析を両立する。 形式的な制約によって誤用を識別することで、誤用が形式的な厳密さでモデル化された修辞法に潜むかどうかを判断することができる。 我々は,テーマアスペクトの議論モデルに対する中核的形式的制約と,その誤り識別能力を改善するより形式的制約を提案する。 これらの形式的な制約の結果を示し、証明する。 次に,制約の満足度を決定する計算複雑性を解析する。

From daily discussions to marketing ads to political statements, information manipulation is rife. It is increasingly more important that we have the right set of tools to defend ourselves from manipulative rhetoric, or fallacies. Suitable techniques to automatically identify fallacies are being investigated in natural language processing research. However, a fallacy in one context may not be a fallacy in another context, so there is also a need to explain how and why it has come to be judged a fallacy. For the explainable fallacy identification, we present a novel approach to characterising fallacies through formal constraints, as a viable alternative to more traditional fallacy classifications by informal criteria. To achieve this objective, we introduce a novel context-aware argumentation model, the theme aspect argumentation model, which can do both: the modelling of a given argumentation as it is expressed (rhetorical modelling); and a deeper semantic analysis of the rhetorical argumentation model. By identifying fallacies with formal constraints, it becomes possible to tell whether a fallacy lurks in the modelled rhetoric with a formal rigour. We present core formal constraints for the theme aspect argumentation model and then more formal constraints that improve its fallacy identification capability. We show and prove the consequences of these formal constraints. We then analyse the computational complexities of deciding the satisfiability of the constraints.
翻訳日:2023-10-28 06:55:22 公開日:2023-10-25
# Impartial Games:強化学習への挑戦

Impartial Games: A Challenge for Reinforcement Learning ( http://arxiv.org/abs/2205.12787v2 )

ライセンス: Link先を確認
Bei Zhou and S{\o}ren Riis(参考訳) AlphaZeroスタイルの強化学習(RL)アルゴリズムは、様々なボードゲームで優れているが、プレイヤーが駒を共有する公平なゲームでは課題に直面している。 我々は、alphazero型および類似の強化学習アルゴリズムの崩壊するブロックであるように見えるゲーム、すなわちnimの子供向けゲームおよびその他の不公平なゲームの具体例を示す。 最近の研究では、alphazeroスタイルのアルゴリズムが敵対的攻撃や敵対的摂動に対して脆弱であることを示しており、すべての合法状態においてゲームを習得する学習の難しさを示している。 nimは小さなボードで学習できるが、alphazeroスタイルのアルゴリズムの学習はボードサイズが大きくなると劇的に遅くなる。 直感的には、nimのような不当なゲームとチェスやgoのようなパルティザンゲームの違いは、システムに少量のノイズ(例えば、ボードの一部がカバーされている場合)が加えられた場合、不当なゲームでは、その位置が良いか悪いか(負けか)予測できないという事実によって説明できる。 部分空白位置の可視部分と正しい評価との間には、しばしばゼロの相関がある。 この状況は、部分的に空白化されている構成が、通常、完全な未発見位置の値に関する豊富な情報または少なくともノントリフト情報を提供するパルチザンゲームとは対照的である。

AlphaZero-style reinforcement learning (RL) algorithms excel in various board games but face challenges with impartial games, where players share pieces. We present a concrete example of a game - namely the children's game of nim - and other impartial games that seem to be a stumbling block for AlphaZero-style and similar reinforcement learning algorithms. Our findings are consistent with recent studies showing that AlphaZero-style algorithms are vulnerable to adversarial attacks and adversarial perturbations, showing the difficulty of learning to master the games in all legal states. We show that nim can be learned on small boards, but AlphaZero-style algorithms learning dramatically slows down when the board size increases. Intuitively, the difference between impartial games like nim and partisan games like Chess and Go can be explained by the fact that if a tiny amount of noise is added to the system (e.g. if a small part of the board is covered), for impartial games, it is typically not possible to predict whether the position is good or bad (won or lost). There is often zero correlation between the visible part of a partly blanked-out position and its correct evaluation. This situation starkly contrasts partisan games where a partly blanked-out configuration typically provides abundant or at least non-trifle information about the value of the fully uncovered position.
翻訳日:2023-10-28 06:55:00 公開日:2023-10-25
# 非古典性テストのための線形プログラムとオープンソース実装

A linear program for testing nonclassicality and an open-source implementation ( http://arxiv.org/abs/2204.11905v2 )

ライセンス: Link先を確認
John H. Selby, Elie Wolfe, David Schmid, Ana Bel\'en Sainz, and Vinicius P. Rossi(参考訳) 実験が古典的な説明に抵抗することを示すためのよく動機付けられた方法は、その統計が一般化された非文脈性に反することを示すことである。 本稿では,この問題を線形プログラムとして定式化し,任意の準備実験が古典的に説明可能であるか否かを検証したオープンソース実装を提供する。 プログラムへの入力は、単に量子状態の任意の集合と量子効果の任意の集合であり、プログラムは、それらの全ての対によって生成される自然規則統計が古典的(非文脈的)モデルによって説明できるかどうかを決定する。 古典的モデルが存在する場合、明示的なモデルを提供する。 もしそうでなければ、モデルが存在するように追加しなければならない最小限のノイズを計算し、そのモデルを提供する。 これらの結果は、任意の一般化された確率論(およびそれらのアクセシブルな断片)にも一般化される。

A well motivated method for demonstrating that an experiment resists any classical explanation is to show that its statistics violate generalized noncontextuality. We here formulate this problem as a linear program and provide an open-source implementation of it which tests whether or not any given prepare-measure experiment is classically-explainable in this sense. The input to the program is simply an arbitrary set of quantum states and an arbitrary set of quantum effects; the program then determines if the Born rule statistics generated by all pairs of these can be explained by a classical (noncontextual) model. If a classical model exists, it provides an explicit model. If it does not, then it computes the minimal amount of noise that must be added such that a model does exist, and then provides this model. We generalize all these results to arbitrary generalized probabilistic theories (and accessible fragments thereof) as well; indeed, our linear program is a test of simplex-embeddability.
翻訳日:2023-10-28 06:53:41 公開日:2023-10-25
# 高次元軌道角運動状態の無選択制御生成

Postselection-free controlled generation of a high-dimensional orbital-angular-momentum entangled state ( http://arxiv.org/abs/2203.14799v2 )

ライセンス: Link先を確認
Suman Karan, Radhika Prasad, and Anand K. Jha(参考訳) 軌道角運動量(OAM)基底における高次元の絡み合った状態は、量子情報応用にいくつかのユニークな利点をもたらす。 しかし、与えられたアプリケーションの最適性能には、完全にポストセレクションフリーで完全に制御可能なOAM絡み合った状態の生成技術が必要である。 しかし、過去にも幾度となく、そのような技法は現存していない。 本稿では,このような手法を提案するとともに,最大150次元のオーム絡み合い状態のポストセレクションフリー生成を実験的に示す。 制御の指標である生成精度は、ガウススペクトルと三角形のOAMシュミットスペクトルを持つ状態では98%以上であり、長方形スペクトルを持つ最大絡み合ったOAM状態では90%以上である。

High-dimensional entangled states in orbital angular momentum (OAM) basis offer several unique advantages for quantum information applications. However, for the optimal performance of a given application, one requires a generation technique for OAM entangled states that is completely postselection-free and fully controllable. Nonetheless, despite several efforts in the past, no such technique currently exists. In this article, we propose just such a technique and experimentally demonstrate postselection-free generation of up to about 150-dimensional OAM entangled states. We report the generation accuracy, which is a measure of the control, to be more than 98% for states with Gaussian and triangular OAM Schmidt spectra and up to 90% for the maximally-entangled OAM states, which have rectangular spectra.
翻訳日:2023-10-28 06:53:28 公開日:2023-10-25
# 混合モデルにおける偽会員率制御

False membership rate control in mixture models ( http://arxiv.org/abs/2203.02597v4 )

ライセンス: Link先を確認
Ariane Marandon, Tabea Rebafka, Etienne Roquain, Nataliya Sokolovska(参考訳) クラスタリングタスクは、サンプルの要素を均質なグループに分割する。 ほとんどのデータセットには、あいまいで本質的に1つまたは別のクラスタに属することが難しい個人が含まれている。 しかし、実際的な応用では、誤分類は破壊的になり、避けるべきである。 誤分類率を小さくしておくために、サンプルの一部だけを分類することを決定できる。 教師付き設定では、このアプローチはよく知られており、棄却オプションを持つ分類と呼ばれる。 本稿では, 教師なし混合モデルフレームワークで再検討し, 偽会員率(FMR)が予め定義された定式レベル$\alpha$を超えないことを保証する手法を開発することを目的とする。 対象レベル$\alpha$に対するfmr偏差を明示的な剰余項で定量化することにより、理論的解析を提供するプラグイン手順を提案する。 この手順のブートストラップ版は, 数値実験における性能向上を図っている。

The clustering task consists in partitioning elements of a sample into homogeneous groups. Most datasets contain individuals that are ambiguous and intrinsically difficult to attribute to one or another cluster. However, in practical applications, misclassifying individuals is potentially disastrous and should be avoided. To keep the misclassification rate small, one can decide to classify only a part of the sample. In the supervised setting, this approach is well known and referred to as classification with an abstention option. In this paper the approach is revisited in an unsupervised mixture model framework and the purpose is to develop a method that comes with the guarantee that the false membership rate (FMR) does not exceed a pre-defined nominal level $\alpha$. A plug-in procedure is proposed, for which a theoretical analysis is provided, by quantifying the FMR deviation with respect to the target level $\alpha$ with explicit remainder terms. Bootstrap versions of the procedure are shown to improve the performance in numerical experiments.
翻訳日:2023-10-28 06:52:10 公開日:2023-10-25
# 不確実性定量化のための冷却サンプリング:気象逆問題からの動機付け

Chilled Sampling for Uncertainty Quantification: A Motivation From A Meteorological Inverse Problem ( http://arxiv.org/abs/2207.03182v3 )

ライセンス: Link先を確認
Patrick H\'eas and Fr\'ed\'eric C\'erou and Mathias Rousset(参考訳) 衛星画像から抽出した大気移動ベクトル(AMV)は、地球規模の良好な風観測である。 これらは数値気象予報(NWP)モデルに影響を及ぼす重要な特徴である。 AMVを推定するためにいくつかのベイズモデルが提案されている。 NWPモデルへの正しい同化には重要であるが、推定誤差を徹底的に評価する手法はほとんどない。 誤差を推定することの難しさは、非常に高次元の後方分布の特異性に起因している。 この難解な逆問題に動機づけられた本研究では,勾配型マルコフ連鎖モンテカルロ(mcmc)アルゴリズムを用いた推定誤差の評価について検討する。 主な貢献は、点推定の近傍の後方分布の局所近似をサンプリングするために用いられる here chilling と呼ばれる一般的な戦略を提案することである。 理論的観点からは、正規性仮定の下では、温度が最適ガウス近似に減少するにつれて、冷却された後続分布の族が分布的に収束することを示す。 したがって、冷やしたサンプリングはそのような高次元の非線形文脈において一般にリーチからこの近似へのアクセスを提供する。 実証的な観点から,いくつかの定量的ベイズ基準に基づいて提案手法を評価する。 我々の数値シミュレーションは, 合成および実気象データに基づいて行われる。 彼らは、提案した冷却が点推定値の精度とそれに伴う予測誤差の点で有意な利得を示しただけでなく、MCMCアルゴリズムの収束速度のかなりの加速を示した。

Atmospheric motion vectors (AMVs) extracted from satellite imagery are the only wind observations with good global coverage. They are important features for feeding numerical weather prediction (NWP) models. Several Bayesian models have been proposed to estimate AMVs. Although critical for correct assimilation into NWP models, very few methods provide a thorough characterization of the estimation errors. The difficulty of estimating errors stems from the specificity of the posterior distribution, which is both very high dimensional, and highly ill-conditioned due to a singular likelihood. Motivated by this difficult inverse problem, this work studies the evaluation of the (expected) estimation errors using gradient-based Markov Chain Monte Carlo (MCMC) algorithms. The main contribution is to propose a general strategy, called here chilling, which amounts to sampling a local approximation of the posterior distribution in the neighborhood of a point estimate. From a theoretical point of view, we show that under regularity assumptions, the family of chilled posterior distributions converges in distribution as temperature decreases to an optimal Gaussian approximation at a point estimate given by the Maximum A Posteriori, also known as the Laplace approximation. Chilled sampling therefore provides access to this approximation generally out of reach in such high-dimensional nonlinear contexts. From an empirical perspective, we evaluate the proposed approach based on some quantitative Bayesian criteria. Our numerical simulations are performed on synthetic and real meteorological data. They reveal that not only the proposed chilling exhibits a significant gain in terms of accuracy of the point estimates and of their associated expected errors, but also a substantial acceleration in the convergence speed of the MCMC algorithms.
翻訳日:2023-10-28 06:45:20 公開日:2023-10-25
# 中間子融解に関する量子情報の視点から

A quantum information perspective on meson melting ( http://arxiv.org/abs/2206.10528v2 )

ライセンス: Link先を確認
Mari Carmen Banuls, Michal P. Heller, Karl Jansen, Johannes Knaute, Viktor Svensson(参考訳) 量子情報の概念を用いて,非摂動境界状態の熱的融解を高温で特徴付けることを提案する。 テンソルネットワークを用いて、境界状態がフェルミオン対(中間子)であるイジング量子場理論における静的および動的設定でこのアイデアを調べる。 中間子融解の平衡シグネチャは、指数関数からパワーロースケーリングへ変化する熱状態の第2の r\'enyi エントロピーの温度依存性によって同定される。 平衡状態から, 熱クエンチ後の反射エントロピーの線形成長挙動への遷移を関連づける指標として同定した。 これらの分析はより広く適用され、量子多体および高エネルギー物理学における中間体中間子現象を記述する新しい方法をもたらす。

We propose to use quantum information notions to characterize thermally induced melting of nonperturbative bound states at high temperatures. We apply tensor networks to investigate this idea in static and dynamical settings within the Ising quantum field theory, where bound states are confined fermion pairs - mesons. An equilibrium signature of meson melting is identified in the temperature dependence of the thermal-state second R\'enyi entropy, which varies from exponential to power-law scaling. Out of equilibrium, we identify as the relevant signature the transition from an oscillatory to a linear growing behavior of reflected entropy after a thermal quench. These analyses apply more broadly, which brings new ways of describing in-medium meson phenomena in quantum many-body and high-energy physics.
翻訳日:2023-10-28 06:44:44 公開日:2023-10-25
# 理解的ロバストネス抽選」--ニューラルネットワークの刈り取り手法の幾何学的視覚的比較分析

"Understanding Robustness Lottery": A Geometric Visual Comparative Analysis of Neural Network Pruning Approaches ( http://arxiv.org/abs/2206.07918v2 )

ライセンス: Link先を確認
Zhimin Li, Shusen Liu, Xin Yu, Kailkhura Bhavya, Jie Cao, Diffenderfer James Daniel, Peer-Timo Bremer, Valerio Pascucci(参考訳) ディープラーニングアプローチは、大規模かつ過パラメータのニューラルネットワークに頼ることで、多くのアプリケーションで最先端のパフォーマンスを提供する。 しかし、このようなネットワークは非常に不安定であり、リソース制限のあるプラットフォームへのデプロイが難しいことが示されている。 モデルプルーニング、すなわちネットワークのサイズを減らすことは、より堅牢でコンパクトなモデルにつながる、広く採用されている戦略である。 モデルプルーニングには多くのヒューリスティックが存在するが、経験的な研究によれば、いくつかのヒューリスティックは性能を向上させるが、他のものはモデルをより脆くしたり、他の副作用を持つことがある。 この研究は、異なるプルーニング手法がネットワークの内部的特徴表現とそれに伴うモデルパフォーマンスへの影響をどのように変化させるかを明らかにすることを目的としている。 高次元モデル特徴空間の包括的比較とキャラクタリゼーションを容易にするために,特徴表現の視覚幾何学的解析を導入する。 我々は、一般的な分類損失から重要な幾何学的概念の集合を分解し評価し、それらを可視化システムの設計に利用し、プルーニングがモデル性能と特徴表現に与える影響を比較、強調した。 提案ツールは,プルーニング手法の詳細な比較環境と,一般的なデータ破損に対するモデル応答の包括的理解を提供する。 By leveraging the proposed visualization, machine learning researchers can reveal the similarities between pruning methods and redundant in robustness evaluation benchmarks, obtain geometric insights about the differences between pruned models that achieve superior robustness performance, and identify samples that are robust or fragile to model pruning and common data corruption to model pruning and data corruption but also obtain insights and explanations on how some pruned models achieve superior robustness performance.

Deep learning approaches have provided state-of-the-art performance in many applications by relying on large and overparameterized neural networks. However, such networks have been shown to be very brittle and are difficult to deploy on resource-limited platforms. Model pruning, i.e., reducing the size of the network, is a widely adopted strategy that can lead to a more robust and compact model. Many heuristics exist for model pruning, but empirical studies show that some heuristics improve performance whereas others can make models more brittle or have other side effects. This work aims to shed light on how different pruning methods alter the network's internal feature representation and the corresponding impact on model performance. To facilitate a comprehensive comparison and characterization of the high-dimensional model feature space, we introduce a visual geometric analysis of feature representations. We decomposed and evaluated a set of critical geometric concepts from the common adopted classification loss, and used them to design a visualization system to compare and highlight the impact of pruning on model performance and feature representation. The proposed tool provides an environment for in-depth comparison of pruning methods and a comprehensive understanding of how model response to common data corruption. By leveraging the proposed visualization, machine learning researchers can reveal the similarities between pruning methods and redundant in robustness evaluation benchmarks, obtain geometric insights about the differences between pruned models that achieve superior robustness performance, and identify samples that are robust or fragile to model pruning and common data corruption to model pruning and data corruption but also obtain insights and explanations on how some pruned models achieve superior robustness performance.
翻訳日:2023-10-28 06:44:27 公開日:2023-10-25
# クラスタリングアルゴリズムのベンチマークのためのフレームワーク

A framework for benchmarking clustering algorithms ( http://arxiv.org/abs/2209.09493v3 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) クラスタリングアルゴリズムの評価には、さまざまなベンチマーク問題でそれらを実行し、そのアウトプットを専門家が提供した基準的基幹グループと比較することが含まれる。 残念なことに、多くの研究論文や研究論文は少数のデータセットしか考慮していない。 また、与えられた問題集合をクラスタ化する等しく有効な方法が多数存在するという事実は、ほとんど考慮されない。 これらの制限を克服するために,クラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。 さらに,機械学習やデータマイニング文献で参照される多数のクラスタリングベンチマークデータセットを集約,洗練,標準化し,次元,サイズ,クラスタタイプの異なる新たなデータセットを追加した。 インタラクティブなデータセットエクスプローラー、Python APIのドキュメント、RやMATLABといった他のプログラミング言語からフレームワークと対話する方法の説明、その他の詳細はすべて <https://clustering-benchmarks.gagolewski.com> で提供されている。

The evaluation of clustering algorithms can involve running them on a variety of benchmark problems, and comparing their outputs to the reference, ground-truth groupings provided by experts. Unfortunately, many research papers and graduate theses consider only a small number of datasets. Also, the fact that there can be many equally valid ways to cluster a given problem set is rarely taken into account. In order to overcome these limitations, we have developed a framework whose aim is to introduce a consistent methodology for testing clustering algorithms. Furthermore, we have aggregated, polished, and standardised many clustering benchmark dataset collections referred to across the machine learning and data mining literature, and included new datasets of different dimensionalities, sizes, and cluster types. An interactive datasets explorer, the documentation of the Python API, a description of the ways to interact with the framework from other programming languages such as R or MATLAB, and other details are all provided at <https://clustering-benchmarks.gagolewski.com>.
翻訳日:2023-10-28 06:34:53 公開日:2023-10-25
# Lottery Aware Sparsity Hunting: リソース制限エッジ上でのフェデレーション学習の実現

Lottery Aware Sparsity Hunting: Enabling Federated Learning on Resource-Limited Edge ( http://arxiv.org/abs/2208.13092v3 )

ライセンス: Link先を確認
Sara Babakniya, Souvik Kundu, Saurav Prakash, Yue Niu, Salman Avestimehr(参考訳) エッジデバイスは、分散した性質のため、連合学習から著しく恩恵を受けるが、リソースと計算能力の制限は、デプロイメントにおいて制限をもたらす。 この問題の解決策は、クライアントのリソース予算を満たすために、既製のスパース学習アルゴリズムを利用することである。 しかし、このような単純なクライアント配置は、特にリソースに制約のあるクライアントにとって、大幅な精度の低下を引き起こす。 特に,クライアント間の疎結合マスクのコンセンサスの欠如は,グローバルモデルの収束を遅らせる可能性があり,精度の低下を招く可能性が示唆された。 これらの観察により,超低パラメータ密度で性能を維持するスパースサブモデルの学習のための統一スパース学習フレームワークである \textit{federated lottery aware sparsity hunting} (flash) を提案する。 さらに、異なるクライアントが異なるリソース予算を持つ可能性があることを考慮し、ターゲットパラメータ密度のみをサポートするのではなく、デバイスリソースの制限に基づいて異なる密度予算をクライアントが受けられるようにします。 多様なモデルとデータセットに関する実験分析は、FLASHが未成熟のベースラインとのギャップを埋める上で優位性を示し、$\mathord{\sim}10.1\%$の精度を$\mathord{\sim}10.26\times$同様のハイパーパラメータ設定で既存の代替手段と比較して、より少ない通信を行う。 コードは \url{https://github.com/sarababakn/flash_fl} で入手できる。

Edge devices can benefit remarkably from federated learning due to their distributed nature; however, their limited resource and computing power poses limitations in deployment. A possible solution to this problem is to utilize off-the-shelf sparse learning algorithms at the clients to meet their resource budget. However, such naive deployment in the clients causes significant accuracy degradation, especially for highly resource-constrained clients. In particular, our investigations reveal that the lack of consensus in the sparsity masks among the clients may potentially slow down the convergence of the global model and cause a substantial accuracy drop. With these observations, we present \textit{federated lottery aware sparsity hunting} (FLASH), a unified sparse learning framework for training a sparse sub-model that maintains the performance under ultra-low parameter density while yielding proportional communication benefits. Moreover, given that different clients may have different resource budgets, we present \textit{hetero-FLASH} where clients can take different density budgets based on their device resource limitations instead of supporting only one target parameter density. Experimental analysis on diverse models and datasets shows the superiority of FLASH in closing the gap with an unpruned baseline while yielding up to $\mathord{\sim}10.1\%$ improved accuracy with $\mathord{\sim}10.26\times$ fewer communication, compared to existing alternatives, at similar hyperparameter settings. Code is available at \url{https://github.com/SaraBabakN/flash_fl}.
翻訳日:2023-10-28 06:34:13 公開日:2023-10-25
# 偽発見率保証による適応的新規性検出

Adaptive novelty detection with false discovery rate guarantee ( http://arxiv.org/abs/2208.06685v3 )

ライセンス: Link先を確認
Ariane Marandon, Lihua Lei, David Mary and Etienne Roquain(参考訳) 本稿では,研究者が「典型的」測定の集合を利用できる半教師付きノベルティ検出問題について検討する。 近年の多重テストと共形推論の進歩に動機づけられ,任意の確率的分類アルゴリズムを包み込み,交換可能性以外の分布的仮定を伴わずに検出された有限標本の新規性に対する偽発見率(fdr)を制御できる柔軟な手法であるadadetectを提案する。 事前特定されたp値関数にしばしばコミットされる古典的なfdr制御手順とは対照的に、adadetectはデータ適応的な方法で変換を学習し、異常値と外れ値を区別する方向に集中する。 また,複数のテスト文献に着想を得て,有限サンプルfdr制御を維持しつつ,ヌルの割合に適応したadadetectの変種を提案する。 これらの手法は、天体物理学のアプリケーションを含む合成データセットと実世界のデータセットで示される。

This paper studies the semi-supervised novelty detection problem where a set of "typical" measurements is available to the researcher. Motivated by recent advances in multiple testing and conformal inference, we propose AdaDetect, a flexible method that is able to wrap around any probabilistic classification algorithm and control the false discovery rate (FDR) on detected novelties in finite samples without any distributional assumption other than exchangeability. In contrast to classical FDR-controlling procedures that are often committed to a pre-specified p-value function, AdaDetect learns the transformation in a data-adaptive manner to focus the power on the directions that distinguish between inliers and outliers. Inspired by the multiple testing literature, we further propose variants of AdaDetect that are adaptive to the proportion of nulls while maintaining the finite-sample FDR control. The methods are illustrated on synthetic datasets and real-world datasets, including an application in astrophysics.
翻訳日:2023-10-28 06:33:04 公開日:2023-10-25
# インシシシト2-tower Policies

Implicit Two-Tower Policies ( http://arxiv.org/abs/2208.01191v2 )

ライセンス: Link先を確認
Yunfan Zhao, Qingkai Pan, Krzysztof Choromanski, Deepali Jain, Vikas Sindhwani(参考訳) 本稿では,学習可能な潜在表現と入力状態の注意スコアに基づいて行動を選択する,構造化強化学習方針-アーキテクチャ,暗黙の2-tower(itt)ポリシの新たなクラスを提案する。 政策スタックにおける状態処理からのアクションを明示的に切り離すことで、我々は2つの主要な目標 – 実質的な計算ゲインとより良いパフォーマンス – を達成できる。 私たちのアーキテクチャは、離散と連続のアクション空間の両方と互換性があります。 OpenAI GymとDeepMind Control Suiteの15の環境でテストを行うことで、ITTアーキテクチャは特にブラックボックス/進化的最適化に適しており、対応するポリシートレーニングアルゴリズムは、非構造化の暗黙的ポリシーだけでなく、一般的に使用される明示的なポリシーよりも優れています。 我々は,ITTの2tower構造に重きを置いて,ハッシュや遅延塔更新などの手法を適用すれば,さらなる計算精度の向上が期待できることを示す。

We present a new class of structured reinforcement learning policy-architectures, Implicit Two-Tower (ITT) policies, where the actions are chosen based on the attention scores of their learnable latent representations with those of the input states. By explicitly disentangling action from state processing in the policy stack, we achieve two main goals: substantial computational gains and better performance. Our architectures are compatible with both: discrete and continuous action spaces. By conducting tests on 15 environments from OpenAI Gym and DeepMind Control Suite, we show that ITT-architectures are particularly suited for blackbox/evolutionary optimization and the corresponding policy training algorithms outperform their vanilla unstructured implicit counterparts as well as commonly used explicit policies. We complement our analysis by showing how techniques such as hashing and lazy tower updates, critically relying on the two-tower structure of ITTs, can be applied to obtain additional computational improvements.
翻訳日:2023-10-28 06:32:23 公開日:2023-10-25
# モンテカルロ法によるロバスト出力解析

Robust Output Analysis with Monte-Carlo Methodology ( http://arxiv.org/abs/2207.13612v3 )

ライセンス: Link先を確認
Kimia Vahdat and Sara Shashaani(参考訳) シミュレーションや機械学習を用いた予測モデリングでは、出力分析により推定値の品質を正確に評価することが重要である。 近年,モデル出力における入力データの不確実性の影響を定量化し,ロバスト性を高める手法が提案されている。 しかし、入力データが分布のパラメトリックな族に従属すると仮定すると、ほとんどの発展は適用できる。 モンテカルロサンプリングのレンズを通してシミュレーションと機械学習の出力を統一した出力分析フレームワークを提案する。 このフレームワークは、高次精度で出力に誘導される分散とバイアスの非パラメトリック定量化を提供する。 モデル出力からの新しいバイアス補正推定は、高速反復ブートストラップサンプリングと高次影響関数の拡張を利用する。 提案手法のスケーラビリティのために,予算最適ルールを考案し,分散低減のために制御変数を活用する。 モデル出力からより頑健な信頼区間を高いカバレッジ確率で構築する上で,理論と数値の結果から明らかな利点が得られた。

In predictive modeling with simulation or machine learning, it is critical to accurately assess the quality of estimated values through output analysis. In recent decades output analysis has become enriched with methods that quantify the impact of input data uncertainty in the model outputs to increase robustness. However, most developments are applicable assuming that the input data adheres to a parametric family of distributions. We propose a unified output analysis framework for simulation and machine learning outputs through the lens of Monte Carlo sampling. This framework provides nonparametric quantification of the variance and bias induced in the outputs with higher-order accuracy. Our new bias-corrected estimation from the model outputs leverages the extension of fast iterative bootstrap sampling and higher-order influence functions. For the scalability of the proposed estimation methods, we devise budget-optimal rules and leverage control variates for variance reduction. Our theoretical and numerical results demonstrate a clear advantage in building more robust confidence intervals from the model outputs with higher coverage probability.
翻訳日:2023-10-28 06:31:26 公開日:2023-10-25
# ベイズ自動事前選択による正規化データプログラミング

Regularized Data Programming with Automated Bayesian Prior Selection ( http://arxiv.org/abs/2210.08677v2 )

ライセンス: Link先を確認
Jacqueline R. M. A. Maasch, Hao Zhang, Qian Yang, Fei Wang, Volodymyr Kuleshov(参考訳) 手動データラベリングのコストは教師あり学習において大きな障害となる。 データプログラミング(dp)は、ユーザー定義プログラムラベリング関数(lfs)の出力を教師なし学習によって調整する、データセット作成をトレーニングするための弱い教師付きソリューションを提供する。 しかし、DPは、低データのコンテキストを含むいくつかのシナリオで、過度な多数決を上回りません。 本研究は,DP目標を正規化項で拡張することにより,教師なし学習の失敗を緩和する古典DPのベイズ拡張を導入する。 正規化学習は、情報優先を伴う最大後進推定によって達成される。 自動事前パラメータ選択のための代用信号として、多数決が提案されている。 その結果, 正則化dpは, 最大確率と多数決に対する性能向上, 解釈可能性の向上, 低データ環境の性能向上に寄与することが示唆された。

The cost of manual data labeling can be a significant obstacle in supervised learning. Data programming (DP) offers a weakly supervised solution for training dataset creation, wherein the outputs of user-defined programmatic labeling functions (LFs) are reconciled through unsupervised learning. However, DP can fail to outperform an unweighted majority vote in some scenarios, including low-data contexts. This work introduces a Bayesian extension of classical DP that mitigates failures of unsupervised learning by augmenting the DP objective with regularization terms. Regularized learning is achieved through maximum a posteriori estimation with informative priors. Majority vote is proposed as a proxy signal for automated prior parameter selection. Results suggest that regularized DP improves performance relative to maximum likelihood and majority voting, confers greater interpretability, and bolsters performance in low-data regimes.
翻訳日:2023-10-28 06:26:03 公開日:2023-10-25
# 親サブシステムコードのないフロッケ符号

Floquet codes without parent subsystem codes ( http://arxiv.org/abs/2210.02468v4 )

ライセンス: Link先を確認
Margarita Davydova, Nathanan Tantivasadakarn, Shankar Balasubramanian(参考訳) 親サブシステムコードに明示的な接続を持たない2次元、3次元の誤り訂正動的符号を新たに提案する。 css honeycomb コードと呼ばれる二次元コードは、hastings と haah による honeycomb コードと幾何学的に類似しており、同時に動的に瞬時に toric コードを埋め込んでいる。 しかしながら、honeycombコードとは異なり、明示的なcss構造を持ち、ゲージチェックはサブシステムコードを形成しない。 しかしながら,我々の動的プロトコルは論理情報を保存し,誤り訂正のしきい値を有することを示す。 この構成を3次元に一般化し,2つのタイプiフラクトンモデルであるチェッカーボードとx-cubeモデルにフォールトトレラントな交互のコードを得る。 最後に,情報損失を伴わずに2つのプロトコルをランダムに切り替える可能性を示すとともに,エラーシンドロームを計測し,CSSハニカムコードプロトコルとハニカムコードの互換性を示す。 このより一般的な非周期構造を「動的木コード」と呼び、これを3次元に一般化する。 確率的に有限オートマトンを処方し,単一キュービットのpauli誤りを訂正する動的木符号を生成し,実用的なフォールトトレラントなランダム符号の開発への一歩と見なすことができる。

We propose a new class of error-correcting dynamic codes in two and three dimensions that has no explicit connection to any parent subsystem code. The two-dimensional code, which we call the CSS honeycomb code, is geometrically similar to that of the honeycomb code by Hastings and Haah, and also dynamically embeds an instantaneous toric code. However, unlike the honeycomb code it possesses an explicit CSS structure and its gauge checks do not form a subsystem code. Nevertheless, we show that our dynamic protocol conserves logical information and possesses a threshold for error correction. We generalize this construction to three dimensions and obtain a code that fault-tolerantly alternates between realizing two type-I fracton models, the checkerboard and the X-cube model. Finally, we show the compatibility of our CSS honeycomb code protocol and the honeycomb code by showing the possibility of randomly switching between the two protocols without information loss while still measuring error syndromes. We call this more general aperiodic structure `dynamic tree codes', which we also generalize to three dimensions. We construct a probabilistic finite automaton prescription that generates dynamic tree codes correcting any single-qubit Pauli errors and can be viewed as a step towards the development of practical fault-tolerant random codes.
翻訳日:2023-10-28 06:24:47 公開日:2023-10-25
# GLM-130B:オープンバイリンガル事前訓練モデル

GLM-130B: An Open Bilingual Pre-trained Model ( http://arxiv.org/abs/2210.02414v2 )

ライセンス: Link先を確認
Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Peng Zhang, Yuxiao Dong, Jie Tang(参考訳) 我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。 この取り組みを通じて、予想外の技術的およびエンジニアリング上の課題、特に損失の急増と分散に直面する。 本稿では,GLM-130Bの設計選択,効率と安定性の両面でのトレーニング戦略,エンジニアリングの取り組みなどについて紹介する。 結果として GLM-130B モデルは、OPT-175B や BLOOM-176B では性能上の優位性は見られず、幅広い英語のベンチマークで GPT-3 175B (davinci) よりも優れた性能を提供する。 また、ERNIE TITAN 3.0 260B(中国最大の言語モデル)を関連するベンチマークで一貫して大幅に上回っている。 最後に、GLM-130Bのユニークなスケーリング特性を活用して、ポストトレーニングなしでINT4量子化に到達し、パフォーマンスロスはほとんどなく、100Bスケールモデルの中では初めてのものとなり、100Bスケールモデルを使用するのに最も安価なGPUである4$\times$RTX 3090 (24G)または8$\times$RTX 2080 Ti (11G) GPUでの効果的な推論を可能にした。 GLM-130Bモデルウェイトは公開されており、コード、トレーニングログ、関連するツールキット、教訓は、 \url{https://github.com/THUDM/GLM-130B/}でオープンソース化されている。

We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language model with 130 billion parameters. It is an attempt to open-source a 100B-scale model at least as good as GPT-3 (davinci) and unveil how models of such a scale can be successfully pre-trained. Over the course of this effort, we face numerous unexpected technical and engineering challenges, particularly on loss spikes and divergence. In this paper, we introduce the training process of GLM-130B including its design choices, training strategies for both efficiency and stability, and engineering efforts. The resultant GLM-130B model offers significant outperformance over GPT-3 175B (davinci) on a wide range of popular English benchmarks while the performance advantage is not observed in OPT-175B and BLOOM-176B. It also consistently and significantly outperforms ERNIE TITAN 3.0 260B -- the largest Chinese language model -- across related benchmarks. Finally, we leverage a unique scaling property of GLM-130B to reach INT4 quantization without post training, with almost no performance loss, making it the first among 100B-scale models and more importantly, allowing its effective inference on 4$\times$RTX 3090 (24G) or 8$\times$RTX 2080 Ti (11G) GPUs, the most affordable GPUs required for using 100B-scale models. The GLM-130B model weights are publicly accessible and its code, training logs, related toolkit, and lessons learned are open-sourced at \url{https://github.com/THUDM/GLM-130B/}.
翻訳日:2023-10-28 06:24:23 公開日:2023-10-25
# 2022年フランス・ブラジル大統領選挙におけるオンライン参加データによる政治的分裂の理解

Understanding Political Divisiveness using Online Participation data from the 2022 French and Brazilian Presidential Elections ( http://arxiv.org/abs/2211.04577v2 )

ライセンス: Link先を確認
Carlos Navarrete, Mariana Macedo, Rachael Colley, Jingling Zhang, Nicole Ferrada, Maria Eduarda Mello, Rodrigo Lira, Carmelo Bastos-Filho, Umberto Grandi, Jerome Lang, C\'esar A. Hidalgo(参考訳) デジタル技術は、詳細な政治選好の表現を促進することによって、市民参加を促進することができる。 しかし、デジタル参加の努力はしばしば、少数の候補者を含む選挙に最適化された手法に依存している。 2022年のフランス大統領選挙とブラジル大統領選挙の候補者が提案した政策を組み合わせることで、参加者がパーソナライズした政府プログラムを構築したオンライン実験で収集したデータを紹介する。 このデータを用いて, 社会的選択理論で用いられるものを補完する集約を探索し, 従来の集約関数とは無関係な分別性指標が, 偏極的提案を同定できることを見出した。 これらの指標は、参加者の人口動態の特徴に関するデータがない場合に推定できる各提案の分断率のスコアを与え、人口を分ける問題を説明する。 これらの結果は,デジタル参加の直接的な形態における従来の集約関数の補足として,分割性指標が有用であることを示唆している。

Digital technologies can augment civic participation by facilitating the expression of detailed political preferences. Yet, digital participation efforts often rely on methods optimized for elections involving a few candidates. Here we present data collected in an online experiment where participants built personalized government programs by combining policies proposed by the candidates of the 2022 French and Brazilian presidential elections. We use this data to explore aggregates complementing those used in social choice theory, finding that a metric of divisiveness, which is uncorrelated with traditional aggregation functions, can identify polarizing proposals. These metrics provide a score for the divisiveness of each proposal that can be estimated in the absence of data on the demographic characteristics of participants and that explains the issues that divide a population. These findings suggest divisiveness metrics can be useful complements to traditional aggregation functions in direct forms of digital participation.
翻訳日:2023-10-28 06:13:22 公開日:2023-10-25
# 政府における人工知能:概念、標準、統一された枠組み

Artificial intelligence in government: Concepts, standards, and a unified framework ( http://arxiv.org/abs/2210.17218v2 )

ライセンス: Link先を確認
Vincent J. Straub, Deborah Morgan, Jonathan Bright and Helen Margetts(参考訳) 人工知能(AI)の最近の進歩、特に生成言語モデリングは、政府の変革を約束している。 新しいAIシステムの高度な能力を考えると、これらは標準的な手術手順、明確なてんかん基準を用いて組み込まれ、社会の規範的な期待に沿うように振る舞うことが重要である。 複数のドメインの学者はその後、AIアプリケーションが持つさまざまなフォームを概念化し始め、潜在的なメリットと落とし穴の両方を強調した。 しかし、この文献は依然として断片化されており、公共行政や政治科学といった社会科学の分野の研究者、そしてAI、ML、ロボット工学の速い動きの分野は、いずれも相対的な分離の概念を発展させている。 政府におけるAIの新たな研究の形式化を求める声もあるが、公的なセクターにAIを組み込む結果を理解するために必要な理論的な視点の完全な深さを捉えたバランスの取れた説明には欠けている。 ここでは、まず、統合的文献レビューを行い、AIの多分野研究でよく見られる69のキーワードを特定し、クラスタ化することによって、社会的および技術的な分野にわたる取り組みを統合する。 次に,本書誌分析の結果をもとに,(1)運用適応性,(2)認識的アライメント,(3)規範的発散という,官庁向けaiシステム(ai-gov)の理解と分析のための3つの新しい多面的概念を提案する。 最後に、これらの概念をAI-GOVの概念的な類型論の次元として使用し、それぞれを新たなAI技術測定標準と結びつけて、運用の促進、学際的な対話の促進、AIによる政府再考を目指す人々の間での議論の激化を図った。

Recent advances in artificial intelligence (AI), especially in generative language modelling, hold the promise of transforming government. Given the advanced capabilities of new AI systems, it is critical that these are embedded using standard operational procedures, clear epistemic criteria, and behave in alignment with the normative expectations of society. Scholars in multiple domains have subsequently begun to conceptualize the different forms that AI applications may take, highlighting both their potential benefits and pitfalls. However, the literature remains fragmented, with researchers in social science disciplines like public administration and political science, and the fast-moving fields of AI, ML, and robotics, all developing concepts in relative isolation. Although there are calls to formalize the emerging study of AI in government, a balanced account that captures the full depth of theoretical perspectives needed to understand the consequences of embedding AI into a public sector context is lacking. Here, we unify efforts across social and technical disciplines by first conducting an integrative literature review to identify and cluster 69 key terms that frequently co-occur in the multidisciplinary study of AI. We then build on the results of this bibliometric analysis to propose three new multifaceted concepts for understanding and analysing AI-based systems for government (AI-GOV) in a more unified way: (1) operational fitness, (2) epistemic alignment, and (3) normative divergence. Finally, we put these concepts to work by using them as dimensions in a conceptual typology of AI-GOV and connecting each with emerging AI technical measurement standards to encourage operationalization, foster cross-disciplinary dialogue, and stimulate debate among those aiming to rethink government with AI.
翻訳日:2023-10-28 06:12:42 公開日:2023-10-25
# 適応型ポリトープによる量子分離性認証

Certifying Quantum Separability with Adaptive Polytopes ( http://arxiv.org/abs/2210.10054v3 )

ライセンス: Link先を確認
Ties-A. Ohst, Xiao-Dong Yu, Otfried G\"uhne, H. Chau Nguyen(参考訳) 量子状態の絡み合いと分離性の概念は物理学のいくつかの分野に関係している。 しかし、これらの特徴を特徴づける効果的な操作方法が欠けている。 適応型ポリトープ近似に基づく2粒子および多粒子量子系の量子分離性の証明法を提案する。 これは、実用上、中小次元の2粒子分離性を決定的に認識するアルゴリズムに繋がる。 多粒子系の場合、このアプローチは最大5キュービットまたは3キュートリットの完全分離性を特徴づけることができる。 最後に,本手法は,すべての二分法に対して分離可能であるが完全に分離できないような最大強固な状態など,興味深い絡み合い特性を持つ系統的量子状態の同定を可能にする。

The concept of entanglement and separability of quantum states is relevant for several fields in physics. Still, there is a lack of effective operational methods to characterise these features. We propose a method to certify quantum separability of two- and multiparticle quantum systems based on an adaptive polytope approximation. This leads to an algorithm which, for practical purposes, conclusively recognises two-particle separability for small and medium-size dimensions. For multiparticle systems, the approach allows to characterise full separability for up to five qubits or three qutrits; in addition, different classes of entanglement can be distinguished. Finally, our methods allow to identify systematically quantum states with interesting entanglement properties, such as maximally robust states which are separable for all bipartitions, but not fully separable.
翻訳日:2023-10-28 06:10:55 公開日:2023-10-25
# 自己説明可能な部分型ネットワークの解釈可能性の評価と改善

Evaluation and Improvement of Interpretability for Self-Explainable Part-Prototype Networks ( http://arxiv.org/abs/2212.05946v3 )

ライセンス: Link先を確認
Qihan Huang, Mengqi Xue, Wenqi Huang, Haofei Zhang, Jie Song, Yongcheng Jing, Mingli Song(参考訳) 部分プロトタイプネットワーク(例えば、protopnet、prototree、protopool)は、内在的な解釈可能性と非解釈可能なネットワークと同等の精度で幅広い研究の関心を集めている。 しかし、最近の研究で、プロトタイプからの解釈性は、特徴空間の類似性と入力空間の類似性との間の意味的ギャップのため、脆弱であることが判明した。 本研究では,パートプロトタイプネットワークの解釈可能性を定量的かつ客観的に評価する最初の試みを行うことにより,この問題に対処する。 具体的には,画像間の説明整合性と摂動に対する説明ロバスト性を評価するために,一貫性スコアと安定性スコアという2つの評価指標を提案する。 さらに,shresh-deep feature alignment (sdfa) モジュールとスコアアグリゲーション (sa) モジュールを備えた,プロトタイプの解釈性を向上させるための,詳細な部分プロトタイプネットワークを提案する。 我々は,既存の部分プロトタイプネットワークの解釈可能性を明らかにするために,系統評価実験を行い,実質的な議論を行う。 9つのアーキテクチャにまたがる3つのベンチマーク実験により、我々のモデルは精度と解釈可能性の両方において、最先端の技術を実現できることを示した。 私たちのコードはhttps://github.com/hqhqaq/evalprotopnetで利用可能です。

Part-prototype networks (e.g., ProtoPNet, ProtoTree, and ProtoPool) have attracted broad research interest for their intrinsic interpretability and comparable accuracy to non-interpretable counterparts. However, recent works find that the interpretability from prototypes is fragile, due to the semantic gap between the similarities in the feature space and that in the input space. In this work, we strive to address this challenge by making the first attempt to quantitatively and objectively evaluate the interpretability of the part-prototype networks. Specifically, we propose two evaluation metrics, termed as consistency score and stability score, to evaluate the explanation consistency across images and the explanation robustness against perturbations, respectively, both of which are essential for explanations taken into practice. Furthermore, we propose an elaborated part-prototype network with a shallow-deep feature alignment (SDFA) module and a score aggregation (SA) module to improve the interpretability of prototypes. We conduct systematical evaluation experiments and provide substantial discussions to uncover the interpretability of existing part-prototype networks. Experiments on three benchmarks across nine architectures demonstrate that our model achieves significantly superior performance to the state of the art, in both the accuracy and interpretability. Our code is available at https://github.com/hqhQAQ/EvalProtoPNet.
翻訳日:2023-10-28 06:04:34 公開日:2023-10-25
# 連続オプションを用いた動的決定周波数

Dynamic Decision Frequency with Continuous Options ( http://arxiv.org/abs/2212.04407v4 )

ライセンス: Link先を確認
Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin Jagersand and Samuele Tosatto(参考訳) 古典的な強化学習アルゴリズムでは、エージェントは離散時間と固定時間間隔で決定する。 設定が短すぎると、エージェントが目標を達成するために多数の決定をしなければなりませんが、設定が長すぎるとエージェントがシステムを制御できなくなるため、決定間の期間は問題の難しさを増す可能性がある。 しかし、物理系は必ずしも一定の制御周波数を必要としないため、学習エージェントの場合、可能であれば低い周波数、必要ならば高い周波数で操作することが好ましい。 提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。 これらのオプションは時間連続であり、アクションのスムーズな変更を提供する任意の所望の頻度でシステムと対話することができる。 動作サイクルの異なる連続制御タスクにおける従来のRL法と時間的吸収RL法を比較し,CTCOの有効性を示す。 本研究では,環境相互作用の周波数選択の影響を受けないことを示す。 さらに,sparse rewardの7自由度ロボットアームを用いた実世界の視覚到達作業におけるctcoの有効性を実証した。

In classic reinforcement learning algorithms, agents make decisions at discrete and fixed time intervals. The duration between decisions becomes a crucial hyperparameter, as setting it too short may increase the problem's difficulty by requiring the agent to make numerous decisions to achieve its goal while setting it too long can result in the agent losing control over the system. However, physical systems do not necessarily require a constant control frequency, and for learning agents, it is often preferable to operate with a low frequency when possible and a high frequency when necessary. We propose a framework called Continuous-Time Continuous-Options (CTCO), where the agent chooses options as sub-policies of variable durations. These options are time-continuous and can interact with the system at any desired frequency providing a smooth change of actions. We demonstrate the effectiveness of CTCO by comparing its performance to classical RL and temporal-abstraction RL methods on simulated continuous control tasks with various action-cycle times. We show that our algorithm's performance is not affected by the choice of environment interaction frequency. Furthermore, we demonstrate the efficacy of CTCO in facilitating exploration in a real-world visual reaching task for a 7 DOF robotic arm with sparse rewards.
翻訳日:2023-10-28 06:04:03 公開日:2023-10-25
# 多目的強化学習における福祉と公正

Welfare and Fairness in Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2212.01382v4 )

ライセンス: Link先を確認
Zimeng Fan, Nianli Peng, Muhang Tian, and Brandon Fain(参考訳) エージェントがベクトル値の報酬の多次元における高い報酬を同時に達成するポリシーを学習しなければならない、公平な多目的強化学習について検討する。 公平な資源配分の文献に動機づけられ, 長期累積報酬ベクトルの非線形公正福祉関数に対して, 期待される福祉最大化問題としてモデル化した。 そのような機能の典型例の1つはナッシュ社会福祉(英語版)(幾何学的平均)であり、その対数変換は比例フェアネス目的(英語版)(Proportional Fairness objective)とも呼ばれる。 その結果,ナッシュ社会福祉の最適最適化は,表例においても計算上難解であることがわかった。 それにもかかわらず,非線形スカラー化学習更新と非定常行動選択を組み合わせた,非線形福祉機能の最適化のための効果的な方針を学習するための新しいq-learning適応を提案する。 提案手法は, 線形スカラー化, 最適線形スカラー化の混合, ナッシュ社会福祉目的のための定常的行動選択に基づく手法よりも優れていることを示す。

We study fair multi-objective reinforcement learning in which an agent must learn a policy that simultaneously achieves high reward on multiple dimensions of a vector-valued reward. Motivated by the fair resource allocation literature, we model this as an expected welfare maximization problem, for some non-linear fair welfare function of the vector of long-term cumulative rewards. One canonical example of such a function is the Nash Social Welfare, or geometric mean, the log transform of which is also known as the Proportional Fairness objective. We show that even approximately optimal optimization of the expected Nash Social Welfare is computationally intractable even in the tabular case. Nevertheless, we provide a novel adaptation of Q-learning that combines non-linear scalarized learning updates and non-stationary action selection to learn effective policies for optimizing nonlinear welfare functions. We show that our algorithm is provably convergent, and we demonstrate experimentally that our approach outperforms techniques based on linear scalarization, mixtures of optimal linear scalarizations, or stationary action selection for the Nash Social Welfare Objective.
翻訳日:2023-10-28 06:02:38 公開日:2023-10-25
# データ駆動神経科学 - データ収集とベンチマークについて

Data-Driven Network Neuroscience: On Data Collection and Benchmark ( http://arxiv.org/abs/2211.12421v5 )

ライセンス: Link先を確認
Jiaxing Xu, Yunhan Yang, David Tse Jung Huang, Sophi Shilpa Gururajapathy, Yiping Ke, Miao Qiao, Alan Wang, Haribalan Kumar, Josh McGeown, Eryn Kwon(参考訳) 本稿では,神経科学,機械学習,グラフ分析の交点研究のための機能的脳ネットワークデータの包括的かつ高品質な収集について述べる。 解剖学的および機能的mri画像は、脳の機能的結合を理解するために用いられており、特にアルツハイマー病、パーキンソン病、自閉症などの神経変性疾患の同定に重要である。 近年、機械学習とグラフ分析を用いた脳ネットワークの形での脳の研究が、特にこれらの状態の早期発生を予測するために人気が高まっている。 グラフとして表される脳ネットワークは、従来の検査方法では捉えられないような豊富な構造と位置情報を保持している。 しかし、公開アクセス可能な脳ネットワークデータの欠如は、研究者がデータ駆動の探索を妨げている。 主な難点の1つは、複雑なドメイン固有の前処理ステップと、mri画像から脳ネットワークへのデータ変換に必要な徹底的な計算である。 我々は、公開データベースとプライベートソースから大量のMRI画像を収集し、ドメインの専門家と協力して適切な設計選択を行い、MRIイメージを前処理して脳ネットワークデータセットのコレクションを作成することで、このギャップを埋める。 データセットは6つの異なるソースから始まり、4つの脳の状態をカバーし、合計で2,702人の被験者で構成されている。 グラフデータセットを12の機械学習モデルでテストし、ベースラインを提供し、最近のグラフ解析モデルでデータ品質を検証する。 この学際分野における参入障壁を低くし、研究を促進するために、我々は脳ネットワークデータと、https://doi.org/10.17608/k6.auckland.21397377およびhttps://github.com/brainnetuoa/data_driven_network_neuroscienceのコードを含む完全な前処理の詳細をリリースする。

This paper presents a comprehensive and quality collection of functional human brain network data for potential research in the intersection of neuroscience, machine learning, and graph analytics. Anatomical and functional MRI images have been used to understand the functional connectivity of the human brain and are particularly important in identifying underlying neurodegenerative conditions such as Alzheimer's, Parkinson's, and Autism. Recently, the study of the brain in the form of brain networks using machine learning and graph analytics has become increasingly popular, especially to predict the early onset of these conditions. A brain network, represented as a graph, retains rich structural and positional information that traditional examination methods are unable to capture. However, the lack of publicly accessible brain network data prevents researchers from data-driven explorations. One of the main difficulties lies in the complicated domain-specific preprocessing steps and the exhaustive computation required to convert the data from MRI images into brain networks. We bridge this gap by collecting a large amount of MRI images from public databases and a private source, working with domain experts to make sensible design choices, and preprocessing the MRI images to produce a collection of brain network datasets. The datasets originate from 6 different sources, cover 4 brain conditions, and consist of a total of 2,702 subjects. We test our graph datasets on 12 machine learning models to provide baselines and validate the data quality on a recent graph analysis model. To lower the barrier to entry and promote the research in this interdisciplinary field, we release our brain network data and complete preprocessing details including codes at https://doi.org/10.17608/k6.auckland.21397377 and https://github.com/brainnetuoa/data_driven_network_neuroscience.
翻訳日:2023-10-28 06:02:20 公開日:2023-10-25
# UPTON: データ中毒による公開テキストの漏洩防止

UPTON: Preventing Authorship Leakage from Public Text Release via Data Poisoning ( http://arxiv.org/abs/2211.09717v3 )

ライセンス: Link先を確認
Ziyao Wang, Thai Le and Dongwon Lee(参考訳) 著者、活動家、内部告発者、多くの公文書が、攻撃者が既に著者の著作を含む公文書を基にした著作物帰属(AA)モデルを構築している可能性がある場合、匿名で書くことを望んでいるシナリオを考える。 彼女の願いを叶えるために、我々は「Tで訓練されたAAモデルがその著者シップをうまく評価できないように、公開の著作であるTを帰属できない」と質問する。 そこで,本研究では,ブラックボックスデータ中毒を駆使して,トレーニングサンプルの著者特性を弱め,公開テキストを学習不能にする新しい手法であるUPTONを提案する。 従来の難読化作業とは違って、例えば、テストサンプルを変更する敵攻撃や、単語のトリガー時にのみモデル出力を変更するバックドア攻撃などである。 4つの著者データセット (IMDb10, IMDb64, Enron, WJO) を用いて, UPTON がテキストの読みやすさを保ちながら, AA モデルの精度を非現実レベル (~35%) にダウングレードする実験的な検証を行った。 UPTONは、著者の利用可能なクリーンな文章に基づいてすでに訓練されているAAモデルに有効である。

Consider a scenario where an author-e.g., activist, whistle-blower, with many public writings wishes to write "anonymously" when attackers may have already built an authorship attribution (AA) model based off of public writings including those of the author. To enable her wish, we ask a question "Can one make the publicly released writings, T, unattributable so that AA models trained on T cannot attribute its authorship well?" Toward this question, we present a novel solution, UPTON, that exploits black-box data poisoning methods to weaken the authorship features in training samples and make released texts unlearnable. It is different from previous obfuscation works-e.g., adversarial attacks that modify test samples or backdoor works that only change the model outputs when triggering words occur. Using four authorship datasets (IMDb10, IMDb64, Enron, and WJO), we present empirical validation where UPTON successfully downgrades the accuracy of AA models to the impractical level (~35%) while keeping texts still readable (semantic similarity>0.9). UPTON remains effective to AA models that are already trained on available clean writings of authors.
翻訳日:2023-10-28 06:01:45 公開日:2023-10-25
# Open Domain Multi-document Summarization:Retrieval下でのモデル脆度に関する総合的研究

Open Domain Multi-document Summarization: A Comprehensive Study of Model Brittleness under Retrieval ( http://arxiv.org/abs/2212.10526v3 )

ライセンス: Link先を確認
John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan(参考訳) マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。 実際には、このドキュメントセットは必ずしも利用可能ではない。情報ニーズ、すなわち質問またはトピックステートメント、つまり私たちが"open-domain" mdsをダビングする設定から取得する必要がある。 私たちは、タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、このより困難な設定を研究します。 その結果,(1)オープンドメインmdsに適用された場合の性能が大幅に低下し,(2)オープンドメイン設定における追加のトレーニングにより,不完全検索に対する感度が低下し,(3)重複文書の検索や検索文書の順序に影響を受けないが,無関係文書の検索など他の誤りに非常に敏感であることがわかった。 この結果に基づき,検索した文書数を選択する方法など,オープンドメインmdsにおける今後の作業を可能にするための実践的ガイドラインを提供する。 オープンドメイン設定のさらなる進展には,新たな検索・要約手法とトレーニング・評価のための注釈付きリソースが必要であることが示唆された。

Multi-document summarization (MDS) assumes a set of topic-related documents are provided as input. In practice, this document set is not always available; it would need to be retrieved given an information need, i.e. a question or topic statement, a setting we dub "open-domain" MDS. We study this more challenging setting by formalizing the task and bootstrapping it using existing datasets, retrievers and summarizers. Via extensive automatic and human evaluation, we determine: (1) state-of-the-art summarizers suffer large reductions in performance when applied to open-domain MDS, (2) additional training in the open-domain setting can reduce this sensitivity to imperfect retrieval, and (3) summarizers are insensitive to the retrieval of duplicate documents and the order of retrieved documents, but highly sensitive to other errors, like the retrieval of irrelevant documents. Based on our results, we provide practical guidelines to enable future work on open-domain MDS, e.g. how to choose the number of retrieved documents to summarize. Our results suggest that new retrieval and summarization methods and annotated resources for training and evaluation are necessary for further progress in the open-domain setting.
翻訳日:2023-10-28 05:52:20 公開日:2023-10-25
# $\ell_{2,\infty}$テンソル摂動束による高次混合メンバシップの推定

Estimating Higher-Order Mixed Memberships via the $\ell_{2,\infty}$ Tensor Perturbation Bound ( http://arxiv.org/abs/2212.08642v2 )

ライセンス: Link先を確認
Joshua Agterberg and Anru Zhang(参考訳) 高次のマルチウェイデータは機械学習や統計学においてユビキタスであり、しばしばコミュニティのような構造を示し、それぞれのコンポーネント(ノード)が関連するコミュニティメンバーシップを持つ。 本稿では,テンソル混合メンバシップブロックモデルを提案する。テンソルブロックモデルの一般化は,メンバシップが離散的ではなく,潜在コミュニティの凸結合であることを示す。 我々は,本モデルの同定可能性を確立し,単純なコーナーフィンディングアルゴリズムを用いたテンソルSVDの高次直交反復アルゴリズム(HOOI)に基づく計算効率の高い推定手法を提案する。 次に、高次構造が推定精度に与える影響を示すノード単位の誤差境界を提供することにより、推定手順の整合性を示す。 一貫性を証明するために、HOOI に対する $\ell_{2,\infty}$ tensor 摂動を独立で、おそらくはヘテロスケダティックな亜ガウス雑音の下で、独立に利害を受ける可能性がある。 本解析では,イテレートに対する新しい残余ワンアウト構造を用い,テンソルsvdが計算可能となるような,ほぼ最適信号対雑音比条件下での低ランクテンソルのスペクトル特性のみに依存する。 他の1次解析は通常、ノイズのごく一部を除去したアルゴリズムの出力を解析して構築されるシーケンスに焦点をあてるが、我々の1次解析構成は、前回の反復と追加のテンソル構造の両方を使用して、潜在的な追加的なエラーの原因を取り除く。 最後に,本手法を実データとシミュレーションデータに適用し,2つのフライトデータセットとトレードネットワークデータセットに適用し,個別のコミュニティメンバーシップを持つモデルから特定できない効果を示す。

Higher-order multiway data is ubiquitous in machine learning and statistics and often exhibits community-like structures, where each component (node) along each different mode has a community membership associated with it. In this paper we propose the tensor mixed-membership blockmodel, a generalization of the tensor blockmodel positing that memberships need not be discrete, but instead are convex combinations of latent communities. We establish the identifiability of our model and propose a computationally efficient estimation procedure based on the higher-order orthogonal iteration algorithm (HOOI) for tensor SVD composed with a simplex corner-finding algorithm. We then demonstrate the consistency of our estimation procedure by providing a per-node error bound, which showcases the effect of higher-order structures on estimation accuracy. To prove our consistency result, we develop the $\ell_{2,\infty}$ tensor perturbation bound for HOOI under independent, possibly heteroskedastic, subgaussian noise that may be of independent interest. Our analysis uses a novel leave-one-out construction for the iterates, and our bounds depend only on spectral properties of the underlying low-rank tensor under nearly optimal signal-to-noise ratio conditions such that tensor SVD is computationally feasible. Whereas other leave-one-out analyses typically focus on sequences constructed by analyzing the output of a given algorithm with a small part of the noise removed, our leave-one-out analysis constructions use both the previous iterates and the additional tensor structure to eliminate a potential additional source of error. Finally, we apply our methodology to real and simulated data, including applications to two flight datasets and a trade network dataset, demonstrating some effects not identifiable from the model with discrete community memberships.
翻訳日:2023-10-28 05:51:22 公開日:2023-10-25
# スパース符号化による無拘束動的後悔

Unconstrained Dynamic Regret via Sparse Coding ( http://arxiv.org/abs/2301.13349v5 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) 逐次的意思決定における非定常性の問題に動機づけられたオンライン凸最適化(oco)を,2つの問題構造の結合の下で検討した。 すべてのコンパレータシーケンスに対して同時に低い後悔を保証できないため、この設定を扱うにはミニマックス最適化からコンパレータ適応性に移行する必要がある。 すなわち、合理的な後悔の限界は、前者の知識に対するコンパレータのある種の複雑さの尺度に依存するべきである。 本稿では, スパースコーディングフレームワークを用いて, 適応的再帰境界を新たに実現した。 コンパレータの複雑さは、そのエネルギーとユーザが指定した辞書のスパーシティによって測定され、かなりの汎用性を提供する。 例えばウェーブレット辞書を具備した我々のフレームワークは、コンパレータの最大値である$||\bar u||=||\sum_{t=1}^Tu_t/T||$と$$\sum_{t=1}^T|u_t-\bar u|$に代えて、コンパレータの最大値である$||\bar u|||=1}^T|u_t|||$の両方に適応することで、最先端境界(Jacobsen & Cutkosky, 2022)を改善する。 さらに, 再帰最小化によるデカップリング関数近似により解析が簡単になる。

Motivated by the challenge of nonstationarity in sequential decision making, we study Online Convex Optimization (OCO) under the coupling of two problem structures: the domain is unbounded, and the comparator sequence $u_1,\ldots,u_T$ is arbitrarily time-varying. As no algorithm can guarantee low regret simultaneously against all comparator sequences, handling this setting requires moving from minimax optimality to comparator adaptivity. That is, sensible regret bounds should depend on certain complexity measures of the comparator relative to one's prior knowledge. This paper achieves a new type of these adaptive regret bounds via a sparse coding framework. The complexity of the comparator is measured by its energy and its sparsity on a user-specified dictionary, which offers considerable versatility. Equipped with a wavelet dictionary for example, our framework improves the state-of-the-art bound (Jacobsen & Cutkosky, 2022) by adapting to both ($i$) the magnitude of the comparator average $||\bar u||=||\sum_{t=1}^Tu_t/T||$, rather than the maximum $\max_t||u_t||$; and ($ii$) the comparator variability $\sum_{t=1}^T||u_t-\bar u||$, rather than the uncentered sum $\sum_{t=1}^T||u_t||$. Furthermore, our analysis is simpler due to decoupling function approximation from regret minimization.
翻訳日:2023-10-28 05:46:04 公開日:2023-10-25
# 自己テストの操作-代数的定式化

An operator-algebraic formulation of self-testing ( http://arxiv.org/abs/2301.11291v2 )

ライセンス: Link先を確認
Connor Paddock, William Slofstra, Yuming Zhao, and Yangchen Zhou(参考訳) 我々は、$C^*$-代数上の状態の観点からの相関関係に対する自己検定の新しい定義を与える。 この定義は閉である有限次元量子モデルの任意のクラスに対する標準定義と等価であることを示し、相関が極大でありクラス内にフルランクモデルを持つことを仮定する。 この最後の条件は、自動的に povm 量子モデルのクラスを保持するが、バプティスタ、チェン、カニエフスキー、lolck、man{\v{c}}inska、gabelgaard nielsen、schmidtの結果として、射影モデルのクラスは必ずしも保持されない。 極端バイナリ相関と極端同期相関については、射影モデルに対する任意の自己テストはPOVMモデルに対する自己テストであることを示す。 POVMモデルの自己テストではない射影モデルの自己テストが存在するかどうかという問題は未解決のままである。 我々の新しい定義の利点は、自然に演算子モデルに拡張できることである。 極値相関が有限次元量子モデルに対する自己テストであることと、それが有限次元可換作用素モデルの自己テストであることは同値であることを示し、また、多くの既知の有限次元自己テストが実際には無限次元可換作用素モデルの自己テストであることも観察する。

We give a new definition of self-testing for correlations in terms of states on $C^*$-algebras. We show that this definition is equivalent to the standard definition for any class of finite-dimensional quantum models which is closed, provided that the correlation is extremal and has a full-rank model in the class. This last condition automatically holds for the class of POVM quantum models, but does not necessarily hold for the class of projective models by a result of Baptista, Chen, Kaniewski, Lolck, Man{\v{c}}inska, Gabelgaard Nielsen, and Schmidt. For extremal binary correlations and for extremal synchronous correlations, we show that any self-test for projective models is a self-test for POVM models. The question of whether there is a self-test for projective models which is not a self-test for POVM models remains open. An advantage of our new definition is that it extends naturally to commuting operator models. We show that an extremal correlation is a self-test for finite-dimensional quantum models if and only if it is a self-test for finite-dimensional commuting operator models, and also observe that many known finite-dimensional self-tests are in fact self-tests for infinite-dimensional commuting operator models.
翻訳日:2023-10-28 05:42:46 公開日:2023-10-25
# 学習保証と組み合わせて公平性を高める

Increasing Fairness via Combination with Learning Guarantees ( http://arxiv.org/abs/2301.10813v3 )

ライセンス: Link先を確認
Yijun Bian, Kun Zhang, Anqi Qiu, Nanguang Chen(参考訳) 機械学習(ML)モデルに隠された根底にある差別に関する懸念は、MLシステムが現実のシナリオに広く適用され、その中に隠された差別が直接人間の生活に影響を与えるという懸念が高まっている。 グループフェアネス尺度や、アンサンブル学習を組み合わせたフェアネス認識手法など、フェアネスを高めるために多くの手法が開発されている。 しかし、既存の公正度尺度は、グループまたは個々の公正度のいずれかにのみ焦点をあてることができ、それら間のハードな互換性は、一方が満足してもバイアスが残る可能性を示している。 さらに、公平性を高める既存のメカニズムは、通常、有効性を示すために実証的な結果を示すが、公平性が特定の理論的な保証によって促進されるかどうかを議論できるものはほとんどない。 これらの課題に対処するために、個人と集団の公平性の両方を反映する差別的リスクという公平性品質尺度を提案する。 さらに,提案手法の特性を検証し,一階および二階のオラクル境界を提案し,理論学習保証と合理化によって公平性が向上することを示す。 この分析は二進分類と多進分類の両方に適している。 また,提案手法を利用した刈り取り手法を提案し,提案手法の有効性を評価するための総合実験を行った。

The concern about underlying discrimination hidden in machine learning (ML) models is increasing, as ML systems have been widely applied in more and more real-world scenarios and any discrimination hidden in them will directly affect human life. Many techniques have been developed to enhance fairness including commonly-used group fairness measures and several fairness-aware methods combining ensemble learning. However, existing fairness measures can only focus on one aspect -- either group or individual fairness, and the hard compatibility among them indicates a possibility of remaining biases even if one of them is satisfied. Moreover, existing mechanisms to boost fairness usually present empirical results to show validity, yet few of them discuss whether fairness can be boosted with certain theoretical guarantees. To address these issues, we propose a fairness quality measure named discriminative risk to reflect both individual and group fairness aspects. Furthermore, we investigate the properties of the proposed measure and propose first- and second-order oracle bounds to show that fairness can be boosted via ensemble combination with theoretical learning guarantees. The analysis is suitable for both binary and multi-class classification. A pruning method is also proposed to utilise our proposed measure and comprehensive experiments are conducted to evaluate the effectiveness of the proposed methods.
翻訳日:2023-10-28 05:42:04 公開日:2023-10-25
# 凸損失関数下での雑音場に対する最適かつスケーラブルな行列機構

An Optimal and Scalable Matrix Mechanism for Noisy Marginals under Convex Loss Functions ( http://arxiv.org/abs/2305.08175v2 )

ライセンス: Link先を確認
Yingtai Xiao, Guanlin He, Danfeng Zhang, Daniel Kifer(参考訳) ノイズ境界は機密性保護データリリースの一般的な形態であり、並行性テーブル解析、ベイズネットワークの構築、合成データ生成など多くの下流タスクに有用である。 線形クエリ(例えば境界)に対するバイアスのないノイズ応答を提供するプライバシメカニズムは、行列メカニズムとして知られている。 そこで本研究では,gaussian noiseを伴う辺縁系の行列機構であるsustainsplannerを提案する。 ResidualPlannerは、余分な分散の凸関数として記述できる多くの損失関数に対して最適化できる(事前の作業は1つの事前定義された目的関数に制限される)。 ResidualPlannerは、前回のHDMM(HDMM)がメモリが切れた場合でも、大規模な設定でマーサルの精度を数秒で最適化できる。 数分で100の属性を持つデータセット上でも動作する。 さらにResidualPlannerは、各辺の分散/共分散値を効率的に計算できる(比較的小さなデータセットであっても、適切なメソッドはすぐにメモリが切れる)。

Noisy marginals are a common form of confidentiality-protecting data release and are useful for many downstream tasks such as contingency table analysis, construction of Bayesian networks, and even synthetic data generation. Privacy mechanisms that provide unbiased noisy answers to linear queries (such as marginals) are known as matrix mechanisms. We propose ResidualPlanner, a matrix mechanism for marginals with Gaussian noise that is both optimal and scalable. ResidualPlanner can optimize for many loss functions that can be written as a convex function of marginal variances (prior work was restricted to just one predefined objective function). ResidualPlanner can optimize the accuracy of marginals in large scale settings in seconds, even when the previous state of the art (HDMM) runs out of memory. It even runs on datasets with 100 attributes in a couple of minutes. Furthermore ResidualPlanner can efficiently compute variance/covariance values for each marginal (prior methods quickly run out of memory, even for relatively small datasets).
翻訳日:2023-10-28 05:09:45 公開日:2023-10-25
# Oracle-Efficient Pessimism: コンテキスト帯域におけるオフラインポリシー最適化

Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits ( http://arxiv.org/abs/2306.07923v2 )

ライセンス: Link先を確認
Lequn Wang, Akshay Krishnamurthy, Aleksandrs Slivkins(参考訳) 我々は、オフラインポリシー最適化(OPO)を、ログ化されたインタラクションの固定データセットが与えられるコンテキスト的帯域で検討する。 悲観的正規化子は通常分布シフトを緩和するために用いられるが、それ以前の実装は特殊または計算的に非効率である。 我々は、悲観的OPOのための最初の一般的なオラクル効率アルゴリズムを提示する:それは教師あり学習に還元し、幅広い適用性をもたらす。 先行する悲観的アプローチに類似した統計的保証を得る。 我々は、離散的かつ連続的な動作のアプローチをインスタンス化し、両方の設定で実験を行い、広範囲な構成で非正規化されたOPOよりも有利であることを示す。

We consider offline policy optimization (OPO) in contextual bandits, where one is given a fixed dataset of logged interactions. While pessimistic regularizers are typically used to mitigate distribution shift, prior implementations thereof are either specialized or computationally inefficient. We present the first general oracle-efficient algorithm for pessimistic OPO: it reduces to supervised learning, leading to broad applicability. We obtain statistical guarantees analogous to those for prior pessimistic approaches. We instantiate our approach for both discrete and continuous actions and perform experiments in both settings, showing advantage over unregularized OPO across a wide range of configurations.
翻訳日:2023-10-28 05:02:03 公開日:2023-10-25
# グラフニューラルネットワークにおける局所ホモフィリーレベルの性能差について

On Performance Discrepancies Across Local Homophily Levels in Graph Neural Networks ( http://arxiv.org/abs/2306.05557v3 )

ライセンス: Link先を確認
Donald Loveland, Jiong Zhu, Mark Heimann, Benjamin Fish, Michael T. Shaub, Danai Koutra(参考訳) graph neural network(gnn)の研究は、高い相同性(つまり同じクラスのノードが接続する傾向)とノード分類における強力な予測性能との関係を強調している。 しかし、最近の研究は、単純なGNNがある種の異好的な設定で学習できることを実証し、よりニュアンスな関係を見出した。 これらの矛盾を解消し、実世界のデータセットに近づき、グローバルグラフのホモフィリーレベルの仮定を超えて、ノードの局所ホモフィリーレベルがグローバルなホモフィリーレベルから逸脱した場合にGNNの性能を研究する。 理論的および実証的分析により,局所ホモフィリのシフトが性能低下をもたらすことを体系的に実証し,局所ホモフィリレベルにおける性能のばらつきを明らかにした。 我々は,この研究の実践的意味を,グローバルなホモフィリーレベルの異なる5つの実世界のデータセットの粒度解析により明らかにした。 (a)GNNは、グラフのグローバルなホモフィリエから逸脱するテストノードに一般化に失敗する可能性がある。 (b)高局所ホモフィリーは必ずしもノードの高性能を期待するとは限らない。 さらに、グローバルな異種グラフ用に設計されたGNNは、局所的ホモフィリーレベルのパフォーマンスを改善することにより、パフォーマンスの相違を緩和し、これらのGNNがより強力なグローバルパフォーマンスを実現するための新たな視点を提供する。

Graph Neural Network (GNN) research has highlighted a relationship between high homophily (i.e., the tendency of nodes of the same class to connect) and strong predictive performance in node classification. However, recent work has found the relationship to be more nuanced, demonstrating that simple GNNs can learn in certain heterophilous settings. To resolve these conflicting findings and align closer to real-world datasets, we go beyond the assumption of a global graph homophily level and study the performance of GNNs when the local homophily level of a node deviates from the global homophily level. Through theoretical and empirical analysis, we systematically demonstrate how shifts in local homophily can introduce performance degradation, leading to performance discrepancies across local homophily levels. We ground the practical implications of this work through granular analysis on five real-world datasets with varying global homophily levels, demonstrating that (a) GNNs can fail to generalize to test nodes that deviate from the global homophily of a graph, and (b) high local homophily does not necessarily confer high performance for a node. We further show that GNNs designed for globally heterophilous graphs can alleviate performance discrepancy by improving performance across local homophily levels, offering a new perspective on how these GNNs achieve stronger global performance.
翻訳日:2023-10-28 05:01:36 公開日:2023-10-25
# 量子ドット量子ビットにおける1/f帯電雑音源としての相互作用2レベル系

Interacting Two-Level Systems as a Source of 1/f Charge Noise in Quantum Dot Qubits ( http://arxiv.org/abs/2308.13674v2 )

ライセンス: Link先を確認
D. L. Mickelsen, Herve M. Carruzzo, and Clare C. Yu(参考訳) 半導体量子ドットの電荷ノイズは1/fのスペクトルを持つ。 本稿では、電気双極子モーメントを持つ2つのレベルシステム(TLS)と、他のゆらぎ器と相互作用する2次元バスに量子ドットを結合するモデルを提案する。 これらの相互作用は主に弾性ひずみ場を介して行われる。 これらの弾性相互作用を表現するために2次元の近距離イジングスピングラスを用い、変動子を含む酸化物層上の金属ゲートを表わす接地平面の存在下での電気双極子フラクタの浴のダイナミクスをシミュレートする。 TLS間の相互作用は、個々のゆらぎのエネルギー分割を時間とともに変化させる。 我々は、酸化物層の下にある2つの量子ドットにおける電位の変動を計算した。 量子ドットにおける1/f電位雑音スペクトルと2つの量子ドット間のノイズの相互相関は実験と定性的に一致している。 シミュレーションの結果,量子ドット分離の増大に伴い相互相関は指数関数的に減少することがわかった。

Charge noise in semiconducting quantum dots has been observed to have a 1/f spectrum. We propose a model in which a pair of quantum dots are coupled to a 2D bath of fluctuating two level systems (TLS) that have electric dipole moments and that interact with each other, i.e., with the other fluctuators. These interactions are primarily via the elastic strain field. We use a 2D nearest-neighbor Ising spin glass to represent these elastic interactions and to simulate the dynamics of the bath of electric dipole fluctuators in the presence of a ground plane representing metal gates above the oxide layer containing the fluctuators. The interactions between the TLS cause the energy splitting of individual fluctuators to change with time. We calculate the resulting fluctuations in the electric potential at the two quantum dots that lie below the oxide layer. We find that 1/f electric potential noise spectra at the quantum dots and cross correlation in the noise between the two quantum dots are in qualitative agreement with experiment. Our simulations find that the cross correlations decrease exponentially with increasing quantum dot separation.
翻訳日:2023-10-28 04:51:06 公開日:2023-10-25
# 見ることは信じない:純粋相関に対するロバスト強化学習

Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation ( http://arxiv.org/abs/2307.07907v2 )

ライセンス: Link先を確認
Wenhao Ding, Laixi Shi, Yuejie Chi, Ding Zhao(参考訳) ロバストネスは、ランダムな摂動、まれな出来事、悪意のある攻撃などの様々な不確実性を扱うために強化学習(RL)で広く研究されている。 本研究では, 状態の異なる部分が観察されていない共同設立者によって引き起こされる相関を持たない, スプリアス相関に対するロバスト性について検討する。 例えば、自動運転車は昼間に大量の交通を観測し、夜間には人間の活動が観測できないため、夜間に軽度の交通を観測する。 このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。 モチベーションは高いが、スプリアス相関に対する堅牢性の実現は、観察されていない共同創設者と因果構造によって形成される不確実性セットが特徴付けや識別が難しいため、重大な課題をもたらす。 したがって、単純で非構造化の不確実性集合を仮定する既存のロバストなアルゴリズムは、この課題に対処するには不十分である。 そこで本研究では,rcc-mdps(ロバスト・ステート・コングド・マルコフ決定プロセス)を提案するとともに,他のロバストなrl法と比較して,スプリアス相関の学習を回避し,その優位性を理論的に実証する。 我々はまた,RCC-MDPのロバストな最適ポリシーを学ぶための経験的アルゴリズムを設計し,現実的な8つの自動運転および操作タスクにおいて,すべてのベースラインを上回ります。

Robustness has been extensively studied in reinforcement learning (RL) to handle various forms of uncertainty such as random perturbations, rare events, and malicious attacks. In this work, we consider one critical type of robustness against spurious correlation, where different portions of the state do not have correlations induced by unobserved confounders. These spurious correlations are ubiquitous in real-world tasks, for instance, a self-driving car usually observes heavy traffic in the daytime and light traffic at night due to unobservable human activity. A model that learns such useless or even harmful correlation could catastrophically fail when the confounder in the test case deviates from the training one. Although motivated, enabling robustness against spurious correlation poses significant challenges since the uncertainty set, shaped by the unobserved confounder and causal structure, is difficult to characterize and identify. Existing robust algorithms that assume simple and unstructured uncertainty sets are therefore inadequate to address this challenge. To solve this issue, we propose Robust State-Confounded Markov Decision Processes (RSC-MDPs) and theoretically demonstrate its superiority in avoiding learning spurious correlations compared with other robust RL counterparts. We also design an empirical algorithm to learn the robust optimal policy for RSC-MDPs, which outperforms all baselines in eight realistic self-driving and manipulation tasks.
翻訳日:2023-10-28 04:49:11 公開日:2023-10-25
# 高次元線形回帰における経験ベイズ推定に対する平均場解析

A Mean Field Approach to Empirical Bayes Estimation in High-dimensional Linear Regression ( http://arxiv.org/abs/2309.16843v2 )

ライセンス: Link先を確認
Sumit Mukherjee, Bodhisattva Sen, Subhabrata Sen(参考訳) 高次元線形回帰における経験的ベイズ推定について検討する。 基礎となる事前推定の計算効率を向上すべく,もともとcarbonetto and stephens (2012) と kim et al. (2022) で導入された変分経験ベイズ法を適用した。 非パラメトリック最大度推定器(npmle)とその(計算可能)ナイーブ平均場変動推定器の漸近的一貫性を設計および事前の軽度仮定下で確立する。 さらに, ナイーブ平均場近似が支配的オプティマイザを持つと仮定すると, オラクル後方分布に対する計算効率の高い近似を開発し, 1-wasserstein計量の下でその精度を確立する。 これにより計算可能なベイズ推定が可能となり、例えば、平均カバレッジ保証付き後信頼性区間の構築、回帰係数のベイズ最適推定、非null比率の推定などが可能になる。 分析は決定論的設計とランダム設計の両方をカバーし,特徴間の相関性を考慮した。 我々の知る限りでは、この手法は空間性のない高次元回帰設定において、初めて厳密で非パラメトリックな経験的ベイズ法を提供する。

We study empirical Bayes estimation in high-dimensional linear regression. To facilitate computationally efficient estimation of the underlying prior, we adopt a variational empirical Bayes approach, introduced originally in Carbonetto and Stephens (2012) and Kim et al. (2022). We establish asymptotic consistency of the nonparametric maximum likelihood estimator (NPMLE) and its (computable) naive mean field variational surrogate under mild assumptions on the design and the prior. Assuming, in addition, that the naive mean field approximation has a dominant optimizer, we develop a computationally efficient approximation to the oracle posterior distribution, and establish its accuracy under the 1-Wasserstein metric. This enables computationally feasible Bayesian inference; e.g., construction of posterior credible intervals with an average coverage guarantee, Bayes optimal estimation for the regression coefficients, estimation of the proportion of non-nulls, etc. Our analysis covers both deterministic and random designs, and accommodates correlations among the features. To the best of our knowledge, this provides the first rigorous nonparametric empirical Bayes method in a high-dimensional regression setting without sparsity.
翻訳日:2023-10-28 04:41:30 公開日:2023-10-25
# 騒音域における政策最適化--連続制御における帰還景観について

Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control ( http://arxiv.org/abs/2309.14597v2 )

ライセンス: Link先を確認
Nate Rahn, Pierluca D'Oro, Harley Wiltzer, Pierre-Luc Bacon, Marc G. Bellemare(参考訳) 継続的制御のための深層強化学習剤は、時間とともにその性能に大きな不安定性を示すことが知られている。 本研究では,政策とリターンのマッピングという,リターンの景観を研究することにより,これらの行動に対する新たな視点を提供する。 一般的なアルゴリズムは、この風景のノイズの多い地区を横切り、ポリシーパラメータを1回更新するだけで、幅広いリターンが得られます。 これらのリターンの分布ビューを取ることで、ランドスケープをマッピングし、ポリシー空間の障害が発生しやすい領域を特徴付け、ポリシー品質の隠れた側面を明らかにする。 パラメータ空間内の単純な経路を見つけ、ポリシーの安定性を向上させることで、ランドスケープは驚くべき構造を示す。 結論として,政策のロバスト性を改善するため,騒音の多い地区から遠ざかって,そのような経路を見つける分散対応手法を開発した。 その結果,エージェントの最適化,評価,設計に関する新たな知見が得られた。

Deep reinforcement learning agents for continuous control are known to exhibit significant instability in their performance over time. In this work, we provide a fresh perspective on these behaviors by studying the return landscape: the mapping between a policy and a return. We find that popular algorithms traverse noisy neighborhoods of this landscape, in which a single update to the policy parameters leads to a wide range of returns. By taking a distributional view of these returns, we map the landscape, characterizing failure-prone regions of policy space and revealing a hidden dimension of policy quality. We show that the landscape exhibits surprising structure by finding simple paths in parameter space which improve the stability of a policy. To conclude, we develop a distribution-aware procedure which finds such paths, navigating away from noisy neighborhoods in order to improve the robustness of a policy. Taken together, our results provide new insight into the optimization, evaluation, and design of agents.
翻訳日:2023-10-28 04:40:57 公開日:2023-10-25
# 自律コアネットワークのためのディジタル双対型インテリジェントddos検出機構

Digital Twin-Enabled Intelligent DDoS Detection Mechanism for Autonomous Core Networks ( http://arxiv.org/abs/2310.12924v2 )

ライセンス: Link先を確認
Yagmur Yigit, Bahadir Bal, Aytac Karameseoglu, Trung Q. Duong, Berk Canberk(参考訳) 既存のDDoS(Distributed Denial of Service attack)ソリューションは、高度に集約されたデータレートを処理できないため、インターネットサービスプロバイダ(ISP)コアネットワークには適さない。 本稿では,自律システムのためのオンライン学習手法を用いたディジタル双対型知的ddos検出機構を提案する。 私たちはまず、ISPコアネットワークのディジタルツインに基づいたDDoS検出アーキテクチャを設計しました。 我々はコアネットワークデータを処理するために,YANGモデルと自動機能選択(AutoFS)モジュールを実装した。 オンライン学習アプローチを用いて,モデルを迅速かつ効率的に更新し,学習モデルを迅速に改善し,正確な予測を保証する。 最後に,提案手法がddos攻撃を検知し,特徴選択法と学習モデルを更新し,真の分類率は9%であることを明らかにした。 提案手法では,DDoS攻撃開始から約15分以内に攻撃を推定できる。

Existing distributed denial of service attack (DDoS) solutions cannot handle highly aggregated data rates; thus, they are unsuitable for Internet service provider (ISP) core networks. This article proposes a digital twin-enabled intelligent DDoS detection mechanism using an online learning method for autonomous systems. Our contributions are three-fold: we first design a DDoS detection architecture based on the digital twin for ISP core networks. We implemented a Yet Another Next Generation (YANG) model and an automated feature selection (AutoFS) module to handle core network data. We used an online learning approach to update the model instantly and efficiently, improve the learning model quickly, and ensure accurate predictions. Finally, we reveal that our proposed solution successfully detects DDoS attacks and updates the feature selection method and learning model with a true classification rate of ninety-seven percent. Our proposed solution can estimate the attack within approximately fifteen minutes after the DDoS attack starts.
翻訳日:2023-10-28 04:30:41 公開日:2023-10-25
# センサネットワークのためのネットワーク対応AutoMLフレームワーク

Network-Aware AutoML Framework for Software-Defined Sensor Networks ( http://arxiv.org/abs/2310.12914v2 )

ライセンス: Link先を確認
Emre Horsanali, Yagmur Yigit, Gokhan Secinti, Aytac Karameseoglu, and Berk Canberk(参考訳) 現在のddos(distributed denial of service attack)検出ソリューションは、高集約データレートを処理するための追加のインフラストラクチャを必要とするため、センサネットワークやモノのインターネットには適していない。 さらに、ソフトウェア定義センサネットワークのセキュリティアーキテクチャは、ソフトウェア定義ネットワークとセンサーネットワークの両方の脆弱性に注意を払う必要がある。 本稿では,ソフトウェア定義センサネットワークにおけるDDoS攻撃を検出するネットワーク対応自動機械学習(AutoML)フレームワークを提案する。 ネットワークに制約のある環境でのDDoS攻撃を,可変トラフィック負荷,異種トラフィック率,検出時間などの指標を用いて検出する,理想的な機械学習アルゴリズムを選択する。 私たちの貢献は2つあります。 i) DDoS検出範囲におけるMLアルゴリズムの効率性とネットワーク/トラヒック状態とのトレードオフをまず検討する。 (II)複数のMLアルゴリズムを配置し,オープンソースネットワークツールを含むソフトウェアアーキテクチャの設計と実装を行う。 最後に、サービス攻撃の否定の下で、当社のフレームワークは、追加の遅延でネットワーク内でトラフィックパケットが配信されるようにします。

As the current detection solutions of distributed denial of service attacks (DDoS) need additional infrastructures to handle high aggregate data rates, they are not suitable for sensor networks or the Internet of Things. Besides, the security architecture of software-defined sensor networks needs to pay attention to the vulnerabilities of both software-defined networks and sensor networks. In this paper, we propose a network-aware automated machine learning (AutoML) framework which detects DDoS attacks in software-defined sensor networks. Our framework selects an ideal machine learning algorithm to detect DDoS attacks in network-constrained environments, using metrics such as variable traffic load, heterogeneous traffic rate, and detection time while preventing over-fitting. Our contributions are two-fold: (i) we first investigate the trade-off between the efficiency of ML algorithms and network/traffic state in the scope of DDoS detection. (ii) we design and implement a software architecture containing open-source network tools, with the deployment of multiple ML algorithms. Lastly, we show that under the denial of service attacks, our framework ensures the traffic packets are still delivered within the network with additional delays.
翻訳日:2023-10-28 04:30:26 公開日:2023-10-25
# TwinPot:サイバーセーフなスマートシーポートのためのデジタルツインアシストハニーポット

TwinPot: Digital Twin-assisted Honeypot for Cyber-Secure Smart Seaports ( http://arxiv.org/abs/2310.12880v2 )

ライセンス: Link先を確認
Yagmur Yigit, Omer Kemal Kinaci, Trung Q. Duong, and Berk Canberk(参考訳) 次世代港のアイデアは、効率性への需要の高まりや商品の増産に伴う課題に対応して、ここ10年で明らかになってきた。 インテリジェントなインフラと施設の新たな時代において、サイバーセキュリティが最近、海港や海洋当局から最も大きな注目を集めていることは明らかであり、ほとんどの港の議題に対する主要な関心事である。 従来のセキュリティソリューションは、有害なエンティティからIoTとCPS(Cyber-Physical Systems)を保護するために適用することができる。 それでもセキュリティ研究者は、これらのソリューションがより透過的に動作する場合、攻撃者の行動についてのみ観察、調査、学習することができる。 ハニーポットは攻撃者に関する貴重な情報を提供するため、潜在的な解決策である。 仮想でも物理的でも構わない。 バーチャルなハニーポットは攻撃者を誘惑するよりリアルでなければならない。 この目的のために、Digital Twin(DT)技術は、ハニーポットの複雑さとシミュレーション精度を高めるために用いられる。 シーポートは、既存のデバイスと外部デバイスの両方から同時に攻撃することができる。 既存のメカニズムは外部攻撃を検出するには不十分であるため、現在のシステムは望ましいレベルで攻撃を処理できない。 DTとハニーポットの技術はそれらに取り組むために併用することができる。 その結果,スマート海港における外部攻撃に対するDT支援型ハニーポットであるTwinPotを提案する。 さらに,内部攻撃にdtを用いて異なる攻撃タイプを扱うインテリジェントアタック検出機構を提案する。 最後に、MANSIMツールと既存の2つのデータセットを使用して、内部および外部攻撃のための広範なスマート海港データセットを構築し、システムの性能をテストする。 システムに対する内部攻撃と外部攻撃を同時に行うことで,内部攻撃と外部攻撃の同時検出に成功した。

The idea of next-generation ports has become more apparent in the last ten years in response to the challenge posed by the rising demand for efficiency and the ever-increasing volume of goods. In this new era of intelligent infrastructure and facilities, it is evident that cyber-security has recently received the most significant attention from the seaport and maritime authorities, and it is a primary concern on the agenda of most ports. Traditional security solutions can be applied to safeguard IoT and Cyber-Physical Systems (CPS) from harmful entities. Nevertheless, security researchers can only watch, examine, and learn about the behaviors of attackers if these solutions operate more transparently. Herein, honeypots are potential solutions since they offer valuable information about the attackers. It can be virtual or physical. Virtual honeypots must be more realistic to entice attackers, necessitating better high-fidelity. To this end, Digital Twin (DT) technology can be employed to increase the complexity and simulation fidelity of the honeypots. Seaports can be attacked from both their existing devices and external devices at the same time. Existing mechanisms are insufficient to detect external attacks; therefore, the current systems cannot handle attacks at the desired level. DT and honeypot technologies can be used together to tackle them. Consequently, we suggest a DT-assisted honeypot, called TwinPot, for external attacks in smart seaports. Moreover, we propose an intelligent attack detection mechanism to handle different attack types using DT for internal attacks. Finally, we build an extensive smart seaport dataset for internal and external attacks using the MANSIM tool and two existing datasets to test the performance of our system. We show that under simultaneous internal and external attacks on the system, our solution successfully detects internal and external attacks.
翻訳日:2023-10-28 04:30:08 公開日:2023-10-25
# 構造認識群フェアネスを用いたフェデレーショングラフニューラルネットワーク

Equipping Federated Graph Neural Networks with Structure-aware Group Fairness ( http://arxiv.org/abs/2310.12350v2 )

ライセンス: Link先を確認
Nan Cui, Xiuling Wang, Wendy Hui Wang, Violet Chen and Yue Ning(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな分野のグラフデータ処理や分析タスクに広く利用されている。 集中的なグラフデータのトレーニングは、プライバシー上の懸念と規制上の制約のために不可能である。 このようにして、フェデレーション学習(fl)は、分散学習パラダイムにおけるこの課題に対処するためのトレンドソリューションとなる。 しかし、GNNはトレーニングデータから歴史的バイアスを継承し、差別的予測につながる可能性があるため、ローカルモデルのバイアスは分散環境でグローバルモデルに容易に伝播することができる。 これは連合gnnのバイアスを軽減するための新たな課題となる。 この課題に対処するために、Fair Federated Graph Neural Networkである$\text{F}^2$GNNを提案する。 データと学習アルゴリズムの両方からバイアスを発生させることができるため、$\text{F}^2$GNNは、フェデレートされた設定の下で両方のバイアスを緩和することを目的としている。 まず、トレーニンググラフにおけるデータバイアスと、トレーニングされたGNNモデルの統計的公正度メトリクスの関係に関する理論的知見を提供する。 理論的解析に基づいて、クライアント側のローカルモデルのグループフェアネスを高めるフェアネス対応ローカルモデル更新スキームと、アグリゲーションプロセスにおいてローカルモデルのデータのバイアスとフェアネスを考慮に入れたフェアネス対応グローバルモデル更新スキームの2つの主要なコンポーネントを含む、$\text{F}^2$GNNを設計する。 我々は, $\text{F}^2$GNNを実験的に, 多数のベースライン法に対して評価し, フェアネスとモデル精度の両面で, これらのベースラインよりも優れていることを示した。

Graph Neural Networks (GNNs) have been widely used for various types of graph data processing and analytical tasks in different domains. Training GNNs over centralized graph data can be infeasible due to privacy concerns and regulatory restrictions. Thus, federated learning (FL) becomes a trending solution to address this challenge in a distributed learning paradigm. However, as GNNs may inherit historical bias from training data and lead to discriminatory predictions, the bias of local models can be easily propagated to the global model in distributed settings. This poses a new challenge in mitigating bias in federated GNNs. To address this challenge, we propose $\text{F}^2$GNN, a Fair Federated Graph Neural Network, that enhances group fairness of federated GNNs. As bias can be sourced from both data and learning algorithms, $\text{F}^2$GNN aims to mitigate both types of bias under federated settings. First, we provide theoretical insights on the connection between data bias in a training graph and statistical fairness metrics of the trained GNN models. Based on the theoretical analysis, we design $\text{F}^2$GNN which contains two key components: a fairness-aware local model update scheme that enhances group fairness of the local models on the client side, and a fairness-weighted global model update scheme that takes both data bias and fairness metrics of local models into consideration in the aggregation process. We evaluate $\text{F}^2$GNN empirically versus a number of baseline methods, and demonstrate that $\text{F}^2$GNN outperforms these baselines in terms of both fairness and model accuracy.
翻訳日:2023-10-28 04:29:42 公開日:2023-10-25
# リカレントニューラルネットワークを用いたトポロジカル秩序の探索

Investigating Topological Order using Recurrent Neural Networks ( http://arxiv.org/abs/2303.11207v3 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Roger G. Melko, Juan Carrasquilla(参考訳) 自然言語処理のために開発されたrecurrent neural networks(rnns)は、強い相関を持つ量子多体システムを正確に記述する大きな可能性を秘めている。 ここでは2次元RNNを用いて、位相秩序を示す2つの原始型量子多体ハミルトニアンを探索する。 特に, rnn波動関数は, トーリック符号の位相次数と, カゴメ格子上のボース・ハバードスピン液体を, その位相的絡み合いエントロピーを推定することにより効果的に捉えることができることを示す。 また、RNNは、最小の絡み合い状態自体よりも、最小の絡み合い状態のコヒーレントな重ね合わせを好む。 総じて、RNN波動関数はランドーの対称性破壊パラダイムを超える物質相を研究する強力なツールであることを示した。

Recurrent neural networks (RNNs), originally developed for natural language processing, hold great promise for accurately describing strongly correlated quantum many-body systems. Here, we employ 2D RNNs to investigate two prototypical quantum many-body Hamiltonians exhibiting topological order. Specifically, we demonstrate that RNN wave functions can effectively capture the topological order of the toric code and a Bose-Hubbard spin liquid on the kagome lattice by estimating their topological entanglement entropies. We also find that RNNs favor coherent superpositions of minimally-entangled states over minimally-entangled states themselves. Overall, our findings demonstrate that RNN wave functions constitute a powerful tool to study phases of matter beyond Landau's symmetry-breaking paradigm.
翻訳日:2023-10-28 02:41:16 公開日:2023-10-25
# OWAに基づくリンク付き階層クラスタリング、ランス・ウィリアムズ公式、デンドログラム逆変換

Hierarchical clustering with OWA-based linkages, the Lance-Williams formula, and dendrogram inversions ( http://arxiv.org/abs/2303.05683v2 )

ライセンス: Link先を確認
Marek Gagolewski, Anna Cena, Simon James, Gleb Beliakov(参考訳) Ordered Weighted Averaging (OWA) 演算子に基づく集約的階層的クラスタリングは、単一、完全、および平均的なリンクを一般化するだけでなく、いくつかの最も近いまたは最も近い隣人に基づくクラスタ間距離も含む。 本稿では,Lance-Williams更新公式と,無限係数列による重み付き拡張OWAリンクの関係について検討する。 さらに, 重み発生器に対して, 結果のデンドログラムが不審なインバージョンから解放されることを保証する条件を提示する。

Agglomerative hierarchical clustering based on Ordered Weighted Averaging (OWA) operators not only generalises the single, complete, and average linkages, but also includes intercluster distances based on a few nearest or farthest neighbours, trimmed and winsorised means of pairwise point similarities, amongst many others. We explore the relationships between the famous Lance-Williams update formula and the extended OWA-based linkages with weights generated via infinite coefficient sequences. Furthermore, we provide some conditions for the weight generators to guarantee the resulting dendrograms to be free from unaesthetic inversions.
翻訳日:2023-10-28 02:40:16 公開日:2023-10-25
# 事前学習型視覚言語モデルを用いたオープンワールドオブジェクト操作

Open-World Object Manipulation using Pre-trained Vision-Language Models ( http://arxiv.org/abs/2303.00905v2 )

ライセンス: Link先を確認
Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman(参考訳) ロボットが人間の指示に従うためには、人間の語彙の豊富な意味情報(例:「ピンクのぬいぐるみは手に入るか?」)と、その感覚的観察と行動とをつなげる必要がある。 ロボット学習のアプローチは、ロボットが直接体験から多くの異なる行動を学べるようにしますが、ロボットがこれらすべての意味情報にまたがる初歩的な体験を持つことは、現実的ではありません。 例え、クジラのぬいぐるみと相互作用するデータを見たことがなくても、ロボットのポリシーでそのクジラのぬいぐるみを知覚し、拾えるようにしたいのです。 幸いなことに、インターネット上の静的データは膨大なセマンティック情報を持ち、この情報は事前訓練された視覚言語モデルでキャプチャされる。 本稿では,ロボットが直接見たことのない対象カテゴリーを含む指示を完結させることを目的として,これらの事前学習モデルとロボットポリシーを連携させることができるか検討する。 我々は,言語コマンドと画像から物体識別情報を抽出するために事前学習した視覚言語モデルを利用して,現在の画像,命令,抽出対象情報に対するロボットポリシーを条件とする,オープンワールドオブジェクトの操作(moo)と呼ぶシンプルな手法を開発した。 実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。 さらに,MOOが他の非言語ベースの入力モダリティに一般化して指ポインティングなどの興味の対象を指定する方法や,オープンワールドナビゲーションや操作を可能にするためにさらに拡張する方法について述べる。 プロジェクトのWebサイトと評価ビデオはhttps://robot-moo.github.io/にある。

For robots to follow instructions from people, they must be able to connect the rich semantic information in human vocabulary, e.g. "can you get me the pink stuffed whale?" to their sensory observations and actions. This brings up a notably difficult challenge for robots: while robot learning approaches allow robots to learn many different behaviors from first-hand experience, it is impractical for robots to have first-hand experiences that span all of this semantic information. We would like a robot's policy to be able to perceive and pick up the pink stuffed whale, even if it has never seen any data interacting with a stuffed whale before. Fortunately, static data on the internet has vast semantic information, and this information is captured in pre-trained vision-language models. In this paper, we study whether we can interface robot policies with these pre-trained models, with the aim of allowing robots to complete instructions involving object categories that the robot has never seen first-hand. We develop a simple approach, which we call Manipulation of Open-World Objects (MOO), which leverages a pre-trained vision-language model to extract object-identifying information from the language command and image, and conditions the robot policy on the current image, the instruction, and the extracted object information. In a variety of experiments on a real mobile manipulator, we find that MOO generalizes zero-shot to a wide range of novel object categories and environments. In addition, we show how MOO generalizes to other, non-language-based input modalities to specify the object of interest such as finger pointing, and how it can be further extended to enable open-world navigation and manipulation. The project's website and evaluation videos can be found at https://robot-moo.github.io/
翻訳日:2023-10-28 02:39:26 公開日:2023-10-25
# AutoFocusFormer: グリッドからのイメージセグメンテーション

AutoFocusFormer: Image Segmentation off the Grid ( http://arxiv.org/abs/2304.12406v2 )

ライセンス: Link先を確認
Chen Ziwen, Kaushik Patnaik, Shuangfei Zhai, Alvin Wan, Zhile Ren, Alex Schwing, Alex Colburn, Li Fuxin(参考訳) 現実世界の画像は、しばしば高度に不均衡なコンテンツ密度を持つ。 いくつかの地域は、例えば青い空の大きなパッチのような非常に均一であり、他の地域は多くの小さな物体で散らばっている。 しかし、畳み込み深層ネットワークにおけるグリッドダウンサンプリング戦略は、全ての領域を等しく扱う。 したがって、小さな物体はごくわずかな空間的位置で表現され、セグメンテーションのようなタスクが悪化する。 直感的には、ダウンサンプリング中に小さなオブジェクトを表すピクセルを多く保持することは重要な情報を保存するのに役立つ。 そこで本研究では,タスクの最も重要な画素を保持することを学習し,適応型ダウンサンプリングを行うローカル・アテンショントランスフォーマ画像認識バックボーンであるautofocusformer(aff)を提案する。 適応的なダウンサンプリングは画像平面上に不規則に分布する画素集合を生成するため、従来のグリッド構造は放棄する。 代わりに、バランスのとれたクラスタリングモジュールと学習可能な近傍マージモジュールによって容易になる、新しいポイントベースのローカルアテンションブロックを開発し、ポイントベースのセグメンテーションヘッドの表現を得る。 実験の結果、AutoFocusFormer(AFF)は類似サイズのベースラインモデルよりも大幅に改善されていることがわかった。

Real world images often have highly imbalanced content density. Some areas are very uniform, e.g., large patches of blue sky, while other areas are scattered with many small objects. Yet, the commonly used successive grid downsampling strategy in convolutional deep networks treats all areas equally. Hence, small objects are represented in very few spatial locations, leading to worse results in tasks such as segmentation. Intuitively, retaining more pixels representing small objects during downsampling helps to preserve important information. To achieve this, we propose AutoFocusFormer (AFF), a local-attention transformer image recognition backbone, which performs adaptive downsampling by learning to retain the most important pixels for the task. Since adaptive downsampling generates a set of pixels irregularly distributed on the image plane, we abandon the classic grid structure. Instead, we develop a novel point-based local attention block, facilitated by a balanced clustering module and a learnable neighborhood merging module, which yields representations for our point-based versions of state-of-the-art segmentation heads. Experiments show that our AutoFocusFormer (AFF) improves significantly over baseline models of similar sizes.
翻訳日:2023-10-28 02:29:50 公開日:2023-10-25
# 大規模視覚言語モデルの概念的理解

Probing Conceptual Understanding of Large Visual-Language Models ( http://arxiv.org/abs/2304.03659v2 )

ライセンス: Link先を確認
Madeline Chantry Schiappa and Michael Cogswell and Ajay Divakaran and Yogesh Singh Rawat(参考訳) 近年、大規模な視覚言語モデル(v+l)が様々な下流タスクで大きな成功を収めている。 しかし、これらのモデルが視覚内容の概念的把握を持っているかどうかについては、よく研究されていない。 本研究では,これらの大規模V+Lモデルの概念的理解に着目し,コンテンツ理解の3つの異なる側面を探索するための新しいベンチマークデータセットを提案する。 1)関係性 2)構成及び 3) コンテキスト。 私たちのプローブは認知科学に基礎を置き、例えば、v+lモデルが`snow garnished with a man''' が目立たないかどうかを判断できるかどうか、あるいはビーチにあることを知ってビーチ家具を識別できるかどうかを判断するのに役立ちます。 我々は5種類の最先端V+Lモデルを実験し、これらのモデルが概念的理解をほとんど示さないことを観察した。 本研究は,クロスアテンションが概念的理解の学習に役立つこと,CNNがテクスチャやパターンに優れていること,トランスフォーマーが色や形状に優れていること,などの興味深い知見を明らかにする。 さらに,これらの知見のいくつかを活用し,3つの概念理解尺度と期待できる初期結果に報いる簡易微調整手法により,性能向上のためのベースラインを提案する。 提案したベンチマークは,大規模なV+Lモデルの概念理解能力の評価と改善に役立つと考えている。

In recent years large visual-language (V+L) models have achieved great success in various downstream tasks. However, it is not well studied whether these models have a conceptual grasp of the visual content. In this work we focus on conceptual understanding of these large V+L models.To facilitate this study, we propose novel benchmarking datasets for probing three different aspects of content understanding, 1) relations, 2) composition and 3) context. Our probes are grounded in cognitive science and help determine if a V+L model can, for example, determine if ``snow garnished with a man'' is implausible, or if it can identify beach furniture by knowing it is located on a beach. We experimented with five different state-of-the-art V+L models and observe that these models mostly fail to demonstrate a conceptual understanding. This study reveals several interesting insights such as cross-attention helps learning conceptual understanding, and that CNNs are better with texture and patterns, while Transformers are better at color and shape. We further utilize some of these insights and propose a baseline for improving performance by a simple finetuning technique that rewards the three conceptual understanding measures with promising initial results. We believe that the proposed benchmarks will help the community assess and improve the conceptual understanding capabilities of large V+L models.
翻訳日:2023-10-28 02:28:11 公開日:2023-10-25
# I.I.D.と時系列データの因果発見法に関する調査

A Survey on Causal Discovery Methods for I.I.D. and Time Series Data ( http://arxiv.org/abs/2303.15027v3 )

ライセンス: Link先を確認
Uzma Hasan, Emam Hossain, Md Osman Gani(参考訳) データから因果関係を理解する能力は、人間レベルの知性の主要なマイルストーンの1つだ。 因果発見(cd)アルゴリズムは、関連する観測データと特定の仮定からシステムの変数間の因果関係を識別することができる。 長年にわたり、基礎となる因果メカニズムを明らかにするために、データの統計的性質に基づいたいくつかの手法が開発されてきた。 本研究では,独立および同一分散(I.I.D.)データと時系列データの両方から因果発見を行う手法について,広範な議論を行う。 この目的のために,まず,因果発見文献で用いられる共通用語を紹介し,その後,異なる設定で因果関係を識別するために設計されたアルゴリズムを包括的に議論する。 さらに、アルゴリズムのパフォーマンスを評価するために利用可能なベンチマークデータセットや、因果発見を簡単に行うための既製のツールやソフトウェアパッケージ、これらの手法を評価するのに使用される一般的なメトリクスについても論じる。 また、複数のベンチマークデータセットで広く使われている因果発見アルゴリズムを評価し、それらの性能を比較する。 最後に,様々な分野における因果発見アルゴリズムの研究課題と応用について考察した。

The ability to understand causality from data is one of the major milestones of human-level intelligence. Causal Discovery (CD) algorithms can identify the cause-effect relationships among the variables of a system from related observational data with certain assumptions. Over the years, several methods have been developed primarily based on the statistical properties of data to uncover the underlying causal mechanism. In this study, we present an extensive discussion on the methods designed to perform causal discovery from both independent and identically distributed (I.I.D.) data and time series data. For this purpose, we first introduce the common terminologies used in causal discovery literature and then provide a comprehensive discussion of the algorithms designed to identify causal relations in different settings. We further discuss some of the benchmark datasets available for evaluating the algorithmic performance, off-the-shelf tools or software packages to perform causal discovery readily, and the common metrics used to evaluate these methods. We also evaluate some widely used causal discovery algorithms on multiple benchmark datasets and compare their performances. Finally, we conclude by discussing the research challenges and the applications of causal discovery algorithms in multiple areas of interest.
翻訳日:2023-10-28 02:27:25 公開日:2023-10-25
# TriPlaneNet:EG3Dインバージョンのためのエンコーダ

TriPlaneNet: An Encoder for EG3D Inversion ( http://arxiv.org/abs/2303.13497v2 )

ライセンス: Link先を確認
Ananta R. Bhattarai, Matthias Nie{\ss}ner, Artem Sevastopolsky(参考訳) 近年, 頭部の高分解能・高忠実な生成モデルへの多くのアプローチが提案されており, 新規な視認性レンダリングの可能性も指摘されている。 同時に、既存の画像やビデオの再レンダリングや修正を可能にするために、逆問題を解決する必要がある。 2D GANインバージョンのための普遍的な最適化ベースの手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しいビューに外挿することができないかもしれない。 StyleGAN用に開発されたような高速エンコーダベースの技術は、アイデンティティ保存の欠如により、魅力が低下する可能性がある。 本研究は,EG3D生成モデルに提示された3次元平面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。 特に、潜伏符号に対するフィードフォワード畳み込みエンコーダを構築し、三平面数値オフセットの完全畳み込み予測器で拡張する。 レンダリングは、最適化ベースの技術で生成したものと品質が似ており、エンコーダベースの方法よりも優れています。 経験的に証明すると、これは、エンコーダベースのトレーニング可能なアプローチを用いて、ganパラメータ空間ではなく、三平面空間で直接動作した結果である。 最後に, 顔画像の3次元への埋め込みが, ベースライン全体よりも有意に正確であることを示し, トレーニング中に可能となるおそらく対称な事前処理によりさらに強化された。

Recent progress in NeRF-based GANs has introduced a number of approaches for high-resolution and high-fidelity generative modeling of human heads with a possibility for novel view rendering. At the same time, one must solve an inverse problem to be able to re-render or modify an existing image or video. Despite the success of universal optimization-based methods for 2D GAN inversion, those applied to 3D GANs may fail to extrapolate the result onto the novel view, whereas optimization-based 3D GAN inversion methods are time-consuming and can require at least several minutes per image. Fast encoder-based techniques, such as those developed for StyleGAN, may also be less appealing due to the lack of identity preservation. Our work introduces a fast technique that bridges the gap between the two approaches by directly utilizing the tri-plane representation presented for the EG3D generative model. In particular, we build upon a feed-forward convolutional encoder for the latent code and extend it with a fully-convolutional predictor of tri-plane numerical offsets. The renderings are similar in quality to the ones produced by optimization-based techniques and outperform the ones by encoder-based methods. As we empirically prove, this is a consequence of directly operating in the tri-plane space, not in the GAN parameter space, while making use of an encoder-based trainable approach. Finally, we demonstrate significantly more correct embedding of a face image in 3D than for all the baselines, further strengthened by a probably symmetric prior enabled during training.
翻訳日:2023-10-28 02:27:06 公開日:2023-10-25
# LLMは時間的嗜好を捉えることができるか?

Can LLMs Capture Intertemporal Preferences? ( http://arxiv.org/abs/2305.02531v5 )

ライセンス: Link先を確認
Ali Goli, Amandeep Singh(参考訳) 人事調査の回答者のエミュレートや選好の選考において,特に OpenAI の GPT-3.5 と GPT-4 の生存可能性について検討し,時間的選択に着目した。 ベンチマークのための時間的ディスカウントに関する広範な文献を活用することで、様々な言語にわたるllmからの応答を調べ、人間の反応と比較し、より小さい、より早い、より大きい、後の報酬の選好を探求する。 以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示す。 GPT-4はレキソグラフィーの嗜好を示さないが、測定された割引率はヒトよりもかなり大きい。 興味深いことに、gptモデルは、ドイツ語やマンダリンのような将来の時制参照が弱い言語において、言語構造と時間的選好の相関を示唆する既存の文献と一致している。 gptがその決定をいかに促すかを実証するが、我々が ``chain-of-thought conjoint" と呼ぶ手順は、llmと人間の反応の相違を緩和するが排除しない。 LLMを用いた嗜好を直接引き出すと誤解を招く可能性があるが、仮説生成においてチェーン・オブ・ソート・コンジョイントとトピックモデリング支援を組み合わせることで、研究者は選好の基盤を探ることができる。 チェーン・オブ・コンジョイント(Chain-of- Thought Conjoint)は、マーケティング担当者がLCMを使用して潜在的な属性や要因を特定するための構造化されたフレームワークを提供する。

We explore the viability of Large Language Models (LLMs), specifically OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting preferences, with a focus on intertemporal choices. Leveraging the extensive literature on intertemporal discounting for benchmarking, we examine responses from LLMs across various languages and compare them to human responses, exploring preferences between smaller, sooner, and larger, later rewards. Our findings reveal that both GPT models demonstrate less patience than humans, with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike human decision-makers. Though GPT-4 does not display lexicographic preferences, its measured discount rates are still considerably larger than those found in humans. Interestingly, GPT models show greater patience in languages with weak future tense references, such as German and Mandarin, aligning with existing literature that suggests a correlation between language structure and intertemporal preferences. We demonstrate how prompting GPT to explain its decisions, a procedure we term ``chain-of-thought conjoint," can mitigate, but does not eliminate, discrepancies between LLM and human responses. While directly eliciting preferences using LLMs may yield misleading results, combining chain-of-thought conjoint with topic modeling aids in hypothesis generation, enabling researchers to explore the underpinnings of preferences. Chain-of-thought conjoint provides a structured framework for marketers to use LLMs to identify potential attributes or factors that can explain preference heterogeneity across different customers and contexts.
翻訳日:2023-10-28 02:19:16 公開日:2023-10-25
# 認知訓練セッションにおける視覚による疲労・エンゲージメント推定のためのリカレントトランスフォーマーエンコーダ

Recurrent Transformer Encoders for Vision-based Estimation of Fatigue and Engagement in Cognitive Training Sessions ( http://arxiv.org/abs/2304.12470v2 )

ライセンス: Link先を確認
Yanchen Wang, Yunlong Xu, Feng Vankee Lin, Ehsan Adeli(参考訳) computerized cognitive training (cct) はスケーラブルで耐久性に富んだ介入であり、認知の低下を遅らせることを約束している。 cctの結果は効果的な関与の欠如によって制限され、特に認知症リスクのある高齢者では精神的疲労などの要因によって低下する。 CCT中に精神疲労をモニターできるスケーラブルで自動化された尺度が必要である。 そこで本研究では,CCT中に映像記録された顔のジェスチャーから軽度認知障害を有する高齢者の心的疲労をリアルタイムにモニタリングするための新しいリカレントビデオトランスフォーマー(RVT)法を開発した。 RVTモデルは,2値および多値の精神疲労分類における先行技術モデルと比較して,高いバランス精度(78%)と精度(0.82)を達成し,CCT反応時間と有意な相関(p=0.023)により検証した。 動的時間的情報を活用することで、RVTモデルはリアルタイムの精神的疲労を正確に測定する可能性を示し、効果的なエンゲージメントを高めるための将来のパーソナライズされたCCTの基礎を築いた。

Computerized cognitive training (CCT) is a scalable, well-tolerated intervention that has promise for slowing cognitive decline. Outcomes from CCT are limited by a lack of effective engagement, which is decreased by factors such as mental fatigue, particularly in older adults at risk for dementia. There is a need for scalable, automated measures that can monitor mental fatigue during CCT. Here, we develop and validate a novel Recurrent Video Transformer (RVT) method for monitoring real-time mental fatigue in older adults with mild cognitive impairment from video-recorded facial gestures during CCT. The RVT model achieved the highest balanced accuracy(78%) and precision (0.82) compared to the prior state-of-the-art models for binary and multi-class classification of mental fatigue and was additionally validated via significant association (p=0.023) with CCT reaction time. By leveraging dynamic temporal information, the RVT model demonstrates the potential to accurately measure real-time mental fatigue, laying the foundation for future personalized CCT that increase effective engagement.
翻訳日:2023-10-28 02:17:36 公開日:2023-10-25
# 正方形ニューラルネットワーク:トラクタブル密度モデルの新しいクラス

Squared Neural Families: A New Class of Tractable Density Models ( http://arxiv.org/abs/2305.13552v2 )

ライセンス: Link先を確認
Russell Tsuchida and Cheng Soon Ong and Dino Sejdinovic(参考訳) 確率分布の柔軟なモデルは、多くの機械学習タスクにおいて重要な要素である。 そこで我々は,ニューラルネットワークの2ノルムを平滑にすることで形成した正方形ニューラルネットワークファミリー(SNEFY, Squared Neural Family)と呼ばれる,新しい確率分布のクラスを開発し,検討する。 無限大のニューラルネットワークとガウス過程の間のよく確立された接続に類似した推論に従えば、SNEFYは、多くの場合において閉じた形式正規化定数を認め、フレキシブルで完全に引き寄せられる密度モデルをもたらすことを示す。 SNEFY は古典指数族を厳密に一般化し、条件付きで閉じ、引き分け可能な辺分布を持つ。 その有用性は、様々な密度推定、条件密度推定、データタスクの欠如による密度推定について示される。

Flexible models for probability distributions are an essential ingredient in many machine learning tasks. We develop and investigate a new class of probability distributions, which we call a Squared Neural Family (SNEFY), formed by squaring the 2-norm of a neural network and normalising it with respect to a base measure. Following the reasoning similar to the well established connections between infinitely wide neural networks and Gaussian processes, we show that SNEFYs admit closed form normalising constants in many cases of interest, thereby resulting in flexible yet fully tractable density models. SNEFYs strictly generalise classical exponential families, are closed under conditioning, and have tractable marginal distributions. Their utility is illustrated on a variety of density estimation, conditional density estimation, and density estimation with missing data tasks.
翻訳日:2023-10-28 02:09:11 公開日:2023-10-25
# マルチモーダル自動ファクトチェック:調査

Multimodal Automated Fact-Checking: A Survey ( http://arxiv.org/abs/2305.13507v3 )

ライセンス: Link先を確認
Mubashara Akhtar, Michael Schlichtkrull, Zhijiang Guo, Oana Cocarascu, Elena Simperl, Andreas Vlachos(参考訳) 誤報はしばしば複数のモダリティ(例えば誤字画像)で伝えられる。 マルチモーダルな誤報は、人間がより信頼できると認識し、テキストのみの誤報よりも早く拡散する。 afc(automated fact-checking)を調査対象とする研究が増えているが、これまでの調査では主にテキストが中心だった。 本研究では,マルチモーダル情報に特有のサブタスクを含むafcのフレームワークを概念化する。 さらに、異なるコミュニティで使われる関連用語を議論し、それらを我々のフレームワークにマッピングする。 実世界のファクトチェックでは,テキスト,画像,音声,ビデオという4つのモダリティに注目した。 我々はベンチマークとモデルを調査し、今後の研究の限界と将来的な方向性について議論する

Misinformation is often conveyed in multiple modalities, e.g. a miscaptioned image. Multimodal misinformation is perceived as more credible by humans, and spreads faster than its text-only counterparts. While an increasing body of research investigates automated fact-checking (AFC), previous surveys mostly focus on text. In this survey, we conceptualise a framework for AFC including subtasks unique to multimodal misinformation. Furthermore, we discuss related terms used in different communities and map them to our framework. We focus on four modalities prevalent in real-world fact-checking: text, image, audio, and video. We survey benchmarks and models, and discuss limitations and promising directions for future research
翻訳日:2023-10-28 02:08:55 公開日:2023-10-25
# 制約領域におけるベイズ推論の学習率

Learning Rate Free Bayesian Inference in Constrained Domains ( http://arxiv.org/abs/2305.14943v2 )

ライセンス: Link先を確認
Louis Sharrock, Lester Mackey, Christopher Nemeth(参考訳) そこで本研究では,完全学習率フリーの制約領域をサンプリングするための新しい粒子ベースアルゴリズムを提案する。 提案手法は, コンベックス最適化によるコインベッティングのアイデアと, 確率測度空間上のミラー化最適化問題としての制約サンプリングの視点を利用する。 この観点から、Langevin 動的ミラー化や Stein 変分勾配勾配勾配のミラー化など、既存の制約付きサンプリングアルゴリズムの統一フレームワークも導入する。 提案手法は,シンプレックス上のターゲットからのサンプリング,公平性制約によるサンプリング,選択後の推定における制約付きサンプリング問題など,様々な数値例で性能を示す。 提案手法は,ハイパーパラメータを調整することなく,既存の制約サンプリング手法と競合する性能を実現する。

We introduce a suite of new particle-based algorithms for sampling on constrained domains which are entirely learning rate free. Our approach leverages coin betting ideas from convex optimisation, and the viewpoint of constrained sampling as a mirrored optimisation problem on the space of probability measures. Based on this viewpoint, we also introduce a unifying framework for several existing constrained sampling algorithms, including mirrored Langevin dynamics and mirrored Stein variational gradient descent. We demonstrate the performance of our algorithms on a range of numerical examples, including sampling from targets on the simplex, sampling with fairness constraints, and constrained sampling problems in post-selection inference. Our results indicate that our algorithms achieve competitive performance with existing constrained sampling methods, without the need to tune any hyperparameters.
翻訳日:2023-10-28 02:00:58 公開日:2023-10-25
# decipherpref: gpt-4によるヒト嗜好判断における影響因子の解析

DecipherPref: Analyzing Influential Factors in Human Preference Judgments via GPT-4 ( http://arxiv.org/abs/2305.14702v2 )

ライセンス: Link先を確認
Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Fei Liu(参考訳) 人間の嗜好判断は、人間の価値観に沿ったアウトプットを生成するために、大きな言語モデル(LLM)を導く上で重要である。 人間の評価は、様々なシステムからの出力を比較し、既存の自動メトリクスを補完するために、要約タスクにも使われる。 しかし、その重要性にもかかわらず、これらの対比較やk$-wise比較についての研究は限られている。 出力長、情報性、流布、事実整合性といった要因の集団的影響と相対的重要性は、まだよく理解されていない。 また、人間の判断に他の隠れた要因があるかどうかも不明である。 本稿では,OpenAIが公開した対人的判断の収集について,詳細な検討を行う。 Bradley-Terry-Luceモデルを用いて、これらの人間の判断に埋め込まれた固有の嗜好を明らかにする。 最も好まれる要因はタスクやジャンルによって異なるが、最も好まれない要因は一貫性があり、例えば、アウトプットは短く、過剰なオフフォーカス内容や幻覚的事実を含んでいる。 本研究は,人間の嗜好評価におけるバランスのとれたデータセットの構築に影響を与えており,今後のllmの行動形成において重要なステップである。

Human preference judgments are pivotal in guiding large language models (LLMs) to produce outputs that align with human values. Human evaluations are also used in summarization tasks to compare outputs from various systems, complementing existing automatic metrics. Despite their significance, however, there has been limited research probing these pairwise or $k$-wise comparisons. The collective impact and relative importance of factors such as output length, informativeness, fluency, and factual consistency are still not well understood. It is also unclear if there are other hidden factors influencing human judgments. In this paper, we conduct an in-depth examination of a collection of pairwise human judgments released by OpenAI. Utilizing the Bradley-Terry-Luce (BTL) model, we reveal the inherent preferences embedded in these human judgments. We find that the most favored factors vary across tasks and genres, whereas the least favored factors tend to be consistent, e.g., outputs are too brief, contain excessive off-focus content or hallucinated facts. Our findings have implications on the construction of balanced datasets in human preference evaluations, which is a crucial step in shaping the behaviors of future LLMs.
翻訳日:2023-10-28 01:59:29 公開日:2023-10-25
# 重み付け・多様性重み付け・事前補正による普遍的テスト時間適応

Universal Test-time Adaptation through Weight Ensembling, Diversity Weighting, and Prior Correction ( http://arxiv.org/abs/2306.00650v2 )

ライセンス: Link先を確認
Robert A. Marsden, Mario D\"obler, Bin Yang(参考訳) 分散シフトはテスト時間中に起こり、モデルの性能を大幅に低下させる可能性があるため、オンラインテスト時間適応(TTA)は、現在のテストデータを活用して、デプロイ後もモデルを更新し続ける。 オンラインTTAに提案する手法は, あらゆる環境条件に対して有効である必要がある。 変数要素領域の非定常性と時間的相関を導入することにより、まずすべての実用的な設定を展開し、エンティティを普遍的なTTAとして定義する。 私たちは、これがそのような広い範囲をカバーする最初の作品であることを強調したいと思います。 ユニバーサルttaの問題に取り組むために,自己学習に基づく手法が対処しなければならないいくつかの課題を特定し,強調する。 1)複数の領域シフトを伴わないシーケンス長の異なるエントロピー最小化を行う場合のモデルバイアスと自明解の発生 2)多重領域シフトへの適応を悪化させる一般化の喪失と破滅的な忘れ方の発生 3)前のクラスの変化によるパフォーマンスの低下。 モデルがバイアスを受けるのを防ぐために、データセットとモデルに依存しない確実性と多様性の重み付けを利用する。 ジェネライゼーションの維持と壊滅的な忘れることを防ぐため、ソースと適応モデルの継続的な重み付けを提案する。 テスト期間中のクラスにおける不一致を補うために,モデルの予測を重み付けする適応型事前補正方式を提案する。 我々は、幅広い設定、データセット、モデルに基づいてROIDというアプローチを評価し、普遍的なTTA分野における新しい標準を設定します。 https://github.com/mariodoebler/test-time-adaptation

Since distribution shifts are likely to occur during test-time and can drastically decrease the model's performance, online test-time adaptation (TTA) continues to update the model after deployment, leveraging the current test data. Clearly, a method proposed for online TTA has to perform well for all kinds of environmental conditions. By introducing the variable factors domain non-stationarity and temporal correlation, we first unfold all practically relevant settings and define the entity as universal TTA. We want to highlight that this is the first work that covers such a broad spectrum, which is indispensable for the use in practice. To tackle the problem of universal TTA, we identify and highlight several challenges a self-training based method has to deal with: 1) model bias and the occurrence of trivial solutions when performing entropy minimization on varying sequence lengths with and without multiple domain shifts, 2) loss of generalization which exacerbates the adaptation to multiple domain shifts and the occurrence of catastrophic forgetting, and 3) performance degradation due to shifts in class prior. To prevent the model from becoming biased, we leverage a dataset and model-agnostic certainty and diversity weighting. In order to maintain generalization and prevent catastrophic forgetting, we propose to continually weight-average the source and adapted model. To compensate for disparities in the class prior during test-time, we propose an adaptive prior correction scheme that reweights the model's predictions. We evaluate our approach, named ROID, on a wide range of settings, datasets, and models, setting new standards in the field of universal TTA. Code is available at: https://github.com/mariodoebler/test-time-adaptation
翻訳日:2023-10-28 01:50:10 公開日:2023-10-25
# 生成粒子モデルとしてのGANとスコアベース拡散の統一

Unifying GANs and Score-Based Diffusion as Generative Particle Models ( http://arxiv.org/abs/2305.16150v2 )

ライセンス: Link先を確認
Jean-Yves Franceschi, Mike Gartrell, Ludovic Dos Santos, Thibaut Issenhuth, Emmanuel de B\'ezenac, Micka\"el Chen, Alain Rakotomamonjy(参考訳) 勾配流やスコアベース拡散モデルなどの粒子に基づく深部生成モデルは,近年,その顕著な性能により,注目を集めている。 微分方程式を用いて粒子分布を分解するという彼らの原理は、これまで広く普及していた生成逆数ネットワーク(GAN)とは対照的である。 本稿では,この解釈に挑戦し,粒子モデルの一般化としてジェネレータトレーニングをフレーミングすることで,粒子生成モデルと逆生成モデルを統一する新しい枠組みを提案する。 これは、ジェネレータが任意の生成モデルに追加されることを示唆している。 その結果、ジェネレータをスコアベース拡散モデルに統合し、ジェネレータを使わずにGANを訓練することが可能になる。 フレームワークの潜在的な応用の概念の証明として、これらのオリジナルのモデルの有効性を実証的に検証する。

Particle-based deep generative models, such as gradient flows and score-based diffusion models, have recently gained traction thanks to their striking performance. Their principle of displacing particle distributions using differential equations is conventionally seen as opposed to the previously widespread generative adversarial networks (GANs), which involve training a pushforward generator network. In this paper we challenge this interpretation, and propose a novel framework that unifies particle and adversarial generative models by framing generator training as a generalization of particle models. This suggests that a generator is an optional addition to any such generative model. Consequently, integrating a generator into a score-based diffusion model and training a GAN without a generator naturally emerge from our framework. We empirically test the viability of these original models as proofs of concepts of potential applications of our framework.
翻訳日:2023-10-28 01:48:35 公開日:2023-10-25
# 分離言語事前学習によるブートストラップ型ビジョンランゲージ学習

Bootstrapping Vision-Language Learning with Decoupled Language Pre-training ( http://arxiv.org/abs/2307.07063v3 )

ライセンス: Link先を確認
Yiren Jian, Chongyang Gao, Soroush Vosoughi(参考訳) 本稿では,凍結型大言語モデル(llms)のリソース集約型視覚言語(vl)事前学習への応用を最適化する新しい手法を提案する。 現在のパラダイムでは、言語モデルをガイドするプロンプトとして視覚的特徴を使用し、対応するテキストに対して最も関連性の高い視覚的特徴を決定することに重点を置いている。 私たちのアプローチは、言語コンポーネントに集中することで、視覚的な特徴に合わせるのに最適なプロンプトを特定することで多様化します。 Prompt-Transformer (P-Former) は,これらの理想的なプロンプトを予測し,画像とテキストのペアリングの必要性を回避し,言語データのみを訓練するモデルである。 この戦略は、エンドツーエンドのVLトレーニングプロセスを、別段のステージに微妙に分岐させる。 実験の結果,本フレームワークはロバストな画像からテキストへのベースライン(blip-2)の性能を大幅に向上させ,4mまたは129mのイメージテキストペアでトレーニングされたモデル間のパフォーマンスギャップを効果的に狭めていることが明らかとなった。 重要な点として,本フレームワークはアーキテクチャ設計の観点からはモダリティ非依存かつ柔軟であり,多様なベースモジュールを用いたビデオ学習タスクにおいて,その成功例によって検証されている。 コードはhttps://github.com/yiren-jian/BLITextで入手できる。

We present a novel methodology aimed at optimizing the application of frozen large language models (LLMs) for resource-intensive vision-language (VL) pre-training. The current paradigm uses visual features as prompts to guide language models, with a focus on determining the most relevant visual features for corresponding text. Our approach diverges by concentrating on the language component, specifically identifying the optimal prompts to align with visual features. We introduce the Prompt-Transformer (P-Former), a model that predicts these ideal prompts, which is trained exclusively on linguistic data, bypassing the need for image-text pairings. This strategy subtly bifurcates the end-to-end VL training process into an additional, separate stage. Our experiments reveal that our framework significantly enhances the performance of a robust image-to-text baseline (BLIP-2), and effectively narrows the performance gap between models trained with either 4M or 129M image-text pairs. Importantly, our framework is modality-agnostic and flexible in terms of architectural design, as validated by its successful application in a video learning task using varied base modules. The code will be made available at https://github.com/yiren-jian/BLIText.
翻訳日:2023-10-28 01:28:46 公開日:2023-10-25
# 微分可能決定木は解釈可能な逆関数を学習できるか?

Can Differentiable Decision Trees Learn Interpretable Reward Functions? ( http://arxiv.org/abs/2306.13004v3 )

ライセンス: Link先を確認
Akansha Kalra, Daniel S. Brown(参考訳) 人間の好みをモデル化する報酬関数の学習への関心が高まっている。 しかし、多くのフレームワークは、表現力はあるが解釈が難しいブラックボックス学習手法を使っている。 本稿では,微分可能決定木(DDT)を用いた嗜好から表現的かつ解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。 CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。 我々は,大容量のディープニューラルネットワーク報酬関数と比較して,報酬ddtが競合性能を達成できることを示す実験的な証拠を提供する。 また,ddtのソフト(argmax)出力とハード(argmax)出力の選択は,よりシンプルで解釈可能な報酬を求めると同時に,高い形状の報酬を求めることと,より優れたrl性能を確保するための緊張関係を明らかにすることも観察した。

There is an increasing interest in learning reward functions that model human preferences. However, many frameworks use blackbox learning methods that, while expressive, are difficult to interpret. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs). Our experiments across several domains, including CartPole, Visual Gridworld environments and Atari games, provide evidence that that the tree structure of our learned reward function is useful in determining the extent to which the reward function is aligned with human preferences. We provide experimental evidence that reward DDTs can achieve competitive performance when compared with larger capacity deep neural network reward functions. We also observe that the choice between soft and hard (argmax) output of reward DDT reveals a tension between wanting highly shaped rewards to ensure good RL performance, while also wanting simpler, more interpretable rewards.
翻訳日:2023-10-28 01:28:06 公開日:2023-10-25
# ランダム次数モデルに基づくバッチ-オンライン変換

A Batch-to-Online Transformation under Random-Order Model ( http://arxiv.org/abs/2306.07163v2 )

ライセンス: Link先を確認
Jing Dong, Yuichi Yoshida(参考訳) 我々は,オフライン近似アルゴリズムを用いたランダムオーダーモデルにおいて,$\epsilon$-approximate regretの少ないオンラインアルゴリズムを開発するためのトランスフォーメーションフレームワークを提案する。 まず、平均感度の低いオフライン近似アルゴリズムを、$\epsilon$-approximate regretの低いオンラインアルゴリズムに変換する一般化定理を提案する。 次に,オフライン近似アルゴリズムを,コアセット構成法を用いて低感度バージョンに変換できることを実証する。 提案手法の汎用性を示すために,オンライン$(k,z)$クラスタリング,オンライン行列近似,オンライン回帰など,さまざまな問題に適用し,各問題に対する後悔の多元対数$\epsilon$-approximateを達成することに成功した。 さらに,これら3事例すべてにおいて,オンラインアプリケーションで望まれる低整合性も実現可能であることを示す。

We introduce a transformation framework that can be utilized to develop online algorithms with low $\epsilon$-approximate regret in the random-order model from offline approximation algorithms. We first give a general reduction theorem that transforms an offline approximation algorithm with low average sensitivity to an online algorithm with low $\epsilon$-approximate regret. We then demonstrate that offline approximation algorithms can be transformed into a low-sensitivity version using a coreset construction method. To showcase the versatility of our approach, we apply it to various problems, including online $(k,z)$-clustering, online matrix approximation, and online regression, and successfully achieve polylogarithmic $\epsilon$-approximate regret for each problem. Moreover, we show that in all three cases, our algorithm also enjoys low inconsistency, which may be desired in some online applications.
翻訳日:2023-10-28 01:26:40 公開日:2023-10-25
# SACSoN: ソーシャルナビゲーションのためのスケーラブルな自律制御

SACSoN: Scalable Autonomous Control for Social Navigation ( http://arxiv.org/abs/2306.01874v3 )

ライセンス: Link先を確認
Noriaki Hirose, Dhruv Shah, Ajay Sridhar, Sergey Levine(参考訳) 機械学習は、人間の行動の単純な予測モデルを超えて、社会に準拠したロボットシステムを構築するための強力なツールを提供する。 過去の経験から人間のインタラクションを観察し理解することで、学習はデータから直接効果的なソーシャルナビゲーション行動を可能にする。 本稿では,ロボットが人間の行動に支障を来さない方法で人間間を移動できるように,社会的に邪魔にならないナビゲーションの訓練方法を開発することを目的とする。 ロボットが空間に侵入しなかった場合、人間が同じように行動しただろうか? この反事実的摂動を最小化することで、ロボットは共有空間における人間の自然な行動を変化させない方法で振る舞うことができる。 この原則を実証するには、人間の行動への影響を最小限に抑えるためのトレーニングポリシーが必要である。 したがって、我々のアプローチは2つの重要な貢献に基づいている。 まず,屋内移動ロボットが人間の傍観者と対話する大規模データセットを収集する。 第二に、このデータセットを使用して、反現実的摂動を最小限に抑えるポリシーを訓練する。 補足ビデオを提供し、プロジェクトページ上で最大のビジュアルナビゲーションデータセットを公開しています。

Machine learning provides a powerful tool for building socially compliant robotic systems that go beyond simple predictive models of human behavior. By observing and understanding human interactions from past experiences, learning can enable effective social navigation behaviors directly from data. In this paper, our goal is to develop methods for training policies for socially unobtrusive navigation, such that robots can navigate among humans in ways that don't disturb human behavior. We introduce a definition for such behavior based on the counterfactual perturbation of the human: if the robot had not intruded into the space, would the human have acted in the same way? By minimizing this counterfactual perturbation, we can induce robots to behave in ways that do not alter the natural behavior of humans in the shared space. Instantiating this principle requires training policies to minimize their effect on human behavior, and this in turn requires data that allows us to model the behavior of humans in the presence of robots. Therefore, our approach is based on two key contributions. First, we collect a large dataset where an indoor mobile robot interacts with human bystanders. Second, we utilize this dataset to train policies that minimize counterfactual perturbation. We provide supplementary videos and make publicly available the largest-of-its-kind visual navigation dataset on our project page.
翻訳日:2023-10-28 01:25:33 公開日:2023-10-25
# 部分可観測制御タスクにおける深層強化学習のためのpidインスパイアインダクティブバイアス

PID-Inspired Inductive Biases for Deep Reinforcement Learning in Partially Observable Control Tasks ( http://arxiv.org/abs/2307.05891v2 )

ライセンス: Link先を確認
Ian Char and Jeff Schneider(参考訳) 深層強化学習(英語版) (RL) は、データだけでシステムを制御できる大きな可能性を示している。 しかし、深いRLが直面する課題の1つは、システムの完全な状態がしばしば観測できないことである。 このような場合、ポリシーは現在の状態を推測するために観測履歴を活用する必要があります。 同時に、トレーニング環境とテスト環境の違いは、トレーニング時に見る観察のシーケンスに過度に適合しないようにポリシーを重要視します。 このように、履歴エンコーダが関連する情報を抽出するのに十分な柔軟性を持ちながら、環境の変化に頑健であることの間には、重要なバランスをとる行為がある。 このバランスをとるために、私たちはPIDコントローラにインスピレーションを与えます。 PIDコントローラの成功は、多くの制御タスクに時間をかけて情報を蓄積するためには、和と差分のみが必要であることを示す。 この原則に従って,PID機能を直接利用するアーキテクチャと,これらのコアアイデアを拡張して任意の制御タスクで使用できるアーキテクチャの2つを提案する。 従来のアプローチと比較すると、エンコーダは、多くの場合、より堅牢で、さまざまなトラッキングタスクでパフォーマンスが向上するポリシを生成します。 追跡タスクを超えて、当社のポリシーはlocomotionコントロールタスクスイートの以前の最先端メソッドと比較して、平均で1.7倍のパフォーマンスを達成しています。

Deep reinforcement learning (RL) has shown immense potential for learning to control systems through data alone. However, one challenge deep RL faces is that the full state of the system is often not observable. When this is the case, the policy needs to leverage the history of observations to infer the current state. At the same time, differences between the training and testing environments makes it critical for the policy not to overfit to the sequence of observations it sees at training time. As such, there is an important balancing act between having the history encoder be flexible enough to extract relevant information, yet be robust to changes in the environment. To strike this balance, we look to the PID controller for inspiration. We assert the PID controller's success shows that only summing and differencing are needed to accumulate information over time for many control tasks. Following this principle, we propose two architectures for encoding history: one that directly uses PID features and another that extends these core ideas and can be used in arbitrary control tasks. When compared with prior approaches, our encoders produce policies that are often more robust and achieve better performance on a variety of tracking tasks. Going beyond tracking tasks, our policies achieve 1.7x better performance on average over previous state-of-the-art methods on a suite of locomotion control tasks.
翻訳日:2023-10-28 01:19:06 公開日:2023-10-25
# CBDC用非Custodial Walletの設計課題と機会

A Non-Custodial Wallet for CBDC: Design Challenges and Opportunities ( http://arxiv.org/abs/2307.05167v3 )

ライセンス: Link先を確認
Ryan Bowler, Geoffrey Goodell, Joe Revans, Gabriel Bizama, Chris Speed(参考訳) 中央銀行デジタル通貨(CBDC、Central Bank Digital Currency)は、中央銀行が発行・規制し、プログラム可能性、セキュリティ、プライバシーなどの利点を提供する新しい形態の通貨である。 しかし,CBDCシステムの設計には技術的・社会的課題が数多く存在する。 本稿では,CBDCを様々な状況で保存・使用可能な非カセット型ウォレットの設計と試作について述べる。 cbdcシステムの設計の課題に対処するため,我々は,ストーリーテリングやメタファ,プロボタイプといった手法を用いて,内部や外部の利害関係者と一連のワークショップを実施し,cbdcの概念を伝え,ユーザからのフィードバックや批判を導き,規範的な価値を技術設計に取り入れた。 我々は,技術的な側面と社会的側面のバランスをとり,ユーザニーズと価値を反映したcbdcシステム設計のための基本ガイドラインを導出した。 本稿は,cbdcを日常生活でどのように活用できるかを実例で示し,ユーザ中心のアプローチの重要性を強調することで,cbdcの談話に寄与する。

Central Bank Digital Currency (CBDC) is a novel form of money that could be issued and regulated by central banks, offering benefits such as programmability, security, and privacy. However, the design of a CBDC system presents numerous technical and social challenges. This paper presents the design and prototype of a non-custodial wallet, a device that enables users to store and spend CBDC in various contexts. To address the challenges of designing a CBDC system, we conducted a series of workshops with internal and external stakeholders, using methods such as storytelling, metaphors, and provotypes to communicate CBDC concepts, elicit user feedback and critique, and incorporate normative values into the technical design. We derived basic guidelines for designing CBDC systems that balance technical and social aspects, and reflect user needs and values. Our paper contributes to the CBDC discourse by demonstrating a practical example of how CBDC could be used in everyday life and by highlighting the importance of a user-centred approach.
翻訳日:2023-10-28 01:18:43 公開日:2023-10-25
# 雑音混入の信号回復のための統計的成分分離

Statistical Component Separation for Targeted Signal Recovery in Noisy Mixtures ( http://arxiv.org/abs/2306.15012v2 )

ライセンス: Link先を確認
Bruno R\'egaldo-Saint Blancard, Michael Eickenberg(参考訳) 添加剤混合物からの信号の分離は、与えられた信号の特定の性質のみに関心がある場合、必然的に難しい問題となる。 本研究では,目標信号の統計的記述子集合を雑音混合から復元することに焦点を当てた,より単純な「統計成分分離」問題に取り組む。 ノイズプロセスのサンプルへのアクセスを仮定し,ノイズサンプルによる解候補の統計値と観測混合物の統計値とを一致させる手法を検討した。 まず, この手法の挙動を, 解析的に計算可能な簡単な例を用いて解析する。 そして、それを画像認知コンテキストに適用する。 1)ウェーブレットベースの記述子 2)convnetによる天体物理学とイメージネットデータの記述子。 1)の場合,本手法は,ほとんどの状況において標準的なデノナイジング法よりも,対象データのディスクリプタをよりよく回収することを示す。 また、この目的のために構築されていないにもかかわらず、全信号再構成におけるピーク信号対雑音比の点で驚くほどよく機能する。 比較すると 表現は 2) 画像復調にはあまり適さない。 最後に,この手法を拡散ステップワイズアルゴリズムを導入することで拡張し,初期手法に対する新たな視点を与え,特定の状況下で画像の雑音化に有望な結果をもたらす。

Separating signals from an additive mixture may be an unnecessarily hard problem when one is only interested in specific properties of a given signal. In this work, we tackle simpler "statistical component separation" problems that focus on recovering a predefined set of statistical descriptors of a target signal from a noisy mixture. Assuming access to samples of the noise process, we investigate a method devised to match the statistics of the solution candidate corrupted by noise samples with those of the observed mixture. We first analyze the behavior of this method using simple examples with analytically tractable calculations. Then, we apply it in an image denoising context employing 1) wavelet-based descriptors, 2) ConvNet-based descriptors on astrophysics and ImageNet data. In the case of 1), we show that our method better recovers the descriptors of the target data than a standard denoising method in most situations. Additionally, despite not constructed for this purpose, it performs surprisingly well in terms of peak signal-to-noise ratio on full signal reconstruction. In comparison, representation 2) appears less suitable for image denoising. Finally, we extend this method by introducing a diffusive stepwise algorithm which gives a new perspective to the initial method and leads to promising results for image denoising under specific circumstances.
翻訳日:2023-10-28 01:16:42 公開日:2023-10-25
# ベイズ線形逆問題に対するモンテカルロ誘導拡散

Monte Carlo guided Diffusion for Bayesian linear inverse problems ( http://arxiv.org/abs/2308.07983v2 )

ライセンス: Link先を確認
Gabriel Cardoso, Yazid Janati El Idrissi, Sylvain Le Corff, Eric Moulines(参考訳) Ill-posed linear inverse problem は、計算写真から医用画像まで様々な用途で頻繁に発生する。 最近の研究の行は、そのような問題の不適切さに対処するために、ベイズ的推論と情報的事前推定を利用する。 このような前例の中で、スコアベース生成モデル(SGM)は近年、いくつかの異なる逆問題に適用されている。 本研究では, sgm によって定義された事前構造を用いて, 中間線形逆問題の列を定義する。 ノイズレベルが低下するにつれて、これらの逆問題の後部は元の逆問題の後部に近いものとなる。 そこで本研究では, 連続モンテカルロ法(Sequential Monte Carlo, SMC)を提案する。 提案アルゴリズムであるMCGDiffは理論的に基礎を成し,ベイズ条件下での逆問題に対処する際の競合するベースラインよりも優れていることを示す数値シミュレーションを行う。

Ill-posed linear inverse problems arise frequently in various applications, from computational photography to medical imaging. A recent line of research exploits Bayesian inference with informative priors to handle the ill-posedness of such problems. Amongst such priors, score-based generative models (SGM) have recently been successfully applied to several different inverse problems. In this study, we exploit the particular structure of the prior defined by the SGM to define a sequence of intermediate linear inverse problems. As the noise level decreases, the posteriors of these inverse problems get closer to the target posterior of the original inverse problem. To sample from this sequence of posteriors, we propose the use of Sequential Monte Carlo (SMC) methods. The proposed algorithm, MCGDiff, is shown to be theoretically grounded and we provide numerical simulations showing that it outperforms competing baselines when dealing with ill-posed inverse problems in a Bayesian setting.
翻訳日:2023-10-28 01:05:24 公開日:2023-10-25
# 多様な学生に対する環境リテラシーとデータリテラシー教育のためのコンピュータサイエンスフレームワーク

Computer Science Framework to Teach Community-Based Environmental Literacy and Data Literacy to Diverse Students ( http://arxiv.org/abs/2309.14098v2 )

ライセンス: Link先を確認
Clare Baek, Dana Saito-Stehberger, Sharin Jacob, Adam Nam, Mark Warschauer(参考訳) 本研究は,環境リテラシー,データリテラシー,コンピュータサイエンスを組み合わせることで,低学力の学生を教育するための総合カリキュラムを提案する。 この枠組みは、文化的持続的なアプローチを用いて、環境意識、データリテラシー、市民のエンゲージメントを促進する。 この統合カリキュラムには、言語開発、技術スキル、そして学生の多様なニーズに対応するためのコーディングスキルをサポートするリソースが組み込まれている。 本カリキュラムの有効性を評価するため,多言語ラテックス学生を対象とした5年生特別教育教室でパイロット実験を行った。 パイロット期間中、学生はブロックベースのコーディング言語であるscratchを使って、ローカルに収集したデータを展示するインタラクティブなプロジェクトを作成し、環境の課題を伝え、コミュニティリーダーに解決策を提案する。 このアプローチにより、学生はより深いレベルの環境リテラシーと関わり、デジタル学習環境における創造性とコミュニティ知識を活用することができる。 さらに、環境の持続可能性に影響を与える政治的・社会文化的要因を批判的に分析する能力を学生に提供する。 学生は教室内で知識を得ただけでなく、その学習をコミュニティ内の実際の環境問題に応用した。 パイロット研究の結果は、この統合アプローチの有効性を裏付けている。

This study introduces an integrated curriculum designed to empower underrepresented students by combining environmental literacy, data literacy, and computer science. The framework promotes environmental awareness, data literacy, and civic engagement using a culturally sustaining approach. This integrated curriculum is embedded with resources to support language development, technology skills, and coding skills to accommodate the diverse needs of students. To evaluate the effectiveness of this curriculum, we conducted a pilot study in a 5th-grade special education classroom with multilingual Latinx students. During the pilot, students utilized Scratch, a block-based coding language, to create interactive projects that showcased locally collected data, which they used to communicate environmental challenges and propose solutions to community leaders. This approach allowed students to engage with environmental literacy at a deeper level, harnessing their creativity and community knowledge in the digital learning environment. Moreover, this curriculum equipped students with the skills to critically analyze political and socio-cultural factors impacting environmental sustainability. Students not only gained knowledge within the classroom but also applied their learning to address real environmental issues within their community. The results of the pilot study underscore the efficacy of this integrated approach.
翻訳日:2023-10-28 00:57:58 公開日:2023-10-25
# 条件順列による統計的に有効な変数重要度評価

Statistically Valid Variable Importance Assessment through Conditional Permutations ( http://arxiv.org/abs/2309.07593v2 )

ライセンス: Link先を確認
Ahmad Chamma (1 and 2 and 3), Denis A. Engemann (4) and Bertrand Thirion (1 and 2 and 3) ((1) Inria, (2) Universite Paris Saclay, (3) CEA, (4) Roche Pharma Research and Early Development, Neuroscience and Rare Diseases, Roche Innovation Center Basel, F. Hoffmann-La Roche Ltd., Basel, Switzerland)(参考訳) 大規模データにディープニューラルネットワークなどの複雑な学習者を使用する場合、変数重要度評価は機械学習アプリケーションにおいて重要なステップとなっている。 除去に基づく重要度評価は現在、特に変数包含を正当化するために統計的保証を求める場合の参照アプローチである。 変数の置換スキームで実装されることが多い。 逆に、これらのアプローチは共変量間の相関の存在において重要でない変数を誤同定するリスクがある。 本稿では,CPI(Conditional Permutation Importance)のモデル非依存および計算的リーン化のための体系的アプローチと,最先端の変数重要度推定器の再利用可能なベンチマークを開発する。 理論的および実証的に、$\textit{cpi}$ は正確な type-i エラー制御を提供することで標準置換の重要性の限界を克服することを示した。 ディープニューラルネットワークを使用すると、$\textit{CPI}$はベンチマーク全体で最高精度を示している。 大規模医療データセットにおける実世界のデータ分析実験により、$\textit{CPI}$は統計的に有意な変数のより微妙な選択を提供することを示した。 この結果から,$\textit{CPI}$は置換型メソッドのドロップイン置換として簡単に利用できることが示唆された。

Variable importance assessment has become a crucial step in machine-learning applications when using complex learners, such as deep neural networks, on large-scale data. Removal-based importance assessment is currently the reference approach, particularly when statistical guarantees are sought to justify variable inclusion. It is often implemented with variable permutation schemes. On the flip side, these approaches risk misidentifying unimportant variables as important in the presence of correlations among covariates. Here we develop a systematic approach for studying Conditional Permutation Importance (CPI) that is model agnostic and computationally lean, as well as reusable benchmarks of state-of-the-art variable importance estimators. We show theoretically and empirically that $\textit{CPI}$ overcomes the limitations of standard permutation importance by providing accurate type-I error control. When used with a deep neural network, $\textit{CPI}$ consistently showed top accuracy across benchmarks. An experiment on real-world data analysis in a large-scale medical dataset showed that $\textit{CPI}$ provides a more parsimonious selection of statistically significant variables. Our results suggest that $\textit{CPI}$ can be readily used as drop-in replacement for permutation-based methods.
翻訳日:2023-10-28 00:57:18 公開日:2023-10-25
# ソフトウェアコミュニティにおける重複質問検索と確認時間予測

Duplicate Question Retrieval and Confirmation Time Prediction in Software Communities ( http://arxiv.org/abs/2309.05035v2 )

ライセンス: Link先を確認
Rima Hazra, Debanjan Saha, Amruit Sahoo, Somnath Banerjee, Animesh Mukherjee(参考訳) 異なるドメインにおけるコミュニティ質問回答(CQA)は、複数のプラットフォームが利用可能であり、ユーザ間で大きな共有情報があるため、大規模に成長している。 このようなオンラインプラットフォームの急速な成長に伴い、大量のアーカイブデータによって、モデレーターは新しい質問に対して可能な重複を検索し、既存の質問ペアを正しいタイミングで重複として識別し確認することが困難になる。 この問題はaskubuntuのような大規模ソフトウェアシステムに対応するcqaにおいてさらに重要であり、モデレーターは何かを重複として理解するには専門家である必要がある。 このようなCQAプラットフォームの最大の課題は、モデレーター自身が専門家であり、そのため非常に高価な時間で非常に忙しいことである。 本研究では,モデレーターの作業を容易にするため,askubuntu cqaプラットフォームにおいて,(1)新たな質問に対する重複質問の検索,(2)重複質問確認時間予測という2つの重要な課題に取り組んでいる。 最初のタスクでは、新たに投稿された質問に対して、質問プールから重複した質問を検索することに焦点を当てる。 第2のタスクでは、重複として確認されるのに長い時間がかかる可能性のある2つの質問をランク付けするために回帰問題を解く。 重ね合わせ質問検索では,テキストとネットワークに基づく特徴を併用し,最先端のベースライン技術に勝るシアームニューラルネット方式を提案する。 DupPredictor と DUPE をそれぞれ5%, 7% で比較した。 重複した確認時間予測には、標準機械学習モデルとニューラルネットワークと、テキストとグラフベースの機能の両方を使用しました。 テキストとグラフでそれぞれ0.20と0.213(統計的に有意)のスピアマンのランク相関を求める。

Community Question Answering (CQA) in different domains is growing at a large scale because of the availability of several platforms and huge shareable information among users. With the rapid growth of such online platforms, a massive amount of archived data makes it difficult for moderators to retrieve possible duplicates for a new question and identify and confirm existing question pairs as duplicates at the right time. This problem is even more critical in CQAs corresponding to large software systems like askubuntu where moderators need to be experts to comprehend something as a duplicate. Note that the prime challenge in such CQA platforms is that the moderators are themselves experts and are therefore usually extremely busy with their time being extraordinarily expensive. To facilitate the task of the moderators, in this work, we have tackled two significant issues for the askubuntu CQA platform: (1) retrieval of duplicate questions given a new question and (2) duplicate question confirmation time prediction. In the first task, we focus on retrieving duplicate questions from a question pool for a particular newly posted question. In the second task, we solve a regression problem to rank a pair of questions that could potentially take a long time to get confirmed as duplicates. For duplicate question retrieval, we propose a Siamese neural network based approach by exploiting both text and network-based features, which outperforms several state-of-the-art baseline techniques. Our method outperforms DupPredictor and DUPE by 5% and 7% respectively. For duplicate confirmation time prediction, we have used both the standard machine learning models and neural network along with the text and graph-based features. We obtain Spearman's rank correlation of 0.20 and 0.213 (statistically significant) for text and graph based features respectively.
翻訳日:2023-10-28 00:56:17 公開日:2023-10-25
# MathVista: GPT-4V, Bard, その他の大規模マルチモーダルモデルを用いた視覚環境における数学推論の評価

MathVista: Evaluating Math Reasoning in Visual Contexts with GPT-4V, Bard, and Other Large Multimodal Models ( http://arxiv.org/abs/2310.02255v2 )

ライセンス: Link先を確認
Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)とLMM(Large Multimodal Models)は多くのタスクや領域において優れた問題解決能力を示すが、視覚的文脈における数学的推論の能力は体系的に研究されていない。 このギャップを埋めるために,さまざまな数学的タスクと視覚的タスクの課題を組み合わせるためのベンチマークであるmathvistaを提案する。 数学を含む28の既存のマルチモーダルデータセットと新たに作成された3つのデータセット(IQTest、FunctionQA、PaperQA)から派生した6,141の例で構成されている。 これらのタスクを補完するには、きめ細かい、深い視覚的理解と構成的推論が必要です。 MathVistaでは,12の著名な基礎モデルの包括的,定量的評価を行った。 gpt-4vモデル全体の精度は49.9%で、第2位であるbardを15.1%上回っている。 分析の結果,gpt-4vの優位は,視覚知覚の強化と数学的推論が主因であることが判明した。 しかし、gpt-4vは複雑な数値の理解や厳密な推論に苦しむことが多いため、まだ人間のパフォーマンスには10.4%不足している。 この大きなギャップは、MathVistaが数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において果たす重要な役割を浮き彫りにする。 さらに, 自己検証の新たな能力, 自己整合性の適用, GPT-4Vの対話型チャットボット機能について検討し, 今後の研究の可能性を明らかにする。 プロジェクトはhttps://mathvista.github.io/で入手できる。

Large Language Models (LLMs) and Large Multimodal Models (LMMs) exhibit impressive problem-solving skills in many tasks and domains, but their ability in mathematical reasoning in visual contexts has not been systematically studied. To bridge this gap, we present MathVista, a benchmark designed to combine challenges from diverse mathematical and visual tasks. It consists of 6,141 examples, derived from 28 existing multimodal datasets involving mathematics and 3 newly created datasets (i.e., IQTest, FunctionQA, and PaperQA). Completing these tasks requires fine-grained, deep visual understanding and compositional reasoning, which all state-of-the-art foundation models find challenging. With MathVista, we have conducted a comprehensive, quantitative evaluation of 12 prominent foundation models. The best-performing GPT-4V model achieves an overall accuracy of 49.9%, substantially outperforming Bard, the second-best performer, by 15.1%. Our in-depth analysis reveals that the superiority of GPT-4V is mainly attributed to its enhanced visual perception and mathematical reasoning. However, GPT-4V still falls short of human performance by 10.4%, as it often struggles to understand complex figures and perform rigorous reasoning. This significant gap underscores the critical role that MathVista will play in the development of general-purpose AI agents capable of tackling mathematically intensive and visually rich real-world tasks. We further explore the new ability of self-verification, the application of self-consistency, and the interactive chatbot capabilities of GPT-4V, highlighting its promising potential for future research. The project is available at https://mathvista.github.io/.
翻訳日:2023-10-28 00:45:38 公開日:2023-10-25
# 決定木学習における選択力の活用

Harnessing the Power of Choices in Decision Tree Learning ( http://arxiv.org/abs/2310.01551v2 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Chirag Pabbaraju, Colin Sullivan, Li-Yang Tan, Mo Tiwari(参考訳) 本稿では,ID3,C4.5,CARTなどの決定木学習アルゴリズムの簡易な一般化を提案する。 これらのアルゴリズムは、機械学習の中心として何十年も使われてきたが、本質的には、最良の属性を反復的に分割することで決定木を成長させる。 当社のアルゴリズムであるtop-$k$は、単一のベスト属性ではなく、可能な限りの分割として$k$を考慮します。 我々は、理論上、経験的に、この単純な一般化の力を示す。 まず、"sl greediness hierarchy theorem} を証明し、すべての$k \in \mathbb{n}$, top-$(k+1)$ がtop-$k$よりも劇的に強力になることを示した。 次に、広範囲な実験を通じて、トップ$k$が決定木学習の2つの主要なアプローチ、すなわち古典的な欲望アルゴリズムとより最近の「最適決定木」アルゴリズムを上回ることを示した。 一方、Top-k$は、幅広いベンチマークでグレーディアルゴリズムよりも高い精度を常に享受している。 一方、top-$k$は最適決定木アルゴリズムよりも著しくスケーラブルであり、これらのアルゴリズムの到達範囲をはるかに超えるデータセットや特徴量を扱うことができる。

We propose a simple generalization of standard and empirically successful decision tree learning algorithms such as ID3, C4.5, and CART. These algorithms, which have been central to machine learning for decades, are greedy in nature: they grow a decision tree by iteratively splitting on the best attribute. Our algorithm, Top-$k$, considers the $k$ best attributes as possible splits instead of just the single best attribute. We demonstrate, theoretically and empirically, the power of this simple generalization. We first prove a {\sl greediness hierarchy theorem} showing that for every $k \in \mathbb{N}$, Top-$(k+1)$ can be dramatically more powerful than Top-$k$: there are data distributions for which the former achieves accuracy $1-\varepsilon$, whereas the latter only achieves accuracy $\frac1{2}+\varepsilon$. We then show, through extensive experiments, that Top-$k$ outperforms the two main approaches to decision tree learning: classic greedy algorithms and more recent "optimal decision tree" algorithms. On one hand, Top-$k$ consistently enjoys significant accuracy gains over greedy algorithms across a wide range of benchmarks. On the other hand, Top-$k$ is markedly more scalable than optimal decision tree algorithms and is able to handle dataset and feature set sizes that remain far beyond the reach of these algorithms.
翻訳日:2023-10-28 00:45:06 公開日:2023-10-25
# GraFT:マルチモーダル再同定のためのGradual Fusion Transformer

GraFT: Gradual Fusion Transformer for Multimodal Re-Identification ( http://arxiv.org/abs/2310.16856v1 )

ライセンス: Link先を確認
Haoli Yin, Jiayao Li (Emily), Eva Schiller, Luke McDermott, Daniel Cummings(参考訳) オブジェクト再識別 (reid) はコンピュータビジョンにおいて重要であり、多変量表現学習への需要が高まるのを目の当たりにしている。 現在のモデルは有望ではあるが、特定のモダリティの洞察の統合を延期する後期融合に大きく依存するため、モダリティの増加に伴うスケーラビリティの制限を明らかにしている。 これに対応するために,マルチモーダル ReID 用の \textbf{Gradual Fusion Transformer (GraFT) を導入する。 GraFTの中核となるのは、学習可能な融合トークンで、エンコーダをまたいで自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を取り込む。 さらに有効性を高め,ReID特徴埋め込み空間を最適化し,拡張三重項損失と組み合わせた新たなトレーニングパラダイムを導入する。 本研究では,GraFTが既存のマルチモーダルReIDベンチマークを一貫して上回っていることを示す。 さらに、デプロイメントの汎用性を目指して、ニューラルネットワークのプルーニングをGraFTに統合し、モデルサイズとパフォーマンスのバランスを提供しています。

Object Re-Identification (ReID) is pivotal in computer vision, witnessing an escalating demand for adept multimodal representation learning. Current models, although promising, reveal scalability limitations with increasing modalities as they rely heavily on late fusion, which postpones the integration of specific modality insights. Addressing this, we introduce the \textbf{Gradual Fusion Transformer (GraFT)} for multimodal ReID. At its core, GraFT employs learnable fusion tokens that guide self-attention across encoders, adeptly capturing both modality-specific and object-specific features. Further bolstering its efficacy, we introduce a novel training paradigm combined with an augmented triplet loss, optimizing the ReID feature embedding space. We demonstrate these enhancements through extensive ablation studies and show that GraFT consistently surpasses established multimodal ReID benchmarks. Additionally, aiming for deployment versatility, we've integrated neural network pruning into GraFT, offering a balance between model size and performance.
翻訳日:2023-10-28 00:17:54 公開日:2023-10-25
# 非平衡定常状態における長距離量子相関の励起漸近

Exact asymptotics of long-range quantum correlations in a nonequilibrium steady state ( http://arxiv.org/abs/2310.16901v1 )

ライセンス: Link先を確認
Shachar Fraenkel, Moshe Goldstein(参考訳) 多体系の非平衡状態は標準統計力学による記述を回避しがちであり、それらの一意性は平衡で起こり得ないある種の長距離相関の可能性によって表される。 量子多体系では、この種のコヒーレント相関は顕著な絡み合い構造を生じさせる可能性がある。 本研究では,非接触不純物を含む一次元格子上の電圧バイアスフリーフェルミオンのゼロ温度定常状態において,量子相関測度の漸近スケーリング(相互情報とフェルミオン負性)を解析的に検討する。 これまで、不純物の反対側にある2つのサブシステムは、不純物の絶対距離に依存しない体積法的な絡み合いを示すことを示した。 ここでは、この結果を超えて、数値計算に優れた一致で、広範な相関測度の項に従属する対数補正の正確な形を導出する。 特に、相互情報漸近論の対数項は、サブシステムの長さスケールの単純な4点比とフェルミエネルギーの不純物散乱確率のみに依存する簡潔な公式にカプセル化することができる。 これは平衡状態の場合と相反し、そのような対数項は物理系に関する普遍的な情報を伝えることができる。 これらの正確な結果を計算するために、実空間と運動量空間の相関行列に対するToeplitz行列漸近に依存するハイブリッド手法を考案し、システムの不均一性を回避した。 この方法は、類似のシナリオにおける絡み合い測度の解析的計算に広く使われる可能性がある。

Out-of-equilibrium states of many-body systems tend to evade a description by standard statistical mechanics, and their uniqueness is epitomized by the possibility of certain long-range correlations that cannot occur in equilibrium. In quantum many-body systems, coherent correlations of this sort may lead to the emergence of remarkable entanglement structures. In this work, we analytically study the asymptotic scaling of quantum correlation measures -- the mutual information and the fermionic negativity -- within the zero-temperature steady state of voltage-biased free fermions on a one-dimensional lattice containing a noninteracting impurity. Previously, we have shown that two subsystems on opposite sides of the impurity exhibit volume-law entanglement, which is independent of the absolute distances of the subsystems from the impurity. Here we go beyond this result and derive the exact form of the subleading logarithmic corrections to the extensive terms of correlation measures, in excellent agreement with numerical calculations. In particular, the logarithmic term of the mutual information asymptotics can be encapsulated in a concise formula, depending only on simple four-point ratios of subsystem length-scales and on the impurity scattering probabilities at the Fermi energies. This echoes the case of equilibrium states, where such logarithmic terms may convey universal information about the physical system. To compute these exact results, we devise a hybrid method that relies on Toeplitz determinant asymptotics for correlation matrices in both real space and momentum space, successfully circumventing the inhomogeneity of the system. This method can potentially find wider use for analytical calculations of entanglement measures in similar scenarios.
翻訳日:2023-10-28 00:07:46 公開日:2023-10-25
# 新しい厳密なコヒーレント状態のクラス:半直線上の運動の量子化の強化

A new class of exact coherent states: enhanced quantization of motion on the half-line ( http://arxiv.org/abs/2310.16868v1 )

ライセンス: Link先を確認
Herv\'e Bergeron, Jean-Pierre Gazeau, Przemys{\l}aw Ma{\l}kiewicz, Patrick Peter(参考訳) 半直線上の動きに対する動的に安定なコヒーレント状態のクラスを発見した。 半直線境界の正則化と連続量子運動は共変アフィン量子化の枠組みの中で説明されるが、別のアプローチも可能である。 前者のアプローチはアフィンコヒーレント状態に根ざしており、量子運動の一貫した半古典的表現を提供する。 しかし、この方法は2つの欠点があることが知られている。 (a)アフィンコヒーレント状態のベクターの選択依存性(「fiducial vector」と表記される)は、境界正規化において有意な任意性をもたらす。 (b)'fiducial vector'の選択にかかわらず、アフィンコヒーレント状態はシュル=オディンガー方程式の下でパラメトリックに進化しないため、半古典的記述の精度が制限される。 この制限は、特に化合物の可観測物の進化を近似するのに適している。 アフィンコヒーレント状態の明確かつより洗練された定義は、これらの問題の両方を同時に解決できることを実証する。 言い換えると、これらの新しいアフィンコヒーレント状態は、 ||\psi_0>$ と表記される 'fiducial vector' が、よく定義されたハミルトニアンの固有状態のような非常に特異な性質を持つ場合にのみ、パラメトリックな進化を示す。 我々の発見は、特に正の変数が宇宙のスケールファクターであり、その正規化運動がビッグバン特異点を避ける上で重要な役割を果たすシナリオにおいて、量子宇宙学の分野において大きな関連性を持っている。

We have discovered a class of dynamically stable coherent states for motion on the half-line. The regularization of the half-line boundary and the consequent quantum motion are expounded within the framework of covariant affine quantization, although alternative approaches are also feasible. The former approach is rooted in affine coherent states and offers a consistent semiclassical representation of quantum motion. However, this method has been known to possess two shortcomings: (a) the dependence of affine coherent states on the choice of a vector, denoted as 'fiducial vector' (which remains unspecified), introduces significant arbitrariness in boundary regularization, and (b) regardless of the choice of 'fiducial vector,' affine coherent states fail to evolve parametrically under the Schr\"odinger equation, thus limiting the accuracy of the semiclassical description. This limitation, in particular, hampers their suitability for approximating the evolution of compound observables. We demonstrate that a distinct and more refined definition of affine coherent states can simultaneously address both of these issues. In other words, these new affine coherent states exhibit parametric evolution only when the 'fiducial vector,' denoted as $|\psi_0>$, possesses a highly specific character, such as being an eigenstate of a well-defined Hamiltonian. Our discovery holds significant relevance in the field of quantum cosmology, particularly in scenarios where the positive variable is the scale factor of the universe, and its regularized motion plays a crucial role in avoiding the big-bang singularity.
翻訳日:2023-10-28 00:07:17 公開日:2023-10-25
# 生成データを用いた統合失調症診断のための説明可能な深層学習手法

An Explainable Deep Learning-Based Method For Schizophrenia Diagnosis Using Generative Data-Augmentation ( http://arxiv.org/abs/2310.16867v1 )

ライセンス: Link先を確認
Mehrshad Saadatinia, Armin Salimi-Badr(参考訳) 本研究では,脳波脳記録を用いた統合失調症の自動診断に深層学習に基づく手法を応用した。 このアプローチでは,診断精度を高める強力な手法である生成データ拡張を利用する。 時間周波数特性を利用するために, 原信号からスペクトルを抽出した。 いくつかのニューラルネットワークアーキテクチャの設定を探索した後、適切な畳み込みニューラルネットワーク(cnn)が初期診断に使用された。 その後、Wasserstein GAN と Gradient Penalty (WGAN-GP) と Variational Autoencoder (VAE) を用いて、2つの異なる合成データセットを生成し、初期データセットを増大させ、過度に適合する問題に対処した。 VAEを用いたデータセットの精度は最大99.0.%まで3.0\%向上し、損失値も低く、収束も速くなった。 最後に,局所解釈可能なモデル非依存説明(lime)アルゴリズムを用いたブラックボックスモデルの信頼性の欠如に対処し,診断過程において最も重要なスーパーピクセル(頻度)を決定する。

In this study, we leverage a deep learning-based method for the automatic diagnosis of schizophrenia using EEG brain recordings. This approach utilizes generative data augmentation, a powerful technique that enhances the accuracy of the diagnosis. To enable the utilization of time-frequency features, spectrograms were extracted from the raw signals. After exploring several neural network architectural setups, a proper convolutional neural network (CNN) was used for the initial diagnosis. Subsequently, using Wasserstein GAN with Gradient Penalty (WGAN-GP) and Variational Autoencoder (VAE), two different synthetic datasets were generated in order to augment the initial dataset and address the over-fitting issue. The augmented dataset using VAE achieved a 3.0\% improvement in accuracy reaching up to 99.0\% and yielded a lower loss value as well as a faster convergence. Finally, we addressed the lack of trust in black-box models using the Local Interpretable Model-agnostic Explanations (LIME) algorithm to determine the most important superpixels (frequencies) in the diagnosis process.
翻訳日:2023-10-28 00:06:49 公開日:2023-10-25
# Fractal Schr\"{o}dinger方程式:フラクタル集合に対する意味

Fractal Schr\"{o}dinger Equation: Implications for Fractal Sets ( http://arxiv.org/abs/2310.16864v1 )

ライセンス: Link先を確認
Alireza Khalili Golmankhaneh, Stergios Pellis, Massimiliano Zingales(参考訳) 本稿ではフラクタル計算の世界に進出し、フラクタル集合に対するその意味を考察する。 Fractal Schr\"{o}dinger Equationを導入し、その結果に関する洞察を提供する。 この研究は、時間依存Schr\"{o}dinger Equationの一般解を示し、その中核的な側面を明らかにしている。 フラクタルの文脈で量子力学を探索し、放射状水素原子の確率密度を分析し、フラクタル次元内での挙動を明らかにする。 この研究は、水素原子の複雑なエネルギーレベルを解読し、量子力学とフラクタル幾何学の相互作用を明らかにしている。 革新的に、この研究は単純な高調波運動にフラクタルSchr\"{o}dinger方程式を適用し、高調波振動子に対するフラクタル確率密度関数を導入した。 本論文は, 発見の理解を深める一連の図形を用いている。 量子力学とフラクタル数学を融合させることで、この研究は、それらの関係に関する深い洞察の道を開く。

This paper delves into the world of fractal calculus, investigating its implications for fractal sets. It introduces the Fractal Schr\"{o}dinger Equation and provides insights into its consequences. The study presents a General Solution for the Time-Dependent Schr\"{o}dinger Equation, unveiling its core aspects. Exploring quantum mechanics in the context of fractals, the paper analyzes the Probability Density of the Radial Hydrogen Atom, unveiling its behavior within fractal dimensions. The investigation extends to deciphering the intricate Energy Levels of the Hydrogen Atom, uncovering the interplay of quantum mechanics and fractal geometry. Innovatively, the research applies the Fractal Schr\"{o}dinger Equation to Simple Harmonic Motion, leading to the introduction of the Fractal Probability Density Function for the Harmonic Oscillator. The paper employs a series of illustrative figures that enhance the comprehension of the findings. By intertwining quantum mechanics and fractal mathematics, this research paves the way for deeper insights into their relationship.
翻訳日:2023-10-28 00:06:28 公開日:2023-10-25
# PET画像からのグラフベース多次元DLBCL処理応答予測

Graph-based multimodal multi-lesion DLBCL treatment response prediction from PET images ( http://arxiv.org/abs/2310.16863v1 )

ライセンス: Link先を確認
Oriane Thiery (LS2N, LS2N - \'equipe SIMS, CFE, Nantes Univ - ECN, Nantes Univ), Mira Rizkallah (LS2N, LS2N - \'equipe SIMS, CFE, Nantes Univ - ECN, Nantes Univ), Cl\'ement Bailly (CFE, IT, CRCI2NA, Nantes Univ), Caroline Bodet-Milin (CFE, IT, CRCI2NA, Nantes Univ), Emmanuel Itti, Ren\'e-Olivier Casasnovas, Steven Le Gouill (CFE, IT, CRCI2NA, Nantes Univ), Thomas Carlier (CFE, IT, CRCI2NA, Nantes Univ), Diana Mateus (LS2N - \'equipe SIMS, LS2N, CFE, Nantes Univ - ECN, Nantes Univ)(参考訳) びまん性大細胞性b細胞リンパ腫(dlbcl)は1つ以上のリンパ節と転移部位を含むリンパ節がんである。 診断と追跡はPET(Positron Emission Tomography)とCT(Computed Tomography)に依存している。 診断後, 標準フロントライン治療に対する非対応患者の数は30~40%に留まった。 本研究の目的は,臨床および画像データを含む各患者に利用可能な情報をすべて効率的に活用することにより,適応治療を必要とする高リスク患者を同定するコンピュータ支援アプローチを開発することである。 本稿では,複数の病変からのイメージング情報を結合した最近のグラフニューラルネットワークと,異なるデータモダリティを効率的に統合するクロスアテンションモジュールを提案する。 このモデルは、583人の患者のプライベートな予測型マルチセントリックデータセットでトレーニングされ、評価される。 提案手法は, 臨床, 画像, および臨床および画像データに基づく2年生存率 (pfs) の分類精度において, 従来の教師付き手法よりも優れていた。

Diffuse Large B-cell Lymphoma (DLBCL) is a lymphatic cancer involving one or more lymph nodes and extranodal sites. Its diagnostic and follow-up rely on Positron Emission Tomography (PET) and Computed Tomography (CT). After diagnosis, the number of nonresponding patients to standard front-line therapy remains significant (30-40%). This work aims to develop a computer-aided approach to identify high-risk patients requiring adapted treatment by efficiently exploiting all the information available for each patient, including both clinical and image data. We propose a method based on recent graph neural networks that combine imaging information from multiple lesions, and a cross-attention module to integrate different data modalities efficiently. The model is trained and evaluated on a private prospective multicentric dataset of 583 patients. Experimental results show that our proposed method outperforms classical supervised methods based on either clinical, imaging or both clinical and imaging data for the 2-year progression-free survival (PFS) classification accuracy.
翻訳日:2023-10-28 00:06:09 公開日:2023-10-25
# 符号付きGNNのためのエッジユーティリティフィルタによるバランシング強化

Balancing Augmentation with Edge-Utility Filter for Signed GNNs ( http://arxiv.org/abs/2310.16862v1 )

ライセンス: Link先を確認
Ke-Jia Chen, Yaming Ji, Youran Qu, Chuhan Xu(参考訳) 署名付きグラフニューラルネットワーク(SGNN)は、多くの現実世界のネットワークが2種類のエッジを含む署名付きネットワークであるため、近年注目を集めている。 負のエッジの存在は、2つの側面においてSGNNの堅牢性に影響を与える。 ひとつは意味的不均衡であり、負のエッジは通常入手が難しいが、潜在的に有用な情報を提供することができる。 もう1つは構造的不均衡、例えば不平衡三角形であり、ノード間の不整合関係を示す。 本稿では,SGNNにおける上記の2つの側面に対処するバランス強化手法を提案する。 まず、不平衡構造における各負縁の効用を計算して測定する。 次に、(1)エッジ摂動レギュレータを用いて、正のエッジ数と負のエッジ数とをバランスさせ、また、摂動したエッジと元のエッジとの比率を判定し、(2)負のエッジを低いユーティリティで除去し、グラフ構造をよりバランスさせるエッジユーティリティフィルタを用いて、元のサイン付きグラフを選択的に拡張する。 最後に、SGNNは、信頼できる関係を効果的に探求する拡張グラフに基づいて訓練される。 また,各モジュールの有効性を証明するための詳細な理論的解析を行った。 リンク予測における5つの実世界のデータセット実験により,本手法は有効性と一般化の利点があり,SGNNバックボーンの性能を著しく向上させることができることを示した。

Signed graph neural networks (SGNNs) has recently drawn more attention as many real-world networks are signed networks containing two types of edges: positive and negative. The existence of negative edges affects the SGNN robustness on two aspects. One is the semantic imbalance as the negative edges are usually hard to obtain though they can provide potentially useful information. The other is the structural unbalance, e.g. unbalanced triangles, an indication of incompatible relationship among nodes. In this paper, we propose a balancing augmentation method to address the above two aspects for SGNNs. Firstly, the utility of each negative edge is measured by calculating its occurrence in unbalanced structures. Secondly, the original signed graph is selectively augmented with the use of (1) an edge perturbation regulator to balance the number of positive and negative edges and to determine the ratio of perturbed edges to original edges and (2) an edge utility filter to remove the negative edges with low utility to make the graph structure more balanced. Finally, a SGNN is trained on the augmented graph which effectively explores the credible relationships. A detailed theoretical analysis is also conducted to prove the effectiveness of each module. Experiments on five real-world datasets in link prediction demonstrate that our method has the advantages of effectiveness and generalization and can significantly improve the performance of SGNN backbones.
翻訳日:2023-10-28 00:05:51 公開日:2023-10-25
# 自己エンコーディングと自己回帰を伴う一般点モデル

General Point Model with Autoencoding and Autoregressive ( http://arxiv.org/abs/2310.16861v1 )

ライセンス: Link先を確認
Zhe Li and Zhangyang Gao and Cheng Tan and Stan Z. Li and Laurence T. Yang(参考訳) 大規模言語モデルの事前学習アーキテクチャは、オートエンコードモデル、自動回帰モデル、エンコーダ・デコーダモデルなど様々なタイプを含む。 我々は、ベクトル量子化によって離散トークンとなる限り、任意のモダリティが大きな言語モデルから恩恵を受ける可能性があると仮定する。 GLMにインスパイアされた汎用ポイントモデル(GPM)は,ポイントクラウドトランスフォーマーにおける自動エンコーディングと自己回帰タスクをシームレスに統合する。 このモデルは汎用性が高く、ダウンストリームポイントクラウド表現タスクの微調整や、条件なしおよび条件付き生成タスクが可能である。 GPMは、各種マスクパディングタスクによる自動エンコーディングにおけるマスク付き予測を強化し、ポイントクラウド理解のパフォーマンスを向上させる。 さらに、GPMは、入力の条件情報を変更することで条件生成タスクの可能性を示す、無条件のクラウド生成タスクにおいて非常に競争力のある結果を示す。 Point-BERTやMaskPoint、PointMAEといったモデルと比較して、GPMはポイントクラウド理解タスクにおいて優れたパフォーマンスを実現しています。 さらに、同じトランスにおける自動回帰と自動エンコーディングの統合は、異なる下流タスクにおけるその汎用性を示している。

The pre-training architectures of large language models encompass various types, including autoencoding models, autoregressive models, and encoder-decoder models. We posit that any modality can potentially benefit from a large language model, as long as it undergoes vector quantization to become discrete tokens. Inspired by GLM, we propose a General Point Model (GPM) which seamlessly integrates autoencoding and autoregressive tasks in point cloud transformer. This model is versatile, allowing fine-tuning for downstream point cloud representation tasks, as well as unconditional and conditional generation tasks. GPM enhances masked prediction in autoencoding through various forms of mask padding tasks, leading to improved performance in point cloud understanding. Additionally, GPM demonstrates highly competitive results in unconditional point cloud generation tasks, even exhibiting the potential for conditional generation tasks by modifying the input's conditional information. Compared to models like Point-BERT, MaskPoint and PointMAE, our GPM achieves superior performance in point cloud understanding tasks. Furthermore, the integration of autoregressive and autoencoding within the same transformer underscores its versatility across different downstream tasks.
翻訳日:2023-10-28 00:05:28 公開日:2023-10-25
# トンネル接合を金属ナノワイヤで遮断したテラヘルツ用閉回路における電子の共鳴透過に関する解析シミュレーション

Analytical simulations of the resonant transmission of electrons in a closed nanocircuit for terahertz applications where a tunneling junction is shunted by a metallic nanowire ( http://arxiv.org/abs/2310.16860v1 )

ライセンス: Link先を確認
Mark Hagmann(参考訳) ロスアラモス国立研究所のCINTプログラムでは、走査型トンネル顕微鏡の先端ジャンクションに超高速モードロックレーザーを集中させ、レーザーパルス繰り返し周波数の数百倍の高調波の電流を発生させた。 各ハーモニックは20dBの信号対雑音比を持ち、10dBのライン幅はわずか3Hzである。 現在我々は、平均68nmの経路上の準コヒーレント電子輸送のために、ベリリウムフィラメントで絞られた長方形、三角形、またはデルタ関数障壁を持つ閉量子ナノ回路をモデル化している。 時間に依存しないシュリンガー方程式は、波動関数とその微分が両方の接続で連続である境界条件で解かれる。 これら4つの境界条件は、それぞれ閉ナノ回路で非自明な解を持つ必要がある右列ベクトルの零点のみを持つ4-四複素行列方程式を形成するために用いられる。 各モデルは、(1)バリア長、(2)バリアの高さと形状、(3)プリバリアの長さ、(4)電子エネルギーの4つのパラメータを持つ。 これら3つのいずれかを指定でき、4つ目は4つのパラメータによって定義される空間の直線や曲面上の解を見つけるために行列式をゼロにするために変化する。 まず、矩形障壁を持つ単純化モデルを用いる。 第2のモデルは、電界放射に対する最初の近似として三角障壁を持ち、我々はこのアプローチを、ロスアラモスの高調波を生成するための以前の取り組みの自己完結ナノスケール拡張に適用することを検討している。 第3のモデルはデルタ関数バリアを持ち、第4のモデルは長方形のバリアの幅が高さと逆方向に変化する第1のバリアの拡張である。

Earlier, in the CINT program at Los Alamos National Laboratory, we focused ultrafast mode-locked lasers on the tip-sample junction of a scanning tunneling microscope to generate currents at hundreds of harmonics of the laser pulse repetition frequency. Each harmonic has a signal-to-noise ratio of 20 dB with a 10-dB linewidth of only 3 Hz. Now we model closed quantum nanocircuits with rectangular, triangular, or delta-function barrier, shunted by a beryllium filament for quasi-coherent electron transport over mean-free paths as great as 68 nm. The time-independent Schr\"odinger equation is solved with the boundary conditions that the wavefunction and its derivative are continuous at both connections. These four boundary conditions are used to form a four-by-four complex matrix equation with only zeros in the right-hand column vector which is required to have a non-trivial solution with each of the closed nanocircuits. Each model has four parameters: (1) the barrier length, (2) the height and shape of the barrier, (3) the length of the pre-barrier, and (4) the electron energy. Any three of these may be specified and then the fourth is varied to bring the determinant to zero to find the solutions on lines or surfaces in the space defined by the four parameters. First, we use a simplistic model having a rectangular barrier. The second model has a triangular barrier as a first approximation to field emission, and we are considering applying this approach for a self-contained nanoscale extension of our earlier effort to generate the harmonics at Los Alamos. The third model has a delta-function barrier, and the fourth model is an extension of the first one where the width of the rectangular barrier is varied inversely with its height.
翻訳日:2023-10-28 00:05:07 公開日:2023-10-25
# 4D-Editor:4Dセマンティックセグメンテーションによる動的ニューラルラディアンスフィールドにおける対話型オブジェクトレベルの編集

4D-Editor: Interactive Object-level Editing in Dynamic Neural Radiance Fields via 4D Semantic Segmentation ( http://arxiv.org/abs/2310.16858v1 )

ライセンス: Link先を確認
Dadong Jiang, Zhihui Ke, Xiaobo Zhou, Xidong Shi(参考訳) 本稿では,動的シーンにおけるインタラクティブなオブジェクトレベルの編集(削除,再色,変換,構成など)を対象とする。 近年,neural radiance field (nerf) で表現された静的シーンを柔軟に編集する手法が提案されているが,時間変化の動的シーンの類似性は限られている。 そこで本研究では,インタラクティブな意味駆動型編集フレームワークである4d-editorを提案する。 我々の動的シーン表現は、編集後の空間的時間的一貫性を維持するために、ハイブリッドなセマンティックな特徴フィールドの上に構築されている。 さらに、動的NeRFにおけるセグメント化精度を大幅に向上させ、編集プロセスを支援する再帰的選択補正を設計する。 さらに,編集後のシーンキャプチャによる穴を埋めるためのマルチビュー再描画手法を開発した。 実世界における大規模な実験と編集例により、4D-Editorが写真リアルな動的NeRF編集を実現することが示された。 プロジェクトページ:https://patrickddj.github.io/4D-Editor

This paper targets interactive object-level editing(e.g., deletion, recoloring, transformation, composition) in dynamic scenes. Recently, some methods aiming for flexible editing static scenes represented by neural radiance field (NeRF) have shown impressive synthesis quality, while similar capabilities in time-variant dynamic scenes remain limited. To solve this problem, we propose 4D-Editor, an interactive semantic-driven editing framework, allowing editing multiple objects in dynamic NeRF based on user strokes on a single frame. Our dynamic scene representation is built upon hybrid semantic feature fields so that the spatial-temporal consistency can be maintained after editing. In addition, we design recursive selection refinement that significantly boosts segmentation accuracy in a dynamic NeRF to aid the editing process. Moreover, we develop multi-view reprojection inpainting to fill holes caused by incomplete scene capture after editing. Extensive experiments and editing examples on real-world demonstrate that 4D-Editor achieves photo-realistic dynamic NeRF editing. Project page: https://patrickddj.github.io/4D-Editor
翻訳日:2023-10-28 00:04:35 公開日:2023-10-25
# トポロジカル最適化を用いた畳み込みニューラルネットワークによるアルツハイマー病MRI画像解析の改善

Improvement in Alzheimer's Disease MRI Images Analysis by Convolutional Neural Networks Via Topological Optimization ( http://arxiv.org/abs/2310.16857v1 )

ライセンス: Link先を確認
Peiwen Tan(参考訳) この研究は、MRI画像の精製におけるフーリエ位相最適化の有効性を強調し、畳み込みニューラルネットワークによるアルツハイマー病の分類精度を高める。 mriスキャンは神経学的評価には欠かせないが、しばしばぼやけやコントラストの不規則性といった問題に対処し、フーリエ位相最適化は脳の構造のデライン化、ノイズの改善、そして優れたコントラストの改善を提供する。 適用した手法は境界強調,コントラスト,明るさ調整,全体像の光沢度を優先した。 CNNアーキテクチャのVGG16、ResNet50、InceptionV3、Xceptionを採用して、ポスト最適化分析により、パフォーマンスが著しく向上した。 結論として、フーリエ位相最適化とcnnsの融合はアルツハイマー病のニュアンス分類に有望な軌道を示し、その診断パラダイムへの変換的影響を保留している。

This research underscores the efficacy of Fourier topological optimization in refining MRI imagery, thereby bolstering the classification precision of Alzheimer's Disease through convolutional neural networks. Recognizing that MRI scans are indispensable for neurological assessments, but frequently grapple with issues like blurriness and contrast irregularities, the deployment of Fourier topological optimization offered enhanced delineation of brain structures, ameliorated noise, and superior contrast. The applied techniques prioritized boundary enhancement, contrast and brightness adjustments, and overall image lucidity. Employing CNN architectures VGG16, ResNet50, InceptionV3, and Xception, the post-optimization analysis revealed a marked elevation in performance. Conclusively, the amalgamation of Fourier topological optimization with CNNs delineates a promising trajectory for the nuanced classification of Alzheimer's Disease, portending a transformative impact on its diagnostic paradigms.
翻訳日:2023-10-28 00:04:15 公開日:2023-10-25
# GANのロバスト所有権検証のための広域最小透かし

Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs ( http://arxiv.org/abs/2310.16919v1 )

ライセンス: Link先を確認
Jianwei Fei, Zhihua Xia, Benedetta Tondi, Mauro Barni(参考訳) 本稿では,ganの知的財産権(ipr)を保護し,微調整,プルーニング,量子化,サロゲートモデル攻撃などのホワイトボックス攻撃に対するロバスト性を向上させるための,新たなマルチビットボックスフリー透かし手法を提案する。 本発明の透かしは、GANトレーニング中に余分な透かし損失項を加えて埋め込み、予め訓練された透かしデコーダで検索可能な目に見えない透かしを含むようにする。 ホワイトボックスモデルレベルの攻撃に対するロバスト性を改善するため、モデルパラメータの変更がウォーターマークを消去しないように、モデルがウォーターマーキング損失項の最大平坦な最小値に収束することを保証する。 そのため、発生器のパラメータにランダムノイズベクトルを追加し、ノイズの存在に関して透かし損失項が可能な限り不変であることを要求する。 この手順により、ジェネレータは、透かし損失の最大で平らな最小値に収束する。 提案手法はアーキテクチャとデータセット非依存であり、cnnベースの画像処理アーキテクチャと同様に、様々な世代のタスクやモデルに適用できる。 本研究では,ウォーターマークの存在が生成画像の品質に不可分な影響を与え,モデル修正やサロゲートモデル攻撃に対するウォーターマークの優れたロバスト性が証明できることを示す広範な実験結果を示す。

We propose a novel multi-bit box-free watermarking method for the protection of Intellectual Property Rights (IPR) of GANs with improved robustness against white-box attacks like fine-tuning, pruning, quantization, and surrogate model attacks. The watermark is embedded by adding an extra watermarking loss term during GAN training, ensuring that the images generated by the GAN contain an invisible watermark that can be retrieved by a pre-trained watermark decoder. In order to improve the robustness against white-box model-level attacks, we make sure that the model converges to a wide flat minimum of the watermarking loss term, in such a way that any modification of the model parameters does not erase the watermark. To do so, we add random noise vectors to the parameters of the generator and require that the watermarking loss term is as invariant as possible with respect to the presence of noise. This procedure forces the generator to converge to a wide flat minimum of the watermarking loss. The proposed method is architectureand dataset-agnostic, thus being applicable to many different generation tasks and models, as well as to CNN-based image processing architectures. We present the results of extensive experiments showing that the presence of the watermark has a negligible impact on the quality of the generated images, and proving the superior robustness of the watermark against model modification and surrogate model attacks.
翻訳日:2023-10-27 23:58:14 公開日:2023-10-25
# MimicTouch: マルチモーダル触覚フィードバックによる人間のコントロール戦略の学習

MimicTouch: Learning Human's Control Strategy with Multi-Modal Tactile Feedback ( http://arxiv.org/abs/2310.16917v1 )

ライセンス: Link先を確認
Kelin Yu, Yunhai Han, Matthew Zhu, Ye Zhao(参考訳) 特にアライメントや挿入といった複雑なタスクを実行するための学習において、ロボット工学や人工知能では触覚処理の統合がますます重要になっている。 しかし,既存の作業では,ロボット遠隔操作データと強化学習に大きく依存しており,触覚フィードバックによって導かれる人間のコントロール戦略による豊かな洞察は利用されていない。 人間の感覚を利用するために、人間の学習に関連する方法論は視覚的なフィードバックを主に利用し、しばしば人間が複雑な操作を終えるために本質的に使用する貴重な触覚フィードバックを見越す。 このギャップに対処するために,人間の触覚誘導制御戦略を模倣する新しいフレームワークである"MimicTouch"を紹介する。 このフレームワークでは、まず人間のデモンストレータからマルチモーダル触覚データセットを収集し、タスク完了のためのヒューマン触覚誘導制御戦略を取り入れた。 その後のステップでは、マルチモーダルセンサーデータと人間の動きを再ターゲットとした模倣学習を通じてロボットに指示する。 さらに,人間とロボットの具体的ギャップを緩和するため,物理ロボットにオンライン残留強化学習を導入する。 総合的な実験を通じて,人間からロボットへの模倣学習を通じて学んだ潜伏政策の伝達におけるMimicTouchの安全性を検証する。 この進行中の作業は、触覚誘導ロボットの幅広い応用への道を開くだろう。

In robotics and artificial intelligence, the integration of tactile processing is becoming increasingly pivotal, especially in learning to execute intricate tasks like alignment and insertion. However, existing works focusing on tactile methods for insertion tasks predominantly rely on robot teleoperation data and reinforcement learning, which do not utilize the rich insights provided by human's control strategy guided by tactile feedback. For utilizing human sensations, methodologies related to learning from humans predominantly leverage visual feedback, often overlooking the invaluable tactile feedback that humans inherently employ to finish complex manipulations. Addressing this gap, we introduce "MimicTouch", a novel framework that mimics human's tactile-guided control strategy. In this framework, we initially collect multi-modal tactile datasets from human demonstrators, incorporating human tactile-guided control strategies for task completion. The subsequent step involves instructing robots through imitation learning using multi-modal sensor data and retargeted human motions. To further mitigate the embodiment gap between humans and robots, we employ online residual reinforcement learning on the physical robot. Through comprehensive experiments, we validate the safety of MimicTouch in transferring a latent policy learned through imitation learning from human to robot. This ongoing work will pave the way for a broader spectrum of tactile-guided robotic applications.
翻訳日:2023-10-27 23:57:51 公開日:2023-10-25
# 変圧器を用いた大気密度予測

Transformer-based Atmospheric Density Forecasting ( http://arxiv.org/abs/2310.16912v1 )

ライセンス: Link先を確認
Julia Briden, Peng Mun Siew, Victor Rodriguez-Fernandez, Richard Linares(参考訳) 2025年に太陽周期のピークが近づき、1つの地磁気嵐が居住空間オブジェクト(RSO)の軌道を著しく変化させる能力を持つため、大気密度予測技術は宇宙の状況認識に不可欠である。 制御を伴う動的モード分解(DMDc)のような線形データ駆動手法は、これまで大気密度の予測に用いられてきたが、深層学習に基づく予測ではデータの非線形性を捉えることができる。 過去の大気密度データから複数の層重みを学習することにより、データセットの長期的依存関係を現在の大気密度状態のマッピングと次の時点の大気密度状態への制御入力にキャプチャする。 本研究は, 従来の大気密度予測のための線形伝搬法を改良し, 大気密度予測のための非線形変圧器アーキテクチャを開発した。 実験的なNRLMSISE-00とJB2008、物理に基づくTIEGCM大気密度モデルを比較して、DMDcとトランスフォーマーベースのプロパゲータで予測する。

As the peak of the solar cycle approaches in 2025 and the ability of a single geomagnetic storm to significantly alter the orbit of Resident Space Objects (RSOs), techniques for atmospheric density forecasting are vital for space situational awareness. While linear data-driven methods, such as dynamic mode decomposition with control (DMDc), have been used previously for forecasting atmospheric density, deep learning-based forecasting has the ability to capture nonlinearities in data. By learning multiple layer weights from historical atmospheric density data, long-term dependencies in the dataset are captured in the mapping between the current atmospheric density state and control input to the atmospheric density state at the next timestep. This work improves upon previous linear propagation methods for atmospheric density forecasting, by developing a nonlinear transformer-based architecture for atmospheric density forecasting. Empirical NRLMSISE-00 and JB2008, as well as physics-based TIEGCM atmospheric density models are compared for forecasting with DMDc and with the transformer-based propagator.
翻訳日:2023-10-27 23:57:28 公開日:2023-10-25
# 量子エンタングルメントによる地球の回転の実験的観察

Experimental Observation of Earth's Rotation with Quantum Entanglement ( http://arxiv.org/abs/2310.16903v1 )

ライセンス: Link先を確認
Raffaele Silvestri, Haocun Yu, Teodor Stromberg, Christopher Hilweg, Robert W. Peterson, and Philip Walther(参考訳) 量子状態による精密干渉法は、物理学の基本的な問題に実験的に答えるための重要なツールとして登場した。 光量子干渉計は、量子状態の生成と操作のための成熟した方法によって特に興味深い。 これらの状態によって提供される感度の増加は、エンタングルメントのような量子現象が重力による小さな効果が作用する前例のない方法でテストされることを約束している。 しかし、これは大きな干渉領域ではまだ研究されていない量子エンタングルメントの長く非一貫性な処理を必要とする。 ここでは,715 m$^{2}$の干渉計で最大経路絡み合った光の量子状態を用いたテーブルトップ実験を行い,地球の回転速度を測定するのに十分な感度を示す。 回転可能なセットアップとアクティブエリアスイッチング技術により、地球の自転の1対の絡み合った光子との結合を制御することができる。 5$\mu$rad/sの感度は、光学量子干渉計で達成された最も高い回転分解能であり、これまでの3桁を超える。 本結果は,最大絡み合った量子状態の大規模干渉計への活用の可能性を示した。 提案手法のさらなる改良により、絡み合った光子に対する一般相対論的効果の測定が可能となり、量子力学と一般相対性理論の相互作用を探索する基礎的測定の精度をさらに高めることができる。

Precision interferometry with quantum states has emerged as an essential tool for experimentally answering fundamental questions in physics. Optical quantum interferometers are of particular interest due to mature methods for generating and manipulating quantum states of light. The increased sensitivity offered by these states promises to enable quantum phenomena, such as entanglement, to be tested in unprecedented regimes where tiny effects due to gravity come into play. However, this requires long and decoherence-free processing of quantum entanglement, which has not yet been explored for large interferometric areas. Here we present a table-top experiment using maximally path-entangled quantum states of light in an interferometer with an area of 715 m$^{2}$, sensitive enough to measure the rotation rate of Earth. A rotatable setup and an active area switching technique allow us to control the coupling of Earth's rotation to an entangled pair of single photons. The achieved sensitivity of 5 $\mu$rad/s constitutes the highest rotation resolution ever achieved with optical quantum interferometers, surpassing previous work by three orders of magnitude. Our result demonstrates the feasibility of extending the utilization of maximally entangled quantum states to large-scale interferometers. Further improvements to our methodology will enable measurements of general-relativistic effects on entangled photons opening the way to further enhance the precision of fundamental measurements to explore the interplay between quantum mechanics and general relativity along with searches for new physics.
翻訳日:2023-10-27 23:57:10 公開日:2023-10-25
# MCUFormer: 限られたメモリでマイクロコントローラにビジョントレーサをデプロイする

MCUFormer: Deploying Vision Tranformers on Microcontrollers with Limited Memory ( http://arxiv.org/abs/2310.16898v1 )

ライセンス: Link先を確認
Yinan Liang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Zhou Jie, Jiwen Lu(参考訳) GPUの高価格と高エネルギー消費のため、マイクロコントローラのようなIoTデバイスにディープモデルをデプロイすることは、エコロジーAIに大きな貢献をする。 従来の手法では、マイクロコントローラ上の高分解能画像の畳み込みニューラルネットワークの推論に成功しているが、視覚トランスフォーマーのフレームワークは、多くの視覚アプリケーションで最先端のパフォーマンスを達成している。 本稿では,超限られたメモリを持つマイクロコントローラに視覚トランスフォーマーを展開するために,mcuformerと呼ばれるハードウェア・アルゴリズムの共最適化手法を提案する。 より具体的には、1ショットネットワークアーキテクチャサーチ(NAS)を一般化し、マイクロコントローラからのメモリ予算から最高のタスク性能で最適なアーキテクチャを探索し、低ランク分解次元とメモリ削減のためのパッチ解像度を考慮して既存の視覚トランスフォーマーの探索空間を拡大する。 視覚変換器の推論演算子ライブラリを構築するために、演算子統合、パッチ埋め込み分解、トークン上書きによる推論中にメモリバッファをスケジュールし、メモリバッファを十分に活用してビジョン変換器の前方通過に適応させる。 STM32F746 マイクロコントローラ上で320KB のメモリを持つ画像分類において,MCUFormer は 73.62\% のトップ-1 の精度を実現している。 コードはhttps://github.com/liangyn22/mcuformerで入手できる。

Due to the high price and heavy energy consumption of GPUs, deploying deep models on IoT devices such as microcontrollers makes significant contributions for ecological AI. Conventional methods successfully enable convolutional neural network inference of high resolution images on microcontrollers, while the framework for vision transformers that achieve the state-of-the-art performance in many vision applications still remains unexplored. In this paper, we propose a hardware-algorithm co-optimizations method called MCUFormer to deploy vision transformers on microcontrollers with extremely limited memory, where we jointly design transformer architecture and construct the inference operator library to fit the memory resource constraint. More specifically, we generalize the one-shot network architecture search (NAS) to discover the optimal architecture with highest task performance given the memory budget from the microcontrollers, where we enlarge the existing search space of vision transformers by considering the low-rank decomposition dimensions and patch resolution for memory reduction. For the construction of the inference operator library of vision transformers, we schedule the memory buffer during inference through operator integration, patch embedding decomposition, and token overwriting, allowing the memory buffer to be fully utilized to adapt to the forward pass of the vision transformer. Experimental results demonstrate that our MCUFormer achieves 73.62\% top-1 accuracy on ImageNet for image classification with 320KB memory on STM32F746 microcontroller. Code is available at https://github.com/liangyn22/MCUFormer.
翻訳日:2023-10-27 23:56:46 公開日:2023-10-25
# Divide et Impera: 複雑なNLPタスクのためのマルチトランスフォーマーアーキテクチャ

Divide et Impera: Multi-Transformer Architectures for Complex NLP-Tasks ( http://arxiv.org/abs/2310.16897v1 )

ライセンス: Link先を確認
Solveig Helland, Elena Gavagnin, Alexandre de Spindler(参考訳) トランスフォーマーモデルの能力の増大は、ますます複雑なnlpタスクを解決する道を開く。 アプリケーション固有の要件をサポートする鍵は、微調整機能である。 しかし、複雑なタスクに適した微調整データセットをコンパイルするのは面倒で、結果として大きなデータセットが発生し、トランスフォーマー出力を制御する能力が制限される。 複雑なタスクを単純なサブタスクに分割する手法を提案する。 複数のトランスモデルは1つのサブタスクに微調整され、複雑なタスクを達成するために並べられる。 これにより、微調整データセットのコンパイルが簡単になり、全体的な可制御性が向上する。 ジェンダーバイアスを複雑なタスクとして削減する例を用いて,我々のアプローチを実証し,単一モデルよりも優れた性能を示す。

The growing capabilities of transformer models pave the way for solving increasingly complex NLP tasks. A key to supporting application-specific requirements is the ability to fine-tune. However, compiling a fine-tuning dataset tailored to complex tasks is tedious and results in large datasets, limiting the ability to control transformer output. We present an approach in which complex tasks are divided into simpler subtasks. Multiple transformer models are fine-tuned to one subtask each, and lined up to accomplish the complex task. This simplifies the compilation of fine-tuning datasets and increases overall controllability. Using the example of reducing gender bias as a complex task, we demonstrate our approach and show that it performs better than using a single model.
翻訳日:2023-10-27 23:56:17 公開日:2023-10-25
# 1次元零温度におけるu(1)対称性の自発的破断

Spontaneous breaking of U(1) symmetry at zero temperature in one dimension ( http://arxiv.org/abs/2310.16881v1 )

ライセンス: Link先を確認
Haruki Watanabe, Hosho Katsura, Jong Yeon Lee(参考訳) hohenberg-mermin-wagner の定理は、有限温度での空間次元 $d\leq2$ における連続対称性の自発的破れは存在しないことを述べる。 ゼロ温度では、古典/量子写像はさらに、相対論的量子場理論の文脈でコールマンの定理として知られる1次元における連続対称性の破れの欠如を意味する。 ハイゼンベルク・強磁性体の古典的な例と変種を除いて、定理に対する反例は知られていない。 このレターでは、秩序パラメータはハイゼンベルク強磁性体のようにハミルトニアンと可換ではないが、U(1)対称性の自発的な破壊を零温度で示す新しい例について議論する。 この振る舞いに対するより一般的な条件は、ハミルトニアンがフラストレーションのないことである。

The Hohenberg--Mermin--Wagner theorem states that there is no spontaneous breaking of continuous symmetries in spatial dimensions $d\leq2$ at finite temperature. At zero temperature, the classical/quantum mapping further implies the absence of continuous symmetry breaking in one dimension, which is also known as Coleman's theorem in the context of relativistic quantum field theories. Except for the classic example of the Heisenberg ferromagnet and its variations, there has been no known counterexample to the theorem. In this Letter, we discuss new examples that display spontaneous breaking of a U(1) symmetry at zero temperature, although the order parameter does not commute with the Hamiltonian unlike the Heisenberg ferromagnet. We argue that a more general condition for this behavior is that the Hamiltonian is frustration-free.
翻訳日:2023-10-27 23:56:06 公開日:2023-10-25
# SonoSAM -- 超音波画像のセグメンテーション

SonoSAM -- Segment Anything on Ultrasound Images ( http://arxiv.org/abs/2310.16872v1 )

ライセンス: Link先を確認
Hariharan Ravishankar, Rohan Patil, Vikram Melapudi, Parminder Bhatia, Kass-Hout Taha, Pavan Annangi(参考訳) 本稿では,超音波画像に注目する対象をセグメント化するための素早い基礎モデルであるSanoSAMを提案する。 sonosamは、約200万個の超音波画像マスクペアから、リッチで多様なオブジェクトのセットのみを微調整し、8つの未認識の超音波データセットで最先端のパフォーマンスを示す。 SonoSAMは、平均2~6クリック以内のほぼすべてのテストデータセットで平均ダイス類似度スコアを90%以上達成し、超音波画像の注釈付けに有用なツールである。 また,SanoSAMを3D (2-D +t) アプリケーションに拡張し,超音波シネループから高密度アノテーションを生成する上で,優れた性能を示す。 さらに, ソノサムの実用性を高めるため, 性能を損なうことなく, 微調整と知識蒸留の2段階のプロセスを提案する。 本研究は,超音波の基礎モデルとしてのソノサムの有効性を示す最新の手法とソノサムの質的,定量的比較を行った。

In this paper, we present SonoSAM - a promptable foundational model for segmenting objects of interest on ultrasound images. Fine-tuned exclusively on a rich, diverse set of objects from roughly 200k ultrasound image-mask pairs, SonoSAM demonstrates state-of-the-art performance on 8 unseen ultrasound data-sets, outperforming competing methods by a significant margin on all metrics of interest. SonoSAM achieves average dice similarity score of more than 90% on almost all test datasets within 2-6 clicks on an average, making it a valuable tool for annotating ultrasound images. We also extend SonoSAM to 3-D (2-D +t) applications and demonstrate superior performance making it a valuable tool for generating dense annotations from ultrasound cine-loops. Further, to increase practical utility of SonoSAM, we propose a two-step process of fine-tuning followed by knowledge distillation to a smaller footprint model without comprising the performance. We present detailed qualitative and quantitative comparisons of SonoSAM with state-of-the art methods showcasing efficacy of SonoSAM as one of the first reliable, generic foundational model for ultrasound.
翻訳日:2023-10-27 23:55:50 公開日:2023-10-25
# MACP : 協調知覚のための効率的なモデル適応

MACP: Efficient Model Adaptation for Cooperative Perception ( http://arxiv.org/abs/2310.16870v1 )

ライセンス: Link先を確認
Yunsheng Ma and Juanwu Lu and Can Cui and Sicheng ZHao and Xu Cao and Wenqian Ye and Ziran Wang(参考訳) 車両間通信(V2V)は、情報共有を「閉塞を通して見る」ことによって、コネクテッドおよび自動車両(CAV)の認識能力を大幅に向上し、性能が大幅に向上した。 しかし、既存の単エージェントモデルが顕著な一般化能力を示す場合、スクラッチから複雑なマルチエージェント認識モデルの開発と訓練は高価で不要である。 本稿では,協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。 我々は,単一エージェントから協調的な設定へ移行する上での重要な課題を特定し,そのパラメータの大部分を凍結し,いくつかの軽量モジュールを追加することで,この目標にアプローチする。 実験では,提案手法が協調観測を効果的に活用し,シミュレーションおよび実世界の協調認識ベンチマークにおいて,コミュニケーションコストの低減を図りながら,他の最先端の手法よりも優れていることを示した。 ソースコードはhttps://github.com/purduedigitaltwin/macpで入手できます。

Vehicle-to-vehicle (V2V) communications have greatly enhanced the perception capabilities of connected and automated vehicles (CAVs) by enabling information sharing to "see through the occlusions", resulting in significant performance improvements. However, developing and training complex multi-agent perception models from scratch can be expensive and unnecessary when existing single-agent models show remarkable generalization capabilities. In this paper, we propose a new framework termed MACP, which equips a single-agent pre-trained model with cooperation capabilities. We approach this objective by identifying the key challenges of shifting from single-agent to cooperative settings, adapting the model by freezing most of its parameters and adding a few lightweight modules. We demonstrate in our experiments that the proposed framework can effectively utilize cooperative observations and outperform other state-of-the-art approaches in both simulated and real-world cooperative perception benchmarks while requiring substantially fewer tunable parameters with reduced communication costs. Our source code is available at https://github.com/PurdueDigitalTwin/MACP.
翻訳日:2023-10-27 23:55:29 公開日:2023-10-25
# 文字間相互作用グラフを用いた現代文学フィクションの社会構造理解-ベンガル文学作家の半世紀年表

Understanding Social Structures from Contemporary Literary Fiction using Character Interaction Graph -- Half Century Chronology of Influential Bengali Writers ( http://arxiv.org/abs/2310.16968v1 )

ライセンス: Link先を確認
Nafis Irtiza Tripto, Mohammed Eunus Ali(参考訳) 社会構造や現実世界の出来事はしばしば現代文学に影響を及ぼす。 文学的フィクション分析における既存の研究は、物語の手動の批判的分析を通じて、これらの現実世界の現象を説明する。 感情分析、物語要約、トピックモデリングを含む従来の自然言語処理(nlp)方法論は、フィクション作品における類似性の分析と同定において実質的な効果を示している。 しかし、フィクションの中のキャラクターの相互作用の複雑なダイナミクスは、可視化技術を取り入れたよりニュアンスなアプローチを必要とする。 文字相互作用グラフ(またはネットワーク)は、フィクションの領域からの可視化と情報検索に非常に適した手段として出現する。 そこで本稿では,現代文化が文学の風景に与える影響について,多種多様な社会的問合せを探求するために,NLPを特徴とする文字相互作用グラフを活用する。 本研究は,フィクションから文字インタラクショングラフを構築し,関連するグラフ特徴を抽出し,それらの特徴を活用して実生活の様々なクエリを解決する。 半世紀にわたって影響力のあるベンガル・フィクションの実験的評価は、文字相互作用グラフが文学的フィクションから特定の評価や情報検索に非常に有効であることを示している。 私たちのデータとコードベースはhttps://cutt.ly/fbMgGEMで利用可能です。

Social structures and real-world incidents often influence contemporary literary fiction. Existing research in literary fiction analysis explains these real-world phenomena through the manual critical analysis of stories. Conventional Natural Language Processing (NLP) methodologies, including sentiment analysis, narrative summarization, and topic modeling, have demonstrated substantial efficacy in analyzing and identifying similarities within fictional works. However, the intricate dynamics of character interactions within fiction necessitate a more nuanced approach that incorporates visualization techniques. Character interaction graphs (or networks) emerge as a highly suitable means for visualization and information retrieval from the realm of fiction. Therefore, we leverage character interaction graphs with NLP-derived features to explore a diverse spectrum of societal inquiries about contemporary culture's impact on the landscape of literary fiction. Our study involves constructing character interaction graphs from fiction, extracting relevant graph features, and exploiting these features to resolve various real-life queries. Experimental evaluation of influential Bengali fiction over half a century demonstrates that character interaction graphs can be highly effective in specific assessments and information retrieval from literary fiction. Our data and codebase are available at https://cutt.ly/fbMgGEM
翻訳日:2023-10-27 23:47:46 公開日:2023-10-25
# CATEモデル選択のための因果Q-集約

Causal Q-Aggregation for CATE Model Selection ( http://arxiv.org/abs/2310.16945v1 )

ライセンス: Link先を確認
Hui Lan, Vasilis Syrgkanis(参考訳) 条件平均治療効果(CATE)の正確な推定は、パーソナライズされた意思決定の中核にある。 CATE推定には多くのモデルが存在するが、因果推論の根本的な問題のため、モデル選択は非自明な作業である。 最近の実証研究は、二重ロバストな特性を持つプロキシ損失メトリクスとモデルアンサンブルを支持する証拠を提供する。 しかし、理論的な理解は不足している。 事前の理論的研究の直接適用は、モデル選択問題の非凸性に起因する最適オラクルモデル選択率につながる。 我々は,既存の主要なcate ensemblingアプローチに対する後悔率を提供し,二重ロバストな損失を用いたq集約に基づく新しいcate モデル ensemblingアプローチを提案する。 本結果から, 因果Q-集約は, 誤差関数の積に関する高次推定誤差項を付加することにより, 統計的に最適なオラクルモデル選択残差率$\frac{\log(M)}{n}$(M$モデルと$n$サンプルを含む)が得られることを示した。 重要なことは、我々の後悔率は、どの候補CATEモデルも真実に近いものを必要としない。 我々は、多くの半合成データセットで新しい手法を検証するとともに、モデル選択をインストゥルメンタル変数と非オブザーブドコンファウンディングで分類する作業の拡張も提供する。

Accurate estimation of conditional average treatment effects (CATE) is at the core of personalized decision making. While there is a plethora of models for CATE estimation, model selection is a nontrivial task, due to the fundamental problem of causal inference. Recent empirical work provides evidence in favor of proxy loss metrics with double robust properties and in favor of model ensembling. However, theoretical understanding is lacking. Direct application of prior theoretical work leads to suboptimal oracle model selection rates due to the non-convexity of the model selection problem. We provide regret rates for the major existing CATE ensembling approaches and propose a new CATE model ensembling approach based on Q-aggregation using the doubly robust loss. Our main result shows that causal Q-aggregation achieves statistically optimal oracle model selection regret rates of $\frac{\log(M)}{n}$ (with $M$ models and $n$ samples), with the addition of higher-order estimation error terms related to products of errors in the nuisance functions. Crucially, our regret rate does not require that any of the candidate CATE models be close to the truth. We validate our new method on many semi-synthetic datasets and also provide extensions of our work to CATE model selection with instrumental variables and unobserved confounding.
翻訳日:2023-10-27 23:47:28 公開日:2023-10-25
# Zephyr: LMアライメントの直接蒸留

Zephyr: Direct Distillation of LM Alignment ( http://arxiv.org/abs/2310.16944v1 )

ライセンス: Link先を確認
Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Cl\'ementine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, and Thomas Wolf(参考訳) ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。 従来の研究では、蒸留された教師付き微調整(dSFT)をより大きなモデルに適用するとタスクの精度が大幅に向上することが示されているが、これらのモデルは不整合である。 この特性を抽出するために,AIF(AI Feedback)の嗜好データを用いて実験を行った。 教師モデルによってランク付けされた出力のデータセットから始め、蒸留直接選好最適化(dDPO)を適用して、意図のアライメントを大幅に改善したチャットモデルを学習する。 このアプローチは、微調整の間、追加のサンプリングなしで、わずか数時間のトレーニングを必要とする。 最後の結果であるzephyr-7bは、7bパラメータモデルのチャットベンチマークを最先端に設定し、人間のアノテーションを必要としない。 特にMT-Benchの結果は、Zephyr-7BがLlama2-Chat-70Bを超えることを示している。 システムのコード、モデル、データ、チュートリアルはhttps://github.com/huggingface/alignment-handbook.comにある。

We aim to produce a smaller language model that is aligned to user intent. Previous research has shown that applying distilled supervised fine-tuning (dSFT) on larger models significantly improves task accuracy; however, these models are unaligned, i.e. they do not respond well to natural prompts. To distill this property, we experiment with the use of preference data from AI Feedback (AIF). Starting from a dataset of outputs ranked by a teacher model, we apply distilled direct preference optimization (dDPO) to learn a chat model with significantly improved intent alignment. The approach requires only a few hours of training without any additional sampling during fine-tuning. The final result, Zephyr-7B, sets the state-of-the-art on chat benchmarks for 7B parameter models, and requires no human annotation. In particular, results on MT-Bench show that Zephyr-7B surpasses Llama2-Chat-70B, the best open-access RLHF-based model. Code, models, data, and tutorials for the system are available at https://github.com/huggingface/alignment-handbook.
翻訳日:2023-10-27 23:47:01 公開日:2023-10-25
# 機能限定ロボットの不均質群に対する行動探索法の検討

Exploring Behavior Discovery Methods for Heterogeneous Swarms of Limited-Capability Robots ( http://arxiv.org/abs/2310.16941v1 )

ライセンス: Link先を確認
Connor Mattson, Jeremy C. Clark, and Daniel S. Brown(参考訳) ロボットの能力に乏しい機能的不均質な群れが与えられた場合の創発的行動を決定する問題について検討する。 先行研究では、同質なスワムの行動探索を検討し、手特定された行動空間または学習された行動空間上での新規性探索の使用を提案し、その後クラスタ化を行い、創発的な行動の分類をユーザに返す。 本稿では,新規探索の役割と,クラスターを用いた創発的行動発見の有効性についてより深く理解することを目的とした。 多数の実験とアブレーションを通じて,不均一群における新たな行動探索における表現,進化探索,および様々なクラスタリング手法の効果を解析した。 以上の結果から, 先行手法では多くの興味深い行動が発見できず, 反復的発見プロセスではランダム探索, 群化学, 自動行動発見よりも多くの行動が発見できることが示唆された。 実験の結果,23の創発的行動が明らかとなり,そのうち18の新たな発見が得られた。 我々の知る限りでは、これらは計算不要エージェントの異種群に対する最初の既知の創発的行動である。 ビデオ、コード、付録はプロジェクトのWebサイト(https://sites.google.com/view/heterogeneous-bd-methods)で入手できる。

We study the problem of determining the emergent behaviors that are possible given a functionally heterogeneous swarm of robots with limited capabilities. Prior work has considered behavior search for homogeneous swarms and proposed the use of novelty search over either a hand-specified or learned behavior space followed by clustering to return a taxonomy of emergent behaviors to the user. In this paper, we seek to better understand the role of novelty search and the efficacy of using clustering to discover novel emergent behaviors. Through a large set of experiments and ablations, we analyze the effect of representations, evolutionary search, and various clustering methods in the search for novel behaviors in a heterogeneous swarm. Our results indicate that prior methods fail to discover many interesting behaviors and that an iterative human-in-the-loop discovery process discovers more behaviors than random search, swarm chemistry, and automated behavior discovery. The combined discoveries of our experiments uncover 23 emergent behaviors, 18 of which are novel discoveries. To the best of our knowledge, these are the first known emergent behaviors for heterogeneous swarms of computation-free agents. Videos, code, and appendix are available at the project website: https://sites.google.com/view/heterogeneous-bd-methods
翻訳日:2023-10-27 23:46:40 公開日:2023-10-25
# 複数のプログラミング言語での学習転送

Learning Transfers over Several Programming Languages ( http://arxiv.org/abs/2310.16937v1 )

ライセンス: Link先を確認
Razan Baltaji, Saurabh Pujar, Louis Mandel, Martin Hirzel, Luca Buratti, Lav Varshney(参考訳) 大規模言語モデル(LLM)は、最近、高リソースプログラミング言語の開発者の生産性向上に非常に適している。 これらのモデルは2種類のデータを使用する: 事前学習のための大量のラベルなしコードサンプルと、微調整やコンテキスト内学習のための比較的少ないラベル付きコードサンプル。 残念なことに、多くのプログラミング言語は低リソースであり、ほとんどのタスクにラベル付きサンプルを欠いている。 そのため、低リソース言語(レガシ言語や新しい言語など)のユーザは、LLMの利点を見逃している。 言語間転送学習は、ソース言語からのデータを使用して、ターゲット言語におけるモデルパフォーマンスを向上させる。 自然言語によく研究されているが、プログラミング言語にはほとんど注目されていない。 本稿では、トランスフォーマーベースのllmと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を行い、以下の質問について述べる。 まず、言語間移動が、与えられたタスクを異なる言語ペア間でいかにうまく動かすか。 第二に、タスクとターゲット言語が与えられたら、ソース言語をいかに選ぶか。 第3に、転送性能を予測する言語ペアの特性、第4に、それが与えられたタスクにどのように依存するか。

Large language models (LLMs) have recently become remarkably good at improving developer productivity for high-resource programming languages. These models use two kinds of data: large amounts of unlabeled code samples for pretraining and relatively smaller amounts of labeled code samples for fine-tuning or in-context learning. Unfortunately, many programming languages are low-resource, lacking labeled samples for most tasks and often even lacking unlabeled samples. Therefore, users of low-resource languages (e.g., legacy or new languages) miss out on the benefits of LLMs. Cross-lingual transfer learning uses data from a source language to improve model performance on a target language. It has been well-studied for natural languages, but has received little attention for programming languages. This paper reports extensive experiments on four tasks using a transformer-based LLM and 11 to 41 programming languages to explore the following questions. First, how well cross-lingual transfer works for a given task across different language pairs. Second, given a task and target language, how to best choose a source language. Third, the characteristics of a language pair that are predictive of transfer performance, and fourth, how that depends on the given task.
翻訳日:2023-10-27 23:46:17 公開日:2023-10-25
# 早期マルチモーダルデータフュージョンとヤコビアンマップを用いたアルツハイマー病の診断

Diagnosing Alzheimer's Disease using Early-Late Multimodal Data Fusion with Jacobian Maps ( http://arxiv.org/abs/2310.16936v1 )

ライセンス: Link先を確認
Yasmine Mustafa and Tie Luo(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、老化に影響を及ぼす神経変性疾患である。 術前および症状段階におけるadの検出は早期の介入と治療に不可欠である。 アクティブな研究の方向は、マルチモーダルデータ融合を利用して、医療スキャンの人間の検査を上回ることである。 しかし、既存のマルチモーダル融合モデルには、冗長計算、複雑なアーキテクチャ、欠落したデータの単純処理を含む制限がある。 さらに、医療スキャンの前処理パイプラインは不十分で、個々の被験者に最適化されることは滅多にない。 本稿では,小型データセット上での競合性能を実現するために,自動特徴抽出とランダムフォレストのための畳み込みニューラルネットワークを用いた効率的な早期融解(elf)手法を提案する。 さらに,個々の被験者の独特な特徴に適応し,スライスやパッチではなく脳全体の画像を利用するロバストな前処理パイプラインを導入する。 さらに,脳の容積の微妙な変化を検出するために,画像がヤコビアン領域(JD)に変換され,分類の精度と堅牢性の両方が向上する。 OASIS-3データセットのMRIおよびCT画像を用いて,ADを4段階に分類し精度97.19%の精度でALFアプローチの有効性を実証した。

Alzheimer's disease (AD) is a prevalent and debilitating neurodegenerative disorder impacting a large aging population. Detecting AD in all its presymptomatic and symptomatic stages is crucial for early intervention and treatment. An active research direction is to explore machine learning methods that harness multimodal data fusion to outperform human inspection of medical scans. However, existing multimodal fusion models have limitations, including redundant computation, complex architecture, and simplistic handling of missing data. Moreover, the preprocessing pipelines of medical scans remain inadequately detailed and are seldom optimized for individual subjects. In this paper, we propose an efficient early-late fusion (ELF) approach, which leverages a convolutional neural network for automated feature extraction and random forests for their competitive performance on small datasets. Additionally, we introduce a robust preprocessing pipeline that adapts to the unique characteristics of individual subjects and makes use of whole brain images rather than slices or patches. Moreover, to tackle the challenge of detecting subtle changes in brain volume, we transform images into the Jacobian domain (JD) to enhance both accuracy and robustness in our classification. Using MRI and CT images from the OASIS-3 dataset, our experiments demonstrate the effectiveness of the ELF approach in classifying AD into four stages with an accuracy of 97.19%.
翻訳日:2023-10-27 23:45:58 公開日:2023-10-25
# CL-MASR:多言語ASRの連続学習ベンチマーク

CL-MASR: A Continual Learning Benchmark for Multilingual ASR ( http://arxiv.org/abs/2310.16931v1 )

ライセンス: Link先を確認
Luca Della Libera, Pooneh Mousavi, Salah Zaiem, Cem Subakan, Mirco Ravanelli(参考訳) 現代の多言語自動音声認識(asr)システムでは、単一のモデルで複数の言語で音声を書き起こせるようになった。 しかし、現在の最先端のASRモデルは通常、個々の言語やマルチタスク設定で評価され、新しい言語を継続的に学習するという課題を見越す。 以前のデータから貴重な情報を失うことなく、新しい言語を追加する方法に関する研究が不十分である。 さらに、既存の連続学習ベンチマークは、主に視覚と言語タスクに焦点を当てており、多言語ASRに対する連続学習はほとんど探索されていない。 このギャップを埋めるために,多言語ASRを連続学習環境で研究するためのベンチマークであるCL-MASRを提案する。 cl-masrは、大規模な事前学習されたasrモデル上に実装された多様な連続学習方法と、新しい言語を学習することの有効性を評価するための一般的なメトリクスを提供する。 我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。 コードはhttps://github.com/speechbrain/benchmarksで入手できる。

Modern multilingual automatic speech recognition (ASR) systems like Whisper have made it possible to transcribe audio in multiple languages with a single model. However, current state-of-the-art ASR models are typically evaluated on individual languages or in a multi-task setting, overlooking the challenge of continually learning new languages. There is insufficient research on how to add new languages without losing valuable information from previous data. Furthermore, existing continual learning benchmarks focus mostly on vision and language tasks, leaving continual learning for multilingual ASR largely unexplored. To bridge this gap, we propose CL-MASR, a benchmark designed for studying multilingual ASR in a continual learning setting. CL-MASR provides a diverse set of continual learning methods implemented on top of large-scale pretrained ASR models, along with common metrics to assess the effectiveness of learning new languages while addressing the issue of catastrophic forgetting. To the best of our knowledge, CL-MASR is the first continual learning benchmark for the multilingual ASR task. The code is available at https://github.com/speechbrain/benchmarks.
翻訳日:2023-10-27 23:45:25 公開日:2023-10-25
# 通信cバンドにおける直接光子放出によるスピン光子絡み合い

Spin-photon entanglement with direct photon emission in the telecom C-band ( http://arxiv.org/abs/2310.16930v1 )

ライセンス: Link先を確認
P. Laccotripes, T. M\"uller, R.M. Stevenson, J. Skiba-Szymanska, D.A. Ritchie, A.J. Shields(参考訳) コンピュータパワーとセキュアに接続された世界に対する進化を続ける要求は、相互に絡み合う量子ネットワークの開発を決定づける。 テレコムCバンドの固体量子エミッタは、これらの波長での光子の最小吸収、単一光子フライングキュービットの「オンデマンド」生成、既存のネットワークインフラとの統合が容易なため、量子通信アプリケーションにとって有望なプラットフォームである。 ここでは、電子スピン縮退をVoigt磁場を用いて持ち上げる負電荷励起子に基づいて、InAs/InP量子ドットを用いて光学活性スピン量子ビットを実装する。 共振励起下でのスピン量子ビット系のコヒーレント相互作用を調べ、ピコ秒パルスを用いた高忠実性スピン初期化とコヒーレント制御を示す。 さらにこれらのツールを使って、システム内の1つの非歪電子スピンのコヒーレンスを測定する。 最後に, 通信用cバンドへの直接放出が可能な固体系におけるスピン光子絡み合いの最初の実演を報告する。

The ever-evolving demands for computational power and for a securely connected world dictate the development of quantum networks where entanglement is distributed between connected parties. Solid-state quantum emitters in the telecom C-band are a promising platform for quantum communication applications due to the minimal absorption of photons at these wavelengths, "on-demand" generation of single photon flying qubits, and ease of integration with existing network infrastructure. Here, we use an InAs/InP quantum dot to implement an optically active spin-qubit, based on a negatively charged exciton where the electron spin degeneracy is lifted using a Voigt magnetic field. We investigate the coherent interactions of the spin-qubit system under resonant excitation, demonstrating high fidelity spin initialisation and coherent control using picosecond pulses. We further use these tools to measure the coherence of a single, undisturbed electron spin in our system. Finally, we report the first demonstration of spin-photon entanglement in a solid-state system capable of direct emission into the telecom C-band.
翻訳日:2023-10-27 23:44:52 公開日:2023-10-25
# 機械翻訳における臨床的危害の医師による検出 : 信頼性と逆翻訳の質推定支援による致命的な誤りの特定

Physician Detection of Clinical Harm in Machine Translation: Quality Estimation Aids in Reliance and Backtranslation Identifies Critical Errors ( http://arxiv.org/abs/2310.16924v1 )

ライセンス: Link先を確認
Nikita Mehandru, Sweta Agrawal, Yimin Xiao, Elaine C Khoong, Ge Gao, Marine Carpuat, Niloufar Salehi(参考訳) MT(Machine Translation)の実践上の大きな課題は、ユーザがいつアウトプットに依存するべきかを判断するためのガイダンスが欠けていることだ。 品質推定研究の進歩は、MT品質を自動評価する技術を提供するが、これらの技術は主に特定の使用状況以外の人間の判断との比較によってin vitroで評価されてきた。 本稿では,高リスク医療における意思決定をシミュレートした人間実験を用いて,生体内品質推定フィードバックの評価を行う。 救急部退院指示を用いて,患者にMT出力を提示するかどうかを判断するために,品質推定とバックトランスレーション支援の介入方法を検討した。 品質評価はMTへの適切な依存を改善するが、逆翻訳はQE単独で見逃されるより臨床的に有害なエラーを検出するのに役立つ。

A major challenge in the practical use of Machine Translation (MT) is that users lack guidance to make informed decisions about when to rely on outputs. Progress in quality estimation research provides techniques to automatically assess MT quality, but these techniques have primarily been evaluated in vitro by comparison against human judgments outside of a specific context of use. This paper evaluates quality estimation feedback in vivo with a human study simulating decision-making in high-stakes medical settings. Using Emergency Department discharge instructions, we study how interventions based on quality estimation versus backtranslation assist physicians in deciding whether to show MT outputs to a patient. We find that quality estimation improves appropriate reliance on MT, but backtranslation helps physicians detect more clinically harmful errors that QE alone often misses.
翻訳日:2023-10-27 23:44:05 公開日:2023-10-25
# 最小二乗、正則化、古典影の関連について

On the connection between least squares, regularization, and classical shadows ( http://arxiv.org/abs/2310.16921v1 )

ライセンス: Link先を確認
Zhihui Zhu, Joseph M. Lukens, Brian T. Kirby(参考訳) 古典的なシャドウ(cs)は、徹底的な状態トモグラフィの必要性を回避し、量子観測量の推定に資源効率のよい手段を提供する。 本稿では,CS技術と最小二乗法(LS)と,機械学習やデータ解析によく用いられる正則最小二乗法(RLS)の関連性を明らかにする。 LS と RLS ` ``shadows'' の形式的同定により、CS の点推定器(すなわち、単一測定の経験周波数から算出された点推定器)は、LS と CS の両方が、不確定な状態の正則化器として見なされ、擬逆を可逆的な代替品に置き換えることを示す。 数値シミュレーションにより, RLS と CS は, バイアスと分散のトレードオフ, 期待値と実測値のミスマッチ, 計測数と撮影数との相互作用の3つの異なる角度から評価した。 CSと比較して、RSSはバイアスを犠牲にして低い分散を実現し、分散ミスマッチに対して堅牢であり、一定の数の状態コピーのショット数に敏感である。 概念的には、LS, RLS, CSを統一した「シャドウ」傘による統合は、CS手法の全体像を前進させるのに役立ち、実際、我々の結果は、これらの測定手法に固有のトレードオフを強調し、前者や後者に対する不確定なランダム性など、RSSまたはCSが好まれる状況を明らかにする。

Classical shadows (CS) offer a resource-efficient means to estimate quantum observables, circumventing the need for exhaustive state tomography. Here, we clarify and explore the connection between CS techniques and least squares (LS) and regularized least squares (RLS) methods commonly used in machine learning and data analysis. By formal identification of LS and RLS ``shadows'' completely analogous to those in CS -- namely, point estimators calculated from the empirical frequencies of single measurements -- we show that both RLS and CS can be viewed as regularizers for the underdetermined regime, replacing the pseudoinverse with invertible alternatives. Through numerical simulations, we evaluate RLS and CS from three distinct angles: the tradeoff in bias and variance, mismatch between the expected and actual measurement distributions, and the interplay between the number of measurements and number of shots per measurement. Compared to CS, RLS attains lower variance at the expense of bias, is robust to distribution mismatch, and is more sensitive to the number of shots for a fixed number of state copies -- differences that can be understood from the distinct approaches taken to regularization. Conceptually, our integration of LS, RLS, and CS under a unifying ``shadow'' umbrella aids in advancing the overall picture of CS techniques, while practically our results highlight the tradeoffs intrinsic to these measurement approaches, illuminating the circumstances under which either RLS or CS would be preferred, such as unverified randomness for the former or unbiased estimation for the latter.
翻訳日:2023-10-27 23:43:41 公開日:2023-10-25
# ベイズ推論を用いた条件付き最適輸送のための効率的なニューラルネットワーク手法

Efficient Neural Network Approaches for Conditional Optimal Transport with Applications in Bayesian Inference ( http://arxiv.org/abs/2310.16975v1 )

ライセンス: Link先を確認
Zheyu Oliver Wang, Ricardo Baptista, Youssef Marzouk, Lars Ruthotto, Deepanshu Verma(参考訳) 本稿では,静的および動的条件付き最適輸送(cot)問題の解を近似する2つのニューラルネットワークアプローチを提案する。 どちらの手法もベイズ推論のコアタスクである条件付き確率分布のサンプリングと密度推定を可能にする。 本手法は,対象条件分布を移動可能な参照分布の変換として表現し,それゆえ測度移動の枠組みに陥る。 COT写像はこの枠組みの中で標準的選択であり、一意性や単調性といった望ましい性質を持つ。 しかし、関連するCOT問題は、適度な次元であっても計算的に困難である。 スケーラビリティを向上させるために,ニューラルネットワークを用いてCOTマップのパラメータ化を行う。 本手法はCOT問題の静的および動的定式化の構造を利用する。 PCP-Mapは、部分的に入力された凸ニューラルネットワーク(PICNN)の勾配として条件付きトランスポートマップをモデル化し、新しい数値的実装を用いて、最先端の代替よりも計算効率を向上させる。 COT-Flowは、正規化されたニューラルODEの流れを介して条件付き輸送をモデル化する。 ベンチマークデータセットとベイズ逆問題を用いて,最先端のアプローチと比較することにより,その効果と効率を実証する。

We present two neural network approaches that approximate the solutions of static and dynamic conditional optimal transport (COT) problems, respectively. Both approaches enable sampling and density estimation of conditional probability distributions, which are core tasks in Bayesian inference. Our methods represent the target conditional distributions as transformations of a tractable reference distribution and, therefore, fall into the framework of measure transport. COT maps are a canonical choice within this framework, with desirable properties such as uniqueness and monotonicity. However, the associated COT problems are computationally challenging, even in moderate dimensions. To improve the scalability, our numerical algorithms leverage neural networks to parameterize COT maps. Our methods exploit the structure of the static and dynamic formulations of the COT problem. PCP-Map models conditional transport maps as the gradient of a partially input convex neural network (PICNN) and uses a novel numerical implementation to increase computational efficiency compared to state-of-the-art alternatives. COT-Flow models conditional transports via the flow of a regularized neural ODE; it is slower to train but offers faster sampling. We demonstrate their effectiveness and efficiency by comparing them with state-of-the-art approaches using benchmark datasets and Bayesian inverse problems.
翻訳日:2023-10-27 23:37:26 公開日:2023-10-25
# レバノンのセキュリティパッチワーク - 障害インフラストラクチャのインフラストラクチャ構築

Security Patchworking in Lebanon: Infrastructuring Across Failing Infrastructures ( http://arxiv.org/abs/2310.16969v1 )

ライセンス: Link先を確認
Jessica McClearn, Rikke Bjerg Jensen, Reem Talhouk(参考訳) 本稿では、レバノンの人々が実施したインフラの複数同時故障に対応するために、日常の安全を確立・維持するためのインフラ整備作業について光を当てる。 我々は2022年7月にレバノンのベイルートで、12のデジタル・人権団体から13名の参加者と2週間の民族誌的情報によるフィールドワークのインタビューを行った。 分析を通じて,電力供給やid認証,金融資源といった基本的なニーズを担保するために必要となるインフラ業務を可視化するセキュリティパッチワークの概念を展開する。 このような慣行は、しばしば新しい形の不安全をもたらす保護の異なるメカニズムに根ざしている。 我々は, cscw と hci 研究者にとっての意義を議論し, cscw とセキュリティ研究の連携を提唱しながら, インフラ構築支援技術の設計に使用するレンズとしてのセキュリティパッチワークを指摘する。

In this paper we bring to light the infrastructuring work carried out by people in Lebanon to establish and maintain everyday security in response to multiple simultaneously failing infrastructures. We do so through interviews with 13 participants from 12 digital and human rights organisations and two weeks of ethnographically informed fieldwork in Beirut, Lebanon, in July 2022. Through our analysis we develop the notion of security patchworking that makes visible the infrastructuring work necessitated to secure basic needs such as electricity provision, identity authentication and financial resources. Such practices are rooted in differing mechanisms of protection that often result in new forms of insecurity. We discuss the implications for CSCW and HCI researchers and point to security patchworking as a lens to be used when designing technologies to support infrastructuring, while advocating for collaborative work across CSCW and security research.
翻訳日:2023-10-27 23:37:06 公開日:2023-10-25
# データ-テキスト生成における幻覚の緩和のための批判駆動復号法

Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text Generation ( http://arxiv.org/abs/2310.16964v1 )

ライセンス: Link先を確認
Mateusz Lango and Ond\v{r}ej Du\v{s}ek(参考訳) 入力に根拠のないテキストの幻覚は、ニューラルデータからテキストへの生成においてよく知られた問題である。 多くの方法が提案されているが、通常はモデルアーキテクチャの変更や追加データ収集が必要であり、既存のモデルに簡単に適用することはできない。 本稿では,生成言語モデル(LM)の確率的出力と,入力データとこれまで生成したテキストとの一致を評価して生成を誘導する特別な「テキスト批評家」分類器の出力を組み合わせることで,幻覚を緩和する新たな方法を検討する。 提案手法は,基礎となるLMのアーキテクチャやトレーニング手順の変更を一切必要とせず,任意のモデルと組み合わせて,単語の確率で操作できる。 批判者は、LMのトレーニングデータと合成ネガティブな例を使用して、追加のトレーニングデータを必要としない。 実験の結果,WebNLG と OpenDialKG ベンチマークのベースラインを改良した。

Hallucination of text ungrounded in the input is a well-known problem in neural data-to-text generation. Many methods have been proposed to mitigate it, but they typically require altering model architecture or collecting additional data, and thus cannot be easily applied to an existing model. In this paper, we explore a new way to mitigate hallucinations by combining the probabilistic output of a generator language model (LM) with the output of a special "text critic" classifier, which guides the generation by assessing the match between the input data and the text generated so far. Our method does not need any changes to the underlying LM's architecture or training procedure and can thus be combined with any model and decoding operating on word probabilities. The critic does not need any additional training data, using the base LM's training data and synthetic negative examples. Our experimental results show that our method improves over the baseline on the WebNLG and OpenDialKG benchmarks.
翻訳日:2023-10-27 23:36:48 公開日:2023-10-25
# 強化学習による言語モデルの私的調整

Privately Aligning Language Models with Reinforcement Learning ( http://arxiv.org/abs/2310.16960v1 )

ライセンス: Link先を確認
Fan Wu, Huseyin A. Inan, Arturs Backurs, Varun Chandrasekaran, Janardhan Kulkarni, Robert Sim(参考訳) 事前学習とユーザ展開の間に位置する位置にある強化学習(RL)による大規模言語モデル(LLM)の整合性は、ChatGPTのような後続モデルの訓練戦略として一般的なものとなっている。 本研究は,RLと組み合わせて,差分プライバシー(DP)によるLCMのプライバシー保護アライメントに関する研究を開始する。 Ziegler et al. (2020) の影響力のある研究の後、2つの支配的なパラダイムを研究した。 (i)ループに人間がいないRLによるアライメント(例えば、肯定的なレビュー生成)、 (II)人間のフィードバック(RLHF)からのRLによるアライメント(例えば、人間優先の方法での要約)。 RLによるアライメントを実現するための新しいDPフレームワークを提供し、その正確性を証明する。 提案手法の有効性を検証し,強力なプライバシー保護を確保しつつ,競争力のあるユーティリティを提供する。

Positioned between pre-training and user deployment, aligning large language models (LLMs) through reinforcement learning (RL) has emerged as a prevailing strategy for training instruction following-models such as ChatGPT. In this work, we initiate the study of privacy-preserving alignment of LLMs through Differential Privacy (DP) in conjunction with RL. Following the influential work of Ziegler et al. (2020), we study two dominant paradigms: (i) alignment via RL without human in the loop (e.g., positive review generation) and (ii) alignment via RL from human feedback (RLHF) (e.g., summarization in a human-preferred way). We give a new DP framework to achieve alignment via RL, and prove its correctness. Our experimental results validate the effectiveness of our approach, offering competitive utility while ensuring strong privacy protections.
翻訳日:2023-10-27 23:36:30 公開日:2023-10-25
# データ拡張パラメータ効率向上型微調整による安全分類器の少数ショット一般化

Improving Few-shot Generalization of Safety Classifiers via Data Augmented Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2310.16959v1 )

ライセンス: Link先を確認
Ananth Balashankar, Xiao Ma, Aradhana Sinha, Ahmad Beirami, Yao Qin, Jilin Chen, Alex Beutel(参考訳) 大規模言語モデル(llm)が広く採用されると、既存の安全分類器がうまく一般化しない新しい安全問題やポリシーが出現する。 新しい安全規則違反の例を少ししか見ていないなら、違反を検知する分類器をどうやって構築すればよいのか? 本稿では,LLMを用いたテキスト安全分類器におけるドメイン一般化型少ショット学習の新たな設定について検討する。 以前の少数の作業とは異なり、これらの新しい安全性の問題を明らかにするのが難しく、いくつかの例を選択することはできません。 そこで本研究では,本手法では既存手法がうまく機能しないことを実証し,従来のルールの類似例に基づくトレーニングデータの拡張と組み合わせて,パラメータ効率の良い微調整(peft)を行うことを提案する。 類似性に基づくデータ拡張+プロンプトチューニング(DAPT)のアプローチは、既存のルールと緩やかに相関している場合でも、社会化学の道徳的判断において、データ拡張またはPEFTに7-17%のF1スコア、およびToxicity検出タスクにおいて9-13%のAUCに依存しないベースラインを一貫して上回っていることを実証的に示す。

As large language models (LLMs) are widely adopted, new safety issues and policies emerge, to which existing safety classifiers do not generalize well. If we have only observed a few examples of violations of a new safety rule, how can we build a classifier to detect violations? In this paper, we study the novel setting of domain-generalized few-shot learning for LLM-based text safety classifiers. Unlike prior few-shot work, these new safety issues can be hard to uncover and we do not get to choose the few examples. We demonstrate that existing few-shot techniques do not perform well in this setting, and rather we propose to do parameter-efficient fine-tuning (PEFT) combined with augmenting training data based on similar examples in prior existing rules. We empirically show that our approach of similarity-based data-augmentation + prompt-tuning (DAPT) consistently outperforms baselines that either do not rely on data augmentation or on PEFT by 7-17% F1 score in the Social Chemistry moral judgement and 9-13% AUC in the Toxicity detection tasks, even when the new rule is loosely correlated with existing ones.
翻訳日:2023-10-27 23:36:16 公開日:2023-10-25
# 高分子物性予測のための分子基盤モデル転送

Transferring a molecular foundation model for polymer property predictions ( http://arxiv.org/abs/2310.16958v1 )

ライセンス: Link先を確認
Pei Zhang, Logan Kearney, Debsindhu Bhowmik, Zachary Fox, Amit K. Naskar, John Gounley(参考訳) トランスフォーマーベースの大規模言語モデルは、薬物開発や材料発見のようなアプリケーションの設計最適化を加速する驚くべき可能性を秘めている。 トランスモデルの自己教師付き事前訓練には大規模なデータセットが必要であり、しばしばポリマー科学のような分野に疎結合である。 ポリマーに対する最先端のアプローチは、追加のサンプルを生成するためにデータ拡張を行うが、余計な計算コストを負うことは避けられない。 対照的に、大規模なオープンソースデータセットは小さな分子で利用可能であり、転送学習によるデータ不足に対する潜在的な解決策を提供する。 本研究では, 高分子特性を微調整し, 小分子で事前学習したトランスフォーマーを用いることで, 一連のベンチマーク予測タスクにおいて, 強化ポリマーデータセットで訓練したトランスフォーマーに匹敵する精度が得られたことを示す。

Transformer-based large language models have remarkable potential to accelerate design optimization for applications such as drug development and materials discovery. Self-supervised pretraining of transformer models requires large-scale datasets, which are often sparsely populated in topical areas such as polymer science. State-of-the-art approaches for polymers conduct data augmentation to generate additional samples but unavoidably incurs extra computational costs. In contrast, large-scale open-source datasets are available for small molecules and provide a potential solution to data scarcity through transfer learning. In this work, we show that using transformers pretrained on small molecules and fine-tuned on polymer properties achieve comparable accuracy to those trained on augmented polymer datasets for a series of benchmark prediction tasks.
翻訳日:2023-10-27 23:35:26 公開日:2023-10-25
# 大規模警察放送音声分析のためのデータストア設計

Datastore Design for Analysis of Police Broadcast Audio at Scale ( http://arxiv.org/abs/2310.16956v1 )

ライセンス: Link先を確認
Ayah Ahmad (1), Christopher Graziul (2), Margaret Beale Spencer (2) ((1) University of California, Berkeley, (2) University of Chicago)(参考訳) 近年、警察はより精査されるようになり、警察と少数派の間での接触の影響について研究が進められている。 何十万もの録画された警察通信(bpc)のデータアーカイブが一般に公開されているにもかかわらず、警察の言語に関する大規模な分析は、ほとんど調査されていない。 この研究は、警察の「先取り的」概念を理解する上で重要であるが、大量のデータが組織や分析において多くの課題を呈している。 本稿では,シカゴ警察署(cpd)bpcの分析において,合成生音声ファイルのマルチモーダル解析を可能にするデータストア作成のパイプライン化を実証し,音声感情認識(ser)の実現に向けた予備作業について述べる。

With policing coming under greater scrutiny in recent years, researchers have begun to more thoroughly study the effects of contact between police and minority communities. Despite data archives of hundreds of thousands of recorded Broadcast Police Communications (BPC) being openly available to the public, a closer look at a large-scale analysis of the language of policing has remained largely unexplored. While this research is critical in understanding a "pre-reflective" notion of policing, the large quantity of data presents numerous challenges in its organization and analysis. In this paper, we describe preliminary work towards enabling Speech Emotion Recognition (SER) in an analysis of the Chicago Police Department's (CPD) BPC by demonstrating the pipelined creation of a datastore to enable a multimodal analysis of composed raw audio files.
翻訳日:2023-10-27 23:35:11 公開日:2023-10-25
# 破壊し、イミットし、修正する:人間のような攻撃を発生させるロバスト性

Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks ( http://arxiv.org/abs/2310.16955v1 )

ライセンス: Link先を確認
Aradhana Sinha, Ananth Balashankar, Ahmad Beirami, Thi Avrahami, Jilin Chen, Alex Beutel(参考訳) 現実世界の自然言語処理システムは、人間の敵に対して堅牢である必要がある。 トレーニングのための人間の敵の例を集めることは、効果的だが高価なソリューションである。 一方で、単語置換のような小さな摂動による合成攻撃の訓練は、実際に人間の敵に対する堅牢性を改善するものではない。 本稿では,限定的な人的対人例を用いて,より有用な対人例を大規模に生成する対人訓練フレームワークを提案する。 本稿では、ANLIとヘイトスピーチ検出ベンチマークのデータセット上で、このシステムの利点を実証する。 人的攻撃のみの訓練に比べ、我々の合成敵の訓練は、将来のラウンドのモデルロバスト性を向上する。 anliでは、現在の攻撃セット(44.1%$\,\to\,$50.1%)と、将来の2回の人為攻撃(32.5%$\,\to\,43.4%、29.4%$\,\to\,$40.2%)において精度が向上している。 ヘイトスピーチ検出では、現在の攻撃(0.76$\to$ 0.84)と将来のラウンド(0.77$\to$ 0.79)でAUCが上昇する。 既存の人間の敵の分布を学習しない方法からの攻撃は、ロバスト性を低下させる。

Real-world natural language processing systems need to be robust to human adversaries. Collecting examples of human adversaries for training is an effective but expensive solution. On the other hand, training on synthetic attacks with small perturbations - such as word-substitution - does not actually improve robustness to human adversaries. In this paper, we propose an adversarial training framework that uses limited human adversarial examples to generate more useful adversarial examples at scale. We demonstrate the advantages of this system on the ANLI and hate speech detection benchmark datasets - both collected via an iterative, adversarial human-and-model-in-the-loop procedure. Compared to training only on observed human attacks, also training on our synthetic adversarial examples improves model robustness to future rounds. In ANLI, we see accuracy gains on the current set of attacks (44.1%$\,\to\,$50.1%) and on two future unseen rounds of human generated attacks (32.5%$\,\to\,$43.4%, and 29.4%$\,\to\,$40.2%). In hate speech detection, we see AUC gains on current attacks (0.76 $\to$ 0.84) and a future round (0.77 $\to$ 0.79). Attacks from methods that do not learn the distribution of existing human adversaries, meanwhile, degrade robustness.
翻訳日:2023-10-27 23:34:57 公開日:2023-10-25
# Deep and Ensemble Machine Learning を用いた大腸癌組織分離術の性能改善

Improving Performance in Colorectal Cancer Histology Decomposition using Deep and Ensemble Machine Learning ( http://arxiv.org/abs/2310.16954v1 )

ライセンス: Link先を確認
Fabi Prezja, Leevi Annala, Sampsa Kiiskinen, Suvi Lahtinen, Timo Ojala, Pekka Ruusuvuori, Teijo Kuopio(参考訳) 定期的な大腸癌管理では、ヘマトキシリンとエオシンで染色した組織学的サンプルが一般的に用いられる。 それでも、患者層化と治療選択のための客観的なバイオマーカーを定義する可能性はまだ検討されている。 現在の金の基準は高価で時間を要する遺伝子検査に依存している。 しかし,最近の研究では,これらの画像から臨床関連バイオマーカーの抽出を容易にするための畳み込みニューラルネットワーク(CNN)の可能性を強調している。 これらのCNNベースのバイオマーカーは、スピード、自動化、最小コストの利点を付加して、患者の結果がゴールデンスタンダードと同等に予測できる。 CNNベースのバイオマーカーの予測可能性は基本的に、スライド顕微鏡画像全体から様々な組織タイプを正確に分類する畳み込みニューラルネットワーク(CNN)の機能に依存する。 したがって、組織クラスの分解の精度を高めることは、イメージングベースのバイオマーカーの予後を増幅するために重要である。 本研究は,この分類タスクにおいて,先行するすべての解を超越した,ハイブリッドな深層およびアンサンブル型機械学習モデルを提案する。 本モデルは,外部テストセットでは96.74%,内部テストセットでは99.89%の精度を示した。 これらのモデルがタスクを前進させる可能性を認識し、さらなる研究と開発のために公開しました。

In routine colorectal cancer management, histologic samples stained with hematoxylin and eosin are commonly used. Nonetheless, their potential for defining objective biomarkers for patient stratification and treatment selection is still being explored. The current gold standard relies on expensive and time-consuming genetic tests. However, recent research highlights the potential of convolutional neural networks (CNNs) in facilitating the extraction of clinically relevant biomarkers from these readily available images. These CNN-based biomarkers can predict patient outcomes comparably to golden standards, with the added advantages of speed, automation, and minimal cost. The predictive potential of CNN-based biomarkers fundamentally relies on the ability of convolutional neural networks (CNNs) to classify diverse tissue types from whole slide microscope images accurately. Consequently, enhancing the accuracy of tissue class decomposition is critical to amplifying the prognostic potential of imaging-based biomarkers. This study introduces a hybrid Deep and ensemble machine learning model that surpassed all preceding solutions for this classification task. Our model achieved 96.74% accuracy on the external test set and 99.89% on the internal test set. Recognizing the potential of these models in advancing the task, we have made them publicly available for further research and development.
翻訳日:2023-10-27 23:34:32 公開日:2023-10-25
# マシン生成したテキストをどの程度識別できるのか、そして、識別を避けるために言語モデルを訓練できるか?

How well can machine-generated texts be identified and can language models be trained to avoid identification? ( http://arxiv.org/abs/2310.16992v1 )

ライセンス: Link先を確認
Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek(参考訳) GPT-3, GPT-NeoX, OPTなどの生成事前学習型トランスフォーマーモデルの台頭により, 人為的テキストと機械的テキストを区別することが重要になった。 合成つぶやきを生成するために5つの言語モデルを改良し、Naive Bayesのような浅い学習分類アルゴリズムが0.6から0.8の精度で検出できることを示した。 浅い学習分類器は、特にテキスト生成時に高い温度値を使用する場合、人間に基づく検出と異なり、検出率を低下させる。 人間は、低い温度で高い傾向にある言語受容性を優先する。 対照的に、変圧器ベースの分類器は0.9以上の精度を持つ。 生成モデルを改良するために強化学習アプローチを用いることで,検出精度0.15以下でBERTベースの分類を回避できることがわかった。

With the rise of generative pre-trained transformer models such as GPT-3, GPT-NeoX, or OPT, distinguishing human-generated texts from machine-generated ones has become important. We refined five separate language models to generate synthetic tweets, uncovering that shallow learning classification algorithms, like Naive Bayes, achieve detection accuracy between 0.6 and 0.8. Shallow learning classifiers differ from human-based detection, especially when using higher temperature values during text generation, resulting in a lower detection rate. Humans prioritize linguistic acceptability, which tends to be higher at lower temperature values. In contrast, transformer-based classifiers have an accuracy of 0.9 and above. We found that using a reinforcement learning approach to refine our generative models can successfully evade BERT-based classifiers with a detection accuracy of 0.15 or less.
翻訳日:2023-10-27 23:25:31 公開日:2023-10-25
# 野生における農業害虫認識のための効果的な深層学習手法

An Efficient Deep Learning-based approach for Recognizing Agricultural Pests in the Wild ( http://arxiv.org/abs/2310.16991v1 )

ライセンス: Link先を確認
Mohtasim Hadi Rafi, Mohammad Ratul Mahjabin and Md Sabbir Rahman(参考訳) 農家が経験する最大の課題の1つは、農作物の収量で害虫と戦うことである。 タイムリーな予防措置をとることで、容易に解決でき、経済的な損失を回避できる。 害虫を簡便かつ効果的に識別する必要がある。 ほとんどの昆虫は両者の類似性を持っている。 農学者の助けがなければ、農夫が作物の害虫を正確に特定することは非常に困難である。 この問題に対処するため,我々は,それぞれに最適な方法を見出すために,様々な方法を検討する広範囲な実験を行った。 本稿では,ip102と呼ばれるロバストなデータセットを中心に,微調整による転送学習,注意機構,カスタムアーキテクチャを含む実験の概要について述べる。 別のデータセットD0からのいくつかの例も、実験手法の堅牢性を示している。

One of the biggest challenges that the farmers go through is to fight insect pests during agricultural product yields. The problem can be solved easily and avoid economic losses by taking timely preventive measures. This requires identifying insect pests in an easy and effective manner. Most of the insect species have similarities between them. Without proper help from the agriculturist academician it is very challenging for the farmers to identify the crop pests accurately. To address this issue we have done extensive experiments considering different methods to find out the best method among all. This paper presents a detailed overview of the experiments done on mainly a robust dataset named IP102 including transfer learning with finetuning, attention mechanism and custom architecture. Some example from another dataset D0 is also shown to show robustness of our experimented techniques.
翻訳日:2023-10-27 23:25:15 公開日:2023-10-25
# steer: 音声アシスタントのためのセマンティクスターン拡張拡張認識

STEER: Semantic Turn Extension-Expansion Recognition for Voice Assistants ( http://arxiv.org/abs/2310.16990v1 )

ライセンス: Link先を確認
Leon Liyang Zhang, Jiarui Lu, Joel Ruben Antony Moniz, Aditya Kulkarni, Dhivya Piraviperumal, Tien Dung Tran, Nicholas Tzou, Hong Yu(参考訳) 音声アシスタントシステムにおいて、ステアリング(steering)とは、ユーザが前回を指示または明らかにしようとするフォローアップコマンドを発行する現象を指す。 STEERは、従順方向がユーザの以前のコマンドを操る試みであるかどうかを予測するステアリング検出モデルである。 ユースケースをステアリングするためのトレーニングデータセットの構築は、コールドスタートの問題による課題を引き起こす。 これを解決するため,オプトイン利用データに対するヒューリスティックなルールを開発し,アノテーションを使わずに正と負のサンプルを近似した。 実験の結果, サンプルデータに対して95%以上の精度でステアリング意図の同定に有望な性能を示した。 さらに,STEERはサンプリング戦略と合わせて実世界のステアリングシナリオと効果的に整合し,人格評価セット上でのゼロショット性能が強いことが証明された。 入力としてユーザ書き起こしのみに依存することに加えて,モデルの強化版であるSTEER+を導入する。 STEER+はセマンティックパースツリーを使用して、文境界でしばしば発生する名前付きエンティティのような語彙外単語のコンテキストを提供する。 これにより、メッセージなどのエンティティが頻繁に現れるドメインにおけるエラー率を削減し、モデルパフォーマンスがさらに向上する。 最後に,音声アシスタントがステアリングユースケースをサポートする場合に,ユーザエクスペリエンスの向上を強調するデータ分析を行う。

In the context of a voice assistant system, steering refers to the phenomenon in which a user issues a follow-up command attempting to direct or clarify a previous turn. We propose STEER, a steering detection model that predicts whether a follow-up turn is a user's attempt to steer the previous command. Constructing a training dataset for steering use cases poses challenges due to the cold-start problem. To overcome this, we developed heuristic rules to sample opt-in usage data, approximating positive and negative samples without any annotation. Our experimental results show promising performance in identifying steering intent, with over 95% accuracy on our sampled data. Moreover, STEER, in conjunction with our sampling strategy, aligns effectively with real-world steering scenarios, as evidenced by its strong zero-shot performance on a human-graded evaluation set. In addition to relying solely on user transcripts as input, we introduce STEER+, an enhanced version of the model. STEER+ utilizes a semantic parse tree to provide more context on out-of-vocabulary words, such as named entities that often occur at the sentence boundary. This further improves model performance, reducing error rate in domains where entities frequently appear, such as messaging. Lastly, we present a data analysis that highlights the improvement in user experience when voice assistants support steering use cases.
翻訳日:2023-10-27 23:25:05 公開日:2023-10-25
# 確率積分回路

Probabilistic Integral Circuits ( http://arxiv.org/abs/2310.16986v1 )

ライセンス: Link先を確認
Gennaro Gala, Cassio de Campos, Robert Peharz, Antonio Vergari, Erik Quaeghebeur(参考訳) 連続的潜在変数 (continuous latent variable, lvs) は多くの生成モデルの主要な要素であり、非可算個の成分とのモデル表現混合を可能にする。 対照的に、確率回路(PC)は、入力、和、積単位からなる計算グラフとして表される階層的な離散混合である。 連続LVモデルとは異なり、PCは抽出可能な推論を提供するが、分類的(非順序)な状態を持つ離散LVに限定される。 確率積分回路(PIC)はPCを連続LVを表す積分単位で拡張する計算グラフの新しい言語である。 第一に、picは象徴的な計算グラフであり、解析的統合が可能な単純なケースでは完全に扱いやすい。 実際には,大規模pcでは数値二次数を用いて任意に近似できる,難解な階層的連続混合を実現する軽量ニューラルネットワークを用いて画像のパラメータ化を行う。 いくつかの分布推定ベンチマークにおいて、このようなPIC近似PCは予測最大化やSGDによって学習されるPCより体系的に優れていることを示す。

Continuous latent variables (LVs) are a key ingredient of many generative models, as they allow modelling expressive mixtures with an uncountable number of components. In contrast, probabilistic circuits (PCs) are hierarchical discrete mixtures represented as computational graphs composed of input, sum and product units. Unlike continuous LV models, PCs provide tractable inference but are limited to discrete LVs with categorical (i.e. unordered) states. We bridge these model classes by introducing probabilistic integral circuits (PICs), a new language of computational graphs that extends PCs with integral units representing continuous LVs. In the first place, PICs are symbolic computational graphs and are fully tractable in simple cases where analytical integration is possible. In practice, we parameterise PICs with light-weight neural nets delivering an intractable hierarchical continuous mixture that can be approximated arbitrarily well with large PCs using numerical quadrature. On several distribution estimation benchmarks, we show that such PIC-approximating PCs systematically outperform PCs commonly learned via expectation-maximization or SGD.
翻訳日:2023-10-27 23:24:41 公開日:2023-10-25
# 大規模言語モデル型プログラミングアシスタントを用いた学生支援探索のパターン

Patterns of Student Help-Seeking When Using a Large Language Model-Powered Programming Assistant ( http://arxiv.org/abs/2310.16984v1 )

ライセンス: Link先を確認
Brad Sheese, Mark Liffiton, Jaromir Savelka, Paul Denny(参考訳) 大規模にパーソナライズされた支援を提供することは、コンピュータ教育者にとって長年の課題だが、大規模言語モデル(LLM)を利用した新しい世代のツールが大きな可能性を秘めている。 このようなツールは理論上、大規模なクラス設定でオンデマンドのヘルプを提供し、誤用を防止し、学習者の過度な信頼性に関する一般的な懸念を軽減するために適切なガードレールを設定できる。 しかし、実際の教室でllmを利用するツールは、まだまれであり、学生が実際にどのように利用し、どのような助けを求めるかについては、現在ほとんど知られていない。 そこで本研究では,オンデマンドプログラミング支援ツールであるLCMを活用した革新的なツールを,生徒が直接ソリューションを公開せずに利用することを検討する。 私たちはこのツールを入門コンピュータとデータサイエンスのコース(52ドル)に12週間配置し、その期間を通して学生から提出された2500以上の質問を集めました。 支援対象のタイプに基づいて,学生の質問を手動で分類し,いくつかの追加クエリ特性を自動解析した。 また,関連する概念に対する支援や概念理解の深化を求める要求は少ない。 さらに、学生はツールに最小限の情報を提供することが多く、これは対象とする指導が有益であることを示唆している。 また、このコースでより多くの成功をおさめた学生は、ツールを全体としてより頻繁に使う傾向にあった。 この研究から学んだことは、プログラミング教育者や、新しいLLMツールで教えることを計画している機関によって活用することができる。

Providing personalized assistance at scale is a long-standing challenge for computing educators, but a new generation of tools powered by large language models (LLMs) offers immense promise. Such tools can, in theory, provide on-demand help in large class settings and be configured with appropriate guardrails to prevent misuse and mitigate common concerns around learner over-reliance. However, the deployment of LLM-powered tools in authentic classroom settings is still rare, and very little is currently known about how students will use them in practice and what type of help they will seek. To address this, we examine students' use of an innovative LLM-powered tool that provides on-demand programming assistance without revealing solutions directly. We deployed the tool for 12 weeks in an introductory computer and data science course ($n = 52$), collecting more than 2,500 queries submitted by students throughout the term. We manually categorized all student queries based on the type of assistance sought, and we automatically analyzed several additional query characteristics. We found that most queries requested immediate help with programming assignments, whereas fewer requests asked for help on related concepts or for deepening conceptual understanding. Furthermore, students often provided minimal information to the tool, suggesting this is an area in which targeted instruction would be beneficial. We also found that students who achieved more success in the course tended to have used the tool more frequently overall. Lessons from this research can be leveraged by programming educators and institutions who plan to augment their teaching with emerging LLM-powered tools.
翻訳日:2023-10-27 23:24:24 公開日:2023-10-25
# walin-gui:ニューロンベースのエンコーディングのためのグラフィカルおよび聴覚ツール

WaLiN-GUI: a graphical and auditory tool for neuron-based encoding ( http://arxiv.org/abs/2310.16983v1 )

ライセンス: Link先を確認
Simon F. M\"uller-Cleve and Fernando M. Quintana and Vittorio Fra and Pedro L. Galindo and Fernando Perez-Pe\~na and Gianvito Urgese and Chiara Bartolozzi(参考訳) ニューロモルフィックコンピューティングはスパイクベースでエネルギー効率のよい通信に依存しており、本質的には実数値(感覚)データと疎いスパイク表現の間の変換の必要性を示唆している。 これは通常、スパイキングニューロンモデルへの現在の入力として実際の値データを使用し、ニューロンのパラメータを所望の生物学的にインスパイアされた振る舞いに合わせるように調整する。 スパイクトレインへのサンプルデータエンコーディングに適した構成を特定するために,ニューロンモデルとパラメータの組み合わせを調査するためのツールであるwalin-guiを開発した。 lifとizhikevichのニューロンモデルの隣で、デフォルトで実装された一般化lifモデルにより、多くのスパイク行動が最初から調べられるため、入力データに対する生物学的に妥当な応答をチューニングすることができる。 GUIはオープンソースでドキュメンテーションが提供されており、さらなるニューロンモデルで拡張し、データ解析機能でパーソナライズするのが簡単である。

Neuromorphic computing relies on spike-based, energy-efficient communication, inherently implying the need for conversion between real-valued (sensory) data and binary, sparse spiking representation. This is usually accomplished using the real valued data as current input to a spiking neuron model, and tuning the neuron's parameters to match a desired, often biologically inspired behaviour. We developed a tool, the WaLiN-GUI, that supports the investigation of neuron models and parameter combinations to identify suitable configurations for neuron-based encoding of sample-based data into spike trains. Due to the generalized LIF model implemented by default, next to the LIF and Izhikevich neuron models, many spiking behaviors can be investigated out of the box, thus offering the possibility of tuning biologically plausible responses to the input data. The GUI is provided open source and with documentation, being easy to extend with further neuron models and personalize with data analysis functions.
翻訳日:2023-10-27 23:23:58 公開日:2023-10-25
# 定数およびほぼ定数のホモロジー量子ldpc符号上の非クリフォードおよび並列化可能なフォールトトレラント論理ゲート

Non-Clifford and parallelizable fault-tolerant logical gates on constant and almost-constant rate homological quantum LDPC codes via higher symmetries ( http://arxiv.org/abs/2310.16982v1 )

ライセンス: Link先を確認
Guanyu Zhu, Shehryar Sikander, Elia Portnoy, Andrew W. Cross, and Benjamin J. Brown(参考訳) 本研究では, 並列フォールトトレラント量子コンピューティングを用いて, 一定あるいはほぼ安定な符号化速度で3次元多様体上に定義されたホモロジー量子低密度パリティチェック(LDPC)符号群について検討する。 一般3次元多様体上の色符号の逆数$T$ゲートは、論理量子ビットの任意の三重項上の集合非クリフォード論理CCZゲートとして作用し、その論理-$X$膜は1点に$\mathbb{Z}_2$三重交叉を持つ。 三重交叉数は位相不変量であり、位相的量子場理論における創発的高対称性作用素の経路積分、すなわち $\mathbb{z}_2^3$ ゲージ理論にも現れる。 さらに、カラーコードの逆数$S$ゲートは余次元-1部分多様体上で支持される高次対称性に対応しており、指数関数的に多くのアドレス可能かつ並列化可能な論理的CZゲートが生じる。 我々は3次元多様体の3次元交叉不変量を計算する汎用形式を考案し、また様々な3次元多様体の体積を持つベッチ数とシストルのスケーリングについて研究した。 We further develop three types of LDPC codes supporting such logical gates: (1) A quasi-hyperbolic code from the product of 2D hyperbolic surface and a circle, with almost-constant rate $k/n=O(1/\log(n))$ and $O(\log(n))$ distance; (2) A homological fibre bundle code with $O(1/\log^{\frac{1}{2}}(n))$ rate and $O(\log^{\frac{1}{2}}(n))$ distance; (3) A specific family of 3D hyperbolic codes: the Torelli mapping torus code, constructed from mapping tori of a pseudo-Anosov element in the Torelli subgroup, which has constant rate while the distance scaling is currently unknown. 次に、論理式-X$測定の助けを借りて並列化可能なユニバーサルゲートセットを適用するための一般的な定数オーバーヘッドスキームを示す。

We study parallel fault-tolerant quantum computing for families of homological quantum low-density parity-check (LDPC) codes defined on 3-manifolds with constant or almost-constant encoding rate. We derive generic formula for a transversal $T$ gate of color codes on general 3-manifolds, which acts as collective non-Clifford logical CCZ gates on any triplet of logical qubits with their logical-$X$ membranes having a $\mathbb{Z}_2$ triple intersection at a single point. The triple intersection number is a topological invariant, which also arises in the path integral of the emergent higher symmetry operator in a topological quantum field theory: the $\mathbb{Z}_2^3$ gauge theory. Moreover, the transversal $S$ gate of the color code corresponds to a higher-form symmetry supported on a codimension-1 submanifold, giving rise to exponentially many addressable and parallelizable logical CZ gates. We have developed a generic formalism to compute the triple intersection invariants for 3-manifolds and also study the scaling of the Betti number and systoles with volume for various 3-manifolds, which translates to the encoding rate and distance. We further develop three types of LDPC codes supporting such logical gates: (1) A quasi-hyperbolic code from the product of 2D hyperbolic surface and a circle, with almost-constant rate $k/n=O(1/\log(n))$ and $O(\log(n))$ distance; (2) A homological fibre bundle code with $O(1/\log^{\frac{1}{2}}(n))$ rate and $O(\log^{\frac{1}{2}}(n))$ distance; (3) A specific family of 3D hyperbolic codes: the Torelli mapping torus code, constructed from mapping tori of a pseudo-Anosov element in the Torelli subgroup, which has constant rate while the distance scaling is currently unknown. We then show a generic constant-overhead scheme for applying a parallelizable universal gate set with the aid of logical-$X$ measurements.
翻訳日:2023-10-27 23:23:39 公開日:2023-10-25
# データセントリックaiによる合成表データ生成の再考:総合ベンチマーク

Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark ( http://arxiv.org/abs/2310.16981v1 )

ライセンス: Link先を確認
Lasse Hansen, Nabeel Seedat, Mihaela van der Schaar, Andrija Petrovic(参考訳) 合成データは、特に実世界のデータが制限されたり、アクセスできない場合に、機械学習モデルをトレーニングする際の代替となる。 しかし、合成データが実際のデータの複雑なニュアンスを反映することを保証することは、難しい課題である。 本稿では、合成データ生成プロセスのガイドとしてデータをプロファイルするデータ中心のAI技術を統合する可能性を探ることで、この問題に対処する。 さらに、統計的忠実度が高いように見えるにもかかわらず、合成データ生成中にこれらのデータプロファイルを無視することによる、しばしば無視される結果にも光を当てた。 次に,より代表的な合成データの作成を導くために,データプロファイルの統合を評価するための新しいフレームワークを提案する。 本研究では,11個の表状データセット上での表状データ生成のための5つの最先端モデルの性能評価を行った。 この発見は、現在の合成データ生成技術の成功と限界に関する重要な洞察を提供する。 最後に,データ中心の洞察を合成データ生成プロセスに統合する実践的な推奨を行い,分類性能,モデル選択,特徴選択に特化している。 本研究では、合成データ生成における従来の手法を再評価し、合成データの品質と有効性を改善するためのデータ中心AI技術の適用を促進することを目的とする。

Synthetic data serves as an alternative in training machine learning models, particularly when real-world data is limited or inaccessible. However, ensuring that synthetic data mirrors the complex nuances of real-world data is a challenging task. This paper addresses this issue by exploring the potential of integrating data-centric AI techniques which profile the data to guide the synthetic data generation process. Moreover, we shed light on the often ignored consequences of neglecting these data profiles during synthetic data generation -- despite seemingly high statistical fidelity. Subsequently, we propose a novel framework to evaluate the integration of data profiles to guide the creation of more representative synthetic data. In an empirical study, we evaluate the performance of five state-of-the-art models for tabular data generation on eleven distinct tabular datasets. The findings offer critical insights into the successes and limitations of current synthetic data generation techniques. Finally, we provide practical recommendations for integrating data-centric insights into the synthetic data generation process, with a specific focus on classification performance, model selection, and feature selection. This study aims to reevaluate conventional approaches to synthetic data generation and promote the application of data-centric AI techniques in improving the quality and effectiveness of synthetic data.
翻訳日:2023-10-27 23:23:05 公開日:2023-10-25
# Pseudo Label Self-Refinement を用いた意味分割のための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation with Pseudo Label Self-Refinement ( http://arxiv.org/abs/2310.16979v1 )

ライセンス: Link先を確認
Xingchen Zhao, Niluthpol Chowdhury Mithun, Abhinav Rajvanshi, Han-Pang Chiu, Supun Samarasekera(参考訳) セマンティックセグメンテーションのためのディープラーニングベースのソリューションは、トレーニングで使用されたものとは異なる特徴を持つデータでテストした場合、大きなパフォーマンス劣化に悩まされる。 新しいドメインからアノテーション付きデータを使ってモデルを適用することは、必ずしも現実的ではありません。 教師なしドメイン適応(UDA)アプローチは、実際の運用環境でこれらのモデルをデプロイするのに不可欠である。 近年のSOTA (State-of-the-art) UDA法では教師が学習する自己学習手法を採用しており,教師モデルを用いて新しいデータに対する擬似ラベルを生成し,学生モデルの学習過程を導出する。 このアプローチは多くの成功を収めていますが、トレーニングプロセスで騒がしい擬似ラベルが伝播する問題に苦しんでいます。 この問題に対処するために,擬似ラベルのオンライン精錬や,予測されたラベルがノイズになりやすいピクセルのローカライズのための補助擬似ラベル精錬ネットワーク(PRN)を提案する。 PRNは擬似ラベルの品質を改善し、信頼性の高いラベルを選択することができ、適応の異なる段階で擬似ラベルのノイズ伝搬に対して頑健なセグメンテーションモデルの自己学習を支援する。 我々は、3つの異なるドメインシフトを持つベンチマークデータセットに対するアプローチを評価し、従来の最先端手法よりも一貫して優れた性能を示す。

Deep learning-based solutions for semantic segmentation suffer from significant performance degradation when tested on data with different characteristics than what was used during the training. Adapting the models using annotated data from the new domain is not always practical. Unsupervised Domain Adaptation (UDA) approaches are crucial in deploying these models in the actual operating conditions. Recent state-of-the-art (SOTA) UDA methods employ a teacher-student self-training approach, where a teacher model is used to generate pseudo-labels for the new data which in turn guide the training process of the student model. Though this approach has seen a lot of success, it suffers from the issue of noisy pseudo-labels being propagated in the training process. To address this issue, we propose an auxiliary pseudo-label refinement network (PRN) for online refining of the pseudo labels and also localizing the pixels whose predicted labels are likely to be noisy. Being able to improve the quality of pseudo labels and select highly reliable ones, PRN helps self-training of segmentation models to be robust against pseudo label noise propagation during different stages of adaptation. We evaluate our approach on benchmark datasets with three different domain shifts, and our approach consistently performs significantly better than the previous state-of-the-art methods.
翻訳日:2023-10-27 23:22:48 公開日:2023-10-25
# 臨床疾患診断における機械学習の意義

The Significance of Machine Learning in Clinical Disease Diagnosis: A Review ( http://arxiv.org/abs/2310.16978v1 )

ライセンス: Link先を確認
S M Atikur Rahman, Sifat Ibtisum, Ehsan Bazgir, Tumpa Barai(参考訳) 様々な疾患のメカニズムと多様な患者の症状の複雑さを考えると、効果的な疾患診断のグローバルな必要性は依然として大きい。 これらの課題に取り組むために、研究者、医師、そして患者は、ソリューションを開発するために人工知能(AI)の分野である機械学習(ML)に目を向けている。 高度なMLとAIメソッドを活用することで、医療関係者は診断と治療の能力を向上させることができる。 しかし、精度と計算効率を向上させるMLアルゴリズムに焦点を当てた研究はほとんどない。 本研究は、時系列医療指標における心拍データの伝達を改善するために機械学習アルゴリズムの能力を調査し、特に精度と効率の最適化に集中する。 医療アプリケーションで使用されるさまざまなMLアルゴリズムを探索することにより、MLベースの疾患診断(MLBDD)の最新動向とアプローチを示す。 検討中の要因は,アルゴリズムの活用,対象疾患の種類,使用するデータ型,アプリケーション,評価指標などである。 本総説は,医療,特に疾患診断におけるMLの展望を明らかにすることを目的としている。 この研究は、現在の文献を分析し、最先端の方法論とそのパフォーマンス指標に関する洞察を提供する。

The global need for effective disease diagnosis remains substantial, given the complexities of various disease mechanisms and diverse patient symptoms. To tackle these challenges, researchers, physicians, and patients are turning to machine learning (ML), an artificial intelligence (AI) discipline, to develop solutions. By leveraging sophisticated ML and AI methods, healthcare stakeholders gain enhanced diagnostic and treatment capabilities. However, there is a scarcity of research focused on ML algorithms for enhancing the accuracy and computational efficiency. This research investigates the capacity of machine learning algorithms to improve the transmission of heart rate data in time series healthcare metrics, concentrating particularly on optimizing accuracy and efficiency. By exploring various ML algorithms used in healthcare applications, the review presents the latest trends and approaches in ML-based disease diagnosis (MLBDD). The factors under consideration include the algorithm utilized, the types of diseases targeted, the data types employed, the applications, and the evaluation metrics. This review aims to shed light on the prospects of ML in healthcare, particularly in disease diagnosis. By analyzing the current literature, the study provides insights into state-of-the-art methodologies and their performance metrics.
翻訳日:2023-10-27 23:22:22 公開日:2023-10-25
# 大規模言語モデルを用いたロボットスキルの条件結合

Conditionally Combining Robot Skills using Large Language Models ( http://arxiv.org/abs/2310.17019v1 )

ライセンス: Link先を確認
K.R. Zentner, Ryan Julian, Brian Ichter, Gaurav S. Sukhatme(参考訳) この論文は2つの貢献を組み合わせる。 まず,「Language-World」と呼ばれるメタワールドベンチマークを拡張し,半構造化自然言語クエリと自然言語を用いて記述したスクリプトスキルを用いて,大規模言語モデルでロボット環境での動作を可能にする。 メタワールドと同じタスクセットを使用することで、言語の世界の結果をメタワールドの結果と比較し易くし、大規模言語モデル(llm)を用いた最近の手法と深層強化学習を用いたものを比較することができる。 次に,エンド・ツー・エンドのデモンストレーションを用いて,高レベルプランの動作を微調整する手法であるpcbc(plan conditioned behavior clone)を提案する。 言語の世界を用いることで、pcbcは様々な少数のシステムにおいて強力な性能を達成でき、しばしば1つのデモンストレーションでタスクの一般化を達成することができる。 我々は、language-worldをオープンソースソフトウェアとしてhttps://github.com/krzentner/language-world/で利用可能にした。

This paper combines two contributions. First, we introduce an extension of the Meta-World benchmark, which we call "Language-World," which allows a large language model to operate in a simulated robotic environment using semi-structured natural language queries and scripted skills described using natural language. By using the same set of tasks as Meta-World, Language-World results can be easily compared to Meta-World results, allowing for a point of comparison between recent methods using Large Language Models (LLMs) and those using Deep Reinforcement Learning. Second, we introduce a method we call Plan Conditioned Behavioral Cloning (PCBC), that allows finetuning the behavior of high-level plans using end-to-end demonstrations. Using Language-World, we show that PCBC is able to achieve strong performance in a variety of few-shot regimes, often achieving task generalization with as little as a single demonstration. We have made Language-World available as open-source software at https://github.com/krzentner/language-world/.
翻訳日:2023-10-27 23:16:06 公開日:2023-10-25
# コンピュータ科学と医学的視点を橋渡しするメンタルヘルス対話エージェントに関する総合的調査

An Integrative Survey on Mental Health Conversational Agents to Bridge Computer Science and Medical Perspectives ( http://arxiv.org/abs/2310.17017v1 )

ライセンス: Link先を確認
Young Min Cho, Sunny Rai, Lyle Ungar, Jo\~ao Sedoc, Sharath Chandra Guntuku(参考訳) メンタルヘルスの会話エージェント(チャットボット)は、メンタルヘルスの課題を経験する人々にアクセス可能なサポートを提供する可能性について広く研究されている。 このトピックに関する以前の調査では、主にコンピュータ科学または医学で出版された論文を考察しており、双方のドメイン間の有益な知識の共有の理解と共有を妨げている。 このギャップを埋めるために、PRISMAフレームワークを用いて包括的な文献レビューを行い、コンピュータ科学と医学の両方で534の論文をレビューする。 本報告では,モデルと実験設計手法の多様な特徴を有するメンタルヘルス関連対話エージェント構築に関する136の論文を整理した。 医療論文では,ルールベースの会話エージェントと結果指標を用いて参加者の健康状態を測定する一方で,LCM技術に焦点をあて,自動測定を用いて応答品質を評価する。 本総説では, 透明性, 倫理, 文化的多様性に関する知見に基づき, 学際的な分断の橋渡しと, 精神保健対話エージェントの学際的発展を可能にするための提言をいくつか提示する。

Mental health conversational agents (a.k.a. chatbots) are widely studied for their potential to offer accessible support to those experiencing mental health challenges. Previous surveys on the topic primarily consider papers published in either computer science or medicine, leading to a divide in understanding and hindering the sharing of beneficial knowledge between both domains. To bridge this gap, we conduct a comprehensive literature review using the PRISMA framework, reviewing 534 papers published in both computer science and medicine. Our systematic review reveals 136 key papers on building mental health-related conversational agents with diverse characteristics of modeling and experimental design techniques. We find that computer science papers focus on LLM techniques and evaluating response quality using automated metrics with little attention to the application while medical papers use rule-based conversational agents and outcome metrics to measure the health outcomes of participants. Based on our findings on transparency, ethics, and cultural heterogeneity in this review, we provide a few recommendations to help bridge the disciplinary divide and enable the cross-disciplinary development of mental health conversational agents.
翻訳日:2023-10-27 23:15:47 公開日:2023-10-25
# 小さな不均衡テキストデータにおける感情検出のためのデータ拡張

Data Augmentation for Emotion Detection in Small Imbalanced Text Data ( http://arxiv.org/abs/2310.17015v1 )

ライセンス: Link先を確認
Anna Koufakou, Diego Grisales, Ragy Costa de jesus, Oscar Fox(参考訳) テキストにおける感情認識は、喜びや怒りなどの感情を識別するタスクであり、多くのアプリケーションでNLPにおいて難しい問題である。 課題のひとつは、感情を注釈付けしたデータセットが不足していることだ。 既存のデータセットは小さく、異なる感情分類に従い、感情分布に不均衡を示す。 本研究では,RoBERTaのような現在の最先端モデルが低性能である小さな不均衡データセットに適用した場合に,データ拡張技術が与える影響について検討した。 具体的には、異なるソースから派生したサイズ、感情カテゴリー、分布の異なる3つのデータセットに対して、4つのデータ拡張方法(簡易データ拡張EDA、静的および文脈的埋め込みベース、ProtAugment)を利用した。 実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。 最後に2つのケーススタディを行いました a) 一般的なチャット-GPT APIを使って、異なるプロンプトを使ってテキストを言い換え、 b) トレーニングセットを補強するために外部データを使用する。 結果はこれらの手法の有望な可能性を示している。

Emotion recognition in text, the task of identifying emotions such as joy or anger, is a challenging problem in NLP with many applications. One of the challenges is the shortage of available datasets that have been annotated with emotions. Certain existing datasets are small, follow different emotion taxonomies and display imbalance in their emotion distribution. In this work, we studied the impact of data augmentation techniques precisely when applied to small imbalanced datasets, for which current state-of-the-art models (such as RoBERTa) under-perform. Specifically, we utilized four data augmentation methods (Easy Data Augmentation EDA, static and contextual Embedding-based, and ProtAugment) on three datasets that come from different sources and vary in size, emotion categories and distributions. Our experimental results show that using the augmented data when training the classifier model leads to significant improvements. Finally, we conducted two case studies: a) directly using the popular chat-GPT API to paraphrase text using different prompts, and b) using external data to augment the training set. Results show the promising potential of these methods.
翻訳日:2023-10-27 23:15:27 公開日:2023-10-25
# スタイル制御によるパーソナライズされた音声駆動表現型3d顔アニメーション合成

Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control ( http://arxiv.org/abs/2310.17011v1 )

ライセンス: Link先を確認
Elif Bozkurt(参考訳) 異なる人は感情的に話しながら異なる表情をしています。 現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。 パーソナライズされた音声駆動の3D顔アニメーションに対する既存のアプローチは、1ホットのアイデンティティラベルを使用するか、スケーラビリティを制限する人固有のモデルに依存している。 本稿では,個人性のある顔の動きを潜在表現(スタイルと呼ばれる)としてモデル化し,様々な感情カテゴリのターゲットスタイルで音声入力された新しいアニメーションを合成する。 我々のフレームワークはエンドツーエンドで訓練されており、式エンコーダ、音声エンコーダ、式デコーダの3つの主要コンポーネントを持つ非自己回帰エンコーダ・デコーダアーキテクチャを備えている。 表情エンコーダは、まず、顔の動きシーケンスをそれぞれスタイルとコンテンツ表現に分解する。 そして、抽出したスタイル情報を音声エンコーダと式デコーダの両方が入力し、トレーニングフェーズ中にトランスフォーマ層重みを更新する。 音声エンコーダは、音声の音素ラベルや持続時間情報を抽出し、非自己回帰合成機構のより効率的な同期を実現する。 詳細な実験により,本手法は対象者の発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成することを示した。

Different people have different facial expressions while speaking emotionally. A realistic facial animation system should consider such identity-specific speaking styles and facial idiosyncrasies to achieve high-degree of naturalness and plausibility. Existing approaches to personalized speech-driven 3D facial animation either use one-hot identity labels or rely-on person specific models which limit their scalability. We present a personalized speech-driven expressive 3D facial animation synthesis framework that models identity specific facial motion as latent representations (called as styles), and synthesizes novel animations given a speech input with the target style for various emotion categories. Our framework is trained in an end-to-end fashion and has a non-autoregressive encoder-decoder architecture with three main components: expression encoder, speech encoder and expression decoder. Since, expressive facial motion includes both identity-specific style and speech-related content information; expression encoder first disentangles facial motion sequences into style and content representations, respectively. Then, both of the speech encoder and the expression decoders input the extracted style information to update transformer layer weights during training phase. Our speech encoder also extracts speech phoneme label and duration information to achieve better synchrony within the non-autoregressive synthesis mechanism more effectively. Through detailed experiments, we demonstrate that our approach produces temporally coherent facial expressions from input speech while preserving the speaking styles of the target identities.
翻訳日:2023-10-27 23:15:09 公開日:2023-10-25
# 解釈可能な自然言語処理のためのディープラーニング

This Reads Like That: Deep Learning for Interpretable Natural Language Processing ( http://arxiv.org/abs/2310.17010v1 )

ライセンス: Link先を確認
Claudio Fanconi, Moritz Vandenhirtz, Severin Husmann, Julia E. Vogt(参考訳) 本質的に解釈可能な決定のために設計された一般的な機械学習手法であるプロトタイプ学習は、新しいデータを分類するための学習されたプロトタイプと類似性を活用する。 主にコンピュータビジョンに適用されているが,本研究では先行研究を基盤として,自然言語処理へのプロトタイプネットワークの拡張をさらに探究する。 本稿では,事前学習文の埋め込みの情報的次元に着目し,類似度計算の強化を図る学習重み付き類似度尺度を提案する。 さらに,プロトタイプと入力文の両方から予測関連単語を抽出するポストホックな説明可能性機構を提案する。 最後に,提案手法は,AG News と RT Polarity データセットの予測性能を従来のプロトタイプベースアプローチよりも向上するだけでなく,論理的再帰的畳み込みよりも説明の忠実性を向上させることを実証的に示す。

Prototype learning, a popular machine learning method designed for inherently interpretable decisions, leverages similarities to learned prototypes for classifying new data. While it is mainly applied in computer vision, in this work, we build upon prior research and further explore the extension of prototypical networks to natural language processing. We introduce a learned weighted similarity measure that enhances the similarity computation by focusing on informative dimensions of pre-trained sentence embeddings. Additionally, we propose a post-hoc explainability mechanism that extracts prediction-relevant words from both the prototype and input sentences. Finally, we empirically demonstrate that our proposed method not only improves predictive performance on the AG News and RT Polarity datasets over a previous prototype-based approach, but also improves the faithfulness of explanations compared to rationale-based recurrent convolutions.
翻訳日:2023-10-27 23:14:41 公開日:2023-10-25
# シミュレーションに基づく積み重ね

Simulation based stacking ( http://arxiv.org/abs/2310.17009v1 )

ライセンス: Link先を確認
Yuling Yao, Bruno R\'egaldo-Saint Blancard, Justin Domke(参考訳) シミュレーションに基づく推論は、償却ベイズ計算に人気がある。 それは、異なる推論アルゴリズム、異なるアーキテクチャ、あるいは単に初期化と確率勾配のランダム性から、複数の後部近似を持つのが典型的である。 証明可能な漸近的保証により、我々は全ての利用可能な後続近似を利用する一般的な積み重ねフレームワークを提案する。 本手法では, 密度, シミュレーションドロー, 信頼区間, モーメントを同時に組み合わせ, 全体の精度, キャリブレーション, カバレッジ, バイアスに対処することができる。 本稿では,いくつかのベンチマークシミュレーションと宇宙論的推論課題について述べる。

Simulation-based inference has been popular for amortized Bayesian computation. It is typical to have more than one posterior approximation, from different inference algorithms, different architectures, or simply the randomness of initialization and stochastic gradients. With a provable asymptotic guarantee, we present a general stacking framework to make use of all available posterior approximations. Our stacking method is able to combine densities, simulation draws, confidence intervals, and moments, and address the overall precision, calibration, coverage, and bias at the same time. We illustrate our method on several benchmark simulations and a challenging cosmological inference task.
翻訳日:2023-10-27 23:14:25 公開日:2023-10-25
# 接近性を利用したオンライン予測器の高速化

Faster Recalibration of an Online Predictor via Approachability ( http://arxiv.org/abs/2310.17002v1 )

ライセンス: Link先を確認
Princewill Okoroafor, Robert Kleinberg, Wen Sun(参考訳) MLの予測モデルには信頼性と信頼性が必要です。 これはオンライン予測設定において、逆向きに結果シーケンスを生成することができる場合、特に保証が難しい可能性がある。 本稿では、ブラックウェルのアプローチ可能性定理を用いて、オンライン予測モデルを校正せず、元のモデルを失うことなく、その予測を校正された予測に変換する手法を提案する。 提案アルゴリズムは,従来の手法であるarXiv:1607.03594よりも高速にキャリブレーションと精度を達成し,オンライン設定におけるキャリブレーション誤差と精度との柔軟なトレードオフを提供する最初のアルゴリズムである。 本手法を用いて,共同で達成可能なキャリブレーションと後悔の空間を特徴付けることでこれを実証する。

Predictive models in ML need to be trustworthy and reliable, which often at the very least means outputting calibrated probabilities. This can be particularly difficult to guarantee in the online prediction setting when the outcome sequence can be generated adversarially. In this paper we introduce a technique using Blackwell's approachability theorem for taking an online predictive model which might not be calibrated and transforming its predictions to calibrated predictions without much increase to the loss of the original model. Our proposed algorithm achieves calibration and accuracy at a faster rate than existing techniques arXiv:1607.03594 and is the first algorithm to offer a flexible tradeoff between calibration error and accuracy in the online setting. We demonstrate this by characterizing the space of jointly achievable calibration and regret using our technique.
翻訳日:2023-10-27 23:14:15 公開日:2023-10-25
# 信頼と検証:ディープラーニングを用いたロバストなイメージセグメンテーション

Trust, but Verify: Robust Image Segmentation using Deep Learning ( http://arxiv.org/abs/2310.16999v1 )

ライセンス: Link先を確認
Fahim Ahmed Zaman, Xiaodong Wu, Weiyu Xu, Milan Sonka and Raghuraman Mudumbai(参考訳) 本稿では,複数の階層のランダムおよび最悪の摂動,すなわち逆攻撃に対して頑健な医用画像セグメンテーションのための深層ニューラルネットワークの出力を検証する手法について述べる。 この手法は,筆者らが最近開発した ``trust, but verify' と呼ばれる一般的なアプローチに基づいており,補助検証ネットワークは,セグメント化を入力として,入力画像内のマスク特徴の予測を行う。 適切に設計された補助ネットワークは、入力セグメンテーションが正確であれば高品質の予測を生成するが、セグメンテーションが正しくない場合は低品質の予測を生成する。 このようなネットワークの予測を元のイメージで確認することで,不良セグメントの検出が可能になる。 しかし,検証手法が真に堅牢であるためには,ブラックボックスニューラルネットワークに依存しない予測の品質をチェックする方法が必要である。 実際、ディープ・ニューラル・レグレッション・ネットワークを用いた従来のセグメンテーション評価手法は、偽陰性に対して脆弱であり、不正確なセグメンテーションを良いものとして不正確なラベル付けできることが示されている。 このような脆弱性を回避し,その堅牢性を示す検証ネットワークの設計について述べる。

We describe a method for verifying the output of a deep neural network for medical image segmentation that is robust to several classes of random as well as worst-case perturbations i.e. adversarial attacks. This method is based on a general approach recently developed by the authors called ``Trust, but Verify" wherein an auxiliary verification network produces predictions about certain masked features in the input image using the segmentation as an input. A well-designed auxiliary network will produce high-quality predictions when the input segmentations are accurate, but will produce low-quality predictions when the segmentations are incorrect. Checking the predictions of such a network with the original image allows us to detect bad segmentations. However, to ensure the verification method is truly robust, we need a method for checking the quality of the predictions that does not itself rely on a black-box neural network. Indeed, we show that previous methods for segmentation evaluation that do use deep neural regression networks are vulnerable to false negatives i.e. can inaccurately label bad segmentations as good. We describe the design of a verification network that avoids such vulnerability and present results to demonstrate its robustness compared to previous methods.
翻訳日:2023-10-27 23:14:00 公開日:2023-10-25
# 継続的にアプリケーションパフォーマンスモデルを学習する

Towards Continually Learning Application Performance Models ( http://arxiv.org/abs/2310.16996v1 )

ライセンス: Link先を確認
Ray A. O. Sinurat, Anurag Daram, Haryadi S. Gunawi, Robert B. Ross, Sandeep Madireddy(参考訳) 機械学習ベースのパフォーマンスモデルは、重要なジョブスケジューリングとアプリケーションの最適化決定を構築するためにますます使われています。 伝統的に、これらのモデルは、より多くのサンプルが時間とともに収集されるため、データ分布が変化しないと仮定する。 しかしながら、プロダクションHPCシステムの複雑さと不均一性のため、ハードウェアの劣化、置換、および/またはソフトウェアパッチの影響を受けやすいため、パフォーマンスモデルに悪影響を及ぼす可能性のあるデータ分散のドリフトにつながる可能性がある。 この目的のために、分布のドリフトを考慮した継続的な学習性能モデルを開発し、破滅的な忘れを軽減し、一般化性を向上させる。 私たちの最善のモデルは、システム変更によってもたらされるデータの新たな分布を学ばなくても精度を維持することができ、一方で、ナイーブなアプローチと比較して、データシーケンス全体の予測精度を2倍向上させることができました。

Machine learning-based performance models are increasingly being used to build critical job scheduling and application optimization decisions. Traditionally, these models assume that data distribution does not change as more samples are collected over time. However, owing to the complexity and heterogeneity of production HPC systems, they are susceptible to hardware degradation, replacement, and/or software patches, which can lead to drift in the data distribution that can adversely affect the performance models. To this end, we develop continually learning performance models that account for the distribution drift, alleviate catastrophic forgetting, and improve generalizability. Our best model was able to retain accuracy, regardless of having to learn the new distribution of data inflicted by system changes, while demonstrating a 2x improvement in the prediction accuracy of the whole data sequence in comparison to the naive approach.
翻訳日:2023-10-27 23:13:41 公開日:2023-10-25
# 質>量:クローズドドメイン抽出質問応答のための基礎モデルからの合成コーパス

Quality > Quantity: Synthetic Corpora from Foundation Models for Closed-Domain Extractive Question Answering ( http://arxiv.org/abs/2310.16995v1 )

ライセンス: Link先を確認
Saptarshi Sengupta, Connor Heaton, Shreya Ghosh, Preslav Nakov, Prasenjit Mitra(参考訳) ドメイン適応(Domain adapt)とは、あるドメインでモデルをトレーニングし、それを別のドメインに適用するプロセスである。 ドメイン特化基盤モデル(fm)をスクラッチからトレーニングすることはオプションであるが、近年の手法では、事前訓練されたfmsをドメイン特化タスクに適用することに焦点を当てている。 しかし,本実験により,いずれの手法も対象領域における最先端(SOTA)を常に達成していないことが明らかとなった。 本研究では,クローズドドメイン内の質問応答の抽出について検討し,目標事前学習の概念を紹介する。 これは、広範囲のデータで訓練されたドメイン固有のFMを利用するという従来の哲学とは対照的に、モデルをさらに事前トレーニングするための関連するデータの決定と生成を伴います。 提案フレームワークはGalacticaを用いて,研究論文や放射線学レポートなど,特定の書式やトピックに適合した「ターゲット」コーパスを生成する。 この過程は知識蒸留の一形態と見なすことができる。 本手法をCOVID-QAとRadQAの2つのバイオメディカル抽出質問応答データセットに適用し,前者に対する新たなベンチマークを達成し,後者に対する全体的な改善を示す。 コードはhttps://github.com/saptarshi059/cdqa-v1-targetted-pretraining/tree/main。

Domain adaptation, the process of training a model in one domain and applying it to another, has been extensively explored in machine learning. While training a domain-specific foundation model (FM) from scratch is an option, recent methods have focused on adapting pre-trained FMs for domain-specific tasks. However, our experiments reveal that either approach does not consistently achieve state-of-the-art (SOTA) results in the target domain. In this work, we study extractive question answering within closed domains and introduce the concept of targeted pre-training. This involves determining and generating relevant data to further pre-train our models, as opposed to the conventional philosophy of utilizing domain-specific FMs trained on a wide range of data. Our proposed framework uses Galactica to generate synthetic, ``targeted'' corpora that align with specific writing styles and topics, such as research papers and radiology reports. This process can be viewed as a form of knowledge distillation. We apply our method to two biomedical extractive question answering datasets, COVID-QA and RadQA, achieving a new benchmark on the former and demonstrating overall improvements on the latter. Code available at https://github.com/saptarshi059/CDQA-v1-Targetted-PreTraining/tree/main.
翻訳日:2023-10-27 23:13:25 公開日:2023-10-25
# 正準量子化はGKSL力学につながるか?

Does canonical quantization lead to GKSL dynamics? ( http://arxiv.org/abs/2310.17061v1 )

ライセンス: Link先を確認
T. Koide and F. Nicacio(参考訳) 熱力学的に一貫した熱緩和過程を記述するためのブラウン運動の一般化された古典モデルを導入する。 このモデルに正準量子化を適用すると、密度演算子の量子方程式が得られる。 この方程式は定常解として熱平衡状態を持つが、時間進化は必ずしも完全正のトレース保存(CPTP)写像であるとは限らない。 しかし、高調波振動子ポテンシャルの適用においては、CPTPマップの要件はパラメータの選択によって適切に満たされ、その後、詳細なバランス条件を満たすGorini-Kossakowski-Sudarshan-Lindblad(GKSL)方程式を再現する。 この結果は、熱緩和過程における量子古典的対応を示唆し、デコヒーレンスの研究に新たな洞察を与える。

We introduce a generalized classical model of Brownian motion for describing thermal relaxation processes which is thermodynamically consistent. Applying the canonical quantization to this model, a quantum equation for the density operator is obtained. This equation has a thermal equilibrium state as its stationary solution, but the time evolution is not necessarily a Completely Positive and Trace-Preserving (CPTP) map. In the application to the harmonic oscillator potential, however, the requirement of the CPTP map is shown to be satisfied by choosing parameters appropriately and then our equation reproduces a Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation satisfying the detailed balance condition. This result suggests a quantum-classical correspondence in thermal relaxation processes and will provide a new insight to the study of decoherence.
翻訳日:2023-10-27 23:05:03 公開日:2023-10-25
# 言語エンコーダの外科的微調整について

On Surgical Fine-tuning for Language Encoders ( http://arxiv.org/abs/2310.17041v1 )

ライセンス: Link先を確認
Abhilasha Lodha, Gayatri Belapurkar, Saloni Chalkapurkar, Yuanming Tao, Reshmi Ghosh, Samyadeep Basu, Dmitrii Petrov, Soundararajan Srinivasan(参考訳) トレーニング済みのニューラルネットワークエンコーダのすべてのレイヤ(すべてのパラメータを使用するか、パラメータ効率のよいメソッドを使用する)を微調整することは、新しいタスクに適応するデファクトな方法であることが多い。 異なる下流言語タスクに対して、サブセットのレイヤのみを微調整すれば、言語エンコーダのすべてのレイヤを微調整するよりも、ほぼ近く、しばしば優れているパフォーマンスが得られることを示す。 本稿では,フィッシャー情報行列(FIMスコア)の対角線に基づく効率的な計量法を提案し,選択的な微調整のための候補層を選択する。 我々は,GLUEタスクとSuperGLUEタスク,および異なる言語エンコーダを実証的に比較し,このメトリックが,下流のパフォーマンス向上につながるレイヤを効果的に選択可能であることを示す。 私たちの研究は、特定のダウンストリームタスクに対応するタスク固有の情報は、しばしばいくつかのレイヤにローカライズされていることを強調しています。 さらに,FIMスコアが最適化プロセス中に一定であるように階層をランク付けすることのロバストさを実証する。

Fine-tuning all the layers of a pre-trained neural language encoder (either using all the parameters or using parameter-efficient methods) is often the de-facto way of adapting it to a new task. We show evidence that for different downstream language tasks, fine-tuning only a subset of layers is sufficient to obtain performance that is close to and often better than fine-tuning all the layers in the language encoder. We propose an efficient metric based on the diagonal of the Fisher information matrix (FIM score), to select the candidate layers for selective fine-tuning. We show, empirically on GLUE and SuperGLUE tasks and across distinct language encoders, that this metric can effectively select layers leading to a strong downstream performance. Our work highlights that task-specific information corresponding to a given downstream task is often localized within a few layers, and tuning only those is sufficient for strong performance. Additionally, we demonstrate the robustness of the FIM score to rank layers in a manner that remains constant during the optimization process.
翻訳日:2023-10-27 23:04:47 公開日:2023-10-25
# ノイズリアリズム, 単純さ, 単純さバブル効果

Nomic realism, simplicity, and the simplicity bubble effect ( http://arxiv.org/abs/2310.17035v1 )

ライセンス: Link先を確認
Raoni Arroyo and Felipe S. Abrah\~ao(参考訳) 我々は、自律現実主義の唯一の本質的な基準として、単純さを論じる。 議論はシンプルさのバブル効果に基づいている。 量子基礎における過小決定は、その場合を示す。

We offer an argument against simplicity as a sole intrinsic criterion for nomic realism. The argument is based on the simplicity bubble effect. Underdetermination in quantum foundations illustrates the case.
翻訳日:2023-10-27 23:04:27 公開日:2023-10-25
# 音声アシスタントのための音声ヒントによる質問のフォローオン提案

Follow-on Question Suggestion via Voice Hints for Voice Assistants ( http://arxiv.org/abs/2310.17034v1 )

ライセンス: Link先を確認
Besnik Fetahu, Pedro Faustini, Giuseppe Castellucci, Anjie Fang, Oleg Rokhlenko, Shervin Malmasi(参考訳) AlexaやSiriのような音声アシスタントの採用は急速に増加し、ユーザーは音声検索を通じて即座に情報にアクセスできるようになった。 クエリ提案は画面ベースの検索体験の標準的な機能であり、ユーザーは追加のトピックを探索することができる。 しかし、音声ベースの設定で実装するのは簡単ではない。 これを実現するため,我々は,ユーザがフォローアップ質問を行えるように,コンパクトで自然な音声ヒントによる質問を提案するという新しい課題に取り組む。 タスクを定義し,構文理論に基礎を置き,音声ヒントに対する言語的デシデラタを概説する。 本稿では,質問リストから音声ヒントを生成するためのベースラインとシーケンシャル・ツー・シーケンス変換を用いたアプローチを提案する。 6681の入力質問と人文によるヒントのデータセットを用いて,モデルの自動評価と人文評価を行った。 その結果,提案する質問を結合するナイーブなアプローチは,音声のヒントが乏しいことがわかった。 言語的に動機づけた事前学習タスクを適用したアプローチは,人間にとって最も自然なヒントを生み出すことが強く望まれた。

The adoption of voice assistants like Alexa or Siri has grown rapidly, allowing users to instantly access information via voice search. Query suggestion is a standard feature of screen-based search experiences, allowing users to explore additional topics. However, this is not trivial to implement in voice-based settings. To enable this, we tackle the novel task of suggesting questions with compact and natural voice hints to allow users to ask follow-up questions. We define the task, ground it in syntactic theory and outline linguistic desiderata for spoken hints. We propose baselines and an approach using sequence-to-sequence Transformers to generate spoken hints from a list of questions. Using a new dataset of 6681 input questions and human written hints, we evaluated the models with automatic metrics and human evaluation. Results show that a naive approach of concatenating suggested questions creates poor voice hints. Our approach, which applies a linguistically-motivated pretraining task was strongly preferred by humans for producing the most natural hints.
翻訳日:2023-10-27 23:04:24 公開日:2023-10-25
# 時系列予測における量子長短期記憶(QLSTM)と古典LSTM:太陽電力予測の比較研究

Quantum Long Short-Term Memory (QLSTM) vs Classical LSTM in Time Series Forecasting: A Comparative Study in Solar Power Forecasting ( http://arxiv.org/abs/2310.17032v1 )

ライセンス: Link先を確認
Saad Zafar Khan, Nazeefa Muzammil, Syed Mohammad Hassan Zaidi, Abdulah Jeza Aljohani, Haibat Khan, Salman Ghafoor(参考訳) 太陽発電の正確な予測は、持続可能なエネルギーシステムへの世界的進歩に不可欠である。 本研究では、太陽発電予測のための量子長短期記憶(QLSTM)モデルと古典長短期記憶(LSTM)モデルとの微妙な比較を行った。 制御実験により,QLSTMの有望な利点が明らかとなり,トレーニング収束の加速や,従来のLSTMと比較して初期段階におけるテスト損失が大幅に減少した。 これらの経験的な発見は、重ね合わせのような量子現象によって実現される複雑な時系列関係を素早く同化するQLSTMの可能性を示している。 しかし、QLSTMの全機能を実現するには、様々な条件、系統的なハイパーパラメータ最適化、ハードウェアノイズの回復性、および相関した再生可能予測問題への応用など、モデル検証のさらなる研究が必要である。 継続的な進歩により、量子機械学習は再生可能エネルギー時系列予測のパラダイムシフトを提供することができる。 この先駆的な研究は、現在の制限を認めながら、古典的なLSTMよりも量子上の優位性を実証する最初の証拠を提供する。 実世界のデータに基づく厳密なベンチマークにより、再生可能予測における量子学習の道筋を解明する。 さらなる研究と開発により、世界中の太陽光発電の予測において前例のない精度と信頼性を達成することができる。

Accurately forecasting solar power generation is crucial in the global progression towards sustainable energy systems. In this study, we conduct a meticulous comparison between Quantum Long Short-Term Memory (QLSTM) and classical Long Short-Term Memory (LSTM) models for solar power production forecasting. Our controlled experiments reveal promising advantages of QLSTMs, including accelerated training convergence and substantially reduced test loss within the initial epoch compared to classical LSTMs. These empirical findings demonstrate QLSTM's potential to swiftly assimilate complex time series relationships, enabled by quantum phenomena like superposition. However, realizing QLSTM's full capabilities necessitates further research into model validation across diverse conditions, systematic hyperparameter optimization, hardware noise resilience, and applications to correlated renewable forecasting problems. With continued progress, quantum machine learning can offer a paradigm shift in renewable energy time series prediction. This pioneering work provides initial evidence substantiating quantum advantages over classical LSTM, while acknowledging present limitations. Through rigorous benchmarking grounded in real-world data, our study elucidates a promising trajectory for quantum learning in renewable forecasting. Additional research and development can further actualize this potential to achieve unprecedented accuracy and reliability in predicting solar power generation worldwide.
翻訳日:2023-10-27 23:04:08 公開日:2023-10-25
# netFound:ネットワークセキュリティのための基盤モデル

netFound: Foundation Model for Network Security ( http://arxiv.org/abs/2310.17025v1 )

ライセンス: Link先を確認
Satyandra Guthula, Navya Battula, Roman Beltiukov, Wenbo Guo, Arpit Gupta(参考訳) ネットワークセキュリティのためのmlでは、従来のワークフローは高品質なラベル付きデータと手動の機能エンジニアリングに依存しているが、限られたデータセットと人間の専門知識は特徴の選択を妨げる。 GPT-4やVision TransformersといったMLアプリケーションドメインの最近の進歩に触発されて,ネットワークセキュリティの基礎モデルであるnetFoundを開発した。 このモデルは、利用可能な未ラベルのネットワークパケットトレースに自己教師付きアルゴリズムを適用して事前学習を行う。 netFoundの設計には、ネットワークトラフィックの階層的およびマルチモーダルな属性が含まれており、アプリケーションロジック、通信プロトコル、ネットワーク条件を含む隠されたネットワークコンテキストを効果的にキャプチャする。 この事前訓練された基盤があれば、低品質で限定的でノイズの多いラベル付きデータを扱う場合でも、幅広いダウンストリームタスクに対してnetFoundを微調整できます。 実験では,トラフィック分類,ネットワーク侵入検出,APT検出の3つの異なるダウンストリームタスクにおいて,既存の最先端MLベースのソリューションよりもnetFoundの方が優れていることを示した。 さらに,ノイズや欠落するラベルに対するnetfoundの頑健さや,時間的変動や多様なネットワーク環境にまたがる汎用性についても強調する。 最後に、一連のアブレーション研究を通じて、netFoundがネットワークセキュリティアプリケーションにおけるパフォーマンスとユーティリティをさらに強化し、隠れたネットワークコンテキストをより効果的にキャプチャする方法に関する総合的な洞察を提供する。

In ML for network security, traditional workflows rely on high-quality labeled data and manual feature engineering, but limited datasets and human expertise hinder feature selection, leading to models struggling to capture crucial relationships and generalize effectively. Inspired by recent advancements in ML application domains like GPT-4 and Vision Transformers, we have developed netFound, a foundational model for network security. This model undergoes pre-training using self-supervised algorithms applied to readily available unlabeled network packet traces. netFound's design incorporates hierarchical and multi-modal attributes of network traffic, effectively capturing hidden networking contexts, including application logic, communication protocols, and network conditions. With this pre-trained foundation in place, we can fine-tune netFound for a wide array of downstream tasks, even when dealing with low-quality, limited, and noisy labeled data. Our experiments demonstrate netFound's superiority over existing state-of-the-art ML-based solutions across three distinct network downstream tasks: traffic classification, network intrusion detection, and APT detection. Furthermore, we emphasize netFound's robustness against noisy and missing labels, as well as its ability to generalize across temporal variations and diverse network environments. Finally, through a series of ablation studies, we provide comprehensive insights into how our design choices enable netFound to more effectively capture hidden networking contexts, further solidifying its performance and utility in network security applications.
翻訳日:2023-10-27 23:03:45 公開日:2023-10-25
# ガウス過程モデルの識別性と解釈可能性について

On the Identifiability and Interpretability of Gaussian Process Models ( http://arxiv.org/abs/2310.17023v1 )

ライセンス: Link先を確認
Jiawen Chen, Wancen Mu, Yun Li, Didong Li(参考訳) 本稿では, 単出力ガウス過程 (GP) モデルにおいて, Mat\'ern カーネルの加法的混合を多出力 GP モデルに用い, 多出力 GP モデルに対する Mat\'ern カーネルの乗算混合の特性について検討する。 単一出力の場合、マトウエルン核の混合物の滑らかさは最小の滑らか成分によって決定され、そのような核を持つgpは効果的に最小の滑らかな核成分と等価であることを示す一連の理論的結果が導出される。 さらに,各カーネルコンポーネント内の混合重みやパラメータの識別が不可能であることを実証する。 次に、マルチ出力gpモデルに注意を向け、乗算カーネル $k(x,y) = ak_0(x,y)$ における共分散行列 $a$ の識別可能性を分析し、ここで $k_0$ は mat\'ern のような標準単一出力カーネルである。 A$は乗算定数まで同定可能であることを示し、乗算混合が多出力タスクに適していることを示唆する。 本研究は, 大規模シミュレーションと実応用により, 単出力と多出力の両立を図ったものである。 この研究は、GPモデルのカーネル選択と解釈に関する洞察を与え、異なるタスクに適切なカーネル構造を選択することの重要性を強調している。

In this paper, we critically examine the prevalent practice of using additive mixtures of Mat\'ern kernels in single-output Gaussian process (GP) models and explore the properties of multiplicative mixtures of Mat\'ern kernels for multi-output GP models. For the single-output case, we derive a series of theoretical results showing that the smoothness of a mixture of Mat\'ern kernels is determined by the least smooth component and that a GP with such a kernel is effectively equivalent to the least smooth kernel component. Furthermore, we demonstrate that none of the mixing weights or parameters within individual kernel components are identifiable. We then turn our attention to multi-output GP models and analyze the identifiability of the covariance matrix $A$ in the multiplicative kernel $K(x,y) = AK_0(x,y)$, where $K_0$ is a standard single output kernel such as Mat\'ern. We show that $A$ is identifiable up to a multiplicative constant, suggesting that multiplicative mixtures are well suited for multi-output tasks. Our findings are supported by extensive simulations and real applications for both single- and multi-output settings. This work provides insight into kernel selection and interpretation for GP models, emphasizing the importance of choosing appropriate kernel structures for different tasks.
翻訳日:2023-10-27 23:03:20 公開日:2023-10-25
# 言語モデルからのデコード制御

Controlled Decoding from Language Models ( http://arxiv.org/abs/2310.17022v1 )

ライセンス: Link先を確認
Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami(参考訳) 本研究では,言語モデルからの自己回帰生成を高報酬化に向けて制御する,新しいオフポリシー強化学習手法であるcontroled decoding (cd)を提案する。 cdは、プレフィックススコアラーと呼ばれる報酬の値関数を通じて、オフ・ポリティカル強化学習問題を解決します。 プレフィックススコアラは、より高い報酬結果に向けて生成を操るために、推論時に使用される。 プレフィックススコアは(多分)オフポリシーデータに基づいて訓練され、部分的に復号された応答から復号が継続された場合の期待報酬を予測することができる。 Reddit会話コーパスの制御機構としてCDが有効であることを示す。 また,cd設計のモジュール化により,複数報酬の制御が可能となり,複雑さを増すことなく,多目的強化学習問題を効果的に解決できることを示した。 最後に,CD は新たなブロックワイズ方式で推論時に適用可能であることを示し,トレーニング時間の変更を必要とせず,K$ の戦略とトークンレベルの強化学習のギャップを埋めることができることを示した。 これにより、CDは言語モデルのアライメントに有望なアプローチとなる。

We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement learning problem through a value function for the reward, which we call a prefix scorer. The prefix scorer is used at inference time to steer the generation towards higher reward outcomes. We show that the prefix scorer may be trained on (possibly) off-policy data to predict the expected reward when decoding is continued from a partially decoded response. We empirically demonstrate that CD is effective as a control mechanism on Reddit conversations corpus. We also show that the modularity of the design of CD makes it possible to control for multiple rewards, effectively solving a multi-objective reinforcement learning problem with no additional complexity. Finally, we show that CD can be applied in a novel blockwise fashion at inference-time, again without the need for any training-time changes, essentially bridging the gap between the popular best-of-$K$ strategy and token-level reinforcement learning. This makes CD a promising approach for alignment of language models.
翻訳日:2023-10-27 23:02:54 公開日:2023-10-25
# 時間テンソル分解のためのストリーミング因子軌道学習

Streaming Factor Trajectory Learning for Temporal Tensor Decomposition ( http://arxiv.org/abs/2310.17021v1 )

ライセンス: Link先を確認
Shikai Fang, Xin Yu, Shibo Li, Zheng Wang, Robert Kirby, Shandian Zhe(参考訳) 実際のテンソルデータはしばしば時間情報と共に行われる。 既存の時間分解手法の多くは、各テンソルモードのオブジェクトに対する固定要素のセットを推定するので、オブジェクトの表現の時間的進化を捉えることはできない。 さらに重要なのは、現実のアプリケーションでよく見られるストリーミングデータからそのような進化を捉えるための効果的なアプローチがないことです。 そこで本研究では,時間テンソル分解のためのストリーミング因子軌道学習(sftl)を提案する。 我々はガウス過程(GP)を用いて因子の軌道をモデル化し、時間的進化を柔軟に推定する。 ストリーミングデータを扱う際の計算課題に対処するため,等価確率微分方程式(SDE)を構築することにより,GPを状態空間に変換する。 本研究では,新しいデータを受け取り,関連する因子状態の後方に分離した動作を推定する効率的なオンラインフィルタリングアルゴリズムを開発した。 このデカップリング推定により,従来のデータを再検討することなく,標準的なRuch-Tung-Striebel平滑化を行い,全軌道の後方を並列に計算することができる。 合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。

Practical tensor data is often along with time information. Most existing temporal decomposition approaches estimate a set of fixed factors for the objects in each tensor mode, and hence cannot capture the temporal evolution of the objects' representation. More important, we lack an effective approach to capture such evolution from streaming data, which is common in real-world applications. To address these issues, we propose Streaming Factor Trajectory Learning (SFTL) for temporal tensor decomposition. We use Gaussian processes (GPs) to model the trajectory of factors so as to flexibly estimate their temporal evolution. To address the computational challenges in handling streaming data, we convert the GPs into a state-space prior by constructing an equivalent stochastic differential equation (SDE). We develop an efficient online filtering algorithm to estimate a decoupled running posterior of the involved factor states upon receiving new data. The decoupled estimation enables us to conduct standard Rauch-Tung-Striebel smoothing to compute the full posterior of all the trajectories in parallel, without the need for revisiting any previous data. We have shown the advantage of SFTL in both synthetic tasks and real-world applications.
翻訳日:2023-10-27 23:02:35 公開日:2023-10-25
# 有限エネルギーエアリービームのダイナミクスを探る:軌道解析の観点から

Exploring the dynamics of finite-energy Airy beams: A trajectory analysis perspective ( http://arxiv.org/abs/2310.17020v1 )

ライセンス: Link先を確認
A. S. Sanz, R. Mart\'inez-Herrero(参考訳) 実際には、エアリービームは近似的にしか再生できず、空間拡張が制限され、従って有限エネルギー量となる。 この目的のために,開口関数の伝達特性の簡便なチューニングに基づいて,文献に異なる手順が報告されている。 そこで本研究では, 遮断効果と, 設計ビームの伝搬特性について検討するため, 強度分布伝播の研究によく用いられる密度プロットを補完する軌道法に基づく新しい視点を用いる。 理想的なエアリービームと共起する3つの異なる開口関数を考える。 示すように、対応する軌道は、通常の標準ツールによって提供されるグローバル情報とは対照的に、ビームが行う局所的な位相変化と直接接続により解析されたビームが示す伝播ダイナミクスに関するより深い物理的洞察を明らかにする。 さらに,エネルギーフラックスが伝播の各段階の最大値にどの程度寄与するか,あるいは自己加速的横伝播の持続時間など,変化を生じさせることなく,その強度分布を断片的に解析できる新しいパラメータ,すなわちエスケープレートを導入する。 この研究で示された解析は、有限エネルギーのエアリービームの挙動に関する洞察を与え、したがって、この特異な種類のビームを利用する設計と応用に寄与することが期待される。

In practice, Airy beams can only be reproduced in an approximate manner, with a limited spatial extension and hence a finite energy content. To this end, different procedures have been reported in the literature, based on a convenient tuning of the transmission properties of aperture functions. In order to investigate the effects generated by the truncation and hence the propagation properties displayed by the designed beams, here we resort to a new perspective based on a trajectory methodology, complementary to the density plots more commonly used to study the intensity distribution propagation. We consider three different aperture functions, which are convoluted with an ideal Airy beam. As it is shown, the corresponding trajectories reveals a deeper physical insight about the propagation dynamics exhibited by the beams analyzed due to their direct connection with the local phase variations undergone by the beams, which is in contrast with the global information provided by the usual standard tools. Furthermore, we introduce a new parameter, namely, the escape rate, which allow us to perform piecewise analyses of the intensity distribution without producing any change on it, e.g., determining unambiguously how much energy flux contributes to the leading maximum at each stage of the propagation, or for how long self-accelerating transverse propagation survives. The analysis presented in this work thus provides an insight into the behavior of finite-energy Airy beams, and therefore is expected to contribute to the design and applications exploiting this singular type of beams.
翻訳日:2023-10-27 23:02:15 公開日:2023-10-25
# Math-PVS:科学論文をPVS理論にマップする大規模言語モデルフレームワーク

math-PVS: A Large Language Model Framework to Map Scientific Publications to PVS Theories ( http://arxiv.org/abs/2310.17064v1 )

ライセンス: Link先を確認
Hassen Saidi, Susmit Jha, Tuhin Sahai(参考訳) 人工知能(AI)が多種多様な応用で広く採用されるにつれて、予想生成の導出、反例の構築、数学の形式化の支援、異なる数学領域間の関係の発見などにより、数学的な発見に寄与する大きな可能性を秘めている。 先行研究はコンピュータを徹底的な数学的証明探索に活用したが、近年の大規模言語モデル(llm)に基づく取り組みは、数学的研究プロセスにおいて、コンピューティングプラットフォームを共同供給者として位置づけることを目指している。 論理学や数学のタスクにおける現在の制限にもかかわらず、基礎モデルによる定理証明システムへの関心が高まっている。 本研究は、高度な数学的概念の形式化におけるllmの適用可能性を調査し、研究論文で数学的推論を批判的にレビューしチェックできる枠組みを提案する。 LLMの欠点が指摘されていることから,本手法は,学術論文のテキスト記述とPVSの形式仕様との橋渡しを可能とし,証明アシスタント,特にPVSとLLMを連携させる。 PVS環境とデータ取り込みと変換機構を組み合わせることで、研究論文から数学的定理を抽出・形式化し、学術的なレビューと発見のための革新的なツールを提供する「emph{math-PVS}」と呼ばれる自動化プロセスを構想する。

As artificial intelligence (AI) gains greater adoption in a wide variety of applications, it has immense potential to contribute to mathematical discovery, by guiding conjecture generation, constructing counterexamples, assisting in formalizing mathematics, and discovering connections between different mathematical areas, to name a few. While prior work has leveraged computers for exhaustive mathematical proof search, recent efforts based on large language models (LLMs) aspire to position computing platforms as co-contributors in the mathematical research process. Despite their current limitations in logic and mathematical tasks, there is growing interest in melding theorem proving systems with foundation models. This work investigates the applicability of LLMs in formalizing advanced mathematical concepts and proposes a framework that can critically review and check mathematical reasoning in research papers. Given the noted reasoning shortcomings of LLMs, our approach synergizes the capabilities of proof assistants, specifically PVS, with LLMs, enabling a bridge between textual descriptions in academic papers and formal specifications in PVS. By harnessing the PVS environment, coupled with data ingestion and conversion mechanisms, we envision an automated process, called \emph{math-PVS}, to extract and formalize mathematical theorems from research papers, offering an innovative tool for academic review and discovery.
翻訳日:2023-10-27 22:56:29 公開日:2023-10-25
# コアセットマルコフ連鎖モンテカルロ

Coreset Markov Chain Monte Carlo ( http://arxiv.org/abs/2310.17063v1 )

ライセンス: Link先を確認
Naitong Chen, Trevor Campbell(参考訳) ベイジアンコアセット(Bayesian coreset)は、計算コストを削減するために推論中に全データセットを置き換える小さな重み付きデータサブセットである。 しかしながら、コアセット重みをチューニングするための art メソッドの状態は高価であり、非自明なユーザ入力を必要とし、モデルに制約を課している。 本研究では,コアセット後部をターゲットとしたマルコフ連鎖をシミュレートし,同時にコアセット重みを更新する新しい手法,Coreset MCMCを提案する。 Coreset MCMCは実装とチューニングが簡単で、既存のMCMCカーネルで使用することができる。 提案手法の収束挙動に関する重要な知見を得るために,Coreset MCMCを代表的設定で解析する。 実験により、Coreset MCMCは、他のコアセット構築法と比較して、高品質な後続近似と計算コストの低減を提供することを示した。 さらに,他のMCMC法と比較すると,Coreset MCMCのサンプリング効率が向上し,後方近似の精度が向上することがわかった。

A Bayesian coreset is a small, weighted subset of data that replaces the full dataset during inference in order to reduce computational cost. However, state of the art methods for tuning coreset weights are expensive, require nontrivial user input, and impose constraints on the model. In this work, we propose a new method -- Coreset MCMC -- that simulates a Markov chain targeting the coreset posterior, while simultaneously updating the coreset weights using those same draws. Coreset MCMC is simple to implement and tune, and can be used with any existing MCMC kernel. We analyze Coreset MCMC in a representative setting to obtain key insights about the convergence behaviour of the method. Empirical results demonstrate that Coreset MCMC provides higher quality posterior approximations and reduced computational cost compared with other coreset construction methods. Further, compared with other general subsampling MCMC methods, we find that Coreset MCMC has a higher sampling efficiency with competitively accurate posterior approximations.
翻訳日:2023-10-27 22:56:04 公開日:2023-10-25
# テキサス州におけるEV充電と再生可能統合の戦略

Strategizing EV Charging and Renewable Integration in Texas ( http://arxiv.org/abs/2310.17056v1 )

ライセンス: Link先を確認
Mohammad Mohammadi and Jesse Thornburg(参考訳) この研究は、テキサス州における電気自動車(EV)、再生可能エネルギー、スマートグリッド技術の収束を探求し、EVの普及を妨げている課題に対処する。 この研究は、彼らの環境的利益を認め、グリッド安定性の懸念、非協調充電パターン、EVと再生可能エネルギー源の複雑な関係に焦点を当てている。 動的時間ゆらぎ(DTW)クラスタリングとk平均クラスタリング手法は、全負荷とネット負荷に基づいて日々を分類し、日々の電力消費と再生可能エネルギー生成パターンに関する微妙な洞察を提供する。 エネルギー消費と再生可能エネルギー統合における戦略的意思決定のための洗練された方法論を提供する。 この結果は、EVをスマートグリッドにシームレスに統合することで、持続的で回復力のあるエネルギーの未来を達成するための継続的な議論に寄与する。

Exploring the convergence of electric vehicles (EVs), renewable energy, and smart grid technologies in the context of Texas, this study addresses challenges hindering the widespread adoption of EVs. Acknowledging their environmental benefits, the research focuses on grid stability concerns, uncoordinated charging patterns, and the complicated relationship between EVs and renewable energy sources. Dynamic time warping (DTW) clustering and k-means clustering methodologies categorize days based on total load and net load, offering nuanced insights into daily electricity consumption and renewable energy generation patterns. By establishing optimal charging and vehicle-to-grid (V2G) windows tailored to specific load characteristics, the study provides a sophisticated methodology for strategic decision-making in energy consumption and renewable integration. The findings contribute to the ongoing discourse on achieving a sustainable and resilient energy future through the seamless integration of EVs into smart grids.
翻訳日:2023-10-27 22:55:45 公開日:2023-10-25
# BOOST:LM世代でコモンセンスを高めるブラックボックスコントロール

BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs' Generation ( http://arxiv.org/abs/2310.17054v1 )

ライセンス: Link先を確認
Yufei Tian, Felix Zhang, Nanyun Peng(参考訳) GPT-3のような大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する強力な能力を示している。 しかし、その成功の中で重大な問題は続いている: 生成されたアウトプットは、時として常識を欠いている。 さらに、LLM全体をより一般的な感覚出力に微調整することは、実現不可能でも計算コストがかかる。 本稿では,凍結した事前学習言語モデル(PTLM)をより一般的な感覚生成(つまり,概念のリストを有意義に組み込んだ可算な出力)に向けて操る,計算効率のよいフレームワークを提案する。 具体的には,まず,4つの異なる関係面から文を動的コモンセンス知識ベースに接地することで,文に共通感覚スコアを割り当てる参照フリー評価器を構築する。 その後、スコアラーをコモンセンス知識のオラクルとして使用し、nadoと呼ばれる制御可能な生成メソッドを拡張して、固定ptlmをガイドしてオラクルを満足させる補助ヘッドをトレーニングします。 GPT-2-, Flan-T5-, Alpaca をベースとした言語モデル (LM) を2つの制約付き概念・文間ベンチマークでテストした。 人間の評価結果は,本手法が常に最も一般的な感覚出力につながることを示す。

Large language models (LLMs) such as GPT-3 have demonstrated a strong capability to generate coherent and contextually relevant text. However, amidst their successes, a crucial issue persists: their generated outputs still lack commonsense at times. Moreover, fine-tuning the entire LLM towards more commonsensical outputs is computationally expensive if not infeasible. In this paper, we present a computation-efficient framework that steers a frozen Pre-Trained Language Model (PTLM) towards more commonsensical generation (i.e., producing a plausible output that incorporates a list of concepts in a meaningful way). Specifically, we first construct a reference-free evaluator that assigns a sentence with a commonsensical score by grounding the sentence to a dynamic commonsense knowledge base from four different relational aspects. We then use the scorer as the oracle for commonsense knowledge, and extend the controllable generation method called NADO to train an auxiliary head that guides a fixed PTLM to better satisfy the oracle. We test our framework on a series of GPT-2-, Flan-T5-, and Alpaca-based language models (LMs) on two constrained concept-to-sentence benchmarks. Human evaluation results demonstrate that our method consistently leads to the most commonsensical outputs.
翻訳日:2023-10-27 22:55:28 公開日:2023-10-25
# ゼロショットVQAのための質問分解の探索

Exploring Question Decomposition for Zero-Shot VQA ( http://arxiv.org/abs/2310.17050v1 )

ライセンス: Link先を確認
Zaid Khan, Vijay Kumar BG, Samuel Schulter, Manmohan Chandraker, Yun Fu(参考訳) 視覚的質問応答(VQA)は伝統的に、自然の人間の質問答え戦略とは異なり、各質問が同じ量の労力を受け取る単一ステップのタスクとして扱われてきた。 この制限を克服するために、VQAの質問分解戦略を検討する。 本研究では,最近開発された大規模視覚言語モデルを用いて,人文による分解を活用し,視覚的質問の分解を独自に生成し,実演だけで両タスクを学習できることを検証した。 しかし,モデル記述分解のナイーブな適用は性能を損なう可能性がある。 本稿では,第2言語予測と誤り訂正のためのモデル駆動選択的分解手法を導入し,医療用VQAデータセットの20%以上の改善や,難易度の高いWinogroundタスクのVQA修正におけるBLIP-2のゼロショット性能の向上など,3領域にわたる8つのVQAタスクの有効性を検証した。 プロジェクトサイト: https://zaidkhan.me/decomposition-0shot-vqa/

Visual question answering (VQA) has traditionally been treated as a single-step task where each question receives the same amount of effort, unlike natural human question-answering strategies. We explore a question decomposition strategy for VQA to overcome this limitation. We probe the ability of recently developed large vision-language models to use human-written decompositions and produce their own decompositions of visual questions, finding they are capable of learning both tasks from demonstrations alone. However, we show that naive application of model-written decompositions can hurt performance. We introduce a model-driven selective decomposition approach for second-guessing predictions and correcting errors, and validate its effectiveness on eight VQA tasks across three domains, showing consistent improvements in accuracy, including improvements of >20% on medical VQA datasets and boosting the zero-shot performance of BLIP-2 above chance on a VQA reformulation of the challenging Winoground task. Project Site: https://zaidkhan.me/decomposition-0shot-vqa/
翻訳日:2023-10-27 22:55:06 公開日:2023-10-25
# クラス内相関正規化器を用いた繰り返し音声埋め込みの学習

Learning Repeatable Speech Embeddings Using An Intra-class Correlation Regularizer ( http://arxiv.org/abs/2310.17049v1 )

ライセンス: Link先を確認
Jianwei Zhang, Suren Jayasuriya, Visar Berisha(参考訳) 特定の機械学習タスクに対する優れた教師付き埋め込みは、関心のラベルの変化にのみ敏感であり、他の要因に不変である。 我々は, 測定理論の再現性の概念を利用して, この特性を記述し, 組込みの再現性を評価するために, クラス内相関係数(ICC)を提案する。 そこで我々は,深いニューラルネットワークを誘導し,再現性の高い埋め込みを生成するために,コントラスト損失を補完する新しい正則化器であるICC正則化器を提案する。 シミュレーションデータを用いて,icc正則化器がクラス内分散の最小化に有効な理由を,コントラスト損失のみよりも説明する。 我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、ディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。 実験結果から, ICC正則化器の追加は, 対照的な損失のみを用いて学習した埋め込みの再現性を向上すること, さらに, 下流タスクの性能向上につながることが示された。

A good supervised embedding for a specific machine learning task is only sensitive to changes in the label of interest and is invariant to other confounding factors. We leverage the concept of repeatability from measurement theory to describe this property and propose to use the intra-class correlation coefficient (ICC) to evaluate the repeatability of embeddings. We then propose a novel regularizer, the ICC regularizer, as a complementary component for contrastive losses to guide deep neural networks to produce embeddings with higher repeatability. We use simulated data to explain why the ICC regularizer works better on minimizing the intra-class variance than the contrastive loss alone. We implement the ICC regularizer and apply it to three speech tasks: speaker verification, voice style conversion, and a clinical application for detecting dysphonic voice. The experimental results demonstrate that adding an ICC regularizer can improve the repeatability of learned embeddings compared to only using the contrastive loss; further, these embeddings lead to improved performance in these downstream tasks.
翻訳日:2023-10-27 22:54:41 公開日:2023-10-25
# マルチタスクバイレベル最適化によるアクティブラーニングのためのランク付け学習

Learning to Rank for Active Learning via Multi-Task Bilevel Optimization ( http://arxiv.org/abs/2310.17044v1 )

ライセンス: Link先を確認
Zixin Ding, Si Chen, Ruoxi Jia, Yuxin Chen(参考訳) アクティブラーニングは、モデルのパフォーマンスを改善するためにラベルを戦略的に要求することでラベリングコストを削減する、有望なパラダイムである。 しかし、既存のアクティブラーニング手法は、計算に高価な取得関数、広範囲なモデリングリトレーニング、アノテータとの複数ラウンドの相互作用に依存することが多い。 そこで本研究では,データ取得のための学習サーロゲートモデルを通じてラベルなしインスタンスのバッチを選択することを目的とした,アクティブラーニングのための新しい手法を提案する。 このアプローチの重要な課題は、ユーティリティ関数の入力の一部を形成するデータ履歴が時間とともに成長するにつれて、よく一般化した取得関数を開発することである。 提案手法は,異なるトレーニングセットの相対的有用性(検証精度によって測定される)を予測し,学習獲得関数が効果的に一般化することを保証する2レベルマルチタスク2レベル最適化フレームワークである。 検証精度を高く評価する場合には,効率的な補間ベースサロゲートモデルを導入し,有効性を推定し,評価コストを低減させる。 標準能動分類ベンチマークの広範な実験を通じて,本手法の性能を実証する。 学習したユーティリティ関数を利用することで、従来のテクニックよりも大幅に改善され、アクティブな学習アプリケーションにおいてより効率的で効果的なユーティリティ最大化の道が開かれた。

Active learning is a promising paradigm to reduce the labeling cost by strategically requesting labels to improve model performance. However, existing active learning methods often rely on expensive acquisition function to compute, extensive modeling retraining and multiple rounds of interaction with annotators. To address these limitations, we propose a novel approach for active learning, which aims to select batches of unlabeled instances through a learned surrogate model for data acquisition. A key challenge in this approach is developing an acquisition function that generalizes well, as the history of data, which forms part of the utility function's input, grows over time. Our novel algorithmic contribution is a bilevel multi-task bilevel optimization framework that predicts the relative utility -- measured by the validation accuracy -- of different training sets, and ensures the learned acquisition function generalizes effectively. For cases where validation accuracy is expensive to evaluate, we introduce efficient interpolation-based surrogate models to estimate the utility function, reducing the evaluation cost. We demonstrate the performance of our approach through extensive experiments on standard active classification benchmarks. By employing our learned utility function, we show significant improvements over traditional techniques, paving the way for more efficient and effective utility maximization in active learning applications.
翻訳日:2023-10-27 22:54:10 公開日:2023-10-25
# StochGradAdam: 確率勾配サンプリングによるニューラルネットワークの高速化

StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling ( http://arxiv.org/abs/2310.17042v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) ディープラーニング最適化の分野が急速に進歩する中で,本論文では,Adamアルゴリズムの新たな適応であるStochGradAdamオプティマイザを公表する。 StochGradAdamの中心は勾配サンプリング技術である。 この手法は, 安定収束を確保できるだけでなく, 選択的勾配考慮の利点を活用し, ノイズや外れ値の影響を軽減し, より信頼度の高い収束のために, 損失景観の探索を強化することにより, 堅牢なトレーニングを促進する。 StochGradAdamは画像分類とセグメンテーションの両方で、従来のAdamオプティマイザよりも優れたパフォーマンスを示している。 各イテレーションで勾配のサブセットを巧みにサンプリングすることで、オプティマイザは複雑なモデルを管理するために最適化される。 本稿では,StochGradAdamの方法論を数学的基礎からバイアス補正戦略まで包括的に探求し,深層学習訓練技術の進歩を約束する。

In the rapidly advancing domain of deep learning optimization, this paper unveils the StochGradAdam optimizer, a novel adaptation of the well-regarded Adam algorithm. Central to StochGradAdam is its gradient sampling technique. This method not only ensures stable convergence but also leverages the advantages of selective gradient consideration, fostering robust training by potentially mitigating the effects of noisy or outlier data and enhancing the exploration of the loss landscape for more dependable convergence. In both image classification and segmentation tasks, StochGradAdam has demonstrated superior performance compared to the traditional Adam optimizer. By judiciously sampling a subset of gradients at each iteration, the optimizer is optimized for managing intricate models. The paper provides a comprehensive exploration of StochGradAdam's methodology, from its mathematical foundations to bias correction strategies, heralding a promising advancement in deep learning training techniques.
翻訳日:2023-10-27 22:53:15 公開日:2023-10-25
# AtMan: メモリ効率の良いアテンション操作によるトランスフォーマー予測の理解

AtMan: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation ( http://arxiv.org/abs/2301.08110v4 )

ライセンス: Link先を確認
Bj\"orn Deiseroth, Mayukh Deb, Samuel Weinbach, Manuel Brack, Patrick Schramowski, Kristian Kersting(参考訳) 生成トランスモデルは、多数のパラメータと複数の入力モダリティを処理する能力によって、ますます複雑になっている。 現在の予測手法はリソース集約型である。 最も重要なのは、フォワードパスの約2倍のGPUメモリを割り当てるバックプロパゲーションに依存するため、極めて大量の余分なメモリを必要とすることだ。 そのため、プロダクションで使用するのは不可能ではないにせよ、難しい。 AtManは、生成トランスモデルの説明を、ほとんど余分なコストで提供します。 特に、AtManは、変換器の注意機構を制御し、出力予測に対する入力の関連マップを生成するモーダル非依存摂動法である。 バックプロパゲーションを使う代わりに、atmanは埋め込み空間内のコサイン類似性近傍に基づく並列化可能なトークンベースの検索手法を適用する。 テキストと画像テキストのベンチマークを徹底的に実験した結果、atmanは計算効率を保ちつつ、いくつかのメトリクスで現在の最先端のグラデーションベース手法よりも優れています。 そのため、AtManは大規模なモデル推論デプロイメントでの使用に適している。

Generative transformer models have become increasingly complex, with large numbers of parameters and the ability to process multiple input modalities. Current methods for explaining their predictions are resource-intensive. Most crucially, they require prohibitively large amounts of extra memory, since they rely on backpropagation which allocates almost twice as much GPU memory as the forward pass. This makes it difficult, if not impossible, to use them in production. We present AtMan that provides explanations of generative transformer models at almost no extra cost. Specifically, AtMan is a modality-agnostic perturbation method that manipulates the attention mechanisms of transformers to produce relevance maps for the input with respect to the output prediction. Instead of using backpropagation, AtMan applies a parallelizable token-based search method based on cosine similarity neighborhood in the embedding space. Our exhaustive experiments on text and image-text benchmarks demonstrate that AtMan outperforms current state-of-the-art gradient-based methods on several metrics while being computationally efficient. As such, AtMan is suitable for use in large model inference deployments.
翻訳日:2023-10-27 18:17:55 公開日:2023-10-25
# 高性能コンピューティングにおける神話と伝説

Myths and Legends in High-Performance Computing ( http://arxiv.org/abs/2301.02432v3 )

ライセンス: Link先を確認
Satoshi Matsuoka, Jens Domke, Mohamed Wahib, and Aleksandr Drozd, Torsten Hoefler(参考訳) 本稿では,高性能コンピューティングコミュニティのメンバの間で伝承される神話や伝説について論じる。 私たちはこれらの神話を、カンファレンスや会議での会話、製品広告、新聞、ツイート、ブログ、コミュニティ内外のニュース記事といった他のコミュニケーションから収集しました。 それらは、デンナード・スケーリングやムーアの法則のような多くのスケーリング法則の終わりによって引き起こされた、現在の大規模な変化の時代におけるジートジストであると信じています。 いくつかの法則は終わるが、アルゴリズムのスケーリングや新しいアーキテクチャの研究など、新しい方向性が生まれている。 しかしながら、これらの神話は科学的事実に基づいていることは稀であり、むしろいくつかの証拠や議論に基づいている。 実際、これは多くの神話が存在する理由であり、それが明確に答えられない理由であると信じている。 それぞれに明確な答えがあるように感じられるが、ベートーヴェンがモーツァルトより優れているかどうかなど、無限の哲学的議論が残ることもある。 我々は、私たちの神話の収集を、研究と産業投資の新たな方向性に関する議論として見たいと思っています。

In this thought-provoking article, we discuss certain myths and legends that are folklore among members of the high-performance computing community. We gathered these myths from conversations at conferences and meetings, product advertisements, papers, and other communications such as tweets, blogs, and news articles within and beyond our community. We believe they represent the zeitgeist of the current era of massive change, driven by the end of many scaling laws such as Dennard scaling and Moore's law. While some laws end, new directions are emerging, such as algorithmic scaling or novel architecture research. Nevertheless, these myths are rarely based on scientific facts, but rather on some evidence or argumentation. In fact, we believe that this is the very reason for the existence of many myths and why they cannot be answered clearly. While it feels like there should be clear answers for each, some may remain endless philosophical debates, such as whether Beethoven was better than Mozart. We would like to see our collection of myths as a discussion of possible new directions for research and industry investment.
翻訳日:2023-10-27 18:17:39 公開日:2023-10-25
# ゴール駆動による言語記述による分布差の発見

Goal Driven Discovery of Distributional Differences via Language Descriptions ( http://arxiv.org/abs/2302.14233v2 )

ライセンス: Link先を確認
Ruiqi Zhong, Peter Zhang, Steve Li, Jinwoo Ahn, Dan Klein, Jacob Steinhardt(参考訳) 大きなコーパスを採掘することは有用な発見を生み出すが、人間には時間がかかる。 我々は、ゴール駆動方式で2つの大きなコーパス間の差異を自動的に発見する新しいタスクD5を定式化する。 タスク入力は、研究目標「$\textit{comparing the side effects of drug a and drug b}$」とコーパスペア(各薬を服用した後の患者の自己報告反応の2つの大規模なコレクション)からなる問題である。出力は、これらのコーパスがどのように異なるかの言語記述(発見)である(患者は「$\textit{mention feelings of paranoia}$」を服用することが多い)。 私たちはD5システムを構築し、その性能を定量的に測定します。 1) メタデータセット OpenD5 に貢献し、ビジネス、社会科学、人文科学、機械学習、健康など幅広い675の公開課題を集約する。 2) 妥当性,妥当性,新規性,重要度などの統一評価指標を提案する。 データセットと統一メトリクスによって、言語モデルがその目標を使って、より関連性があり、新しく、重要な候補の発見を提案できることを確認します。 最後に,議論トピックの時間的・人口的差異や政治的スタンス,言論のステレオタイプ,商業レビューの洞察,NLPモデルのエラーパターンなど,OpenD5の幅広い応用について著者がこれまで知らなかった発見を生成する。

Mining large corpora can generate useful discoveries but is time-consuming for humans. We formulate a new task, D5, that automatically discovers differences between two large corpora in a goal-driven way. The task input is a problem comprising a research goal "$\textit{comparing the side effects of drug A and drug B}$" and a corpus pair (two large collections of patients' self-reported reactions after taking each drug). The output is a language description (discovery) of how these corpora differ (patients taking drug A "$\textit{mention feelings of paranoia}$" more often). We build a D5 system, and to quantitatively measure its performance, we 1) contribute a meta-dataset, OpenD5, aggregating 675 open-ended problems ranging across business, social sciences, humanities, machine learning, and health, and 2) propose a set of unified evaluation metrics: validity, relevance, novelty, and significance. With the dataset and the unified metrics, we confirm that language models can use the goals to propose more relevant, novel, and significant candidate discoveries. Finally, our system produces discoveries previously unknown to the authors on a wide range of applications in OpenD5, including temporal and demographic differences in discussion topics, political stances and stereotypes in speech, insights in commercial reviews, and error patterns in NLP models.
翻訳日:2023-10-26 23:13:43 公開日:2023-10-25
# 構造分布シフト下におけるグラフモデルのロバスト性と不確かさの評価

Evaluating Robustness and Uncertainty of Graph Models Under Structural Distributional Shifts ( http://arxiv.org/abs/2302.13875v3 )

ライセンス: Link先を確認
Gleb Bazhenov, Denis Kuznedelev, Andrey Malinin, Artem Babenko, Liudmila Prokhorenkova(参考訳) 機械学習に基づく信頼できる意思決定システムでは、モデルは分散シフトに頑健であるか、予測の不確実性を提供する必要がある。 グラフ学習のノードレベルの問題では、サンプルが相互依存であるため、分布シフトは特に複雑になる。 グラフモデルの性能を評価するためには,多様かつ有意義な分布シフトで評価することが重要である。 しかし、ノードレベルの問題に対する分布シフトを考慮に入れたグラフベンチマークのほとんどは、主にノードの特徴に焦点を当てている。 本研究では,グラフ構造に基づく多様な分布シフトを誘導する一般的な手法を提案する。 このアプローチは、人気、局所性、密度といったいくつかの構造ノードプロパティに従ってデータ分割を作成するために使用します。 実験では,提案した分布シフトを徹底的に評価し,既存のグラフモデルでは極めて困難であることを示す。 また, 単純なモデルが, 構造シフトを考慮したより洗練された手法よりも優れていることも明らかにした。 最後に,本実験は,構造分布シフト下でのベース分類タスクの学習表現の品質と,これらの表現を用いてノードを異なる分布から分離する能力との間にトレードオフがあることを実証する。

In reliable decision-making systems based on machine learning, models have to be robust to distributional shifts or provide the uncertainty of their predictions. In node-level problems of graph learning, distributional shifts can be especially complex since the samples are interdependent. To evaluate the performance of graph models, it is important to test them on diverse and meaningful distributional shifts. However, most graph benchmarks considering distributional shifts for node-level problems focus mainly on node features, while structural properties are also essential for graph problems. In this work, we propose a general approach for inducing diverse distributional shifts based on graph structure. We use this approach to create data splits according to several structural node properties: popularity, locality, and density. In our experiments, we thoroughly evaluate the proposed distributional shifts and show that they can be quite challenging for existing graph models. We also reveal that simple models often outperform more sophisticated methods on the considered structural shifts. Finally, our experiments provide evidence that there is a trade-off between the quality of learned representations for the base classification task under structural distributional shift and the ability to separate the nodes from different distributions using these representations.
翻訳日:2023-10-26 23:13:13 公開日:2023-10-25
# 星-三角関係からの可積分量子回路

Integrable Quantum Circuits from the Star-Triangle Relation ( http://arxiv.org/abs/2302.12675v3 )

ライセンス: Link先を確認
Yuan Miao, Eric Vernier(参考訳) 恒星-三角関係は、古典的な2次元統計力学モデルに対して正確な結果を提供する、正確に解けるモデルの領域において重要な役割を果たす。 本稿では、星-三角関係を用いた可積分量子回路を構築する。 この構成は、星-三角関係によって解かれた統計力学モデルに対して相互に可換な2パラメータ転移行列の族に依存しており、yang-baxter可積分頂点モデルに基づく既知構成とは異なる。 スペクトルパラメータの特別な値において、転送行列は積分可能な量子回路にマッピングされ、そこでは局所保存電荷の無限の族が導出される。 我々は、最近ロトコフらによって予想された積分性を持つ$Q$状態ポッツ回路と、我々の知識に新しい$\mathbb{Z}_Q$回路という、$Q$状態ポッツ回路の連鎖に作用する回路の2つの例を示す。 最初の例では、$Q=3$ を Zamolodchikov-Fateev 19-頂点モデルに接続する。

The star-triangle relation plays an important role in the realm of exactly solvable models, offering exact results for classical two-dimensional statistical mechanical models. In this article, we construct integrable quantum circuits using the star-triangle relation. Our construction relies on families of mutually commuting two-parameter transfer matrices for statistical mechanical models solved by the star-triangle relation, and differs from previously known constructions based on Yang-Baxter integrable vertex models. At special value of the spectral parameter, the transfer matrices are mapped into integrable quantum circuits, for which infinite families of local conserved charges can be derived. We demonstrate the construction by giving two examples of circuits acting on a chain of $Q-$state qudits: $Q$-state Potts circuits, whose integrability has been conjectured recently by Lotkov et al., and $\mathbb{Z}_Q$ circuits, which are novel to our knowledge. In the first example, we present for $Q=3$ a connection to the Zamolodchikov-Fateev 19-vertex model.
翻訳日:2023-10-26 23:12:43 公開日:2023-10-25
# 神秘的で操作的なブラックボックス:レコメンダシステムにおける知覚の質的分析

Mysterious and Manipulative Black Boxes: A Qualitative Analysis of Perceptions on Recommender Systems ( http://arxiv.org/abs/2302.09933v3 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 推薦システムは、様々な事項に関する適切な提案を提供するために使用される。 これらの制度は古典的な研究テーマであるが、これらの制度に関する世論についてはまだ知識が限られている。 システムは様々な問題を引き起こすことが知られているため、世論も重要である。 そこで本研究では,欧州における一般市民,市民団体,企業等の推薦制度に対する認識の質的分析について述べる。 調査されたデータセットは、欧州連合(EU)で最近施行されたデジタルサービス法(DSA)に関する協議に提出された回答に基づいています。 したがって,本論文は,新たな技術やオンラインプラットフォームを規制する上での圧力的問題に寄与するだけでなく,DSAの政策決定に関する洞察も明らかにする。 定性的な結果によると、ヨーロッパ人は概してレコメンダシステムとレコメンデーションの品質について否定的な意見を持っている。 このシステムは、プライバシーやその他の基本的権利を侵害していると広く見られている。 多くのヨーロッパ人によれば、これらもまた民主主義への脅威を含む様々な社会問題を引き起こしている。 さらに、EUの既存の規制は、適切な執行力の欠如により失敗していたと一般的にみられている。 状況改善のための協議について,多くの意見が寄せられたが,DSAに終わったのはごくわずかであった。

Recommender systems are used to provide relevant suggestions on various matters. Although these systems are a classical research topic, knowledge is still limited regarding the public opinion about these systems. Public opinion is also important because the systems are known to cause various problems. To this end, this paper presents a qualitative analysis of the perceptions of ordinary citizens, civil society groups, businesses, and others on recommender systems in Europe. The dataset examined is based on the answers submitted to a consultation about the Digital Services Act (DSA) recently enacted in the European Union (EU). Therefore, not only does the paper contribute to the pressing question about regulating new technologies and online platforms, but it also reveals insights about the policy-making of the DSA. According to the qualitative results, Europeans have generally negative opinions about recommender systems and the quality of their recommendations. The systems are widely seen to violate privacy and other fundamental rights. According to many Europeans, these also cause various societal problems, including even threats to democracy. Furthermore, existing regulations in the EU are commonly seen to have failed due to a lack of proper enforcement. Numerous suggestions were made by the respondents to the consultation for improving the situation, but only a few of these ended up to the DSA.
翻訳日:2023-10-26 23:12:23 公開日:2023-10-25
# 対角線形ネットワーク上の(S)GD:暗黙の正規化、大きなステップサイズ、安定性のエッジ

(S)GD over Diagonal Linear Networks: Implicit Regularisation, Large Stepsizes and Edge of Stability ( http://arxiv.org/abs/2302.08982v2 )

ライセンス: Link先を確認
Mathieu Even, Scott Pesme, Suriya Gunasekar, Nicolas Flammarion(参考訳) 本稿では,直交線形ネットワーク上での勾配勾配(GD)と確率勾配勾配(SGD)の暗黙的な正則化に対する確率性および大きなステップサイズの影響について検討する。 我々は,gd と sgd とマクロステップの収束を過パラメータ回帰で証明し,その解を暗黙の正規化問題によって特徴づける。 我々のクリップな性格化は、確率性の影響に関する定性的な洞察と、回復した解に対する段差をもたらす。 具体的には, GD のスパース解の回復を妨げつつ, スパース回帰問題に対して, SGD が常に有利であることを示す。 これらの効果は「安定性の端」状態において、発散閾値の直ぐ下の狭い窓の段差のために拡大される。 我々の発見は実験結果によって裏付けられている。

In this paper, we investigate the impact of stochasticity and large stepsizes on the implicit regularisation of gradient descent (GD) and stochastic gradient descent (SGD) over diagonal linear networks. We prove the convergence of GD and SGD with macroscopic stepsizes in an overparametrised regression setting and characterise their solutions through an implicit regularisation problem. Our crisp characterisation leads to qualitative insights about the impact of stochasticity and stepsizes on the recovered solution. Specifically, we show that large stepsizes consistently benefit SGD for sparse regression problems, while they can hinder the recovery of sparse solutions for GD. These effects are magnified for stepsizes in a tight window just below the divergence threshold, in the "edge of stability" regime. Our findings are supported by experimental results.
翻訳日:2023-10-26 23:12:05 公開日:2023-10-25
# ReDi: 軌道探索による効率的な学習自由拡散推論

ReDi: Efficient Learning-Free Diffusion Inference via Trajectory Retrieval ( http://arxiv.org/abs/2302.02285v2 )

ライセンス: Link先を確認
Kexun Zhang, Xianjun Yang, William Yang Wang, Lei Li(参考訳) 拡散モデルは様々なデータに対して有望な生成能力を示す。 高い世代品質にもかかわらず、多くのサンプリングイテレーションが必要なため、拡散モデルの推論は依然として時間がかかります。 推論を高速化するため,ReDiは単純だが学習不要なRetrievalベースの拡散サンプリングフレームワークである。 事前計算された知識ベースから、ReDiは生成初期に部分的に生成された軌跡に似た軌跡を検索し、中間ステップの大部分をスキップし、検索された軌跡の後半ステップからのサンプリングを継続する。 ReDiの生成性能が保証されていることを理論的に証明する。 実験の結果,ReDiはモデル推論効率を2倍高速化することがわかった。 さらに、ReDiは、画像スタイリングのようなゼロショットのクロスドメイン画像生成において、うまく一般化することができる。

Diffusion models show promising generation capability for a variety of data. Despite their high generation quality, the inference for diffusion models is still time-consuming due to the numerous sampling iterations required. To accelerate the inference, we propose ReDi, a simple yet learning-free Retrieval-based Diffusion sampling framework. From a precomputed knowledge base, ReDi retrieves a trajectory similar to the partially generated trajectory at an early stage of generation, skips a large portion of intermediate steps, and continues sampling from a later step in the retrieved trajectory. We theoretically prove that the generation performance of ReDi is guaranteed. Our experiments demonstrate that ReDi improves the model inference efficiency by 2x speedup. Furthermore, ReDi is able to generalize well in zero-shot cross-domain image generation such as image stylization.
翻訳日:2023-10-26 23:11:48 公開日:2023-10-25
# ハイパーパラメータ最適化のためのスケーリング法則

Scaling Laws for Hyperparameter Optimization ( http://arxiv.org/abs/2302.00441v3 )

ライセンス: Link先を確認
Arlind Kadra, Maciej Janowski, Martin Wistuba, Josif Grabocka(参考訳) ハイパーパラメータ最適化は、ピーク性能を達成するために選択されたアルゴリズムのハイパーパラメータをチューニングすることに焦点を当てた機械学習の重要なサブフィールドである。 近年,ハイパーパラメータ最適化の問題に対処する手法が多数存在するが,ほとんどの手法はベイズ最適化のための学習曲線の優越法則の性質を生かしていない。 本研究では,ニューラルネットワークモデルの集合体であるDeep Power Laws (DPL)を提案する。 提案手法は,グレーボックス評価を用いて,どの設定を停止し,段階的に訓練するかを動的に決定する。 本手法は,59のタスクをカバーする表,画像,nlpデータセットに関連する3つのベンチマークにおいて,最先端の7つの競合相手と比較した。 提案手法は,すべてのベンチマークにおいて,すべての競合相手と比較して,最高のリアルタイム結果を得ることによって,最良の結果を得る。

Hyperparameter optimization is an important subfield of machine learning that focuses on tuning the hyperparameters of a chosen algorithm to achieve peak performance. Recently, there has been a stream of methods that tackle the issue of hyperparameter optimization, however, most of the methods do not exploit the dominant power law nature of learning curves for Bayesian optimization. In this work, we propose Deep Power Laws (DPL), an ensemble of neural network models conditioned to yield predictions that follow a power-law scaling pattern. Our method dynamically decides which configurations to pause and train incrementally by making use of gray-box evaluations. We compare our method against 7 state-of-the-art competitors on 3 benchmarks related to tabular, image, and NLP datasets covering 59 diverse tasks. Our method achieves the best results across all benchmarks by obtaining the best any-time results compared to all competitors.
翻訳日:2023-10-26 23:11:33 公開日:2023-10-25
# CoderEval: 生成事前トレーニングモデルによる実用的コード生成のベンチマーク

CoderEval: A Benchmark of Pragmatic Code Generation with Generative Pre-trained Models ( http://arxiv.org/abs/2302.00288v2 )

ライセンス: Link先を確認
Hao Yu, Bo Shen, Dezhi Ran, Jiaxin Zhang, Qi Zhang, Yuchi Ma, Guangtai Liang, Ying Li, Qianxiang Wang, Tao Xie(参考訳) 事前学習と微調整のパラダイムに基づくコード生成モデルは、学界と産業の両方でますます試みられ、結果としてCodex、CodeGen、PanGu-Coderといった有名な産業モデルが生まれた。 これらのモデルの有効性を評価するために、スタンドアロン関数を生成する場合、すなわち組み込み関数と標準ライブラリのみを起動またはアクセスする関数を含む、複数の既存のベンチマークが提案されている。 しかしながら、既存のベンチマークには含まれない非スタンドアロン関数は、人気のあるオープンソースプロジェクトにおける機能の70%以上を占め、スタンドアロン関数におけるモデルの有効性を評価することは、実用的なコード生成シナリオにおけるモデルの有効性を反映できない。 本稿では,このギャップを埋めるために,人気のある実世界のオープンソースプロジェクトから注意深く収集した230 pythonと230 javaコード生成タスクと,生成コードの機能的正当性を自動的に評価する自己完結型実行プラットフォームからなる,coderevalというベンチマークを提案する。 CoderEvalは、コンテキスト依存の6つのレベルからコード生成タスクをサポートする。コンテキストは、生成中の関数の外で定義された型、API、変数、constなど、依存するサードパーティライブラリ、現在のクラス、ファイル、プロジェクトなどのコード要素を指す。 CoderEvalは、スタンドアロン関数以外のコードを生成する際のモデルの有効性を評価するために使用できる。 CoderEval上で3つのコード生成モデルを評価することにより、スタンドアロン関数の生成におけるこれらのモデルの有効性が非スタンドアロン関数の生成よりも著しく高いことが分かる。 本分析は,現実的なコード生成に文脈情報を活用することにより,モデルの有効性をさらに向上させるための今後の方向性を明らかにする。

Code generation models based on the pre-training and fine-tuning paradigm have been increasingly attempted by both academia and industry, resulting in well-known industrial models such as Codex, CodeGen, and PanGu-Coder. To evaluate the effectiveness of these models, multiple existing benchmarks are proposed, including only cases of generating a standalone function, i.e., a function that may invoke or access only built-in functions and standard libraries. However, non-standalone functions, which typically are not included in the existing benchmarks, constitute more than 70% of the functions in popular open-source projects, and evaluating models' effectiveness on standalone functions cannot reflect these models' effectiveness on pragmatic code generation scenarios. To help bridge the preceding gap, in this paper, we propose a benchmark named CoderEval, consisting of 230 Python and 230 Java code generation tasks carefully curated from popular real-world open-source projects and a self-contained execution platform to automatically assess the functional correctness of generated code. CoderEval supports code generation tasks from six levels of context dependency, where context refers to code elements such as types, APIs, variables, and consts defined outside the function under generation but within the dependent third-party libraries, current class, file, or project. CoderEval can be used to evaluate the effectiveness of models in generating code beyond only standalone functions. By evaluating three code generation models on CoderEval, we find that the effectiveness of these models in generating standalone functions is substantially higher than that in generating non-standalone functions. Our analysis highlights the current progress and pinpoints future directions to further improve a model's effectiveness by leveraging contextual information for pragmatic code generation.
翻訳日:2023-10-26 23:11:20 公開日:2023-10-25
# Tsallis KL分枝を用いた一般化Munchausen強化学習

Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence ( http://arxiv.org/abs/2301.11476v3 )

ライセンス: Link先を確認
Lingwei Zhu, Zheng Chen, Matthew Schlegel, Martha White(参考訳) 強化学習における多くの政策最適化アプローチでは、kl(kullback-leilbler)が以前の方針に分岐し、政策の変化が早すぎることを防ぐ。 このアイデアは、TRPOやMunchausen Value Iteration (MVI)といったアルゴリズムによって与えられる近似を用いて、保守政策イテレーションに関するセミナー論文で最初に提案された。 我々は、定義に$q$-logarithmを使用する一般化KL発散(英語版)(Tsallis KL divergence)と呼ばれる、一般化KL発散の研究を継続する。 このアプローチは厳密な一般化であり、$q = 1$ は標準 KL の発散に対応する;$q > 1$ は様々な新しい選択肢を提供する。 我々はTsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。 Tsallis KL正規化を組み込む実用的なアルゴリズムを得るために、我々はKL正規化を組み込む最も単純なアプローチの一つであるMVIを拡張する。 この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。

Many policy optimization approaches in reinforcement learning incorporate a Kullback-Leilbler (KL) divergence to the previous policy, to prevent the policy from changing too quickly. This idea was initially proposed in a seminal paper on Conservative Policy Iteration, with approximations given by algorithms like TRPO and Munchausen Value Iteration (MVI). We continue this line of work by investigating a generalized KL divergence -- called the Tsallis KL divergence -- which use the $q$-logarithm in the definition. The approach is a strict generalization, as $q = 1$ corresponds to the standard KL divergence; $q > 1$ provides a range of new options. We characterize the types of policies learned under the Tsallis KL, and motivate when $q >1$ could be beneficial. To obtain a practical algorithm that incorporates Tsallis KL regularization, we extend MVI, which is one of the simplest approaches to incorporate KL regularization. We show that this generalized MVI($q$) obtains significant improvements over the standard MVI($q = 1$) across 35 Atari games.
翻訳日:2023-10-26 23:10:50 公開日:2023-10-25
# 共変触媒は相関と良い量子参照フレームをほとんど分解しない

Covariant catalysis requires correlations and good quantum reference frames degrade little ( http://arxiv.org/abs/2301.09877v3 )

ライセンス: Link先を確認
Lauritz van Luijk, Reinhard F. Werner, Henrik Wilming(参考訳) 触媒 (catalyst) は、与えられた操作上の制約の下では到達不能な量子状態間の動的経路を開放する量子システムであり、同時に量子状態も変更しない。 ここでは、対称性群のユニタリ表現に関して任意の量子チャネルを共変させなければならない対称性と保存法則によって課される制限を考察し、2つの結果を示す。 まず、正確な触媒が有用であるためには、利害関係系または与えられた過程を共変ユニタリダイナミクスに拡張する自由度のいずれかの相関関係を構築する必要がある。 これは純粋な状態の触媒が役に立たない理由を説明する。 第二に、量子系(参照フレーム)が、大域的共変量子チャネルを介して他の系上の高精度ユニタリダイナミクス(保存則に違反する可能性がある)にシミュレートするために使用される場合、このチャネルは、基準系がおよそ触媒的であるように選択することができる。 言い換えれば、ユニタリダイナミクスをシミュレートする参照フレームが高精度に分解されるのはごくわずかである。

Catalysts are quantum systems that open up dynamical pathways between quantum states which are otherwise inaccessible under a given set of operational restrictions while, at the same time, they do not change their quantum state. We here consider the restrictions imposed by symmetries and conservation laws, where any quantum channel has to be covariant with respect to the unitary representation of a symmetry group, and present two results. First, for an exact catalyst to be useful, it has to build up correlations to either the system of interest or the degrees of freedom dilating the given process to covariant unitary dynamics. This explains why catalysts in pure states are useless. Second, if a quantum system ("reference frame") is used to simulate to high precision unitary dynamics (which possibly violates the conservation law) on another system via a global, covariant quantum channel, then this channel can be chosen so that the reference frame is approximately catalytic. In other words, a reference frame that simulates unitary dynamics to high precision degrades only very little.
翻訳日:2023-10-26 23:10:27 公開日:2023-10-25
# ディファレンシャルフェイスモーフィングアタック検出のためのマルチスペクトルイメージング--予備的検討

Multispectral Imaging for Differential Face Morphing Attack Detection: A Preliminary Study ( http://arxiv.org/abs/2304.03510v3 )

ライセンス: Link先を確認
Raghavendra Ramachandra, Sushma Venkatesh, Naser Damer, Narayan Vetrekar, Rajendra Gad(参考訳) 顔のモーフィング攻撃検出は、高品質で現実的なモーフィング攻撃生成の進歩により、ますます困難な問題になりつつある。 これらの攻撃は境界制御アプリケーションをターゲットにしているため、モーフィング攻撃の信頼性の高い検出が不可欠である。 本稿では,D-MADのためのマルチスペクトルフレームワークを提案する。 D-MAD法は、ePassport(参照画像とも呼ばれる)と信頼されたデバイス(例えば、自動境界制御(ABC)ゲート)から取得した2つの顔画像を用いて、ePassportで提示された顔画像が変形しているかどうかを検出する。 提案されたマルチスペクトルd-madフレームワークは、信頼できるキャプチャとしてキャプチャされたマルチスペクトルイメージを導入し、7つの異なるスペクトルバンドを取得してモーフィング攻撃を検出する。 新たに作成されたmsmd(multispectral morphed datasets)では,可視およびマルチスペクトルカメラを用いて複数のセッションで143個のユニークなデータ対象がキャプチャされた。 その結果,提案手法は可視画像と比較して優れた性能を示した。

Face morphing attack detection is emerging as an increasingly challenging problem owing to advancements in high-quality and realistic morphing attack generation. Reliable detection of morphing attacks is essential because these attacks are targeted for border control applications. This paper presents a multispectral framework for differential morphing-attack detection (D-MAD). The D-MAD methods are based on using two facial images that are captured from the ePassport (also called the reference image) and the trusted device (for example, Automatic Border Control (ABC) gates) to detect whether the face image presented in ePassport is morphed. The proposed multispectral D-MAD framework introduce a multispectral image captured as a trusted capture to acquire seven different spectral bands to detect morphing attacks. Extensive experiments were conducted on the newly created Multispectral Morphed Datasets (MSMD) with 143 unique data subjects that were captured using both visible and multispectral cameras in multiple sessions. The results indicate the superior performance of the proposed multispectral framework compared to visible images.
翻訳日:2023-10-26 21:25:25 公開日:2023-10-25
# AIを"Thirsty"以下にする - AIモデルの秘密のフットプリントの発見と対処

Making AI Less "Thirsty": Uncovering and Addressing the Secret Water Footprint of AI Models ( http://arxiv.org/abs/2304.03271v2 )

ライセンス: Link先を確認
Pengfei Li and Jianyi Yang and Mohammad A. Islam and Shaolei Ren(参考訳) 人工知能(AI)モデルの炭素フットプリントの増加、特にGPT-3のような大きなフットプリントは、公衆の監視を受けている。 しかし残念ながら、AIモデルの等しく重要で巨大な水(水と消費)のフットプリントは、まだレーダーの下に残っている。 例えば、Microsoftの最先端の米国データセンターでGPT-3をトレーニングすることで、70,000リットルの淡水を直接蒸発させることができるが、そのような情報は秘密にされている。 さらに重要なのは、世界のai需要が2027年に4.2億立方メートル(約6兆6600億立方メートル)に達する可能性があることだ。 人口が急増し、水資源が枯渇し、水のインフラが老朽化している中で、淡水不足は私たち全員が共有する最も急進的な課題の1つになっている。 世界的な水難に答えるためには、aiモデルは社会的責任を負い、自分の水量に対処し、例を挙げてリードする必要がある。 本稿では,AIモデルの水分フットプリントを推定する原理的手法を提案するとともに,AIモデルの実行時の水効率の空間的・時間的差異について考察する。 最後に,真に持続的なaiを実現するために,水フットプリントとカーボンフットプリントの連携の必要性を強調する。

The growing carbon footprint of artificial intelligence (AI) models, especially large ones such as GPT-3, has been undergoing public scrutiny. Unfortunately, however, the equally important and enormous water (withdrawal and consumption) footprint of AI models has remained under the radar. For example, training GPT-3 in Microsoft's state-of-the-art U.S. data centers can directly evaporate 700,000 liters of clean freshwater, but such information has been kept a secret. More critically, the global AI demand might be accountable for 4.2 -- 6.6 billion cubic meters of water withdrawal in 2027, which is more than the total annual water withdrawal of 4 -- 6 Denmark or half of the United Kingdom. This is very concerning, as freshwater scarcity has become one of the most pressing challenges shared by all of us in the wake of the rapidly growing population, depleting water resources, and aging water infrastructures. To respond to the global water challenges, AI models can, and also must, take social responsibility and lead by example by addressing their own water footprint. In this paper, we provide a principled methodology to estimate the water footprint of AI models, and also discuss the unique spatial-temporal diversities of AI models' runtime water efficiency. Finally, we highlight the necessity of holistically addressing water footprint along with carbon footprint to enable truly sustainable AI.
翻訳日:2023-10-26 21:25:07 公開日:2023-10-25
# 対角線ネットワークにおけるサドルからサドルへのダイナミクス

Saddle-to-Saddle Dynamics in Diagonal Linear Networks ( http://arxiv.org/abs/2304.00488v2 )

ライセンス: Link先を確認
Scott Pesme and Nicolas Flammarion(参考訳) 本稿では,消失初期化の限界における対角線形ネットワーク上の勾配流れの軌跡を十分に記述する。 制限フローはトレーニング損失のサドルから、最低$\ell_1$-norm 解に到達するまで連続的に変化する。 このsaddle-to-saddleダイナミクスは、各saddleが座標がゼロでなければならないアクティブな集合に制約された損失のミニミザーに対応するため、インクリメンタルな学習プロセスに変換される。 我々は、ラッソパスの計算に使用されるLARSアルゴリズムを思い起こさせる再帰アルゴリズムを用いて、訪問したサドルとジャンプ時間を明確に特徴付ける。 この証明は、ジャンプ間のヘテロクリニックな遷移を追跡できる、便利な弧長のタイムリパラメトリレーションを利用する。 我々の分析では、データに対する無視可能な仮定が必要であり、下層および過度なパラメータ設定にも適用され、アクティブ座標数の単調性がない複雑なケースをカバーする。 我々は発見を支援するために数値実験を行う。

In this paper we fully describe the trajectory of gradient flow over diagonal linear networks in the limit of vanishing initialisation. We show that the limiting flow successively jumps from a saddle of the training loss to another until reaching the minimum $\ell_1$-norm solution. This saddle-to-saddle dynamics translates to an incremental learning process as each saddle corresponds to the minimiser of the loss constrained to an active set outside of which the coordinates must be zero. We explicitly characterise the visited saddles as well as the jumping times through a recursive algorithm reminiscent of the LARS algorithm used for computing the Lasso path. Our proof leverages a convenient arc-length time-reparametrisation which enables to keep track of the heteroclinic transitions between the jumps. Our analysis requires negligible assumptions on the data, applies to both under and overparametrised settings and covers complex cases where there is no monotonicity of the number of active coordinates. We provide numerical experiments to support our findings.
翻訳日:2023-10-26 21:24:39 公開日:2023-10-25
# SQLで大規模言語モデルをクエリする

Querying Large Language Models with SQL ( http://arxiv.org/abs/2304.00472v3 )

ライセンス: Link先を確認
Mohammed Saeed, Nicola De Cao, Paolo Papotti(参考訳) 多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。 しかし、自然言語テキストからデータを抽出してスキーマに正確に適合させ、クエリを可能にすることは難しい課題である。 事前学習された大規模言語モデル(llm)の台頭により、大量のテキスト文書から抽出された情報を保存し利用するための効果的なソリューションが現在存在する。 そこで本研究では,従来のデータベースでは取得されていない幅広いデータをカバーするためにSQLクエリを使うことを想定する。 このビジョンを定着させるために、従来のデータベースアーキテクチャに基づいたプロトタイプであるgaloisを、基礎となるllmをクエリするための新しい物理オペレータとともに紹介する。 主な考え方は、LLMからデータを取得するプロンプトでクエリプランの演算子を実行することである。 大規模なSQLクエリでは、LLMのクエリは、定性的な結果を奨励して、よく構造化された関係を返す。 予備的な実験結果により、事前学習されたLLMはデータベースシステム分野への有望な追加となり、ハイブリッドクエリ処理のための新しい方向が導入された。 しかし、LLMを利用するDBMSを構築するために対処しなければならないいくつかの研究課題を指摘します。 これらの課題のいくつかは、NLP文献からの概念を統合する必要がある一方で、DBコミュニティに新しい研究の道を提供するものもあります。

In many use-cases, information is stored in text but not available in structured data. However, extracting data from natural language text to precisely fit a schema, and thus enable querying, is a challenging task. With the rise of pre-trained Large Language Models (LLMs), there is now an effective solution to store and use information extracted from massive corpora of text documents. Thus, we envision the use of SQL queries to cover a broad range of data that is not captured by traditional databases by tapping the information in LLMs. To ground this vision, we present Galois, a prototype based on a traditional database architecture, but with new physical operators for querying the underlying LLM. The main idea is to execute some operators of the the query plan with prompts that retrieve data from the LLM. For a large class of SQL queries, querying LLMs returns well structured relations, with encouraging qualitative results. Preliminary experimental results make pre-trained LLMs a promising addition to the field of database systems, introducing a new direction for hybrid query processing. However, we pinpoint several research challenges that must be addressed to build a DBMS that exploits LLMs. While some of these challenges necessitate integrating concepts from the NLP literature, others offer novel research avenues for the DB community.
翻訳日:2023-10-26 21:24:25 公開日:2023-10-25
# チャートオートエンコーダによる固有データ構造の深部非パラメトリック推定:一般化誤差とロバスト性

Deep Nonparametric Estimation of Intrinsic Data Structures by Chart Autoencoders: Generalization Error and Robustness ( http://arxiv.org/abs/2303.09863v3 )

ライセンス: Link先を確認
Hao Liu, Alex Havrilla, Rongjie Lai and Wenjing Liao(参考訳) オートエンコーダは、様々なアプリケーションにまたがる高次元データの低次元潜在特徴を学習することに成功した。 低次元多様体の近傍でデータをサンプリングすると、グラフの集合上の低次元潜在特徴にデータをエンコードし、データ多様体の位相と幾何を保存するチャートオートエンコーダを用いる。 本稿では, グラフオートエンコーダの一般化誤差に関する統計的保証を確立し, ノイズフリーな学習サンプルとともに, $d$次元多様体上で, ノイズフリーな学習サンプルを考慮し, それらの記述能力を実証する。 オートエンコーダを訓練することにより、チャートオートエンコーダは入力データを正常な雑音で効果的に識別できることを示す。 適切なネットワークアーキテクチャの下では、チャートオートエンコーダは、多様体の固有次元に依存し、周囲の次元とノイズレベルに弱くのみ依存する$\displaystyle n^{-\frac{2}{d+2}}\log^4n}\の順に二乗一般化誤差を達成する。 我々はさらに、正規成分と有形成分の両方を含むノイズを伴うデータに関する理論を拡張し、チャートオートエンコーダは通常の成分に対してデノイング効果を示す。 特別な場合として、データ多様体が大域的パラメトリゼーションを持つ限り、我々の理論は古典的自己エンコーダにも当てはまる。 本研究は, オートエンコーダの有効性に関する理論的基礎を提供し, 数値実験によりさらに検証した。

Autoencoders have demonstrated remarkable success in learning low-dimensional latent features of high-dimensional data across various applications. Assuming that data are sampled near a low-dimensional manifold, we employ chart autoencoders, which encode data into low-dimensional latent features on a collection of charts, preserving the topology and geometry of the data manifold. Our paper establishes statistical guarantees on the generalization error of chart autoencoders, and we demonstrate their denoising capabilities by considering $n$ noisy training samples, along with their noise-free counterparts, on a $d$-dimensional manifold. By training autoencoders, we show that chart autoencoders can effectively denoise the input data with normal noise. We prove that, under proper network architectures, chart autoencoders achieve a squared generalization error in the order of $\displaystyle n^{-\frac{2}{d+2}}\log^4 n$, which depends on the intrinsic dimension of the manifold and only weakly depends on the ambient dimension and noise level. We further extend our theory on data with noise containing both normal and tangential components, where chart autoencoders still exhibit a denoising effect for the normal component. As a special case, our theory also applies to classical autoencoders, as long as the data manifold has a global parametrization. Our results provide a solid theoretical foundation for the effectiveness of autoencoders, which is further validated through several numerical experiments.
翻訳日:2023-10-26 21:23:41 公開日:2023-10-25
# 量子熱エンジンにおける波動粒子双対性

The Wave-Particle Duality in a Quantum Heat Engine ( http://arxiv.org/abs/2303.09244v2 )

ライセンス: Link先を確認
Marcelo Janovitch, Matteo Brunelli, Patrick P. Potts(参考訳) 波動粒子双対性 (wpd) によれば、量子系は粒子と波動のような振舞いの両方を示し、これらの古典的概念の1つだけでは説明できない。 古典的な手段では再生できない量子的特徴の同定は量子技術の鍵となる。 この課題は、しばしば、量子系を適切な古典的系と比較することによって追求される。 しかしながら、wpdは1つの古典モデルとの比較が一般に不十分であることを意味しており、少なくとも1つの波と1つの粒子モデルを考慮するべきである。 ここでは、この洞察を生かして、古典的な2つの対数を持つボソニック量子熱エンジンと、波動に基づくものと、粒子に基づくものとの対比を行う。 どちらの古典モデルも量子エンジンの平均出力を再現するが、どちらもゆらぎを再現しない。 波動モデルは真空揺らぎを捉えるのに失敗するが、粒子モデルは満点まで束を再現できない。 我々は、波動と粒子の記述が量子と一致する状態と、古典的モデルが不十分な状態とが一致し、非平衡ボソニック輸送におけるWPDの役割を明らかにする。

According to the wave-particle duality (WPD), quantum systems show both particle- and wave-like behavior, and cannot be described using only one of these classical concepts. Identifying quantum features that cannot be reproduced by any classical means is key for quantum technology. This task is often pursued by comparing the quantum system of interest to a suitable classical counterpart. However, the WPD implies that a comparison to a single classical model is generally insufficient; at least one wave and one particle model should be considered. Here we exploit this insight and contrast a bosonic quantum heat engine with two classical counterparts, one based on waves and one based on particles. While both classical models reproduce the average output power of the quantum engine, neither reproduces its fluctuations. The wave model fails to capture the vacuum fluctuations while the particle model cannot reproduce bunching to its full extent. We find regimes where wave and particle descriptions agree with the quantum one, as well as a regime where neither classical model is adequate, revealing the role of the WPD in non-equilibrium bosonic transport.
翻訳日:2023-10-26 21:23:12 公開日:2023-10-25
# ロバスト多相推定のための適応型低深さ量子アルゴリズムについて

On adaptive low-depth quantum algorithms for robust multiple-phase estimation ( http://arxiv.org/abs/2303.08099v4 )

ライセンス: Link先を確認
Haoya Li, Hongkang Ni, Lexing Ying(参考訳) 本稿では,複数の固有値を持つ量子位相推定のアルゴリズムによる検討を行う。 本稿では,ハイゼンベルク制限スケーリングを用いたロバスト多相推定(rmpe)アルゴリズムを提案する。 提案アルゴリズムは,信号処理ルーチンを慎重に設計し,実行時増幅係数を適応的に決定することで,単一位相推定法から大きく改善する。 それらは、ユニタリ $u$ が整数ランタイムのみアクセス可能なブラックボックスとして与えられる "em integer-power} モデルと、$u$ が$u = \exp(-2\pi\mathrm{i} h)$ によって定義される "em real-power} モデルの両方に対応している。 これらのアルゴリズムは初期のフォールトトレラント量子コンピュータに特に適しており、(1)極小のアンシラ量子ビットを使用し、(2)かなりの残差を持つ不完全な初期状態が許容され、(3)最大ランタイムにおけるプリファクターは、残差が十分小さく、支配的固有値間のギャップが事前に知られているため、任意に小さくすることができる。 固有値ギャップが存在しない場合でも、提案したRMPEアルゴリズムは(1)と(2)を維持しながらハイゼンベルク限界を達成することができる。

This paper is an algorithmic study of quantum phase estimation with multiple eigenvalues. We present robust multiple-phase estimation (RMPE) algorithms with Heisenberg-limited scaling. The proposed algorithms improve significantly from the idea of single-phase estimation methods by combining carefully designed signal processing routines and an adaptive determination of runtime amplifying factors. They address both the {\em integer-power} model, where the unitary $U$ is given as a black box with only integer runtime accessible, and the {\em real-power} model, where $U$ is defined through a Hamiltonian $H$ by $U = \exp(-2\pi\mathrm{i} H)$ with any real runtime allowed. These algorithms are particularly suitable for early fault-tolerant quantum computers in the following senses: (1) a minimal number of ancilla qubits are used, (2) an imperfect initial state with a significant residual is allowed, (3) the prefactor in the maximum runtime can be arbitrarily small given that the residual is sufficiently small and a gap among the dominant eigenvalues is known in advance. Even if the eigenvalue gap does not exist, the proposed RMPE algorithms can achieve the Heisenberg limit while maintaining (1) and (2).
翻訳日:2023-10-26 21:22:50 公開日:2023-10-25
# 非凸低レベル二値最適化のためのモーメントベース勾配法について

On Momentum-Based Gradient Methods for Bilevel Optimization with Nonconvex Lower-Level ( http://arxiv.org/abs/2303.03944v2 )

ライセンス: Link先を確認
Feihu Huang(参考訳) バイレベル最適化は一般的な2レベル階層最適化であり、ハイパーパラメータ学習、メタ学習、継続的な学習など、多くの機械学習タスクに広く適用されている。 近年, 両レベル最適化法が数多く開発されているが, 両レベル最適化法は低レベル問題が非凸である場合によく研究されていない。 このギャップを埋めるため,本論文では,上層と下層の両方が非凸であり,下層がpolyak-{\l}ojasiewicz (pl) 条件を満たす非凸二層最適化問題について検討する。 本稿では,これらの決定論的問題を解くために,効率的な運動量に基づく勾配バイレベル法(MGBiO)を提案する。 一方,これらの確率問題を解くために,効率的な運動量に基づく確率勾配二段階法(MSGBiOとVR-MSGBiO)を提案する。 さらに,本手法に有用な収束分析フレームワークを提供する。 特に、いくつかの穏やかな条件下では、mgbio法が決定論的双レベル問題(すなわち、$\|\nabla f(x)\|\leq \epsilon$)に対する$\epsilon$-定常解を求めるために$o(\epsilon^{-2})のサンプル(または勾配)の複雑さを持つことが証明され、既存の最良の結果が$o(\epsilon^{-1})$によって改善される。 一方、我々のMSGBiO法とVR-MSGBiO法は、それぞれ$\tilde{O}(\epsilon^{-4})$と$\tilde{O}(\epsilon^{-3})$のサンプル複素量を持ち、確率的二値問題(例えば$\mathbb{E}\|\nabla F(x)\|\leq \epsilon$)の$\epsilon$-定常解を見つける際に、$\tilde{O}(\epsilon^{-3})$の既存の最良の結果を改善する。 2レベルplゲームとハイパー表現学習の広範な実験結果から,アルゴリズムの効率性が示された。 この論文は数学者ボリス・ポリャク(1935–2023)を記念している。

Bilevel optimization is a popular two-level hierarchical optimization, which has been widely applied to many machine learning tasks such as hyperparameter learning, meta learning and continual learning. Although many bilevel optimization methods recently have been developed, the bilevel methods are not well studied when the lower-level problem is nonconvex. To fill this gap, in the paper, we study a class of nonconvex bilevel optimization problems, where both upper-level and lower-level problems are nonconvex, and the lower-level problem satisfies Polyak-{\L}ojasiewicz (PL) condition. We propose an efficient momentum-based gradient bilevel method (MGBiO) to solve these deterministic problems. Meanwhile, we propose a class of efficient momentum-based stochastic gradient bilevel methods (MSGBiO and VR-MSGBiO) to solve these stochastic problems. Moreover, we provide a useful convergence analysis framework for our methods. Specifically, under some mild conditions, we prove that our MGBiO method has a sample (or gradient) complexity of $O(\epsilon^{-2})$ for finding an $\epsilon$-stationary solution of the deterministic bilevel problems (i.e., $\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-1})$. Meanwhile, we prove that our MSGBiO and VR-MSGBiO methods have sample complexities of $\tilde{O}(\epsilon^{-4})$ and $\tilde{O}(\epsilon^{-3})$, respectively, in finding an $\epsilon$-stationary solution of the stochastic bilevel problems (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $\tilde{O}(\epsilon^{-3})$. Extensive experimental results on bilevel PL game and hyper-representation learning demonstrate the efficiency of our algorithms. This paper commemorates the mathematician Boris Polyak (1935 -2023).
翻訳日:2023-10-26 21:22:24 公開日:2023-10-25
# taps: 認定と敵意のトレーニングをつなぐ

TAPS: Connecting Certified and Adversarial Training ( http://arxiv.org/abs/2305.04574v2 )

ライセンス: Link先を確認
Yuhao Mao, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) 強靭なニューラルネットワークの訓練は、依然として難しい問題だ。 一方、敵の訓練は最悪の損失の過度な近似を最適化し、認定の正規化が不十分になる一方、音響認定訓練手法は緩やかな過剰近似を最適化し、過度な正規化と(標準)精度の低下をもたらす。 本研究は,ippとpgdの訓練を組み合わせることで,精度は高いが必ずしも高くないが,最悪の場合の損失近似を生じさせ,過正規化を低減し,認定と標準的誤認を増大させる,(不健全な)認定トレーニング手法であるtapsを提案する。 例えば、TinyImageNetで、半径$\ell_\infty$-perturbationsと半径$\epsilon=1/255$の認証精度が22\%に達した。 私たちは実装とネットワークをhttps://github.com/eth-sri/tapsで公開しています。

Training certifiably robust neural networks remains a notoriously hard problem. On one side, adversarial training optimizes under-approximations of the worst-case loss, which leads to insufficient regularization for certification, while on the other, sound certified training methods optimize loose over-approximations, leading to over-regularization and poor (standard) accuracy. In this work we propose TAPS, an (unsound) certified training method that combines IBP and PGD training to yield precise, although not necessarily sound, worst-case loss approximations, reducing over-regularization and increasing certified and standard accuracies. Empirically, TAPS achieves a new state-of-the-art in many settings, e.g., reaching a certified accuracy of $22\%$ on TinyImageNet for $\ell_\infty$-perturbations with radius $\epsilon=1/255$. We make our implementation and networks public at https://github.com/eth-sri/taps.
翻訳日:2023-10-26 21:14:06 公開日:2023-10-25
# 2次元 $\pm J$ Ising モデルの非平衡臨界ダイナミクス

Nonequilibrium critical dynamics of the two-dimensional $\pm J$ Ising model ( http://arxiv.org/abs/2304.11997v4 )

ライセンス: Link先を確認
Ramgopal Agrawal, Leticia F. Cugliandolo, Lara Faoro, Lev B. Ioffe, and Marco Picco(参考訳) $\pm J$ Ising モデルは単純なフラストレーションのスピンモデルであり、交換結合は独立に確率$p$の離散値 $-J$ と確率$-p$の $+J$ を取る。 量子誤り訂正符号との接続により特に魅力的である。 本稿では,2次元$\pm j$イジングモデルの非平衡臨界挙動を,初期条件の異なる点から常磁性強磁性(pf)遷移線上の臨界点$t_c(p)$へのクエンチ後の非平衡臨界挙動,特に,多臨界西森点(np)以下について検討する。 動的臨界指数 $z_c$ は、NP の反発的固定点による漸近前特徴として同定される NP の上下のクエンチの非普遍的挙動を示すようである。 一方、NPに直接クエンチすると、このダイナミクスは、z_c \simeq 6.02(6)$で漸近状態に達する。 また、臨界ダイナミクス中に(スピンサインのように)幾何学的なスピンクラスターを考える。 PFライン上の各普遍性クラスは、対応するパラメータ $\kappa$ を持つ確率ローナー進化(SLE)によって特徴付けられる。 さらに, パラ磁性相からの臨界クエンチに対しては, フラストレーションによらず, 大規模スケールにおいて創発的な臨界パーコレーショントポロジーを示す。

The $\pm J$ Ising model is a simple frustrated spin model, where the exchange couplings independently take the discrete value $-J$ with probability $p$ and $+J$ with probability $1-p$. It is especially appealing due to its connection to quantum error correcting codes. Here, we investigate the nonequilibrium critical behavior of the two-dimensional $\pm J$ Ising model, after a quench from different initial conditions to a critical point $T_c(p)$ on the paramagnetic-ferromagnetic (PF) transition line, especially, above, below and at the multicritical Nishimori point (NP). The dynamical critical exponent $z_c$ seems to exhibit non-universal behavior for quenches above and below the NP, which is identified as a pre-asymptotic feature due to the repulsive fixed point at the NP. Whereas, for a quench directly to the NP, the dynamics reaches the asymptotic regime with $z_c \simeq 6.02(6)$. We also consider the geometrical spin clusters (of like spin signs) during the critical dynamics. Each universality class on the PF line is uniquely characterized by the stochastic Loewner evolution (SLE) with corresponding parameter $\kappa$. Moreover, for the critical quenches from the paramagnetic phase, the model, irrespective of the frustration, exhibits an emergent critical percolation topology at the large length scales.
翻訳日:2023-10-26 21:13:00 公開日:2023-10-25
# 受動非線形微小キャビティによる量子相関光子

Quantum correlated photons via a passive nonlinear microcavity ( http://arxiv.org/abs/2304.11676v2 )

ライセンス: Link先を確認
Mengdi Zhao, Yunkai Wang, Shanhui Fan and Kejie Fang(参考訳) 自然界において、光子は互いに相互作用を示さない。 光子-光子相互作用の生成は、基礎物理学と量子技術の両方において非常に重要である。 現在、このような相互作用は、共鳴光子-原子相互作用を持つ原子に似た量子放出子によって間接的にのみ達成されている。 しかし、これらの間接的相互作用の使用は、スケーリングと実践的な応用を妨げる重大な根本的な課題をもたらす。 ここでは、パッシブingapフォトニック集積回路による光子反束を含む非古典的光子相関の生成を示す。 我々のアプローチでは、非相関な光と2光子結合状態の間の量子干渉を採用しており、後者は$\chi^{(2)}$-介在光子相互作用から生じる。 我々の研究は、高工学的バルク光非線形性を利用して量子光を制御する新しい経路を開拓し、非線形光量子情報処理や量子ネットワークに重要な影響を与える。

Photons, by nature, typically do not exhibit interactions with each other. Creating photon-photon interactions holds immense importance in both fundamental physics and quantum technologies. Currently, such interactions have only been achieved indirectly as mediated by atomic-like quantum emitters with resonant photon-atom interactions. However, the use of these indirect interactions presents substantial fundamental challenges that impede scaling and practical applications. Here we demonstrate creation of non-classical photon correlations, including photon anti-bunching, via a passive InGaP photonic integrated circuit. Our approach employs the quantum interference between uncorrelated light and the two-photon bound state, the latter of which arises from the $\chi^{(2)}$-mediated photon interaction. Our work opens a new route in controlling quantum light by harnessing highly-engineerable bulk optical nonlinearities, which has significant implications for nonlinear optical quantum information processing and quantum networking.
翻訳日:2023-10-26 21:12:34 公開日:2023-10-25
# ニューラルネットワークの収束を実証する2つの時間スケール体制の活用

Leveraging the two timescale regime to demonstrate convergence of neural networks ( http://arxiv.org/abs/2304.09576v2 )

ライセンス: Link先を確認
Pierre Marion and Rapha\"el Berthier(参考訳) 本研究では, 浅層ニューラルネットワークのトレーニングダイナミクスを, 内部層へのステップズが外側層よりもずっと小さい2時間スケールで検討した。 本研究では,非凸最適化問題の大域的最適化に勾配流の収束を簡易な単変量条件で証明する。 ニューロンの数を漸近的に増加させる必要はなく、神経接核や平均場レジームのような最近の一般的なアプローチと区別する。 実験例では, 確率勾配降下は勾配流の記述に従って挙動し, 2時間体制における大域的最適度に収束するが, この体制の外では失敗する可能性があることを示す。

We study the training dynamics of shallow neural networks, in a two-timescale regime in which the stepsizes for the inner layer are much smaller than those for the outer layer. In this regime, we prove convergence of the gradient flow to a global optimum of the non-convex optimization problem in a simple univariate setting. The number of neurons need not be asymptotically large for our result to hold, distinguishing our result from popular recent approaches such as the neural tangent kernel or mean-field regimes. Experimental illustration is provided, showing that the stochastic gradient descent behaves according to our description of the gradient flow and thus converges to a global optimum in the two-timescale regime, but can fail outside of this regime.
翻訳日:2023-10-26 21:12:02 公開日:2023-10-25
# グラフベース推薦システムのための層ニューラルネットワーク

Sheaf Neural Networks for Graph-based Recommender Systems ( http://arxiv.org/abs/2304.09097v2 )

ライセンス: Link先を確認
Antonio Purificato, Giulia Cassar\`a, Pietro Li\`o, Fabrizio Silvestri(参考訳) グラフニューラルネットワークの最近の進歩は、レコメンデーションシステムを含む多くのアプリケーションで広く採用されている。 グラフニューラルネットワークが他のアプローチよりも優れている理由は、レコメンデーションシステムの多くの問題は自然にグラフとしてモデル化できるためである。 現在のグラフニューラルネットワークアプローチでは、ノードはトレーニング時に学習した静的ベクトルで表現される。 この静的ベクトルは、定義したユーザやアイテムのニュアンスをキャプチャするのにのみ適しています。 この制限を克服するために、最近提案されたカテゴリー理論にインスパイアされたモデル:せん断ニューラルネットワークを提案する。 シーフニューラルネットワークとその連結ラプラシアンは、全てのノード(およびエッジ)を単一のベクトルではなくベクトル空間に関連付けることで、以前の問題に対処することができる。 ベクトル空間表現はよりリッチで、推論時に適切な表現を選ぶことができる。 このアプローチはグラフ上の異なる関連するタスクに対して一般化することができ、協調フィルタリングにおけるF1-Score@Nとリンク予測におけるHits@20の観点から最先端のパフォーマンスを達成することができる。 協調フィルタリングでは、MovieLens 100Kでは5.1%改善、MovieLens 1Mでは5.4%改善、ブッククロッシングでは2.8%改善、ogbl-ddiデータセットでは1.6%改善、ベースラインでは1.6%改良された。

Recent progress in Graph Neural Networks has resulted in wide adoption by many applications, including recommendation systems. The reason for Graph Neural Networks' superiority over other approaches is that many problems in recommendation systems can be naturally modeled as graphs, where nodes can be either users or items and edges represent preference relationships. In current Graph Neural Network approaches, nodes are represented with a static vector learned at training time. This static vector might only be suitable to capture some of the nuances of users or items they define. To overcome this limitation, we propose using a recently proposed model inspired by category theory: Sheaf Neural Networks. Sheaf Neural Networks, and its connected Laplacian, can address the previous problem by associating every node (and edge) with a vector space instead than a single vector. The vector space representation is richer and allows picking the proper representation at inference time. This approach can be generalized for different related tasks on graphs and achieves state-of-the-art performance in terms of F1-Score@N in collaborative filtering and Hits@20 in link prediction. For collaborative filtering, the approach is evaluated on the MovieLens 100K with a 5.1% improvement, on MovieLens 1M with a 5.4% improvement and on Book-Crossing with a 2.8% improvement, while for link prediction on the ogbl-ddi dataset with a 1.6% refinement with respect to the respective baselines.
翻訳日:2023-10-26 21:11:48 公開日:2023-10-25
# pointdc:クロスモーダル蒸留とスーパーボクセルクラスタリングによる3次元点雲の教師なしセグメンテーション

PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering ( http://arxiv.org/abs/2304.08965v3 )

ライセンス: Link先を確認
Zisheng Chen, Hongbin Xu, Weitao Chen, Zhipeng Chen, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang(参考訳) 点雲の意味セグメンテーションは、通常、人間のアノテーションの枯渇する努力を必要とするため、ラベルのない、またはより弱い形のアノテーションから学ぶことの難しいトピックに広く注目される。 本稿では,アノテーションを使わずに意味論的に意味のあるオブジェクトを記述することを目的とした,ポイントクラウドの完全教師なしセマンティックセマンティックセマンティックセマンティック化の試みを行う。 2dイメージに対する教師なしパイプラインの以前の作業は、ポイントクラウドのこのタスクでは失敗する。 1) データの大きさの制限とクラス分布の不均衡による曖昧さのクラスタリング 2)点雲の不規則なスパース性に起因する不規則な曖昧さ。 そこで本稿では, 上記の問題をそれぞれ処理する2つのステップ, クロスモーダル蒸留 (CMD) とスーパーボクセルクラスタリング (SVC) からなる新しいフレームワークであるPointDCを提案する。 CMDの第1段階では、多視点視覚特徴は3次元空間にバックプロジェクションされ、統一された点特徴に集約され、点表現の訓練を蒸留する。 svcの第2段階では、ポイント機能はスーパーボクセルに集約され、セマンティクスクラスを発掘するために反復クラスタリングプロセスに供給される。 pointdc は、scannet-v2 (+18.4 miou) と s3dis (+11.5 miou) のセマンティクスセグメンテーションベンチマークの両方において、以前の最先端の教師なしメソッドを大きく改善する。

Semantic segmentation of point clouds usually requires exhausting efforts of human annotations, hence it attracts wide attention to the challenging topic of learning from unlabeled or weaker forms of annotations. In this paper, we take the first attempt for fully unsupervised semantic segmentation of point clouds, which aims to delineate semantically meaningful objects without any form of annotations. Previous works of unsupervised pipeline on 2D images fails in this task of point clouds, due to: 1) Clustering Ambiguity caused by limited magnitude of data and imbalanced class distribution; 2) Irregularity Ambiguity caused by the irregular sparsity of point cloud. Therefore, we propose a novel framework, PointDC, which is comprised of two steps that handle the aforementioned problems respectively: Cross-Modal Distillation (CMD) and Super-Voxel Clustering (SVC). In the first stage of CMD, multi-view visual features are back-projected to the 3D space and aggregated to a unified point feature to distill the training of the point representation. In the second stage of SVC, the point features are aggregated to super-voxels and then fed to the iterative clustering process for excavating semantic classes. PointDC yields a significant improvement over the prior state-of-the-art unsupervised methods, on both the ScanNet-v2 (+18.4 mIoU) and S3DIS (+11.5 mIoU) semantic segmentation benchmarks.
翻訳日:2023-10-26 21:11:22 公開日:2023-10-25
# API-Bank: ツール拡張 LLM の総合ベンチマーク

API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs ( http://arxiv.org/abs/2304.08244v2 )

ライセンス: Link先を確認
Minghao Li, Yingxiu Zhao, Bowen Yu, Feifan Song, Hangyu Li, Haiyang Yu, Zhoujun Li, Fei Huang, Yongbin Li(参考訳) 近年の研究では、LLM(Large Language Models)が外部ツールを利用することで、その能力を高めることが実証されている。 しかし、重要な質問は3つある: (1)現在のllmはツールの活用にどの程度有効か? (2) LLMのツール活用能力を高めるにはどうすればいいのか? (3)ツールを活用するためには,どのような障害を克服する必要があるのか? これらの問題に対処するために,ツール拡張 LLM 用に特別に設計された,画期的なベンチマークである API-Bank を紹介した。 最初の質問として,73のapiツールからなる実行可能な評価システムを開発した。 753のAPI呼び出しで314のツール使用対話を注釈付けして、APIの計画、検索、呼び出しにおける既存のLLMの機能を評価します。 第2の質問では、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。 このデータセットを使用して、Alpacaから初期化されたツール拡張LDMであるLynxをトレーニングする。 実験の結果, GPT-3.5はGPT-3に比べてツール利用が向上し, GPT-4は計画に優れていた。 しかし、さらなる改善の可能性はまだ大きい。 さらに、LynxはAlpacaのツール利用性能を26pt以上越え、GPT-3.5の有効性にアプローチしている。 エラー解析を通じて,本分野における今後の研究の課題を取り上げ,第3の疑問に答える。

Recent research has demonstrated that Large Language Models (LLMs) can enhance their capabilities by utilizing external tools. However, three pivotal questions remain unanswered: (1) How effective are current LLMs in utilizing tools? (2) How can we enhance LLMs' ability to utilize tools? (3) What obstacles need to be overcome to leverage tools? To address these questions, we introduce API-Bank, a groundbreaking benchmark, specifically designed for tool-augmented LLMs. For the first question, we develop a runnable evaluation system consisting of 73 API tools. We annotate 314 tool-use dialogues with 753 API calls to assess the existing LLMs' capabilities in planning, retrieving, and calling APIs. For the second question, we construct a comprehensive training set containing 1,888 tool-use dialogues from 2,138 APIs spanning 1,000 distinct domains. Using this dataset, we train Lynx, a tool-augmented LLM initialized from Alpaca. Experimental results demonstrate that GPT-3.5 exhibits improved tool utilization compared to GPT-3, while GPT-4 excels in planning. However, there is still significant potential for further improvement. Moreover, Lynx surpasses Alpaca's tool utilization performance by more than 26 pts and approaches the effectiveness of GPT-3.5. Through error analysis, we highlight the key challenges for future research in this field to answer the third question.
翻訳日:2023-10-26 21:10:50 公開日:2023-10-25
# 動的多目的最適化のためのベクトル自己回帰進化

Vector Autoregressive Evolution for Dynamic Multi-Objective Optimisation ( http://arxiv.org/abs/2305.12752v2 )

ライセンス: Link先を確認
Shouyong Jiang, Yong Wang, Yaru Hu, Qingyang Zhang, Shengxiang Yang(参考訳) 動的多目的最適化(DMO)は、様々な環境で複数の(しばしば矛盾する)目的を持つ最適化問題を扱う。 このような問題は、動的性質と変化する環境における資源制限のため、複雑な最適化問題を解決するために広く使われている進化的アルゴリズムに様々な課題をもたらす。 本稿では,DMOの環境変化に対応するために,ベクトル自己回帰(VAR)と環境対応ハイパーミューテーションからなるベクトル自己回帰進化(VARE)を提案する。 VAREは、動的環境における移動解を効果的に予測するために、決定変数間の相互関係を考慮したVARモデルを構築する。 さらに、VAREはEAHを導入し、予測アプローチが適さない動的なシナリオにおいて、人口の多様性を増大させる既存のハイパーミューテーション戦略の盲点に対処する。 VARとEAHを環境適応的にシームレスに統合することで、VAREは幅広い動的環境を扱えるようになり、様々なDMOアルゴリズムと競合する。 特に、提案アルゴリズムは2つの広く使われているアルゴリズム(trdmoeaとmoea/d-svr)よりも計算速度が50倍速く、優れた結果が得られる。

Dynamic multi-objective optimisation (DMO) handles optimisation problems with multiple (often conflicting) objectives in varying environments. Such problems pose various challenges to evolutionary algorithms, which have popularly been used to solve complex optimisation problems, due to their dynamic nature and resource restrictions in changing environments. This paper proposes vector autoregressive evolution (VARE) consisting of vector autoregression (VAR) and environment-aware hypermutation to address environmental changes in DMO. VARE builds a VAR model that considers mutual relationship between decision variables to effectively predict the moving solutions in dynamic environments. Additionally, VARE introduces EAH to address the blindness of existing hypermutation strategies in increasing population diversity in dynamic scenarios where predictive approaches are unsuitable. A seamless integration of VAR and EAH in an environment-adaptive manner makes VARE effective to handle a wide range of dynamic environments and competitive with several popular DMO algorithms, as demonstrated in extensive experimental studies. Specially, the proposed algorithm is computationally 50 times faster than two widely-used algorithms (i.e., TrDMOEA and MOEA/D-SVR) while producing significantly better results.
翻訳日:2023-10-26 21:04:55 公開日:2023-10-25
# 精神シミュレーションの神経基盤--動的シーンにおける潜在表現の将来予測

Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes ( http://arxiv.org/abs/2305.11772v2 )

ライセンス: Link先を確認
Aran Nayebi, Rishi Rajalingham, Mehrdad Jazayeri, Guangyu Robert Yang(参考訳) 人間と動物は、物理的世界に対する豊かで柔軟な理解を持ち、それによって、オブジェクトやイベントの動的軌跡を推測し、その将来状態を説明し、行動の結果を計画し予測することができる。 しかし、これらの計算の根底にある神経機構は不明である。 我々は,目標駆動型モデリング手法と高次神経生理学的データを組み合わせることで,この問題を直接的に阻害する。 具体的には,ピクセル指向やオブジェクト中心の目的を持った自己教師付きエンドツーエンドモデルから,静的イメージベースや動的ビデオベースの基礎モデルの潜在空間で将来予測されるモデルまで,リッチで倫理的な関係のある環境の将来状態を予測するための,知覚認知ネットワークのいくつかのクラスを構築し,評価する。 これらのモデルクラスにまたがる強い差別化は、さまざまな環境内および環境間で、神経および行動データを予測できる能力にある。 特に, 神経反応は, 動的シーンに最適化された基礎モデルの潜在空間において, 環境の将来状態を予測するように訓練されたモデルによって現在最もよく予測されている。 特に、ビデオファウンデーションモデルの潜在領域で将来予測されるモデルは、さまざまなセンサーモジュレータタスクをサポートするように最適化され、テスト可能なすべての環境シナリオにおいて、人間の行動エラーパターンと神経動力学の両方に適しています。 全体としては、霊長類の精神シミュレーションの神経機構と行動は、より一般的にエンボダイドAIに有用な、動的で再利用可能な視覚表現の将来の予測に最適化されることと最も一致していることが示唆されている。

Humans and animals have a rich and flexible understanding of the physical world, which enables them to infer the underlying dynamical trajectories of objects and events, plausible future states, and use that to plan and anticipate the consequences of actions. However, the neural mechanisms underlying these computations are unclear. We combine a goal-driven modeling approach with dense neurophysiological data and high-throughput human behavioral readouts to directly impinge on this question. Specifically, we construct and evaluate several classes of sensory-cognitive networks to predict the future state of rich, ethologically-relevant environments, ranging from self-supervised end-to-end models with pixel-wise or object-centric objectives, to models that future predict in the latent space of purely static image-based or dynamic video-based pretrained foundation models. We find strong differentiation across these model classes in their ability to predict neural and behavioral data both within and across diverse environments. In particular, we find that neural responses are currently best predicted by models trained to predict the future state of their environment in the latent space of pretrained foundation models optimized for dynamic scenes in a self-supervised manner. Notably, models that future predict in the latent space of video foundation models that are optimized to support a diverse range of sensorimotor tasks, reasonably match both human behavioral error patterns and neural dynamics across all environmental scenarios that we were able to test. Overall, these findings suggest that the neural mechanisms and behaviors of primate mental simulation are thus far most consistent with being optimized to future predict on dynamic, reusable visual representations that are useful for Embodied AI more generally.
翻訳日:2023-10-26 21:04:36 公開日:2023-10-25
# FACE: クロスエントロピーのフーリエ解析による自然言語生成の評価

FACE: Evaluating Natural Language Generation with Fourier Analysis of Cross-Entropy ( http://arxiv.org/abs/2305.10307v4 )

ライセンス: Link先を確認
Zuhao Yang, Yingfang Yuan, Yang Xu, Shuo Zhan, Huajun Bai, Kefan Chen(参考訳) 機械生成言語と人間の言語の距離を測定することは重要なオープン問題である。 言語におけるエントロピーの周期性に関する心理言語学からの実証的知見に触発されて,モデル生成言語と人文言語の類似性を測定するために,推定された言語交叉エントロピーのフーリエ解析に基づく一連の指標であるfaceを提案する。 オープンエンド生成課題と先行研究の実験データに基づいて, 顔は, モデルのギャップを効果的に識別し, モデルサイズをスケールし, 復号のための異なるサンプリング手法の結果を反映し, 他の評価指標や人間の判断スコアとよく相関することがわかった。

Measuring the distance between machine-produced and human language is a critical open problem. Inspired by empirical findings from psycholinguistics on the periodicity of entropy in language, we propose FACE, a set of metrics based on Fourier Analysis of the estimated Cross-Entropy of language, for measuring the similarity between model-generated and human-written languages. Based on an open-ended generation task and the experimental data from previous studies, we find that FACE can effectively identify the human-model gap, scales with model size, reflects the outcomes of different sampling methods for decoding, correlates well with other evaluation metrics and with human judgment scores.
翻訳日:2023-10-26 21:03:23 公開日:2023-10-25
# マルチキュービット構成の文脈性次数に関する新しい改良された境界

New and improved bounds on the contextuality degree of multi-qubit configurations ( http://arxiv.org/abs/2305.10225v2 )

ライセンス: Link先を確認
Axel Muller, Metod Saniga, Alain Giorgetti, Henri de Boutray, Fr\'ed\'eric Holweck(参考訳) 我々は、量子文脈性を決定するアルゴリズムとCコードを示し、小さいランクの2次シンプレクティック極空間に位置する様々な点線ジオメトリの文脈性度(文脈性を定量化する方法)を評価する。 このコードでは、de boutray et al(j. phys. a: math. theor. 55 475301, 2022)による最近の論文の結果をより効率的に回復するだけでなく、多くの注目すべき結果に到達しました。 論文はまずアルゴリズムとcのコードを記述した。 次に、階数が 2 から 7 までの範囲のシンプレクティック極空間の多くの部分空間にその力を示す。 最も興味深い新しい結果は以下のとおりである。 i) 文脈が次元2以上の部分空間である構成の非文脈性 (ii)次元3以上の負部分空間が存在しないこと。 (iii) 次数 4 の楕円四次および双曲四次数の文脈次数と、その文脈がこの空間の線である3量子空間の特定の部分幾何学に対する境界を大幅に改善した。 (iv)ペプセットの文脈的でないことの証明、そして最後には、 (v) 2-スプレッドと呼ばれるマルチキュービットの有界な部分幾何学の文脈的性質と、その文脈的度合いの計算。

We present algorithms and a C code to decide quantum contextuality and evaluate the contextuality degree (a way to quantify contextuality) for a variety of point-line geometries located in binary symplectic polar spaces of small rank. With this code we were not only able to recover, in a more efficient way, all the results of a recent paper by de Boutray et al (J. Phys. A: Math. Theor. 55 475301, 2022), but also arrived at a bunch of new noteworthy results. The paper first describes the algorithms and the C code. Then it illustrates its power on a number of subspaces of symplectic polar spaces whose rank ranges from two to seven. The most interesting new results include: (i) non-contextuality of configurations whose contexts are subspaces of dimension two and higher, (ii) non-existence of negative subspaces of dimension three and higher, (iii) considerably improved bounds for the contextuality degree of both elliptic and hyperbolic quadrics for ranks four, as well as for a particular subgeometry of the three-qubit space whose contexts are the lines of this space, (iv) proof for the non-contextuality of perpsets and, last but not least, (v) contextual nature of a distinguished subgeometry of a multi-qubit doily, called a two-spread, and computation of its contextuality degree.
翻訳日:2023-10-26 21:03:10 公開日:2023-10-25
# StrAE: 明示的構造を用いた事前学習型埋め込みの自動エンコーディング

StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure ( http://arxiv.org/abs/2305.05588v2 )

ライセンス: Link先を確認
Mattia Opper, Victor Prokhorov, N. Siddharth(参考訳) この研究はStrAE: 明示的な構造への厳密な固執、木構造表現に対する新しい対照的な目的の利用を通じて、マルチレベル表現の効果的な学習を可能にする構造化オートエンコーダフレームワークを提示する。 異なる構造形態の比較を通して、入力として提供される構造のインフォメーション性に直接的な寄与があることを確認し、既存の木モデルではそうではないことを示す。 さらにStrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。 この変種はSelf-StrAEと呼ばれ、明示的な階層的な構成を含まないベースラインよりも優れており、情報構造が与えられたモデルに匹敵する。 実験はデータ制約付き(約1000万トークン)で実施され,帰納的バイアスの効果的な学習への貢献を区別するのに役立つ。 しかし、このフレームワークはスケールに堅牢であり、はるかに大きなデータセット(約100mのトークン)に拡張すると、430のパラメータモデルが6層ロバータに比較可能になります。 本研究は,効果的な表現学習のための帰納的バイアスとして,明示的な構成を組み込むことの有用性を支持する。

This work presents StrAE: a Structured Autoencoder framework that through strict adherence to explicit structure, and use of a novel contrastive objective over tree-structured representations, enables effective learning of multi-level representations. Through comparison over different forms of structure, we verify that our results are directly attributable to the informativeness of the structure provided as input, and show that this is not the case for existing tree models. We then further extend StrAE to allow the model to define its own compositions using a simple localised-merge algorithm. This variant, called Self-StrAE, outperforms baselines that don't involve explicit hierarchical compositions, and is comparable to models given informative structure (e.g. constituency parses). Our experiments are conducted in a data-constrained (circa 10M tokens) setting to help tease apart the contribution of the inductive bias to effective learning. However, we find that this framework can be robust to scale, and when extended to a much larger dataset (circa 100M tokens), our 430 parameter model performs comparably to a 6-layer RoBERTa many orders of magnitude larger in size. Our findings support the utility of incorporating explicit composition as an inductive bias for effective representation learning.
翻訳日:2023-10-26 21:02:04 公開日:2023-10-25
# Inverse Dynamics Pretrainingはマルチタスク模倣のための良い表現を学習する

Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation ( http://arxiv.org/abs/2305.16985v2 )

ライセンス: Link先を確認
David Brandfonbrener, Ofir Nachum, Joan Bruna(参考訳) 近年、自然言語処理や画像認識といったドメインは、ダウンストリームタスクに効果的に転送可能な表現を事前学習するために大規模なデータセットを使用するというパラダイムを広めている。 本研究では,事前学習と微調整の両方が未知の環境と対話する専門家によって収集される軌跡である模倣学習において,そのようなパラダイムをどのように行うべきかを評価する。 すなわち、プリトレーニングコーパスがマルチタスクのデモンストレーションで構成され、各デモンストレーションのタスクが観測できない潜在コンテキスト変数によって設定されるような設定を考える。 目標は、プレトレーニングコーパスを使用して、デモの限られたデータセットを微調整するための新しいコンテキストに転送できる高次元(例えば、視覚)観測空間の低次元表現を学習することである。 様々な事前訓練対象のうち、逆動力学モデリング、すなわち、実験の前後で観察された結果から行動を予測することは、この設定に適していると主張する。 この主張の実証的証拠として, 種々の模擬振動子操作問題の評価を行った。 前回の研究は逆ダイナミクスモデリングの利点に関する様々な理論的な説明を試みたが、これらの議論は我々の設定でよく見られる経験的利点を説明するには不十分であり、単純だが一般的な環境モデルを用いて新しい分析を導出する。

In recent years, domains such as natural language processing and image recognition have popularized the paradigm of using large datasets to pretrain representations that can be effectively transferred to downstream tasks. In this work we evaluate how such a paradigm should be done in imitation learning, where both pretraining and finetuning data are trajectories collected by experts interacting with an unknown environment. Namely, we consider a setting where the pretraining corpus consists of multitask demonstrations and the task for each demonstration is set by an unobserved latent context variable. The goal is to use the pretraining corpus to learn a low dimensional representation of the high dimensional (e.g., visual) observation space which can be transferred to a novel context for finetuning on a limited dataset of demonstrations. Among a variety of possible pretraining objectives, we argue that inverse dynamics modeling -- i.e., predicting an action given the observations appearing before and after it in the demonstration -- is well-suited to this setting. We provide empirical evidence of this claim through evaluations on a variety of simulated visuomotor manipulation problems. While previous work has attempted various theoretical explanations regarding the benefit of inverse dynamics modeling, we find that these arguments are insufficient to explain the empirical advantages often observed in our settings, and so we derive a novel analysis using a simple but general environment model.
翻訳日:2023-10-26 20:54:01 公開日:2023-10-25
# 文表現の改善を可能にするインプシットコンテンツの自然言語分解

Natural Language Decompositions of Implicit Content Enable Better Text Representations ( http://arxiv.org/abs/2305.14583v2 )

ライセンス: Link先を確認
Alexander Hoyle, Rupak Sarkar, Pranav Goel, Philip Resnik(参考訳) テキストを解釈する際には、観察された言語自体を超える推論に依存する。 この観察に触発されて,暗黙的に伝達されるコンテンツを明示的に考慮したテキスト分析手法を提案する。 大規模言語モデルを用いて、観察されたテキストと推論的に関連のある命題のセットを作成し、人間の判断によって生成されたコンテンツの妥当性を検証する。 これらの暗黙的コンテンツの明示的な表現は、議論の類似性の評価、意見データの意味付け、立法行動のモデル化など、発話の人間の解釈を含む複数の問題設定において有用である。 本研究は,NLP,特に社会科学への応用において,リテラルテキストのみではなく,観察言語の背後にある意味をモデル化することが有用であることを示す。

When people interpret text, they rely on inferences that go beyond the observed language itself. Inspired by this observation, we introduce a method for the analysis of text that takes implicitly communicated content explicitly into account. We use a large language model to produce sets of propositions that are inferentially related to the text that has been observed, then validate the plausibility of the generated content via human judgments. Incorporating these explicit representations of implicit content proves useful in multiple problem settings that involve the human interpretation of utterances: assessing the similarity of arguments, making sense of a body of opinion data, and modeling legislative behavior. Our results suggest that modeling the meanings behind observed language, rather than the literal text alone, is a valuable direction for NLP and particularly its applications to social science.
翻訳日:2023-10-26 20:53:38 公開日:2023-10-25
# 先見の職は先見の国と同じか? 多言語文埋め込みとヨーロッパ諸国の事例研究

Is a Prestigious Job the same as a Prestigious Country? A Case Study on Multilingual Sentence Embeddings and European Countries ( http://arxiv.org/abs/2305.14482v2 )

ライセンス: Link先を確認
Jind\v{r}ich Libovick\'y(参考訳) 我々は、多言語文表現がヨーロッパ諸国や職業をいかに捉えているか、そしてそれがヨーロッパ諸言語でどのように異なるかを研究する。 分析の結果,東欧と西欧の地政学的特徴と,gdpの面での経済力の差が最も顕著であることが判明した。 職業名声に特化して指示された場合、埋め込みスペースは明らかに高い仕事と低い仕事とを区別する。 職業次元は、4つの研究モデルのうち3つにおいて、最も支配的な国次元とは無関係である。 この例外は、職業的名声と起源の国との関係を示す小さな蒸留モデルであり、国籍に基づく差別の潜在的な源泉である。 我々の発見は言語にまたがって一貫している。

We study how multilingual sentence representations capture European countries and occupations and how this differs across European languages. We prompt the models with templated sentences that we machine-translate into 12 European languages and analyze the most prominent dimensions in the embeddings.Our analysis reveals that the most prominent feature in the embedding is the geopolitical distinction between Eastern and Western Europe and the country's economic strength in terms of GDP. When prompted specifically for job prestige, the embedding space clearly distinguishes high and low-prestige jobs. The occupational dimension is uncorrelated with the most dominant country dimensions in three out of four studied models. The exception is a small distilled model that exhibits a connection between occupational prestige and country of origin, which is a potential source of nationality-based discrimination. Our findings are consistent across languages.
翻訳日:2023-10-26 20:53:25 公開日:2023-10-25
# 猫量子ビット上の変分量子アルゴリズム

Variational quantum algorithms on cat qubits ( http://arxiv.org/abs/2305.14143v3 )

ライセンス: Link先を確認
Anne-Sol\`ene Bornens and Michel Nowak(参考訳) 変分量子アルゴリズム(VQA)は様々な用途に応用されている。 質問の1つは、それらを効率的に実装し、既存のアーキテクチャ上で実行することができるかである。 現在のハードウェアは、制御不能なノイズに悩まされ、1つの計算の期待結果を変更できる。 このノイズの性質は、ある技術と別の技術とは異なっている。 本研究では,本質的にビットフリップに耐性のある技術であるcat qubitsについて検討することを選んだ。 この目的のために,2つのノイズモデルを実装した。 ひとつはハードウェアに依存しない - 異なるハードウェアタイプをカバーするために文献で使用されるという意味で。 2つ目はcat qubitsに特有なものです。 vqas (quantum approximation optimization algorithm (qaoa) とvariatinoal quantum linear soler (vqls)) で定式化できる2種類の問題に対するシミュレーションを行い、コスト関数の進化に対するノイズの影響を調査し、ノイズ耐性のあるレジームを考慮できるノイズレベル閾値を抽出する。 コンパイル問題に対処することで,ハードウェアに依存しないノイズモデルの実装の必要性を論じる。

Variational Quantum Algorithms (VQA) have emerged with a wide variety of applications. One question to ask is either they can efficiently be implemented and executed on existing architectures. Current hardware suffers from uncontrolled noise that can alter the expected results of one calculation. The nature of this noise is different from one technology to another. In this work, we chose to investigate a technology that is intrinsically resilient to bit-flips: cat qubits. To this end, we implement two noise models. The first one is hardware-agnostic -- in the sense that it is used in the literature to cover different hardware types. The second one is specific to cat qubits. We perform simulations on two types of problems that can be formulated with VQAs (Quantum Approximate Optimization Algorithm (QAOA) and the Variatinoal Quantum Linear Soler (VQLS)), study the impact of noise on the evolution of the cost function and extract noise level thresholds from which a noise-resilient regime can be considered. By tackling compilation issues, we discuss the need of implementing hardware-specific noise models as hardware-agnostic ones can lead to misleading conclusions regarding the regime of noise that is acceptable for an algorithm to run.
翻訳日:2023-10-26 20:52:55 公開日:2023-10-25
# S-CLIP:少数のスペシャリストによる半教師付き視覚言語学習

S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions ( http://arxiv.org/abs/2305.14095v2 )

ライセンス: Link先を確認
Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jinwoo Shin(参考訳) 対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。 しかしながら、リモートセンシングなどの専門分野に適用する場合、トレーニングに利用可能な画像テキストペア数が限られているため、これらのモデルでは苦労することが多い。 そこで本稿では,CLIPを訓練するための半教師付き学習手法であるS-CLIPを提案する。 s-clipは、コントラスト学習と言語モダリティに特化した2つの擬似ラベル戦略を採用している。 このキャプションレベルの擬似ラベルは、ペア画像のキャプションの組み合わせにより与えられるもので、ペア画像とペア画像の最適な輸送問題を解く。 キーワードレベルの擬似ラベルは、最も近いペア画像のキャプションのキーワードによって与えられ、正確なラベルではなく、ラベルの候補セットを想定した部分ラベル学習によって訓練される。 これらの目的を組み合わせることで、S-CLIPは、リモートセンシング、ファッション、科学的人物、漫画など、さまざまな専門分野において示されるように、少数の画像テキストペアを使用したCLIPのトレーニングを大幅に強化する。 例えば、s-clipは、ゼロショット分類ではクリップを10%改善し、リモートセンシングベンチマークでは画像テキスト検索では4%改善し、教師付きクリップのパフォーマンスにマッチし、3倍少ない画像テキストペアを使用する。

Vision-language models, such as contrastive language-image pre-training (CLIP), have demonstrated impressive results in natural image domains. However, these models often struggle when applied to specialized domains like remote sensing, and adapting to such domains is challenging due to the limited number of image-text pairs available for training. To address this, we propose S-CLIP, a semi-supervised learning method for training CLIP that utilizes additional unpaired images. S-CLIP employs two pseudo-labeling strategies specifically designed for contrastive learning and the language modality. The caption-level pseudo-label is given by a combination of captions of paired images, obtained by solving an optimal transport problem between unpaired and paired images. The keyword-level pseudo-label is given by a keyword in the caption of the nearest paired image, trained through partial label learning that assumes a candidate set of labels for supervision instead of the exact one. By combining these objectives, S-CLIP significantly enhances the training of CLIP using only a few image-text pairs, as demonstrated in various specialist domains, including remote sensing, fashion, scientific figures, and comics. For instance, S-CLIP improves CLIP by 10% for zero-shot classification and 4% for image-text retrieval on the remote sensing benchmark, matching the performance of supervised CLIP while using three times fewer image-text pairs.
翻訳日:2023-10-26 20:52:33 公開日:2023-10-25
# オープンドメインQAにおけるあいまいさの扱いについて

Asking Clarification Questions to Handle Ambiguity in Open-Domain QA ( http://arxiv.org/abs/2305.13808v2 )

ライセンス: Link先を確認
Dongryeol Lee, Segwang Kim, Minwoo Lee, Hwanhee Lee, Joonsuk Park, Sang-Woo Lee and Kyomin Jung(参考訳) 明確な質問を独特な答えで定式化することは、しばしば困難である。 以前、Min et al. (2020) は曖昧な質問の可能な全ての解釈に対して曖昧な質問を発生させることでこの問題に対処した。 これは効果的であるが、ユーザーに答えを提供するのに理想的ではない。 そこで,我々は,ユーザの意図に最も合致する解釈を特定するのに,ユーザの反応が役立つ明確化質問を提示する。 我々はまず,5,654の曖昧な質問からなるデータセットであるCAMBIGNQを提示する。 説明質問はinstructgptを用いて生成し,必要に応じて手作業で修正することで効率的に作成される。 次にタスクのパイプラインを定義し、適切な評価メトリクスを設計する。 最後に,曖昧性検出では61.3 f1,明確化に基づくqaでは40.5 f1を達成し,今後の作業において強力なベースラインを提供する。

Ambiguous questions persist in open-domain question answering, because formulating a precise question with a unique answer is often challenging. Previously, Min et al. (2020) have tackled this issue by generating disambiguated questions for all possible interpretations of the ambiguous question. This can be effective, but not ideal for providing an answer to the user. Instead, we propose to ask a clarification question, where the user's response will help identify the interpretation that best aligns with the user's intention. We first present CAMBIGNQ, a dataset consisting of 5,654 ambiguous questions, each with relevant passages, possible answers, and a clarification question. The clarification questions were efficiently created by generating them using InstructGPT and manually revising them as necessary. We then define a pipeline of tasks and design appropriate evaluation metrics. Lastly, we achieve 61.3 F1 on ambiguity detection and 40.5 F1 on clarification-based QA, providing strong baselines for future work.
翻訳日:2023-10-26 20:51:21 公開日:2023-10-25
# 教育における人工知能の新しい時代 : 持続可能な多面的革命を目指して

New Era of Artificial Intelligence in Education: Towards a Sustainable Multifaceted Revolution ( http://arxiv.org/abs/2305.18303v2 )

ライセンス: Link先を確認
Firuz Kamalov, David Santandreu Calong, Ikhlaas Gurrib(参考訳) 近年のChatGPTの標準化された学術試験における高性能化は、人工知能(AI)の話題を教育の将来に関する主流の議論へと押し上げた。 深層学習は教育パラダイムをシフトさせる可能性があるため、学校や大学におけるAI駆動技術の持続可能な開発と展開を保証するために、現在の教育システムに対するその影響を明確に理解することが不可欠である。 本研究の目的は、応用、利点、課題の3つの主要な軸にまたがる既存の文献のレビューと分析を通じて、AIが教育に与える影響について調査することである。 本稿では,教師の協調学習における人工知能の利用,学生の学習,知的学習システム,自動評価,パーソナライズドラーニングに焦点をあてる。 また、教育におけるAI導入の潜在的な否定的側面、倫理的問題、将来的なルートについても報告する。 結局のところ、この新技術を採用する唯一の方法は、その悪用を防ぐためにガードレールを実装することだ。

The recent high performance of ChatGPT on several standardized academic tests has thrust the topic of artificial intelligence (AI) into the mainstream conversation about the future of education. As deep learning is poised to shift the teaching paradigm, it is essential to have a clear understanding of its effects on the current education system to ensure sustainable development and deployment of AI-driven technologies at schools and universities. This research aims to investigate the potential impact of AI on education through review and analysis of the existing literature across three major axes: applications, advantages, and challenges. Our review focuses on the use of artificial intelligence in collaborative teacher--student learning, intelligent tutoring systems, automated assessment, and personalized learning. We also report on the potential negative aspects, ethical issues, and possible future routes for AI implementation in education. Ultimately, we find that the only way forward is to embrace the new technology, while implementing guardrails to prevent its abuse.
翻訳日:2023-10-26 20:44:12 公開日:2023-10-25
# 探索の最大化:見積もり、計画、探索を融合した1つの目的関数

Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration ( http://arxiv.org/abs/2305.18258v2 )

ライセンス: Link先を確認
Zhihan Liu, Miao Lu, Wei Xiong, Han Zhong, Hao Hu, Shenao Zhang, Sirui Zheng, Zhuoran Yang, Zhaoran Wang(参考訳) オンライン強化学習(オンラインRL)では、探索と搾取のバランスが、サンプル効率の良い方法で最適なポリシーを見つける上で重要である。 これを実現するために、既存のサンプル効率の高いオンラインRLアルゴリズムは通常、見積もり、計画、探索の3つのコンポーネントから構成される。 しかし、一般関数近似器に対処するためには、データ依存レベルセット内の最適化や複雑なサンプリング手順など、探索をインセンティブにする非現実的なアルゴリズムコンポーネントがほとんどである。 この課題に対処するために、我々は、探索と搾取を自動でバランスしながら、見積もりと計画コンポーネントを統合する単一の目的である \emph{unconstrainedly} を最適化するだけでよい \textit{maximize to explore} (\texttt{mex}) と呼ばれる実装が容易なrlフレームワークを提案する。 理論的には、<texttt{MEX} はマルコフ決定過程(MDP)の一般関数近似によるサブ線形後悔を達成し、さらに2プレイヤーゼロサムマルコフゲーム(MG)に拡張可能である。 一方、deep rlベースラインを適用して、モデルフリーとモデルベースのマナーの両方で、低報酬の様々なmujoco環境において、ベースラインを安定したマージンで上回ることができる、実践的なバージョンの \textt{mex}を設計する。 従来のサンプル効率のよいオンラインRLアルゴリズムと一般関数近似を比較して,より低い計算コストを享受しながら類似のサンプル効率を実現し,最新の深部RL手法との互換性が向上した。

In online reinforcement learning (online RL), balancing exploration and exploitation is crucial for finding an optimal policy in a sample-efficient way. To achieve this, existing sample-efficient online RL algorithms typically consist of three components: estimation, planning, and exploration. However, in order to cope with general function approximators, most of them involve impractical algorithmic components to incentivize exploration, such as optimization within data-dependent level-sets or complicated sampling procedures. To address this challenge, we propose an easy-to-implement RL framework called \textit{Maximize to Explore} (\texttt{MEX}), which only needs to optimize \emph{unconstrainedly} a single objective that integrates the estimation and planning components while balancing exploration and exploitation automatically. Theoretically, we prove that \texttt{MEX} achieves a sublinear regret with general function approximations for Markov decision processes (MDP) and is further extendable to two-player zero-sum Markov games (MG). Meanwhile, we adapt deep RL baselines to design practical versions of \texttt{MEX}, in both model-free and model-based manners, which can outperform baselines by a stable margin in various MuJoCo environments with sparse rewards. Compared with existing sample-efficient online RL algorithms with general function approximations, \texttt{MEX} achieves similar sample efficiency while enjoying a lower computational cost and is more compatible with modern deep RL methods.
翻訳日:2023-10-26 20:43:57 公開日:2023-10-25
# ピスワイズアフィン操作による乗算自由変換器訓練

Multiplication-Free Transformer Training via Piecewise Affine Operations ( http://arxiv.org/abs/2305.17190v2 )

ライセンス: Link先を確認
Atli Kosson, Martin Jaggi(参考訳) 乗算は、ニューラルネットワークのトレーニングと推論に関わる計算コストの大部分に責任がある。 そのため、近年の研究はコスト削減の方法を模索している。 Mogami (2020) にインスパイアされた乗法は、浮動小数点数のビット表現を整数として加えることで実現される安価なアフィン近似に置き換える。 変換器は、視覚と言語の両方のタスクに修正された行列乗法で、ほとんど、あるいは全くパフォーマンスへの影響がなく、トレーニングのハイパーパラメータを変更することなく、トレーニングできることを示す。 入力と重みの両方において、ネットワーク内のすべての非線形性を完全かつ結合的にアフィンに置き換える。 最後に、フォワードパス、後方パス、オプティマイザ更新の操作を含む、トレーニングプロセス全体のすべての乗算を排除できることを示し、完全な乗算フリーの方法で、現代のニューラルネットワークアーキテクチャの最初のトレーニングが成功したことを示す。

Multiplications are responsible for most of the computational cost involved in neural network training and inference. Recent research has thus looked for ways to reduce the cost associated with them. Inspired by Mogami (2020), we replace multiplication with a cheap piecewise affine approximation that is achieved by adding the bit representation of the floating point numbers together as integers. We show that transformers can be trained with the resulting modified matrix multiplications on both vision and language tasks with little to no performance impact, and without changes to the training hyperparameters. We further replace all non-linearities in the networks making them fully and jointly piecewise affine in both inputs and weights. Finally, we show that we can eliminate all multiplications in the entire training process, including operations in the forward pass, backward pass and optimizer update, demonstrating the first successful training of modern neural network architectures in a fully multiplication-free fashion.
翻訳日:2023-10-26 20:43:19 公開日:2023-10-25
# 線形予測器とニューラルネットワークの初期化依存サンプル複雑性

Initialization-Dependent Sample Complexity of Linear Predictors and Neural Networks ( http://arxiv.org/abs/2305.16475v2 )

ライセンス: Link先を確認
Roey Magen and Ohad Shamir(参考訳) ベクトル値線形予測器(行列でパラメータ化)のサンプル複雑性に関する新しい結果と、より一般的にニューラルネットワークについて述べる。 固定参照行列$W_0$からパラメータのフロベニウスノルム距離のみを制御したサイズ非依存境界に着目し、スカラー値線形予測器のよく研究された設定を考えると、サンプル複雑性の挙動が驚くほど異なることを示す。 これはまた、フィードフォワードニューラルネットワークの新たなサンプル複雑性境界につながり、文献で開かれた問題に取り組み、一様収束なしに確実に学習可能な新しい凸線形予測問題を確立する。

We provide several new results on the sample complexity of vector-valued linear predictors (parameterized by a matrix), and more generally neural networks. Focusing on size-independent bounds, where only the Frobenius norm distance of the parameters from some fixed reference matrix $W_0$ is controlled, we show that the sample complexity behavior can be surprisingly different than what we may expect considering the well-studied setting of scalar-valued linear predictors. This also leads to new sample complexity bounds for feed-forward neural networks, tackling some open questions in the literature, and establishing a new convex linear prediction problem that is provably learnable without uniform convergence.
翻訳日:2023-10-26 20:42:37 公開日:2023-10-25
# バンディット非確率制御の最適速度

Optimal Rates for Bandit Nonstochastic Control ( http://arxiv.org/abs/2305.15352v3 )

ライセンス: Link先を確認
Y. Jennifer Sun, Stephen Newman, Elad Hazan(参考訳) LQR(Linear Quadratic Regulator)とLQG(Linear Quadratic Gaussian)の制御は、最適制御における基礎的かつ広範囲に研究された問題である。 半対向摂動と時変対向帯域損失関数のLQRおよびLQG問題について検討した。 最もよく知られている半線形後悔アルゴリズムは$t^{\frac{3}{4}}$の時間軸依存性を持ち、著者らは$\sqrt{t}$のタイトなレートが達成できるかどうかという疑問を投げかけた。 我々は、既知のシステムと未知のシステムの両方において、最適な後悔(対数的要因まで)を達成するLQRとLQGのアルゴリズムを与える。 提案手法の中心的なコンポーネントは,メモリを用いたバンドット凸最適化のための新しいスキームである。

Linear Quadratic Regulator (LQR) and Linear Quadratic Gaussian (LQG) control are foundational and extensively researched problems in optimal control. We investigate LQR and LQG problems with semi-adversarial perturbations and time-varying adversarial bandit loss functions. The best-known sublinear regret algorithm of \cite{gradu2020non} has a $T^{\frac{3}{4}}$ time horizon dependence, and its authors posed an open question about whether a tight rate of $\sqrt{T}$ could be achieved. We answer in the affirmative, giving an algorithm for bandit LQR and LQG which attains optimal regret (up to logarithmic factors) for both known and unknown systems. A central component of our method is a new scheme for bandit convex optimization with memory, which is of independent interest.
翻訳日:2023-10-26 20:42:13 公開日:2023-10-25
# ReLUニューラルネットワークにおけるテンペレからベネインオーバーフィッティングへ

From Tempered to Benign Overfitting in ReLU Neural Networks ( http://arxiv.org/abs/2305.15141v2 )

ライセンス: Link先を確認
Guy Kornowski, Gilad Yehudai, Ohad Shamir(参考訳) 過パラメータニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化する。 この現象は、補間予測器が最適に近い性能を達成する「ベニグナーオーバーフィッティング(benign overfitting)」という大きな仕事の動機となった。 近年, NNの動作は, 最適ではないが非自明であり, ノイズレベルの関数として劣化する, オーバーフィッティング(tempered overfitting)と表現されることが予想され, 実証的に確認されている。 しかし、非線形NNに対するこの主張の理論的正当性は今のところ欠落している。 本稿では,これら補完的視点の橋渡しを目的としたいくつかの結果について述べる。 本研究では, 2層relu nnを用いた簡易な分類法について検討し, 種々の仮定の下では, 1次元データの極端な場合の温和化から高次元の良性への過フィッティング遷移のタイプを証明した。 したがって、入力次元は、この設定におけるオーバーフィッティングのタイプに重要な役割を持ち、中間次元についても経験的に検証する。 全体として、我々の結果は、寸法、サンプルサイズ、アーキテクチャとトレーニングアルゴリズムの間の複雑な接続と、他方では結果が過度に適合するタイプに光を当てた。

Overparameterized neural networks (NNs) are observed to generalize well even when trained to perfectly fit noisy data. This phenomenon motivated a large body of work on "benign overfitting", where interpolating predictors achieve near-optimal performance. Recently, it was conjectured and empirically observed that the behavior of NNs is often better described as "tempered overfitting", where the performance is non-optimal yet also non-trivial, and degrades as a function of the noise level. However, a theoretical justification of this claim for non-linear NNs has been lacking so far. In this work, we provide several results that aim at bridging these complementing views. We study a simple classification setting with 2-layer ReLU NNs, and prove that under various assumptions, the type of overfitting transitions from tempered in the extreme case of one-dimensional data, to benign in high dimensions. Thus, we show that the input dimension has a crucial role on the type of overfitting in this setting, which we also validate empirically for intermediate dimensions. Overall, our results shed light on the intricate connections between the dimension, sample size, architecture and training algorithm on the one hand, and the type of resulting overfitting on the other hand.
翻訳日:2023-10-26 20:41:55 公開日:2023-10-25
# 永続ホモロジーを用いたデータセットのクラス分離性の推定とLLMファインチューニングへの応用

Estimating Class Separability of Datasets Using Persistent Homology with Application to LLM Fine-Tuning ( http://arxiv.org/abs/2305.15016v3 )

ライセンス: Link先を確認
Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime Labonne, Joseph Sabelja(参考訳) 本稿では,テキストの文変換器埋め込みのトポロジ特性を検査することにより,ラベルなしテキストデータセットのクラス分離性を推定する手法を提案する。 実験は、バランスの取れたシナリオと不均衡なシナリオを持つ、バイナリケースとマルチクラスケースの両方を含む。 結果は,ロジスティック回帰分類器のソーントン法やAUCスコア,および教師なし手法など,提案手法と他の分離性および分類指標との明確な相関と整合性を示す。 最後に,提案手法が言語モデル分類器の停止基準の一部となることを実証的に示す。 各トレーニングイテレーション後の埋め込み空間のクラス分離性を監視することで、トレーニングプロセスが追加ラベルを使わずに埋め込みの分離性を改善するのをやめたことを検出できる。

This paper proposes a method to estimate the class separability of an unlabeled text dataset by inspecting the topological characteristics of sentence-transformer embeddings of the text. Experiments conducted involve both binary and multi-class cases, with balanced and imbalanced scenarios. The results demonstrate a clear correlation and a better consistency between the proposed method and other separability and classification metrics, such as Thornton's method and the AUC score of a logistic regression classifier, as well as unsupervised methods. Finally, we empirically show that the proposed method can be part of a stopping criterion for fine-tuning language-model classifiers. By monitoring the class separability of the embedding space after each training iteration, we can detect when the training process stops improving the separability of the embeddings without using additional labels.
翻訳日:2023-10-26 20:41:31 公開日:2023-10-25
# コントラスト拡散オートエンコーダを用いた解釈型アルツハイマー病分類

Interpretable Alzheimer's Disease Classification Via a Contrastive Diffusion Autoencoder ( http://arxiv.org/abs/2306.03022v2 )

ライセンス: Link先を確認
Ayodeji Ijishakin, Ahmed Abdulaal, Adamos Hadjivasiliou, Sophie Martin, James Cole(参考訳) 視覚オブジェクトの分類において、人間はしばしば、そのクラス内の原型的な例と比較することで、その選択を正当化する。 したがって,類似の推論スタイルを付与することで,深層学習モデルの解釈可能性を高めることができる。 本研究では,画像の類似性に基づくアルツハイマー病の分類を潜在空間での訓練例に適用する。 コントラスト損失と拡散オートエンコーダバックボーンを併用して意味的に有意味な潜在空間を作り、近傍の潜在者が類似した画像レベルの特徴を持つようにする。 2次元mri画像のデータセット上でブラックボックスアプローチに匹敵する分類精度を実現し,人間の解釈可能なモデル記述を生成する。 したがって、この研究は、医用画像における正確かつ解釈可能な深層学習の発展に寄与するものである。

In visual object classification, humans often justify their choices by comparing objects to prototypical examples within that class. We may therefore increase the interpretability of deep learning models by imbuing them with a similar style of reasoning. In this work, we apply this principle by classifying Alzheimer's Disease based on the similarity of images to training examples within the latent space. We use a contrastive loss combined with a diffusion autoencoder backbone, to produce a semantically meaningful latent space, such that neighbouring latents have similar image-level features. We achieve a classification accuracy comparable to black box approaches on a dataset of 2D MRI images, whilst producing human interpretable model explanations. Therefore, this work stands as a contribution to the pertinent development of accurate and interpretable deep learning within medical imaging.
翻訳日:2023-10-26 20:32:05 公開日:2023-10-25
# Video-LLaMA: 映像理解のための命令調整型オーディオ・ビジュアル言語モデル

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding ( http://arxiv.org/abs/2306.02858v4 )

ライセンス: Link先を確認
Hang Zhang, Xin Li, Lidong Bing(参考訳) 本稿では,大規模言語モデル(llm)に映像中の視覚と聴覚の両方のコンテンツを理解させる機能を備えたマルチモーダルフレームワークであるvideo-llamaを提案する。 video-llamaは、凍結学習済みのビジュアルおよびオーディオエンコーダと凍結したllmからのクロスモーダルトレーニングをブートストラップする。 LLMを補完して視覚信号や音声信号のみを処理する従来の作品とは異なり、Video-LLaMAは、(1)映像シーンの時間的変化、(2)音声視覚信号の統合という2つの課題に取り組むことで、映像理解を可能にする。 最初の課題に対処するため,ビデオエンコーダにトレーニング済みの画像エンコーダを組み込むためのビデオQ-formerを提案し,ビデオ言語対応学習のためのビデオ・テキスト生成タスクを導入する。 第2の課題として,事前学習されたオーディオエンコーダとして,複数のモダリティを整合させた汎用組込みモデルであるimagebindを,imagebind上にオーディオqフォーマを導入することで,llmモジュールの適切な聴覚クエリ組込みを学習する。 映像エンコーダとオーディオエンコーダの出力をLLMの埋め込み空間に合わせるため,ビデオララマを大量のビデオ/画像キャプチャーペアでトレーニングし,適度だが高品質なビジュアルインストラクションデータセットでモデルを調整する。 ビデオ-LLaMAは,映像内容の認識と理解能力を示し,映像に提示される視覚的・聴覚的情報に基づく有意義な応答を生成する。

We present Video-LLaMA a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual and audio encoders and the frozen LLMs. Unlike previous works that complement LLMs to process the visual or audio signals only, Video-LLaMA enables video comprehension by tackling two challenges: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. To counter the first challenge, we propose a Video Q-former to assemble a pre-trained image encoder into our video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind, a universal embedding model aligning multiple modalities, as the pre-trained audio encoder and introduce an Audio Q-former on top of ImageBind to learn reasonable auditory query embeddings for the LLM module. To align the output of both visual and audio encoders with LLM's embedding space, we first train Video-LLaMA on massive video/image-caption pairs and then tune our model with visual-instruction datasets of moderate amount but higher quality. We found Video-LLaMA shows the ability to perceive and comprehend video content and generate meaningful responses grounded in the visual and auditory information presented in the videos.
翻訳日:2023-10-26 20:31:52 公開日:2023-10-25
# 自己監督型モデル行動一貫性による時系列記述の符号化

Encoding Time-Series Explanations through Self-Supervised Model Behavior Consistency ( http://arxiv.org/abs/2306.02109v2 )

ライセンス: Link先を確認
Owen Queen, Thomas Hartvigsen, Teddy Koker, Huan He, Theodoros Tsiligkaridis, Marinka Zitnik(参考訳) 時系列モデルの解釈は、モデル予測を駆動する時系列信号の位置と解釈可能な時間パターンとのマッチングの両方を特定する必要があるため、一意に難しい。 他のモダリティからの説明は時系列に適用できるが、その帰納的バイアスは本質的に挑戦的な時系列解釈にうまく移行しない。 トレーニング説明書の時系列一貫性モデルであるTimeXを提案する。 TimeXは、事前訓練された時系列モデルの振る舞いを模倣するために解釈可能なサロゲートを訓練する。 モデル行動整合性(モデル行動整合性、英: model behavior consistency)は、事前訓練されたモデルによって誘導される潜在空間と、TimeXによって誘導される潜在空間の関係を保存する新しい定式化である。 TimeXは個別の属性マップを提供し、既存の解釈可能性法とは異なり、同様の説明を視覚的に集約し、時間的パターンを容易に認識するランドマークを提供するなど、様々な方法で使用できる説明の潜在空間を学習する。 8つの合成データと実世界のデータセットでtimexを評価し,その性能を最先端の解釈法と比較した。 また,生理的時系列を用いたケーススタディも実施する。 定量的評価では、TimeXは、すべてのデータセットのベースラインと比較して、各メトリックで最高または2番目に高いパフォーマンスを達成する。 ケーススタディを通じて,事前学習された時系列モデルの挙動を捉えた,忠実で解釈可能なモデルの訓練の可能性を示す。

Interpreting time series models is uniquely challenging because it requires identifying both the location of time series signals that drive model predictions and their matching to an interpretable temporal pattern. While explainers from other modalities can be applied to time series, their inductive biases do not transfer well to the inherently challenging interpretation of time series. We present TimeX, a time series consistency model for training explainers. TimeX trains an interpretable surrogate to mimic the behavior of a pretrained time series model. It addresses the issue of model faithfulness by introducing model behavior consistency, a novel formulation that preserves relations in the latent space induced by the pretrained model with relations in the latent space induced by TimeX. TimeX provides discrete attribution maps and, unlike existing interpretability methods, it learns a latent space of explanations that can be used in various ways, such as to provide landmarks to visually aggregate similar explanations and easily recognize temporal patterns. We evaluate TimeX on eight synthetic and real-world datasets and compare its performance against state-of-the-art interpretability methods. We also conduct case studies using physiological time series. Quantitative evaluations demonstrate that TimeX achieves the highest or second-highest performance in every metric compared to baselines across all datasets. Through case studies, we show that the novel components of TimeX show potential for training faithful, interpretable models that capture the behavior of pretrained time series models.
翻訳日:2023-10-26 20:31:23 公開日:2023-10-25
# テキストと画像のモデルの性能を予測するトレーニング

Training Priors Predict Text-To-Image Model Performance ( http://arxiv.org/abs/2306.01755v2 )

ライセンス: Link先を確認
Charles Lovering and Ellie Pavlick(参考訳) テキストから画像へのモデルは、しばしばいくつかの関係、すなわち"astronaut riding horse"を生成するが、同じ基本部分からなる他の関係、すなわち" horse riding astronaut"を生成することができない。 これらの失敗は、モデルが新しいイメージを合成的に構築するのではなく、トレーニング先行に頼っているという証拠としてしばしば見なされる。 本稿では,この直観をStablediffusion 2.1 text-to-imageモデルで検証する。 これらのプロンプト(例: "astronaut", "ride", " horse")の下にあるsubject-verb-object (svo)トライアドを見ると、トレーニングデータにsvoトライアドが頻繁に現れるほど、モデルがそのトライアドに合わせたイメージを生成することができる。 ここでは、各項が互いに適切な関係で生成された画像に現れることを意味する。 驚くべきことに、この周波数の増加は、モデルがフリップした三脚と整列した画像をいかにうまく生成できるかを低下させる。 例えば、トレーニングデータに"astronaut riding horse"が頻繁に現れる場合、" horse riding astronaut"のイメージは不十分なアライメントになる傾向がある。 以上の結果から,現行のモデルでは,トレーニングで見られる関係を持つ画像の生成にバイアスがかかり,これらのテキスト・ツー・イメージモデルが従来の意味で抽象的な構成構造を採用するのか,あるいはトレーニングデータで明確に見られる関係間の補間を行うのか,という議論が続いている。

Text-to-image models can often generate some relations, i.e., "astronaut riding horse", but fail to generate other relations composed of the same basic parts, i.e., "horse riding astronaut". These failures are often taken as evidence that models rely on training priors rather than constructing novel images compositionally. This paper tests this intuition on the stablediffusion 2.1 text-to-image model. By looking at the subject-verb-object (SVO) triads that underlie these prompts (e.g., "astronaut", "ride", "horse"), we find that the more often an SVO triad appears in the training data, the better the model can generate an image aligned with that triad. Here, by aligned we mean that each of the terms appears in the generated image in the proper relation to each other. Surprisingly, this increased frequency also diminishes how well the model can generate an image aligned with the flipped triad. For example, if "astronaut riding horse" appears frequently in the training data, the image for "horse riding astronaut" will tend to be poorly aligned. Our results thus show that current models are biased to generate images with relations seen in training, and provide new data to the ongoing debate on whether these text-to-image models employ abstract compositional structure in a traditional sense, or rather, interpolate between relations explicitly seen in the training data.
翻訳日:2023-10-26 20:30:57 公開日:2023-10-25
# 神経誘導的シンボリック抽象化による解釈可能かつ説明可能な論理ポリシー

Interpretable and Explainable Logical Policies via Neurally Guided Symbolic Abstraction ( http://arxiv.org/abs/2306.01439v2 )

ライセンス: Link先を確認
Quentin Delfosse, Hikaru Shindo, Devendra Dhami, Kristian Kersting(参考訳) ニューラルネットワークが必要とする制限された事前条件は、強化学習(RL)を使用してポリシーをエンコードし、学習する支配的な選択となる。 しかし、それらはブラックボックスであり、特に画像レベルで作業する場合、エージェントの振る舞いを理解するのが難しくなる。 したがって、ニューロシンボリックRLは、そもそも解釈可能なポリシーを作成することを目的としている。 残念ながら、解釈は説明できない。 両者を両立させるため,Nurally gUided Differentiable loGic policiEs (NUDGE)を導入する。 NUDGEは、トレーニングされたニューラルネットワークベースのエージェントを使用して、候補重み付けされたロジックルールの探索をガイドし、差別化可能なロジックを使用してロジックエージェントをトレーニングする。 実験により, NUDGEエージェントは, 純粋に神経性に優れ, 初期状態や問題の大きさの異なる環境に対して良好な柔軟性を示しながら, 解釈可能かつ説明可能なポリシーを誘導できることを示した。

The limited priors required by neural networks make them the dominating choice to encode and learn policies using reinforcement learning (RL). However, they are also black-boxes, making it hard to understand the agent's behaviour, especially when working on the image level. Therefore, neuro-symbolic RL aims at creating policies that are interpretable in the first place. Unfortunately, interpretability is not explainability. To achieve both, we introduce Neurally gUided Differentiable loGic policiEs (NUDGE). NUDGE exploits trained neural network-based agents to guide the search of candidate-weighted logic rules, then uses differentiable logic to train the logic agents. Our experimental evaluation demonstrates that NUDGE agents can induce interpretable and explainable policies while outperforming purely neural ones and showing good flexibility to environments of different initial states and problem sizes.
翻訳日:2023-10-26 20:30:28 公開日:2023-10-25
# LoCoOp: プロンプト学習による分布検出

LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning ( http://arxiv.org/abs/2306.01293v3 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa(参考訳) 本稿では,数発のアウト・オブ・ディストリビューション(OOD)検出のための新しい視覚言語プロンプト学習手法を提案する。 OOD検出は、トレーニング中に見つからないクラスから、少数のラベル付きIDイメージを使用してOOD画像を検出することを目的としている。 CoOpのような素早い学習手法は、数発のID分類において有効性と効率性を示しているが、テキスト埋め込みにおけるID関連情報の存在の可能性から、OOD検出の制限に直面している。 この問題を解決するために、トレーニング中にCLIPローカル機能の一部をOOD機能として利用するOOD正規化を行うLoCoOp(Local regularized Context Optimization)という新しいアプローチを導入する。 CLIPのローカル機能は、ID非関連なニュアンス(例えば、バックグラウンド)が多く、IDクラステキストの埋め込みからそれらを押し離すことで、IDクラステキストの埋め込みにあるニュアンスを取り除き、IDとOODの分離を強化することができる。 大規模なImageNet OOD検出ベンチマークの実験では、ゼロショットで完全に教師付き検出方法と迅速な学習方法よりも、LoCoOpの方が優れていることが示された。 特に、クラス毎に1つのラベルを持つワンショット設定であっても、LoCoOpは既存のゼロショットと完全に教師付き検出メソッドよりも優れています。 コードはhttps://github.com/AtsuMiyai/LoCoOp.comから入手できる。

We present a novel vision-language prompt learning approach for few-shot out-of-distribution (OOD) detection. Few-shot OOD detection aims to detect OOD images from classes that are unseen during training using only a few labeled in-distribution (ID) images. While prompt learning methods such as CoOp have shown effectiveness and efficiency in few-shot ID classification, they still face limitations in OOD detection due to the potential presence of ID-irrelevant information in text embeddings. To address this issue, we introduce a new approach called Local regularized Context Optimization (LoCoOp), which performs OOD regularization that utilizes the portions of CLIP local features as OOD features during training. CLIP's local features have a lot of ID-irrelevant nuisances (e.g., backgrounds), and by learning to push them away from the ID class text embeddings, we can remove the nuisances in the ID class text embeddings and enhance the separation between ID and OOD. Experiments on the large-scale ImageNet OOD detection benchmarks demonstrate the superiority of our LoCoOp over zero-shot, fully supervised detection methods and prompt learning methods. Notably, even in a one-shot setting -- just one label per class, LoCoOp outperforms existing zero-shot and fully supervised detection methods. The code will be available via https://github.com/AtsuMiyai/LoCoOp.
翻訳日:2023-10-26 20:30:11 公開日:2023-10-25
# 動的プログラミングを用いた最適決定木の必要十分条件

Necessary and Sufficient Conditions for Optimal Decision Trees using Dynamic Programming ( http://arxiv.org/abs/2305.19706v2 )

ライセンス: Link先を確認
Jacobus G. M. van der Linden, Mathijs M. de Weerdt, Emir Demirovi\'c(参考訳) 決定木のグローバル最適化は、正確性、大きさ、その結果、人間の理解性の観点から有望であることが示されている。 しかし、使用するメソッドの多くは、スケーラビリティが問題である汎用解法に依存している。 動的プログラミング手法は、サブツリーを独立したサブプロブレムとして解くことによってツリー構造を利用するため、はるかに拡張されている。 しかし、これは目的が別々にサブツリーに最適化できる場合にのみ機能する。 この関係を詳細に検討し、そのような分離性に必要な条件を示し、従来の動的プログラミングアプローチを、分離可能な目的と制約の組み合わせを最適化できるフレームワークに一般化する。 5つのアプリケーションドメインにおける実験により、このフレームワークの一般的な適用性が示され、汎用解法のスケーラビリティを大きく上回っている。

Global optimization of decision trees has shown to be promising in terms of accuracy, size, and consequently human comprehensibility. However, many of the methods used rely on general-purpose solvers for which scalability remains an issue. Dynamic programming methods have been shown to scale much better because they exploit the tree structure by solving subtrees as independent subproblems. However, this only works when an objective can be optimized separately for subtrees. We explore this relationship in detail and show necessary and sufficient conditions for such separability and generalize previous dynamic programming approaches into a framework that can optimize any combination of separable objectives and constraints. Experiments on five application domains show the general applicability of this framework, while outperforming the scalability of general-purpose solvers by a large margin.
翻訳日:2023-10-26 20:29:25 公開日:2023-10-25
# グラフメタ学習のための教師なしエピソード生成

Unsupervised Episode Generation for Graph Meta-learning ( http://arxiv.org/abs/2306.15217v2 )

ライセンス: Link先を確認
Jihyeong Jung, Sangwoo Seo, Sungwon Kim and Chanyoung Park(参考訳) ラベルなしのメタラーニングにより,fsncタスクを解決するための教師なしエピソード生成手法について検討した。 fsncのための支配的なメタラーニング手法は、トレーニングのための多様なベースクラスから豊富なラベル付きノードの存在下で開発されたが、実世界では得られない可能性がある。 グラフメタラーニングにおけるラベル・スカーシティ問題にいくつかの研究が取り組もうとしたが、それでもいくつかのラベル付きノードに依存しており、グラフ内のすべてのノードの情報を完全に活用できない。 ラベル情報を使用しないFSNCタスクにおけるグラフコントラッシブラーニング(GCL)手法の有効性にもかかわらず、主にダウンストリームタスクを考慮せずにジェネリックノード埋め込みを学習し、FSNCタスクのパフォーマンスを制限できる可能性がある。 そこで本稿では,FSNCタスクにおけるメタラーニングの一般化能力の恩恵を受けるため,ラベル・スカルシティ問題を解消しつつ,単純かつ効果的なエピソード生成手法を提案する。 提案手法はNeighbors as Queries (NaQ) と呼ばれ,ノード-ノード類似性に基づくトレーニングエピソードを生成する。 さらに、NaQはモデルに依存しないため、既存の教師なしグラフメタ学習メソッドを教師なしでトレーニングするのに使用することができる。 広範な実験結果から,fsncタスクに対するグラフメタラーニングのための教師なしエピソード生成手法の可能性を示した。 私たちのコードは、https://github.com/JhngJng/NaQ-PyTorchで利用可能です。

We investigate Unsupervised Episode Generation methods to solve Few-Shot Node-Classification (FSNC) task via Meta-learning without labels. Dominant meta-learning methodologies for FSNC were developed under the existence of abundant labeled nodes from diverse base classes for training, which however may not be possible to obtain in the real-world. Although a few studies tried to tackle the label-scarcity problem in graph meta-learning, they still rely on a few labeled nodes, which hinders the full utilization of the information of all nodes in a graph. Despite the effectiveness of graph contrastive learning (GCL) methods in the FSNC task without using the label information, they mainly learn generic node embeddings without consideration of the downstream task to be solved, which may limit its performance in the FSNC task. To this end, we propose a simple yet effective unsupervised episode generation method to benefit from the generalization ability of meta-learning for the FSNC task, while resolving the label-scarcity problem. Our proposed method, called Neighbors as Queries (NaQ), generates training episodes based on pre-calculated node-node similarity. Moreover, NaQ is model-agnostic; hence, it can be used to train any existing supervised graph meta-learning methods in an unsupervised manner, while not sacrificing much of their performance or sometimes even improving them. Extensive experimental results demonstrate the potential of our unsupervised episode generation methods for graph meta-learning towards the FSNC task. Our code is available at: https://github.com/JhngJng/NaQ-PyTorch
翻訳日:2023-10-26 20:23:47 公開日:2023-10-25
# DiffInfinite: Parallel Random Patch Diffusionによる大きなマスク画像合成

DiffInfinite: Large Mask-Image Synthesis via Parallel Random Patch Diffusion in Histopathology ( http://arxiv.org/abs/2306.13384v2 )

ライセンス: Link先を確認
Marco Aversa, Gabriel Nobis, Miriam H\"agele, Kai Standvoss, Mihaela Chirica, Roderick Murray-Smith, Ahmed Alaa, Lukas Ruff, Daniela Ivanova, Wojciech Samek, Frederick Klauschen, Bruno Sanguinetti, Luis Oala(参考訳) 長距離相関構造情報を保存しながら任意に大きな組織像を生成する階層拡散モデルdiffinfiniteを提案する。 提案手法は,まず合成セグメンテーションマスクを生成し,その後高忠実度生成拡散過程の条件として用いる。 提案手法は,任意の画像サイズにスケールアップできるが,高速トレーニングには小さなパッチのみが必要である。 さらに、ティリングアーティファクトを避けつつ、以前の大規模なコンテンツ生成メソッドよりも効率的に並列化することができる。 このトレーニングでは、分類器なしのガイダンスを活用して、小さな、わずかに注釈付けされたデータセットを、ラベルのないデータで拡張する。 本手法は, 大規模情報, 高価な手動アノテーション, 保護データ処理など, 病理画像学の実践における固有の課題を軽減する。 DiffInfinite データの生物学的妥当性は,10人の経験者,下流分類・分節課題によって評価された。 モデルから得られたサンプルは、患者データの保護に関連するアンチコピー指標に強く依存する。

We present DiffInfinite, a hierarchical diffusion model that generates arbitrarily large histological images while preserving long-range correlation structural information. Our approach first generates synthetic segmentation masks, subsequently used as conditions for the high-fidelity generative diffusion process. The proposed sampling method can be scaled up to any desired image size while only requiring small patches for fast training. Moreover, it can be parallelized more efficiently than previous large-content generation methods while avoiding tiling artifacts. The training leverages classifier-free guidance to augment a small, sparsely annotated dataset with unlabelled data. Our method alleviates unique challenges in histopathological imaging practice: large-scale information, costly manual annotation, and protective data handling. The biological plausibility of DiffInfinite data is evaluated in a survey by ten experienced pathologists as well as a downstream classification and segmentation task. Samples from the model score strongly on anti-copying metrics which is relevant for the protection of patient data.
翻訳日:2023-10-26 20:23:17 公開日:2023-10-25
# 単調ではない:過剰パラメータモデルにおける確率線探索の緩和

Don't be so Monotone: Relaxing Stochastic Line Search in Over-Parameterized Models ( http://arxiv.org/abs/2306.12747v2 )

ライセンス: Link先を確認
Leonardo Galli, Holger Rauhut, Mark Schmidt(参考訳) 近年の研究では,SGDとAdamの線形探索手法が,現代の過パラメータ設定において高速化できることが示されている。 しかしながら、既存の行探索は、(ミニ)バッチの目的関数の単調な減少を必要とするため、必要よりも小さいステップを取ることができる。 この条件を緩和し、より大きなステップサイズを受け入れるために、モノトーンライン探索法を探索する。 単調な減少の欠如にもかかわらず、単調の場合と同様に収束速度が速いことが証明される。 実験により,SGD/Adamの収束速度と一般化特性は,従来の単調線探索を超えていることがわかった。 本稿では,非単トン線探索とPolyak初期ステップサイズを組み合わせたPolyak NOnmonotone Stochastic (PoNoS)法を提案する。 さらに,大規模な初期ステップサイズを維持しながら,ほとんどのイテレーションにおいてバックトラックの量をゼロに削減する,新たなリセット手法を開発した。 我々の知る限り、最初の実行時比較では、行探索に基づく手法のエポックな優位性が全体的な計算時間に反映されることが示されている。

Recent works have shown that line search methods can speed up Stochastic Gradient Descent (SGD) and Adam in modern over-parameterized settings. However, existing line searches may take steps that are smaller than necessary since they require a monotone decrease of the (mini-)batch objective function. We explore nonmonotone line search methods to relax this condition and possibly accept larger step sizes. Despite the lack of a monotonic decrease, we prove the same fast rates of convergence as in the monotone case. Our experiments show that nonmonotone methods improve the speed of convergence and generalization properties of SGD/Adam even beyond the previous monotone line searches. We propose a POlyak NOnmonotone Stochastic (PoNoS) method, obtained by combining a nonmonotone line search with a Polyak initial step size. Furthermore, we develop a new resetting technique that in the majority of the iterations reduces the amount of backtracks to zero while still maintaining a large initial step size. To the best of our knowledge, a first runtime comparison shows that the epoch-wise advantage of line-search-based methods gets reflected in the overall computational time.
翻訳日:2023-10-26 20:22:25 公開日:2023-10-25
# 量子分類器を用いた複数分類タスクに対する普遍的逆摂動

Universal adversarial perturbations for multiple classification tasks with quantum classifiers ( http://arxiv.org/abs/2306.11974v3 )

ライセンス: Link先を確認
Yun-Zhong Qiu(参考訳) 量子敵対機械学習は、量子学習システムの脆弱性を敵の摂動に対して研究し、防御戦略を開発する新興分野である。 量子普遍的逆転摂動は小さな摂動であり、異なる入力サンプルを与えられた量子分類器を欺く可能性のある逆転例にすることができる。 なぜなら、普遍的な摂動は悪意のある攻撃を大いに単純化し、量子機械学習モデルに予期せぬ破壊をもたらす可能性があるからだ。 本稿では,不均質な分類タスクの文脈において,量子普遍摂動を探求する。 特に、2つの異なる分類タスクでほぼ最先端の精度を達成する量子分類器は、2つの注意深く作られた普遍的な摂動によって決定的に欺くことができる。 この結果は、破滅的な忘れ込みを避けるために、弾性重み付け法を用いたよく設計された量子連続学習モデルと、手書きの数字と医療MRI画像からの実生活における異種データセットで明確に示されている。 この結果から,不均一な分類課題に対する普遍的摂動を簡便かつ効率的に生成し,将来の量子学習技術に有用なガイダンスを提供することができた。

Quantum adversarial machine learning is an emerging field that studies the vulnerability of quantum learning systems against adversarial perturbations and develops possible defense strategies. Quantum universal adversarial perturbations are small perturbations, which can make different input samples into adversarial examples that may deceive a given quantum classifier. This is a field that was rarely looked into but worthwhile investigating because universal perturbations might simplify malicious attacks to a large extent, causing unexpected devastation to quantum machine learning models. In this paper, we take a step forward and explore the quantum universal perturbations in the context of heterogeneous classification tasks. In particular, we find that quantum classifiers that achieve almost state-of-the-art accuracy on two different classification tasks can be both conclusively deceived by one carefully-crafted universal perturbation. This result is explicitly demonstrated with well-designed quantum continual learning models with elastic weight consolidation method to avoid catastrophic forgetting, as well as real-life heterogeneous datasets from hand-written digits and medical MRI images. Our results provide a simple and efficient way to generate universal perturbations on heterogeneous classification tasks and thus would provide valuable guidance for future quantum learning technologies.
翻訳日:2023-10-26 20:21:38 公開日:2023-10-25
# 測定の最適化による暗カウント効果の低減

Reduce dark count effects by optimizing measurements ( http://arxiv.org/abs/2306.10525v2 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子タスクを実践する場合、デバイスの不完全性を考慮する必要がある。 中でも、重要かつ未解決な問題の1つは、単一光子検出器によるダークカウント効果である。 本稿では,これらの問題を考察し,実用的検出器を用いた暗視計数効果のロバスト性を反映した測定の新たな最適性を定義する。 また、一般計測のための最適化スキームを提供する。 この研究は、測定値の選択を最適化してダークカウント効果を扱おうとする最初の研究であり、この問題はスキームによって軽減できると信じている。

When implementing quantum tasks practically, the imperfection of devices should take into account. Among all, One of the significant but unsolved problems is the dark count effect caused by single photon detectors. In this paper, we consider such an issue and define a new optimality for measurements, reflecting the robustness in dark count effects with practical detectors. Also, an optimization scheme for general measurements is provided. This research could be the first one trying to handle dark count effects based on optimizing the choice of measurements, and we believe that the problem can be reduced by the scheme.
翻訳日:2023-10-26 20:21:14 公開日:2023-10-25
# ジャコビアン行列とリプシッツ定数による深層学習の最適化

Understanding Optimization of Deep Learning via Jacobian Matrix and Lipschitz Constant ( http://arxiv.org/abs/2306.09338v2 )

ライセンス: Link先を確認
Xianbiao Qi, Jianan Wang and Lei Zhang(参考訳) 本稿では、ディープラーニングにおける最適化の包括的理解を提供し、勾配消滅と勾配爆発の課題に主に焦点をあて、モデル表現能力の低下とトレーニング不安定性をそれぞれ引き起こす。 この2つの課題を,勾配流の改善やネットワークのリプシッツ定数に対する制約の付与など,いくつかの戦略的手法を用いて分析する。 現在の最適化手法を理解するために、明示的な最適化と暗黙的な最適化の2つのクラスに分類する。 明示的な最適化手法は、重み、勾配、学習率、体重減少などの最適化パラメータを直接操作する。 対照的に暗黙的最適化手法は、残差ショートカット、正規化方法、注意機構、アクティベーションといったモジュールを拡張して、ネットワーク全体の景観を改善することに焦点を当てている。 本稿では,これら2つの最適化クラスを詳細に分析し,多種多様なディープラーニングモジュールのヤコビ行列とリプシッツ定数の徹底的な検討を行い,既存の問題と潜在的な改善点を強調した。 さらに、理論的な議論を裏付ける一連の分析実験も実施する。 この記事では、新しいオプティマイザやネットワークを提案することを目的としていない。 むしろ、深層学習における最適化の包括的理解を示すことを意図しています。 この記事は読者がこの分野の深い洞察を得ることを支援し、より堅牢で効率的でハイパフォーマンスなモデルの開発を促進することを望んでいる。

This article provides a comprehensive understanding of optimization in deep learning, with a primary focus on the challenges of gradient vanishing and gradient exploding, which normally lead to diminished model representational ability and training instability, respectively. We analyze these two challenges through several strategic measures, including the improvement of gradient flow and the imposition of constraints on a network's Lipschitz constant. To help understand the current optimization methodologies, we categorize them into two classes: explicit optimization and implicit optimization. Explicit optimization methods involve direct manipulation of optimizer parameters, including weight, gradient, learning rate, and weight decay. Implicit optimization methods, by contrast, focus on improving the overall landscape of a network by enhancing its modules, such as residual shortcuts, normalization methods, attention mechanisms, and activations. In this article, we provide an in-depth analysis of these two optimization classes and undertake a thorough examination of the Jacobian matrices and the Lipschitz constants of many widely used deep learning modules, highlighting existing issues as well as potential improvements. Moreover, we also conduct a series of analytical experiments to substantiate our theoretical discussions. This article does not aim to propose a new optimizer or network. Rather, our intention is to present a comprehensive understanding of optimization in deep learning. We hope that this article will assist readers in gaining a deeper insight in this field and encourages the development of more robust, efficient, and high-performing models.
翻訳日:2023-10-26 20:21:05 公開日:2023-10-25
# 国家間における市民不安の相転移と時間的変化

Phase Transitions of Civil Unrest across Countries and Time ( http://arxiv.org/abs/2306.08698v2 )

ライセンス: Link先を確認
Dan Braha(参考訳) 組織のマクロなパターン間の急激なシフトを特徴とする相転移は、複雑なシステムにおいてユビキタスである。 物理科学や自然科学の研究は多いが、社会システムにおけるこの現象の実証的研究は比較的未発達である。 本研究の目的は,集団的市民不安のダイナミクスが,再帰的位相シフトの系列として,各フェーズが測定可能かつ識別可能な潜在性を有することを明らかにすることにある。 1946年から2017年までの170か国における市民不安の総合データセットを用いて,市民不安のマクロレベルの統計モデルを導入し,その可能性を評価する。 以上の結果から,マクロレベルの位相モデルは,世界各国の市民不安データの特徴を効果的に捉え,普遍的なメカニズムは市民不安のダイナミクスの特定の側面を裏付ける可能性がある。 また,国家の時間単位当たりの長期的不安を定量化する新たな尺度を導入し,特定の地域に集中して,市民的不安が地理的に集結する傾向があることを示す。 我々のアプローチは、市民の不安を超えた様々な集団の人間の現象の相転移を特定し測定する可能性があり、複雑な社会システムに対するより良い理解に寄与する。

Phase transitions, characterized by abrupt shifts between macroscopic patterns of organization, are ubiquitous in complex systems. Despite considerable research in the physical and natural sciences, the empirical study of this phenomenon in societal systems is relatively underdeveloped. The goal of this study is to explore whether the dynamics of collective civil unrest can be plausibly characterized as a sequence of recurrent phase shifts, with each phase having measurable and identifiable latent characteristics. We introduce a macro-level statistical model of civil unrest and evaluate its plausibility using a comprehensive dataset of civil unrest events in 170 countries from 1946 to 2017. Our findings demonstrate that the macro-level phase model effectively captures the characteristics of civil unrest data from diverse countries globally and that universal mechanisms may underlie certain aspects of the dynamics of civil unrest. We also introduce a new scale to quantify a country's long-term unrest per unit of time and show that civil unrest events tend to cluster geographically, with the magnitude of civil unrest concentrated in specific regions. Our approach has the potential to identify and measure phase transitions in various collective human phenomena beyond civil unrest, contributing to a better understanding of complex social systems.
翻訳日:2023-10-26 20:20:41 公開日:2023-10-25
# PeFLL: 学習による個人化フェデレーション学習

PeFLL: Personalized Federated Learning by Learning to Learn ( http://arxiv.org/abs/2306.05515v2 )

ライセンス: Link先を確認
Jonathan Scott, Hossein Zakerinia, Christoph H. Lampert(参考訳) pefllは,最新技術を3つの面から改善した,パーソナライズされたフェデレーション学習アルゴリズムである。 1) より正確なモデル、特に低データ体制において、訓練期間中に存在する顧客だけでなく、将来出現する可能性のある顧客のためにも作成する。 2) 追加の微調整や最適化を必要としないパーソナライズされたモデルを提供することにより、クライアント側での計算量やクライアント側通信量を削減します。 3) 観測したクライアントから将来のクライアントへの一般化を確立する理論的保証が付属する。 PeFLLの中核には、埋め込みネットワークとハイパーネットワークを共同でトレーニングする学習から学習へのアプローチがある。 埋め込みネットワークは、相互に類似性を反映した方法で、潜在ディスクリプタ空間内のクライアントを表現するために使用される。 ハイパーネットワークはそのような記述子を入力とし、完全にパーソナライズされたクライアントモデルのパラメータを出力する。 両ネットワークは、複数のパーソナライズされたフェデレーション学習ベンチマークで最先端のパフォーマンスを達成する学習アルゴリズムを構成する。

We present PeFLL, a new personalized federated learning algorithm that improves over the state-of-the-art in three aspects: 1) it produces more accurate models, especially in the low-data regime, and not only for clients present during its training phase, but also for any that may emerge in the future; 2) it reduces the amount of on-client computation and client-server communication by providing future clients with ready-to-use personalized models that require no additional finetuning or optimization; 3) it comes with theoretical guarantees that establish generalization from the observed clients to future ones. At the core of PeFLL lies a learning-to-learn approach that jointly trains an embedding network and a hypernetwork. The embedding network is used to represent clients in a latent descriptor space in a way that reflects their similarity to each other. The hypernetwork takes as input such descriptors and outputs the parameters of fully personalized client models. In combination, both networks constitute a learning algorithm that achieves state-of-the-art performance in several personalized federated learning benchmarks.
翻訳日:2023-10-26 20:20:18 公開日:2023-10-25
# ガウスデータを超えた単一指数モデルについて

On Single Index Models beyond Gaussian Data ( http://arxiv.org/abs/2307.15804v2 )

ライセンス: Link先を確認
Joan Bruna, Loucas Pillaud-Vivien and Aaron Zweig(参考訳) 細かな高次元関数は、浅層ニューラルネットワークを用いて勾配差法の振る舞いを研究するためのリッチなフレームワークとして生まれ、線形モデルを超えて特徴学習を行う能力を示している。 最も単純な関数は単射モデル $f(x) = \phi(x \cdot \theta^*)$ であり、入力データの未知の1次元射影に対して任意の非線形スカラーリンク関数 $\phi$ によってラベルが生成される。 ガウスデータに焦点を合わせることで、最近のいくつかの研究は、いわゆる情報指数(リンク関数の正規性に関連する)が必要なサンプル複雑性を制御する、驚くべき図を構築した。 本質的にこれらのツールはガウス分布の安定性と球対称を利用する。 本研究は, \cite{arous2020online} の枠組みに基づいて,安定性と対称性の両方に違反するガウス集合を超えて,この図の拡張を考察する。 本研究の主な成果は,Stochastic Gradient Descent が未知の方向を高次元の状態で効率よく復元できることを,従来の作品であるcite{yehudai2020learning,wu2022learning} を拡張した仮定に基づいて明らかにした。

Sparse high-dimensional functions have arisen as a rich framework to study the behavior of gradient-descent methods using shallow neural networks, showcasing their ability to perform feature learning beyond linear models. Amongst those functions, the simplest are single-index models $f(x) = \phi( x \cdot \theta^*)$, where the labels are generated by an arbitrary non-linear scalar link function $\phi$ applied to an unknown one-dimensional projection $\theta^*$ of the input data. By focusing on Gaussian data, several recent works have built a remarkable picture, where the so-called information exponent (related to the regularity of the link function) controls the required sample complexity. In essence, these tools exploit the stability and spherical symmetry of Gaussian distributions. In this work, building from the framework of \cite{arous2020online}, we explore extensions of this picture beyond the Gaussian setting, where both stability or symmetry might be violated. Focusing on the planted setting where $\phi$ is known, our main results establish that Stochastic Gradient Descent can efficiently recover the unknown direction $\theta^*$ in the high-dimensional regime, under assumptions that extend previous works \cite{yehudai2020learning,wu2022learning}.
翻訳日:2023-10-26 20:12:17 公開日:2023-10-25
# Select and Augment: 強化されたDense Retrieval Knowledge Graph Augmentation

Select and Augment: Enhanced Dense Retrieval Knowledge Graph Augmentation ( http://arxiv.org/abs/2307.15776v2 )

ライセンス: Link先を確認
Micheal Abaho, Yousef H. Alfaifi(参考訳) 知識グラフ(KG)の実体表現にテキスト情報を注入することは、NLPコミュニティにおけるKG指向タスクのパフォーマンス向上の観点から、貴重な調査である。 KG埋め込みを強化するための外部知識は、意味的にリッチな語彙依存解析機能から、関連するキーワードのセットから、wikipediaなどの外部コーパスから提供されるテキスト記述全体まで多岐にわたる。 この革新(テキストエンハンス付kg埋め込み)の成果にもかかわらず、本研究の提案はさらに改善できることを示唆している。 テキストの語彙的曖昧さのため、一つのテキスト記述を使う代わりに、kgエンティティに関連する一連のテキスト記述を共同で選択し、kg埋め込みとテキスト記述を調整または拡張するマルチタスクフレームワークを提案する。 知識ベースで宣言された形式的なエンティティ記述をプラグインする以前の作業とは異なり、このフレームワークは検索モデルを活用して、エンティティの強化に使用するよりリッチで高関連性の高いテキスト記述を選択的に識別する。 さらに、拡張プロセスで使用する記述の数をパラメータとして扱うことにより、適切な数を特定する前に複数の数値を列挙する柔軟性が実現される。 Link Predictionの実験結果は、従来のCNNを用いたテキスト強化知識グラフ拡張法と比較して、平均相反ランク(MRR)とHits@10スコアの5.5%と3.5%の増加を示した。

Injecting textual information into knowledge graph (KG) entity representations has been a worthwhile expedition in terms of improving performance in KG oriented tasks within the NLP community. External knowledge often adopted to enhance KG embeddings ranges from semantically rich lexical dependency parsed features to a set of relevant key words to entire text descriptions supplied from an external corpus such as wikipedia and many more. Despite the gains this innovation (Text-enhanced KG embeddings) has made, the proposal in this work suggests that it can be improved even further. Instead of using a single text description (which would not sufficiently represent an entity because of the inherent lexical ambiguity of text), we propose a multi-task framework that jointly selects a set of text descriptions relevant to KG entities as well as align or augment KG embeddings with text descriptions. Different from prior work that plugs formal entity descriptions declared in knowledge bases, this framework leverages a retriever model to selectively identify richer or highly relevant text descriptions to use in augmenting entities. Furthermore, the framework treats the number of descriptions to use in augmentation process as a parameter, which allows the flexibility of enumerating across several numbers before identifying an appropriate number. Experiment results for Link Prediction demonstrate a 5.5% and 3.5% percentage increase in the Mean Reciprocal Rank (MRR) and Hits@10 scores respectively, in comparison to text-enhanced knowledge graph augmentation methods using traditional CNNs.
翻訳日:2023-10-26 20:11:51 公開日:2023-10-25
# 世界規模の生物多様性評価への一歩:BIOSCAN-1M昆虫データセット

A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset ( http://arxiv.org/abs/2307.10455v2 )

ライセンス: Link先を確認
Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth(参考訳) そこで本研究では,昆虫の生物多様性のカタログ化を目的として,昆虫画像の大規模データセットBIOSCAN-Insect Datasetを提案する。 各レコードは、専門家によって分類され、種分類のための遺伝子ベースのプロキシである生のヌクレオチドバーコード配列や割り当てられたバーコードインデックス番号を含む関連する遺伝情報も持っている。 本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルのトレーニングを主目的とする,百万画像データセットを提案する。 データセット固有の生物学的性質に基づいて、特徴的な長い尾を持つクラスバランス分布を示す。 さらに分類学的なラベリングは階層的な分類スキームであり、低いレベルで非常にきめ細かい分類問題を引き起こす。 機械学習コミュニティにおける生物多様性研究への関心の高まりに加え、画像に基づく分類器の作成の進展は、すべてのBIOSCAN研究の最終的な目標である、グローバルな生物多様性に関する総合的な調査の基盤を築き上げることになる。 本稿では,データセットを紹介し,ベースライン分類器の実装と解析を通じて分類タスクを検討する。

In an effort to catalog insect biodiversity, we propose a new large dataset of hand-labelled insect images, the BIOSCAN-Insect Dataset. Each record is taxonomically classified by an expert, and also has associated genetic information including raw nucleotide barcode sequences and assigned barcode index numbers, which are genetically-based proxies for species classification. This paper presents a curated million-image dataset, primarily to train computer-vision models capable of providing image-based taxonomic assessment, however, the dataset also presents compelling characteristics, the study of which would be of interest to the broader machine learning community. Driven by the biological nature inherent to the dataset, a characteristic long-tailed class-imbalance distribution is exhibited. Furthermore, taxonomic labelling is a hierarchical classification scheme, presenting a highly fine-grained classification problem at lower levels. Beyond spurring interest in biodiversity research within the machine learning community, progress on creating an image-based taxonomic classifier will also further the ultimate goal of all BIOSCAN research: to lay the foundation for a comprehensive survey of global biodiversity. This paper introduces the dataset and explores the classification task through the implementation and analysis of a baseline classifier.
翻訳日:2023-10-26 20:11:00 公開日:2023-10-25
# 動的自己同型符号からの量子計算

Quantum computation from dynamic automorphism codes ( http://arxiv.org/abs/2307.10353v2 )

ライセンス: Link先を確認
Margarita Davydova, Nathanan Tantivasadakarn, Shankar Balasubramanian, David Aasen(参考訳) 本稿では,論理情報を同時エンコードし,誤り訂正を可能にし,論理ゲートを適用可能な,低重の測定列からなる量子計算の新しいモデルを提案する。 これらの測定シーケンスは、動的自己同型(DA)符号と呼ばれるフロケ符号を一般化する量子誤り訂正符号の新しいクラスを構成する。 我々は,2次元カラーコードの72個の自己同型を全て実現可能な,短い測定シーケンスから構築したDAカラーコードという明示的な例を構築した。 N$の三角形パッチのスタック上で、DAカラーコードは$N$論理量子ビットをエンコードし、2ビットおよびより稀に3ビットのパウリ測定で完全な論理クリフォード群を実装することができる。 また、3次元DAカラーコードを導入し、適応的な2量子ビット測定により非クリフォード論理ゲートを実現することにより、DA符号を用いた普遍量子計算への第一歩を踏み出す。

We propose a new model of quantum computation comprised of low-weight measurement sequences that simultaneously encode logical information, enable error correction, and apply logical gates. These measurement sequences constitute a new class of quantum error-correcting codes generalizing Floquet codes, which we call dynamic automorphism (DA) codes. We construct an explicit example, the DA color code, which is assembled from short measurement sequences that can realize all 72 automorphisms of the 2D color code. On a stack of $N$ triangular patches, the DA color code encodes $N$ logical qubits and can implement the full logical Clifford group by a sequence of two- and, more rarely, three-qubit Pauli measurements. We also make the first step towards universal quantum computation with DA codes by introducing a 3D DA color code and showing that a non-Clifford logical gate can be realized by adaptive two-qubit measurements.
翻訳日:2023-10-26 20:10:38 公開日:2023-10-25
# ソフトウェアエージェントとデジタル双生児の体系的比較:産業生産における差異、類似性、シナジー

Systematic Comparison of Software Agents and Digital Twins: Differences, Similarities, and Synergies in Industrial Production ( http://arxiv.org/abs/2307.08421v2 )

ライセンス: Link先を確認
Lasse Matthias Reinpold and Lukas Peter Wagner and Felix Gehlhoff and Malte Ramonat and Maximilian Kilthau and Milapji Singh Gill and Jonathan Tobias Reif and Vincent Henkel and Lena Scholz and Alexander Fay(参考訳) 高度にアジャイルで柔軟な生産を実現するため、産業生産システムは徐々に分散化され、相互運用され、インテリジェントになると考えられる。 このビジョンでは、生産資産は互いに協力し合い、高い自律性を示す。 さらに、個々の生産資産に関する知識は、ライフサイクル全体を通して容易に利用できる。 このビジョンを実現するためには,情報技術の適切な活用が必要である。 この文脈で一般的に適用される2つのソフトウェアパラダイムは、ソフトウェアエージェント(エージェント)とデジタルツイン(dts)である。 本研究は,産業応用におけるエージェントとDTの系統的比較を示す。 この研究の目的は、2つのパラダイムの違い、類似性、潜在的なシナジーを決定することである。 この比較は、エージェントとDTが適用される目的、これらのソフトウェアパラダイムによって示される特性と能力、そして参照アーキテクチャモデル産業 4.0 内でどのように割り当てられるかに基づいています。 比較の結果、エージェントは一般的に生産プロセスの協調計画と実行に使われており、dtsは通常、生産リソースの監視や情報処理においてよりパッシブな役割を担っている。 これらの観察はエージェントとdtsの両方の能力と特性のセットを特徴付けるが、2つのパラダイムを明確に区別することはできない。 分析の結果,エージェントとDTの組み合わせによる生産資産は,高い知性,自律性,社会的可能性,忠実性を示すことが示された。 これを実現するには、特にDTの分野において、さらなる標準化が必要である。

To achieve a highly agile and flexible production, it is envisioned that industrial production systems gradually become more decentralized, interconnected, and intelligent. Within this vision, production assets collaborate with each other, exhibiting a high degree of autonomy. Furthermore, knowledge about individual production assets is readily available throughout their entire life-cycles. To realize this vision, adequate use of information technology is required. Two commonly applied software paradigms in this context are Software Agents (referred to as Agents) and Digital Twins (DTs). This work presents a systematic comparison of Agents and DTs in industrial applications. The goal of the study is to determine the differences, similarities, and potential synergies between the two paradigms. The comparison is based on the purposes for which Agents and DTs are applied, the properties and capabilities exhibited by these software paradigms, and how they can be allocated within the Reference Architecture Model Industry 4.0. The comparison reveals that Agents are commonly employed in the collaborative planning and execution of production processes, while DTs typically play a more passive role in monitoring production resources and processing information. Although these observations imply characteristic sets of capabilities and properties for both Agents and DTs, a clear and definitive distinction between the two paradigms cannot be made. Instead, the analysis indicates that production assets utilizing a combination of Agents and DTs would demonstrate high degrees of intelligence, autonomy, sociability, and fidelity. To achieve this, further standardization is required, particularly in the field of DTs.
翻訳日:2023-10-26 20:10:21 公開日:2023-10-25
# プレソフトマックススコアを用いた属性法の脆弱性

A Vulnerability of Attribution Methods Using Pre-Softmax Scores ( http://arxiv.org/abs/2307.03305v2 )

ライセンス: Link先を確認
Miguel Lerma, Mirtha Lucas(参考訳) 分類器として動作する畳み込みニューラルネットワークの出力に関する説明を提供するために使用される帰属方法のカテゴリを含む脆弱性について検討する。 このタイプのネットワークは、入力の知覚できない摂動がモデルの出力を変える可能性のある敵攻撃に弱いことが知られている。 対照的に、モデル内の小さな修正がモデル出力を変更することなく帰属法に影響を及ぼす影響に焦点を当てる。

We discuss a vulnerability involving a category of attribution methods used to provide explanations for the outputs of convolutional neural networks working as classifiers. It is known that this type of networks are vulnerable to adversarial attacks, in which imperceptible perturbations of the input may alter the outputs of the model. In contrast, here we focus on effects that small modifications in the model may cause on the attribution method without altering the model outputs.
翻訳日:2023-10-26 20:09:20 公開日:2023-10-25
# PlanE: 平面グラフによる表現学習

PlanE: Representation Learning over Planar Graphs ( http://arxiv.org/abs/2307.01180v2 )

ライセンス: Link先を確認
Radoslav Dimitrov, Zeyang Zhao, Ralph Abboud, \.Ismail \.Ilkan Ceylan(参考訳) グラフニューラルネットワークは、グラフ上の表現学習のための顕著なモデルであり、学習されたグラフ関数がグラフ上の同型不変であるように、一連の変換を通じて入力グラフのノードの表現を反復的に計算し、学習された表現グラフ不変量にする。 一方、これらのモデルのクラスで学習されたグラフ不変量は不完全であることはよく知られている: 標準グラフニューラルネットワークでは区別できない非同型グラフのペアが存在する。 一般グラフにおけるグラフ同型テストの計算の難しさを考えると、これは驚くべきことではないが、平面グラフのような効率的なグラフ同型テストアルゴリズムが知られている特別なグラフクラスでは状況が異なっている。 この研究の目標は、平面グラフの完全不変量を効率的に学習するためのアーキテクチャを設計することである。 HopcroftとTarjanの古典的平面グラフ同型アルゴリズムに着想を得て,平面表現学習の枠組みとしてPlanEを提案する。 PlanEには、実用的な拡張性を維持しながら、平面グラフ上の完全な不変性を学習できるアーキテクチャが含まれている。 我々は、よく知られた平面グラフベンチマークで得られたモデルアーキテクチャの強力なパフォーマンスを実証的に検証し、複数の最先端結果を得る。

Graph neural networks are prominent models for representation learning over graphs, where the idea is to iteratively compute representations of nodes of an input graph through a series of transformations in such a way that the learned graph function is isomorphism invariant on graphs, which makes the learned representations graph invariants. On the other hand, it is well-known that graph invariants learned by these class of models are incomplete: there are pairs of non-isomorphic graphs which cannot be distinguished by standard graph neural networks. This is unsurprising given the computational difficulty of graph isomorphism testing on general graphs, but the situation begs to differ for special graph classes, for which efficient graph isomorphism testing algorithms are known, such as planar graphs. The goal of this work is to design architectures for efficiently learning complete invariants of planar graphs. Inspired by the classical planar graph isomorphism algorithm of Hopcroft and Tarjan, we propose PlanE as a framework for planar representation learning. PlanE includes architectures which can learn complete invariants over planar graphs while remaining practically scalable. We empirically validate the strong performance of the resulting model architectures on well-known planar graph benchmarks, achieving multiple state-of-the-art results.
翻訳日:2023-10-26 20:09:13 公開日:2023-10-25
# 分離可能な物理インフォームニューラルネットワーク

Separable Physics-Informed Neural Networks ( http://arxiv.org/abs/2306.15969v3 )

ライセンス: Link先を確認
Junwoo Cho, Seungtae Nam, Hyunmo Yang, Seok-Bae Yun, Youngjoon Hong, Eunbyung Park(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々なPDEに対して有望なデータ駆動型PDE解法として最近登場した。 しかし、多次元pdesや近似高複素解関数を解くための訓練ピンの基本的な制限がある。 これらの困難なpdesに必要なトレーニングポイント(ロケーションポイント)の数は大幅に増加するが、高価な計算コストとメモリのオーバーヘッドのため、かなり制限されている。 この問題を克服するため,我々はpinnのネットワークアーキテクチャとトレーニングアルゴリズムを提案する。 提案手法である分離可能なPINN(SPINN)は,従来のPINNのポイントワイド処理とは異なり,多次元PDEにおけるネットワーク伝搬数を著しく削減する。 また,PDE残差計算の計算コストを削減し,単一のコモディティGPU上で多数のコロケーションポイント(>10^7)を実現するために,前方モード自動微分法を提案する。 実験の結果,多次元PDEにおける計算コスト(壁面時間62倍,FLOPでは1,394倍)を大幅に削減し,精度が向上した。 さらに,SPINN は,2+1-d Navier-Stokes 方程式を最良性能の先行手法 (1GPUでは9分対10時間) よりもはるかに高速に解き,精度を維持できることを示した。 最後に、SPINNは高非線形多次元PDE(3+1-d Navier-Stokes方程式)の解を正確に得ることを示す。 結果を視覚化するには、https://jwcho5576.github.io/spinn.github.io/をご覧ください。

Physics-informed neural networks (PINNs) have recently emerged as promising data-driven PDE solvers showing encouraging results on various PDEs. However, there is a fundamental limitation of training PINNs to solve multi-dimensional PDEs and approximate highly complex solution functions. The number of training points (collocation points) required on these challenging PDEs grows substantially, but it is severely limited due to the expensive computational costs and heavy memory overhead. To overcome this issue, we propose a network architecture and training algorithm for PINNs. The proposed method, separable PINN (SPINN), operates on a per-axis basis to significantly reduce the number of network propagations in multi-dimensional PDEs unlike point-wise processing in conventional PINNs. We also propose using forward-mode automatic differentiation to reduce the computational cost of computing PDE residuals, enabling a large number of collocation points (>10^7) on a single commodity GPU. The experimental results show drastically reduced computational costs (62x in wall-clock time, 1,394x in FLOPs given the same number of collocation points) in multi-dimensional PDEs while achieving better accuracy. Furthermore, we present that SPINN can solve a chaotic (2+1)-d Navier-Stokes equation significantly faster than the best-performing prior method (9 minutes vs 10 hours in a single GPU), maintaining accuracy. Finally, we showcase that SPINN can accurately obtain the solution of a highly nonlinear and multi-dimensional PDE, a (3+1)-d Navier-Stokes equation. For visualized results and code, please see https://jwcho5576.github.io/spinn.github.io/.
翻訳日:2023-10-26 20:08:51 公開日:2023-10-25
# ヒトメッシュ回復のための分布配向拡散

Distribution-Aligned Diffusion for Human Mesh Recovery ( http://arxiv.org/abs/2308.13369v3 )

ライセンス: Link先を確認
Lin Geng Foo, Jia Gong, Hossein Rahmani, Jun Liu(参考訳) 単一のRGB画像から3Dヒューマンメッシュを復元することは、深さの曖昧さと自己排他性のために難しい作業であり、高い不確実性をもたらす。 一方、拡散モデルは最近、ノイズの入力を徐々にデノベートすることで高品質な出力を生成することに成功している。 その能力に触発されて,ヒトのメッシュ回復のための拡散ベースのアプローチを探索し,逆拡散過程としてメッシュ回復を枠組するヒューマンメッシュ拡散(hmdiff)フレームワークを提案する。 また,メッシュ分布拡散プロセスに事前分布情報を注入し,メッシュ復元作業を容易にするための事前知識を提供する分散アライメント手法(dat)を提案する。 提案手法は,広く使用されている3つのデータセットの最先端性能を実現する。 プロジェクトページ:https://gongjia0208.github.io/HMDiff/。

Recovering a 3D human mesh from a single RGB image is a challenging task due to depth ambiguity and self-occlusion, resulting in a high degree of uncertainty. Meanwhile, diffusion models have recently seen much success in generating high-quality outputs by progressively denoising noisy inputs. Inspired by their capability, we explore a diffusion-based approach for human mesh recovery, and propose a Human Mesh Diffusion (HMDiff) framework which frames mesh recovery as a reverse diffusion process. We also propose a Distribution Alignment Technique (DAT) that infuses prior distribution information into the mesh distribution diffusion process, and provides useful prior knowledge to facilitate the mesh recovery task. Our method achieves state-of-the-art performance on three widely used datasets. Project page: https://gongjia0208.github.io/HMDiff/.
翻訳日:2023-10-26 20:02:56 公開日:2023-10-25
# SeamlessM4T:多言語・多モーダル機械翻訳

SeamlessM4T: Massively Multilingual & Multimodal Machine Translation ( http://arxiv.org/abs/2308.11596v3 )

ライセンス: Link先を確認
Seamless Communication, Lo\"ic Barrault, Yu-An Chung, Mariano Cora Meglioli, David Dale, Ning Dong, Paul-Ambroise Duquenne, Hady Elsahar, Hongyu Gong, Kevin Heffernan, John Hoffman, Christopher Klaiber, Pengwei Li, Daniel Licht, Jean Maillard, Alice Rakotoarison, Kaushik Ram Sadagopan, Guillaume Wenzek, Ethan Ye, Bapi Akula, Peng-Jen Chen, Naji El Hachem, Brian Ellis, Gabriel Mejia Gonzalez, Justin Haaheim, Prangthip Hansanti, Russ Howes, Bernie Huang, Min-Jae Hwang, Hirofumi Inaguma, Somya Jain, Elahe Kalbassi, Amanda Kallet, Ilia Kulikov, Janice Lam, Daniel Li, Xutai Ma, Ruslan Mavlyutov, Benjamin Peloquin, Mohamed Ramadan, Abinesh Ramakrishnan, Anna Sun, Kevin Tran, Tuan Tran, Igor Tufanov, Vish Vogeti, Carleigh Wood, Yilin Yang, Bokai Yu, Pierre Andrews, Can Balioglu, Marta R. Costa-juss\`a, Onur Celebi, Maha Elbayad, Cynthia Gao, Francisco Guzm\'an, Justine Kao, Ann Lee, Alexandre Mourachko, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang(参考訳) Babel Fishは、個人が2つの言語間で音声を翻訳するのを助けるツールだ。 最近のテキストベースのモデルにおけるブレークスルーにより、200言語を超える機械翻訳のカバレッジが押し上げられたが、音声音声翻訳の統一モデルは、まだ同様の進歩を遂げていない。 より具体的には、従来の音声音声翻訳システムは、段階的に翻訳を行うカスケードシステムに依存しており、高い性能の統一システムは到達できない。 これらのギャップに対処するため,SamlessM4Tは音声音声翻訳,音声音声翻訳,テキスト音声翻訳,テキスト音声翻訳,最大100言語の自動音声認識をサポートする単一モデルである。 そこで我々は,w2v-BERT 2.0を用いて,100万時間のオープン音声データを用いて自己教師型音声表現を学習した。 その後,自動アライメント音声翻訳のマルチモーダルコーパスを作成した。 人間のラベルデータと疑似ラベルデータとを合成し,音声とテキストの両方を英語に翻訳可能な最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。 強いカスケードモデルと比較すると、seamlessm4tは英語内翻訳の品質を音声対テキストの1.3点、音声対音声の2.2.6点向上させる。 強靭性テストにより,従来のSOTAモデルと比較して,背景雑音や話者の変動に優れた性能を示す。 本研究は, ジェンダーバイアスに関するシームレスm4tを評価し, 翻訳の安全性を評価するために毒性を付加した。 最後に、この作業へのすべてのコントリビューションはオープンソースであり、https://github.com/facebookresearch/seamless_lecommunicationsでアクセス可能である。

What does it take to create the Babel Fish, a tool that can help individuals translate speech between any two languages? While recent breakthroughs in text-based models have pushed machine translation coverage beyond 200 languages, unified speech-to-speech translation models have yet to achieve similar strides. More specifically, conventional speech-to-speech translation systems rely on cascaded systems that perform translation progressively, putting high-performing unified systems out of reach. To address these gaps, we introduce SeamlessM4T, a single model that supports speech-to-speech translation, speech-to-text translation, text-to-speech translation, text-to-text translation, and automatic speech recognition for up to 100 languages. To build this, we used 1 million hours of open speech audio data to learn self-supervised speech representations with w2v-BERT 2.0. Subsequently, we created a multimodal corpus of automatically aligned speech translations. Filtered and combined with human-labeled and pseudo-labeled data, we developed the first multilingual system capable of translating from and into English for both speech and text. On FLEURS, SeamlessM4T sets a new standard for translations into multiple target languages, achieving an improvement of 20% BLEU over the previous SOTA in direct speech-to-text translation. Compared to strong cascaded models, SeamlessM4T improves the quality of into-English translation by 1.3 BLEU points in speech-to-text and by 2.6 ASR-BLEU points in speech-to-speech. Tested for robustness, our system performs better against background noises and speaker variations in speech-to-text tasks compared to the current SOTA model. Critically, we evaluated SeamlessM4T on gender bias and added toxicity to assess translation safety. Finally, all contributions in this work are open-sourced and accessible at https://github.com/facebookresearch/seamless_communication
翻訳日:2023-10-26 20:02:42 公開日:2023-10-25
# 薬物発見の未来:量子ベースの機械学習シミュレーション(qmls)

Implementation of The Future of Drug Discovery: QuantumBased Machine Learning Simulation (QMLS) ( http://arxiv.org/abs/2308.08561v2 )

ライセンス: Link先を確認
Yifan Zhou, Yew Kee Wong, Yan Shing Liang, Haichuan Qiu, Yu Xi Wu, Bin He(参考訳) 研究開発段階(research & development, r&d)は長くコストのかかるプロセスである。 このプロセスに革命をもたらすため、我々は新たなコンセプトQMLSを導入し、R&Dフェーズ全体を3~6ヶ月に短縮し、コストを5~8万USDに短縮する。 ヒット生成のために、機械学習分子生成(mlmg)はターゲットタンパク質の分子構造に応じてヒットを発生させ、量子シミュレーション(qs)はターゲットタンパク質との反応と結合効果に基づいて一次エッセイから分子をフィルタリングする。 次に、リード最適化のために、mlmgおよびqsから生成およびフィルタリングされた結果分子を比較し、両方のプロセスの結果として現れる分子を、機械学習分子変異(mlmv)を介して数十の分子変動にし、他の分子はいくつかのバリエーションにのみ変換する。 最後に、全ての最適化された分子は、反応効率と安全性の基準の高いQSフィルターを複数回実施し、数十個の前臨床薬を合成する。 本論文は、量子シミュレーションと組み合わせた機械学習の概念を売り込んだ最初の論文に基づいている。 本稿では、MLMG、MLMV、QSを含むQMLSの詳細な設計とフレームワークについて述べる。

The Research & Development (R&D) phase of drug development is a lengthy and costly process. To revolutionize this process, we introduce our new concept QMLS to shorten the whole R&D phase to three to six months and decrease the cost to merely fifty to eighty thousand USD. For Hit Generation, Machine Learning Molecule Generation (MLMG) generates possible hits according to the molecular structure of the target protein while the Quantum Simulation (QS) filters molecules from the primary essay based on the reaction and binding effectiveness with the target protein. Then, For Lead Optimization, the resultant molecules generated and filtered from MLMG and QS are compared, and molecules that appear as a result of both processes will be made into dozens of molecular variations through Machine Learning Molecule Variation (MLMV), while others will only be made into a few variations. Lastly, all optimized molecules would undergo multiple rounds of QS filtering with a high standard for reaction effectiveness and safety, creating a few dozen pre-clinical-trail-ready drugs. This paper is based on our first paper, where we pitched the concept of machine learning combined with quantum simulations. In this paper we will go over the detailed design and framework of QMLS, including MLMG, MLMV, and QS.
翻訳日:2023-10-26 20:02:08 公開日:2023-10-25
# 量子エンハンス原子干渉計のためのスピンスクイーズ状態のハイブリッド法

A hybrid method of generating spin-squeezed states for quantum-enhanced atom interferometry ( http://arxiv.org/abs/2308.07693v2 )

ライセンス: Link先を確認
Liam Fuderer and Joseph J Hope and Simon A Haine(参考訳) 本稿では,2つの確立されたスピンスクイーズ手法,量子非破壊測定(QND)と1軸ねじれ(OAT)を組み合わせた新しいスピンスクイーズ手法を提案する。 このハイブリッド手法は、現在達成されているものをQNDとOATで改善することを目的としている。 実際の状況では、QNDとOATの相互作用の強さは限定的である。 これらの状況下では,ハイブリッド方式は,単独で使用するOATやQNDよりも優れた性能を示した。 QNDとOATはともに実験的に実現されているため、この技術は実験にわずかな修正を加えるだけで現在の原子干渉計で実装できる。

We introduce a new spin-squeezing technique that is a hybrid of two well established spin-squeezing techniques, quantum nondemolition measurement (QND) and one-axis twisting (OAT). This hybrid method aims to improve spin-squeezing over what is currently achievable using QND and OAT. In practical situations, the strength of both the QND and OAT interactions is limited. We found that in these situations, the hybrid scheme performed considerably better than either OAT or QND used in isolation. As QND and OAT have both been realised experimentally, this technique could be implemented in current atom interferometry setups with only minor modifications to the experiment.
翻訳日:2023-10-26 20:01:46 公開日:2023-10-25
# 知識グラフはテキストを単純化できるか?

Can Knowledge Graphs Simplify Text? ( http://arxiv.org/abs/2308.06975v3 )

ライセンス: Link先を確認
Anthony Colas, Haodi Ma, Xuanli He, Yang Bai, Daisy Zhe Wang(参考訳) 知識グラフ(KG)-テキスト生成は、与えられたKGを記述する流動的で情報的な文を生成することで、近年改善されている。 複数のドメインにまたがってkgが普及し、重要なエンティティ関連情報を含んでいるため、テキストの簡略化は原文の意味を維持しながらテキストの複雑さを減らすことを目的としているため、簡単なkgパスを構築し、元の入力の意味を保存する簡潔なテキストを生成するために、kgが確立したテクニックを混乱させる教師なしテキスト簡易化のための新しいアプローチであるkgsimpleを提案する。 反復的・サンプリング型kgファーストアプローチにより,本モデルでは,kg-to-text生成を活用しつつ,重要な情報を保持しながら,1kgから開始する際のテキストの簡易化が可能となる。 現在利用可能なkg-to-textデータセット上でのkgsimpleモデルの様々な設定を評価し、所定の複雑なテキストで始まる教師なしテキスト単純化モデルと比較してその効果を示す。 コードはgithubから入手できます。

Knowledge Graph (KG)-to-Text Generation has seen recent improvements in generating fluent and informative sentences which describe a given KG. As KGs are widespread across multiple domains and contain important entity-relation information, and as text simplification aims to reduce the complexity of a text while preserving the meaning of the original text, we propose KGSimple, a novel approach to unsupervised text simplification which infuses KG-established techniques in order to construct a simplified KG path and generate a concise text which preserves the original input's meaning. Through an iterative and sampling KG-first approach, our model is capable of simplifying text when starting from a KG by learning to keep important information while harnessing KG-to-text generation to output fluent and descriptive sentences. We evaluate various settings of the KGSimple model on currently-available KG-to-text datasets, demonstrating its effectiveness compared to unsupervised text simplification models which start with a given complex text. Our code is available on GitHub.
翻訳日:2023-10-26 20:01:35 公開日:2023-10-25
# 混合効果モデルと階層クラスタリングによる異種農業データセットを用いたベイズネットワークの学習

Learning Bayesian Networks with Heterogeneous Agronomic Data Sets via Mixed-Effect Models and Hierarchical Clustering ( http://arxiv.org/abs/2308.06399v3 )

ライセンス: Link先を確認
Lorenzo Valleggi and Marco Scutari and Federico Mattia Stefanini(参考訳) トウモロコシはサハラ以南のアフリカ、アジア、ラテンアメリカで重要なカロリーを提供する主要作物であり、2021年の世界の栽培面積は1億9700万ヘクタールである。 そのため、トウモロコシの収量を予測するため、多くの統計モデル(混合効果モデルやランダム係数モデルなど)や機械学習モデル(ランダム森林やディープラーニングアーキテクチャなど)が開発され、フィールド管理を含むジェノタイプ、環境、ジェノタイプと環境の相互作用要因の影響を受けている。 しかし、これらのモデルは、これらの要因間の因果関係のネットワークと、データ収集から生じる農業データの階層構造を十分に活用していない。 ベイズネットワーク(bns)は、有向非巡回グラフを用いて変数間の接続を記述するために因果関係と確率関係をモデル化するための強力なフレームワークを提供する。 本研究では,ランダム効果をBN学習に統合する新しい手法を提案する。 線形混合効果モデルフレームワークに根ざしており、特に階層データに適している。 実世界の農業試験の結果は、提案手法がBN学習を強化し、より解釈可能なモデルと新たな因果関係の発見につながることを示唆している。 同時に、トウモロコシ収率予測の誤差率が28%から17%に低下する。 したがって、BNは因果推論を可能にする階層的農業データのための実用的な意思決定支援ツールを構築するためのツールであるべきだと論じる。

Maize is a major crop providing vital calories in sub-Saharan Africa, Asia and Latin America, with a global cultivation area of 197 million hectares in 2021. Therefore, many statistical models (such as mixed-effect and random coefficients models) and machine learning models (such as random forests and deep learning architectures) have been developed to predict maize yield and how it is affected by genotype, environment and genotype-environment interaction factors, including field management. However, these models do not fully leverage the network of causal relationships between these factors and the hierarchical structure of the agronomic data arising from data collection. Bayesian networks (BNs) provide a powerful framework for modelling causal and probabilistic relationships using directed acyclic graphs to illustrate the connections between variables. This study introduces a novel approach that integrates random effects into BN learning. Rooted in the linear mixed-effects models framework, it is particularly well-suited to hierarchical data. Results from a real-world agronomic trial suggest that the proposed approach enhances BN learning, leading to a more interpretable model and discovering new causal connections. At the same time, the error rate of maize yield prediction is reduced from 28% to 17%. Therefore, we argue that BNs should be the tool of choice to construct practical decision support tools for hierarchical agronomic data that allow for causal inference.
翻訳日:2023-10-26 20:01:17 公開日:2023-10-25
# リアルなハイブリッドフィードフォワード受信機による二相シフト鍵識別のための標準量子限界のビーティング

Beating the standard quantum limit for binary phase-shift-keying discrimination with a realistic hybrid feed-forward receiver ( http://arxiv.org/abs/2308.04146v2 )

ライセンス: Link先を確認
Michele N. Notarnicola and Stefano Olivares(参考訳) 低強度局所発振器と光子数分解検出器を用いて、変位フィードフォワード受信機(DFFRE)とホモダインライクな構成を適切に組み合わせた二相シフトキーコヒーレント状態の判別のためのハイブリッドフィードフォワード受信機(HFFRE)を提案する。 提案手法の性能について検討し,非単位量子検出効率,暗カウント,可視性低下の存在下での現実的なシナリオに対処する。 現在のHFFREは、全ての条件においてDFFREよりも優れており、特定のレシエーションにおける標準量子限界を上回っている。

We propose a hybrid feed-forward receiver (HFFRE) for the discrimination of binary phase-shift-keyed coherent states based on the appropriate combination of a displacement feed-forward receiver (DFFRE) and a homodynelike setup employing a low-intensity local oscillator and photon-number-resolving detectors. We investigate the performance of the proposed scheme, also addressing realistic scenarios in the presence of nonunit quantum detection efficiency, dark counts, and visibility reduction. The present HFFRE outperforms the DFFRE in all conditions, beating the standard quantum limit in particular regimes.
翻訳日:2023-10-26 20:00:52 公開日:2023-10-25
# AgentBench: LLMをエージェントとして評価する

AgentBench: Evaluating LLMs as Agents ( http://arxiv.org/abs/2308.03688v2 )

ライセンス: Link先を確認
Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang(参考訳) 大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的なものになりつつある。 その結果,対話型環境における課題タスクのエージェントとしてLLMを評価する必要性が高まっている。 llm-as-agentの推論と意思決定能力を評価するために,現在8つの異なる環境から構成される多次元進化ベンチマークである agentbench を提案する。 27以上のAPIベースおよびオープンソース(OSS) LLMの広範なテストでは、上位の商用LCMが複雑な環境でエージェントとして機能する能力を示す一方で、OSSの競合製品とのパフォーマンスに大きな違いがあることが示されています。 環境やLLMにおける障害の典型的な原因を特定し,LLMエージェントを開発する上では,長期的推論,意思決定,指導の欠如が主な障害であることを示す。 コードと高品質のマルチターンアライメントデータのトレーニングは、エージェントのパフォーマンスを向上させる可能性がある。 AgentBench のデータセット、環境、および統合評価パッケージは \url{https://github.com/THUDM/AgentBench} でリリースされる。

Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 27 API-based and open-sourced (OSS) LLMs shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and OSS competitors. We identify the typical reasons of failures in environments and LLMs, showing that poor long-term reasoning, decision-making, and instruction following abilities are the main obstacles for developing usable LLM agents. Training on code and high quality multi-turn alignment data could improve agent performance. Datasets, environments, and an integrated evaluation package for AgentBench are released at \url{https://github.com/THUDM/AgentBench}.
翻訳日:2023-10-26 20:00:36 公開日:2023-10-25
# 医療対話情報抽出のための知識強化二段階生成枠組み

A Knowledge-enhanced Two-stage Generative Framework for Medical Dialogue Information Extraction ( http://arxiv.org/abs/2307.16200v2 )

ライセンス: Link先を確認
Zefa Hu, Ziyi Ni, Jing Shi, Shuang Xu, Bo Xu(参考訳) 本稿では,診断対話システムや電子カルテの自動作成システム(emrs)において不可欠な医療対話(md-tspe)からの用語対抽出について述べる。 過去数年間、md-tspeの研究は、特に生成的手法による顕著な進歩の後、研究の注目を集めている。 しかし、これらの生成手法は、項-統計対からなる全シーケンスを1段階で出力し、先行知識の統合を無視し、項間の関係をモデル化し、各項の状態を予測することを要求する。 本稿では、上記の課題に対処するため、知識強化二段階生成フレームワーク(KTGF)を提案する。 タスク固有のプロンプトを用いて、MD-TSPEを2つのフェーズで統合した生成形式で完了させる単一モデルを用いて、まず全ての項を生成し、次に生成された各項の状態を生成する。 このようにして、第1相の項のみを含むシーケンスから、項間の関係をより効果的に学習することができ、第2相の知識強化プロンプトは、生成した項のカテゴリおよびステータス候補をステータス生成に活用することができる。 さらに,提案する特別ステータス"not mentioned"は,低リソース設定において重要な第2フェーズにおいて,より多くの用語を利用可能とし,トレーニングデータを充実させる。 中入・CMDDデータセットを用いた実験により,提案手法は,フルトレーニングおよび低リソース設定における最先端モデルと比較して,優れた結果が得られることが示された。

This paper focuses on term-status pair extraction from medical dialogues (MD-TSPE), which is essential in diagnosis dialogue systems and the automatic scribe of electronic medical records (EMRs). In the past few years, works on MD-TSPE have attracted increasing research attention, especially after the remarkable progress made by generative methods. However, these generative methods output a whole sequence consisting of term-status pairs in one stage and ignore integrating prior knowledge, which demands a deeper understanding to model the relationship between terms and infer the status of each term. This paper presents a knowledge-enhanced two-stage generative framework (KTGF) to address the above challenges. Using task-specific prompts, we employ a single model to complete the MD-TSPE through two phases in a unified generative form: we generate all terms the first and then generate the status of each generated term. In this way, the relationship between terms can be learned more effectively from the sequence containing only terms in the first phase, and our designed knowledge-enhanced prompt in the second phase can leverage the category and status candidates of the generated term for status generation. Furthermore, our proposed special status "not mentioned" makes more terms available and enriches the training data in the second phase, which is critical in the low-resource setting. The experiments on the Chunyu and CMDD datasets show that the proposed method achieves superior results compared to the state-of-the-art models in the full training and low-resource settings.
翻訳日:2023-10-26 19:59:57 公開日:2023-10-25
# データソンのデータの扱い方

How to Data in Datathons ( http://arxiv.org/abs/2309.09770v4 )

ライセンス: Link先を確認
Carlos Mougan, Richard Plant, Clare Teng, Marya Bazzi, Alvaro Cabrejas-Egea, Ryan Sze-Yin Chan, David Salvador Jasin, Martin Stoffel, Kirstie Jane Whitaker, Jules Manser(参考訳) datathonsはdataまたはdata scienceハッカソンとしても知られ、短い時間枠で協力し、学び、革新するプラットフォームを提供している。 潜在的なメリットがあるにもかかわらず、組織はしばしば、潜在的な問題に対して明確なガイドラインとベストプラクティスが欠如しているため、データを扱うのに苦労する。 2016年以降、60以上の提携組織で80以上のデータthonチャレンジを組織した経験と洞察をもとに、オーガナイザがデータthonのデータ関連の複雑さをナビゲートするためのリソースとして役立つガイドラインとレコメンデーションを提供しています。 提案フレームワークを10のケーススタディに適用する。

The rise of datathons, also known as data or data science hackathons, has provided a platform to collaborate, learn, and innovate in a short timeframe. Despite their significant potential benefits, organizations often struggle to effectively work with data due to a lack of clear guidelines and best practices for potential issues that might arise. Drawing on our own experiences and insights from organizing >80 datathon challenges with >60 partnership organizations since 2016, we provide guidelines and recommendations that serve as a resource for organizers to navigate the data-related complexities of datathons. We apply our proposed framework to 10 case studies.
翻訳日:2023-10-26 19:51:22 公開日:2023-10-25
# Talk2Care: 大規模言語モデルによる非同期患者プロバイダ通信の実現

Talk2Care: Facilitating Asynchronous Patient-Provider Communication with Large-Language-Model ( http://arxiv.org/abs/2309.09357v3 )

ライセンス: Link先を確認
Ziqi Yang, Xuhai Xu, Bingsheng Yao, Shao Zhang, Ethan Rogers, Stephen Intille, Nawar Shara, Guodong Gordon Gao, Dakuo Wang(参考訳) 在宅高齢者や医療提供者を支援するための遠隔医療アプリケーションが多いにもかかわらず、基本的なメッセージングや電話は依然として最も一般的なコミュニケーション方法であり、可用性や情報損失、プロセスの非効率に苦しんでいる。 患者と提供者のコミュニケーションを促進する有望な解決策の1つは、強力な自然会話と要約機能を備えた大規模言語モデル(llm)を活用することである。 しかし、通信におけるllmsの役割の理解は限られている。 まず,高齢者 (N=10) と医療提供者 (N=9) の2つのインタビュー研究を行い, 患者支援非同期コミュニケーションにおけるLSMの必要性と機会について検討した。 1)高齢者向けに音声アシスタント(vas)の利便性とアクセシビリティを活用し,効果的な情報収集のためにllmを利用したvaインターフェースを構築した。 2)健康提供者向けに,高齢者のvaとの会話に基づく重要な健康情報を要約し提示するための,llmベースのダッシュボードを構築した。 さらに,高齢者と提供者との2つのユーザスタディを行い,システムのユーザビリティを評価した。 その結果,Talk2Careはコミュニケーションプロセスを促進し,高齢者の健康情報を充実させ,提供者の努力と時間を著しく節約できることがわかった。 我々は,医療と対人コミュニケーションの交点におけるllmsの能力の探索として,我々の研究を期待する。

Despite the plethora of telehealth applications to assist home-based older adults and healthcare providers, basic messaging and phone calls are still the most common communication methods, which suffer from limited availability, information loss, and process inefficiencies. One promising solution to facilitate patient-provider communication is to leverage large language models (LLMs) with their powerful natural conversation and summarization capability. However, there is a limited understanding of LLMs' role during the communication. We first conducted two interview studies with both older adults (N=10) and healthcare providers (N=9) to understand their needs and opportunities for LLMs in patient-provider asynchronous communication. Based on the insights, we built an LLM-powered communication system, Talk2Care, and designed interactive components for both groups: (1) For older adults, we leveraged the convenience and accessibility of voice assistants (VAs) and built an LLM-powered VA interface for effective information collection. (2) For health providers, we built an LLM-based dashboard to summarize and present important health information based on older adults' conversations with the VA. We further conducted two user studies with older adults and providers to evaluate the usability of the system. The results showed that Talk2Care could facilitate the communication process, enrich the health information collected from older adults, and considerably save providers' efforts and time. We envision our work as an initial exploration of LLMs' capability in the intersection of healthcare and interpersonal communication.
翻訳日:2023-10-26 19:50:46 公開日:2023-10-25
# 大規模言語モデルは科学的仮説の証拠を識別できるか? 社会科学のケーススタディ

Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences ( http://arxiv.org/abs/2309.06578v2 )

ライセンス: Link先を確認
Sai Koneru, Jian Wu, Sarah Rajtmajer(参考訳) 仮説の定式化とテストは経験的研究の中心である。 強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。 しかしながら、毎年発行される科学論文の数が指数関数的に増加するにつれて、与えられた仮説に関連する証拠の手動集約と合成は困難である。 本研究は, 学術論文のテキストに基づいて, 現在の大規模言語モデル (LLM) が, 特定の仮説を支持したり否定したりする証拠を識別する能力を探るものである。 我々は,社会科学における研究のコミュニティ主導アノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。 llmsの性能を最先端のベンチマークと比較し、この分野における今後の研究の機会を強調する。 データセットはhttps://github.com/Sai90000/ScientificHypothesisEvidencing.gitで公開されている。

Hypothesis formulation and testing are central to empirical research. A strong hypothesis is a best guess based on existing evidence and informed by a comprehensive view of relevant literature. However, with exponential increase in the number of scientific articles published annually, manual aggregation and synthesis of evidence related to a given hypothesis is a challenge. Our work explores the ability of current large language models (LLMs) to discern evidence in support or refute of specific hypotheses based on the text of scientific abstracts. We share a novel dataset for the task of scientific hypothesis evidencing using community-driven annotations of studies in the social sciences. We compare the performance of LLMs to several state-of-the-art benchmarks and highlight opportunities for future research in this area. The dataset is available at https://github.com/Sai90000/ScientificHypothesisEvidencing.git
翻訳日:2023-10-26 19:50:05 公開日:2023-10-25
# RePo: 後部予測の規則化による弾力性モデルに基づく強化学習

RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability ( http://arxiv.org/abs/2309.00082v2 )

ライセンス: Link先を確認
Chuning Zhu, Max Simchowitz, Siri Gadipudi, Abhishek Gupta(参考訳) 視覚モデルに基づくRL法は通常、冗長な情報を排除しない方法で画像観察を低次元表現に符号化する。 これは、背景のイントラクタや照明条件といったタスク非関連コンポーネントの変更など、急激なバリエーションの影響を受けやすい。 本稿では,このような変動に耐性のある潜在表現を学習する視覚モデルに基づくRL法を提案する。 私たちのトレーニング目標は、観察から潜在表現への情報フローを制約しながら、表現を最大にダイナミクスと報酬を予測できることを奨励します。 この目的が視覚モデルに基づくRL手法の視覚的障害に対する耐性を著しく促進し、動的環境下での動作を可能にすることを実証する。 次に、学習したエンコーダはスピリチュアルな変動に耐性があるが、大きな分布シフトの下では不変ではないことを示す。 そこで本研究では,エンコーダの試験時間適応を可能にする簡易な報酬不要アライメント手法を提案する。 これにより、ダイナミックスとポリシーを再学習することなく、幅広い異なる環境に素早く適応することができる。 我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。 背景にノイズのあるテレビを備えた実世界のエゴセントリックなナビゲーションタスクと同様に,多彩な変動を伴うシミュレーションベンチマークにおいて,その効果を示す。 ビデオとコードはhttps://zchuning.github.io/repo-website/。

Visual model-based RL methods typically encode image observations into low-dimensional representations in a manner that does not eliminate redundant information. This leaves them susceptible to spurious variations -- changes in task-irrelevant components such as background distractors or lighting conditions. In this paper, we propose a visual model-based RL method that learns a latent representation resilient to such spurious variations. Our training objective encourages the representation to be maximally predictive of dynamics and reward, while constraining the information flow from the observation to the latent representation. We demonstrate that this objective significantly bolsters the resilience of visual model-based RL methods to visual distractors, allowing them to operate in dynamic environments. We then show that while the learned encoder is resilient to spirious variations, it is not invariant under significant distribution shift. To address this, we propose a simple reward-free alignment procedure that enables test time adaptation of the encoder. This allows for quick adaptation to widely differing environments without having to relearn the dynamics and policy. Our effort is a step towards making model-based RL a practical and useful tool for dynamic, diverse domains. We show its effectiveness in simulation benchmarks with significant spurious variations as well as a real-world egocentric navigation task with noisy TVs in the background. Videos and code at https://zchuning.github.io/repo-website/.
翻訳日:2023-10-26 19:49:35 公開日:2023-10-25
# CL-MAE:カリキュラム学習型マスクオートエンコーダ

CL-MAE: Curriculum-Learned Masked Autoencoders ( http://arxiv.org/abs/2308.16572v2 )

ライセンス: Link先を確認
Neelu Madan, Nicolae-Catalin Ristea, Kamal Nasrollahi, Thomas B. Moeslund, Radu Tudor Ionescu(参考訳) マスク付き画像モデリングは、複数の下流タスクで効果的に一般化できる堅牢な表現を生成するための強力なプリテキストタスクとして実証されている。 通常、このアプローチは入力画像のパッチ(トークン)をランダムにマスキングするが、トレーニング中にマスク戦略は変わらない。 本稿では,マスキング戦略をアップデートし,自己監督型再構築作業の複雑さを継続的に高めるカリキュラム学習手法を提案する。 タスクの複雑さを徐々に増大させることで、モデルはより高度で伝達可能な表現を学ぶことができると推測する。 これを容易にするために,異なる複雑なマスクを生成する能力を有する新しい学習可能なマスキングモジュールを導入し,提案モジュールをマスク付きオートエンコーダ(MAE)に統合する。 我々のモジュールは、トレーニング中の動作を調整しながら、MAEと共同でトレーニングされ、パートナーからMAEへ(同じ復元損失を最適化)、敵へ(反対損失を最適化)し、中立状態を通過する。 これらの挙動間の遷移は滑らかであり、マスキングモジュールの再構成損失に乗じる因子によって制御される。 得られたトレーニング手順は、難易度の高いカリキュラムを生成する。 我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。 5つの下流タスクにおける実証的な結果から,カリキュラム学習が自己監督型オートエンコーダに有効であることを示す。 コードはhttps://github.com/ristea/cl-maeでリリースします。

Masked image modeling has been demonstrated as a powerful pretext task for generating robust representations that can be effectively generalized across multiple downstream tasks. Typically, this approach involves randomly masking patches (tokens) in input images, with the masking strategy remaining unchanged during training. In this paper, we propose a curriculum learning approach that updates the masking strategy to continually increase the complexity of the self-supervised reconstruction task. We conjecture that, by gradually increasing the task complexity, the model can learn more sophisticated and transferable representations. To facilitate this, we introduce a novel learnable masking module that possesses the capability to generate masks of different complexities, and integrate the proposed module into masked autoencoders (MAE). Our module is jointly trained with the MAE, while adjusting its behavior during training, transitioning from a partner to the MAE (optimizing the same reconstruction loss) to an adversary (optimizing the opposite loss), while passing through a neutral state. The transition between these behaviors is smooth, being regulated by a factor that is multiplied with the reconstruction loss of the masking module. The resulting training procedure generates an easy-to-hard curriculum. We train our Curriculum-Learned Masked Autoencoder (CL-MAE) on ImageNet and show that it exhibits superior representation learning capabilities compared to MAE. The empirical results on five downstream tasks confirm our conjecture, demonstrating that curriculum learning can be successfully used to self-supervise masked autoencoders. We release our code at https://github.com/ristea/cl-mae.
翻訳日:2023-10-26 19:49:14 公開日:2023-10-25
# 拡散デノジングモデルを用いた医用画像分割のためのリサイクリングトレーニング戦略

A Recycling Training Strategy for Medical Image Segmentation with Diffusion Denoising Models ( http://arxiv.org/abs/2308.16355v2 )

ライセンス: Link先を確認
Yunguan Fu, Yiwen Li, Shaheer U Saeed, Matthew J Clarkson, Yipeng Hu(参考訳) ノイズ拡散モデルでは、画像に条件付けされたセグメントマスクを生成することで、画像分割に応用されている。 既存の研究は主に、テストタイムサンプリング戦略のようなモデルアーキテクチャの調整や推論の改善に重点を置いている。 本研究では,トレーニング戦略の改善に焦点をあて,新しいリサイクル手法を提案する。 各トレーニングステップでは、画像とランダムノイズとが与えられると、セグメンテーションマスクが最初に予測される。 この予測されたマスクは、従来の地上真理マスクに代わるもので、訓練中のタスクに使用される。 この手法は, ノイズのあるサンプルを生成するための地中真実マスクへの依存を排除し, トレーニング戦略を推論と整合させることと解釈できる。 提案手法は, 筋超音波, 腹部ct, 前立腺mri, および脳mriの複数の画像データに対して, 標準拡散トレーニング, セルフコンディショニング, および既存のリサイクル戦略を著しく上回っている。 重要な点として, 既存の拡散モデルでは, 推定中に低下または不安定な性能を示すことが多いが, 新規リサイクルは一貫して性能を向上・維持する。 提案手法は,同一のネットワークアーキテクチャと計算予算とを公正に比較し,非拡散型教師付きトレーニングによるリサイクルベース拡散モデルの性能向上を実現する。 提案する拡散モデルと非拡散モデルを組み合わせたことにより,非拡散モデルに対する有意な改善がすべての応用で観察され,この新しい訓練法の価値が実証された。 本稿では、これらの定量的な結果を要約し、その価値を再現可能なjaxベースの実装として、https://github.com/mathpluscode/imgx-diffsegで公開します。

Denoising diffusion models have found applications in image segmentation by generating segmented masks conditioned on images. Existing studies predominantly focus on adjusting model architecture or improving inference, such as test-time sampling strategies. In this work, we focus on improving the training strategy and propose a novel recycling method. During each training step, a segmentation mask is first predicted given an image and a random noise. This predicted mask, which replaces the conventional ground truth mask, is used for denoising task during training. This approach can be interpreted as aligning the training strategy with inference by eliminating the dependence on ground truth masks for generating noisy samples. Our proposed method significantly outperforms standard diffusion training, self-conditioning, and existing recycling strategies across multiple medical imaging data sets: muscle ultrasound, abdominal CT, prostate MR, and brain MR. This holds for two widely adopted sampling strategies: denoising diffusion probabilistic model and denoising diffusion implicit model. Importantly, existing diffusion models often display a declining or unstable performance during inference, whereas our novel recycling consistently enhances or maintains performance. We show that, under a fair comparison with the same network architectures and computing budget, the proposed recycling-based diffusion models achieved on-par performance with non-diffusion-based supervised training. By ensembling the proposed diffusion and the non-diffusion models, significant improvements to the non-diffusion models have been observed across all applications, demonstrating the value of this novel training method. This paper summarizes these quantitative results and discusses their values, with a fully reproducible JAX-based implementation, released at https://github.com/mathpluscode/ImgX-DiffSeg.
翻訳日:2023-10-26 19:48:45 公開日:2023-10-25
# バイオレイサム2023 バイオメディカル研究論文のレイサム化に関する共有課題の概要

Overview of the BioLaySumm 2023 Shared Task on Lay Summarization of Biomedical Research Articles ( http://arxiv.org/abs/2309.17332v2 )

ライセンス: Link先を確認
Tomas Goldsack, Zheheng Luo, Qianqian Xie, Carolina Scarton, Matthew Shardlow, Sophia Ananiadou, Chenghua Lin(参考訳) 本稿では,ACL 2023のBioNLPワークショップで開催されているバイオメディカルリサーチ記事のレイ要約(BioLaySumm)における共有タスクの結果について述べる。 この共有タスクの目的は、制御可能かつ制御不能な設定の両方で「遅延要約」(すなわち、非技術的オーディエンスにとって理解しやすい要約)を生成することができる抽象的な要約モデルを開発することである。 サブタスクは2つあります。 1)レイ要約(Lay Summarisation)は,全記事テキスト及び対応する要約を入力として指定し,参加者がレイ要約生成のみのモデルを構築することを目標とする。 2) 可読性制御による要約は, 論文の主文を入力として, 参加者がモデルの訓練を行い, 技術的要約と台詞要約の両方を生成することを目的としている。 総合的な結果に加えて,BioLaySumm共有タスクのセットアップと洞察についても報告した。

This paper presents the results of the shared task on Lay Summarisation of Biomedical Research Articles (BioLaySumm), hosted at the BioNLP Workshop at ACL 2023. The goal of this shared task is to develop abstractive summarisation models capable of generating "lay summaries" (i.e., summaries that are comprehensible to non-technical audiences) in both a controllable and non-controllable setting. There are two subtasks: 1) Lay Summarisation, where the goal is for participants to build models for lay summary generation only, given the full article text and the corresponding abstract as input; and 2) Readability-controlled Summarisation, where the goal is for participants to train models to generate both the technical abstract and the lay summary, given an article's main text as input. In addition to overall results, we report on the setup and insights from the BioLaySumm shared task, which attracted a total of 20 participating teams across both subtasks.
翻訳日:2023-10-26 19:42:43 公開日:2023-10-25
# エバネッセント電子波スピン

Evanescent Electron Wave Spin ( http://arxiv.org/abs/2309.17325v3 )

ライセンス: Link先を確認
Ju Gao and Fang Shen(参考訳) 本研究は, 量子井戸におけるディラック方程式の正確な解を解き, 境界における波動関数の連続性を維持することにより, 有限および無限量子井戸の外に電子波が存在することを示す。 さらに,全領域の電流密度の解析式を導出することにより,エバネッセント波が量子井戸内の波と同時に回転することを示す。 その結果, スピン状態全体を破壊することなく, エバネッセント波による量子スピン情報の探索や盗聴が可能であることが示唆された。 波動スピン図は、スピンをエバネッセント波動関数と閉じ込め波動関数の両方を含む電子波の大域的および決定論的性質として解釈する。 このことは、電子波スピンの操作と探査に基づく量子過程や装置が確率的ではなく自然界において決定論的であることを示唆している。

Our study shows that an evanescent electron wave exists outside both finite and infinite quantum wells, by solving exact solutions of the Dirac equation in a cylindrical quantum well and maintaining wavefunction continuity at the boundary. Furthermore, we demonstrate that the evanescent wave spins concurrently with the wave inside the quantum well, by deriving analytical expressions of the current density in the whole region. Our findings suggest that it is possible to probe or eavesdrop on quantum spin information through the evanescent wave spin without destroying the entire spin state. The wave spin picture interprets spin as a global and deterministic property of the electron wave that includes both the evanescent and confined wavefunctions. This suggests that a quantum process or device based on the manipulation and probing of the electron wave spin is deterministic in nature rather than probabilistic.
翻訳日:2023-10-26 19:42:23 公開日:2023-10-25
# 機械学習におけるLeave-out Distinguishability

Leave-one-out Distinguishability in Machine Learning ( http://arxiv.org/abs/2309.17310v2 )

ライセンス: Link先を確認
Jiayuan Ye, Anastasia Borovykh, Soufiane Hayou, Reza Shokri(参考訳) 我々は、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めて定量化する新しい分析フレームワーク、LOOD(Left-out-out distinguishability)の概念を導入する。 この問題は、機械学習におけるデータ**記憶*と**情報リーク**と、モデル予測におけるトレーニングデータポイントの**インフルエンス**を測定する上で鍵となる。 本手法は,学習データに関連する記憶とプライバシーのリスクに関する既存の経験的尺度を拡張・洗練する方法を示す。 我々はガウス過程を用いて機械学習アルゴリズムのランダム性をモデル化し、メンバーシップ推論攻撃を用いた情報漏洩の広範な実証分析によりLOODを検証する。 我々の理論的枠組みは,情報漏洩の原因と漏洩が高い場所を調査することを可能にする。 例えば、アクティベーション関数がデータの記憶に与える影響を分析します。 さらに,本手法では,トレーニングデータに関する最も重要な情報を明らかにするクエリの最適化を行うことができる。 トレーニングデータの正確な ** 再構成** に最適なクエリが利用できることを示す。

We introduce a new analytical framework to quantify the changes in a machine learning algorithm's output distribution following the inclusion of a few data points in its training set, a notion we define as leave-one-out distinguishability (LOOD). This problem is key to measuring data **memorization** and **information leakage** in machine learning, and the **influence** of training data points on model predictions. We illustrate how our method broadens and refines existing empirical measures of memorization and privacy risks associated with training data. We use Gaussian processes to model the randomness of machine learning algorithms, and validate LOOD with extensive empirical analysis of information leakage using membership inference attacks. Our theoretical framework enables us to investigate the causes of information leakage and where the leakage is high. For example, we analyze the influence of activation functions, on data memorization. Additionally, our method allows us to optimize queries that disclose the most significant information about the training data in the leave-one-out setting. We illustrate how optimal queries can be used for accurate **reconstruction** of training data.
翻訳日:2023-10-26 19:42:08 公開日:2023-10-25
# 支援を受けるための学習: 介入認識概念埋め込みモデル

Learning to Receive Help: Intervention-Aware Concept Embedding Models ( http://arxiv.org/abs/2309.16928v2 )

ライセンス: Link先を確認
Mateo Espinosa Zarlenga, Katherine M. Collins, Krishnamurthy Dvijotham, Adrian Weller, Zohreh Shams, Mateja Jamnik(参考訳) 概念ボトルネックモデル(cbms)は、ハイレベルな概念の集合を用いてそれらの予測を構築し、説明することで、神経アーキテクチャの不透明性に取り組む。 これらのモデルの特別な特性は、ユーザーが誤予測された概念を修正でき、それによってモデルの性能が向上する、概念の介入を許すことである。 しかし、近年の研究では、介入の有効性は、モデルのアーキテクチャとトレーニングハイパーパラメーターに概念が介入される順序に大きく依存することが示されている。 これは、cbmがモデルが概念的介入を適切に受け付けるために列車の時間的インセンティブを欠いていることに起因していると論じている。 そこで我々は,テスト時の介入に対するモデルの受容性を改善する新しいcbmベースのアーキテクチャとトレーニングパラダイムであるintervention-aware concept embedded models (intcems)を提案する。 本モデルでは,列車走行時の有意義な介入軌跡をサンプリングし,エンドツーエンドで概念介入ポリシーを学習する。 この条件は、テスト時にデプロイされたときに、効果的にコンセプト介入を選択および受信する。 実験の結果,IntCEMはテスト時間の概念介入を施す場合,最先端の概念解釈モデルよりも優れており,本手法の有効性が示された。

Concept Bottleneck Models (CBMs) tackle the opacity of neural architectures by constructing and explaining their predictions using a set of high-level concepts. A special property of these models is that they permit concept interventions, wherein users can correct mispredicted concepts and thus improve the model's performance. Recent work, however, has shown that intervention efficacy can be highly dependent on the order in which concepts are intervened on and on the model's architecture and training hyperparameters. We argue that this is rooted in a CBM's lack of train-time incentives for the model to be appropriately receptive to concept interventions. To address this, we propose Intervention-aware Concept Embedding models (IntCEMs), a novel CBM-based architecture and training paradigm that improves a model's receptiveness to test-time interventions. Our model learns a concept intervention policy in an end-to-end fashion from where it can sample meaningful intervention trajectories at train-time. This conditions IntCEMs to effectively select and receive concept interventions when deployed at test-time. Our experiments show that IntCEMs significantly outperform state-of-the-art concept-interpretable models when provided with test-time concept interventions, demonstrating the effectiveness of our approach.
翻訳日:2023-10-26 19:41:51 公開日:2023-10-25
# クリフォード群の文字表について

On character table of Clifford groups ( http://arxiv.org/abs/2309.14850v2 )

ライセンス: Link先を確認
Chin-Yen Lee, Wei-Hsuan Yu, Yung-Ning Peng, Ching-Jui Lai(参考訳) _\mathcal{c}_n$ の表現と [gap] の助けに基づいて、clifford 群 $\mathcal{c}_n$ の文字テーブルを $n=1,2,3$ で構築する。 応用として、これらの場合において、行列表現のテンソル積(高次)を効率的に分解することができる。 その結果,[HWW, WF]の既知結果が回復し, 新たな現象が明らかになった。 n \geq 3$, (1) のとき、自明な文字は $\mathcal{c}_n$ の唯一の線型文字であり、したがって $\mathcal{c}_n$ はその交換子部分群と等しく、(2) $n$-qubit pauli group $\mathcal{p}_n$ は$\mathcal{c}_n$, (3) 行列表現 $\mathcal{m}_{2^n}$ が$\mathcal{c}_n$ の唯一の固有でない正規部分群である。 副生成物として、有限シンプレクティック群 $Sp(2n,2)$ を生成元と関係性の観点から提示する。

Based on a presentation of $\mathcal{C}_n$ and the help of [GAP], we construct the character table of the Clifford group $\mathcal{C}_n$ for $n=1,2,3$. As an application, we can efficiently decompose the (higher power of) tensor product of the matrix representation in those cases. Our results recover some known results in [HWW, WF] and reveal some new phenomena. We prove that when $n \geq 3$, (1) the trivial character is the only linear character for $\mathcal{C}_n$ and hence $\mathcal{C}_n$ equals to its commutator subgroup, (2) the $n$-qubit Pauli group $\mathcal{P}_n$ is the only proper non-trivial normal subgroup of $\mathcal{C}_n$, (3) the matrix representation $\mathcal{M}_{2^n}$ is a faithful representation for $\mathcal{C}_n$. As a byproduct, we give a presentation of the finite symplectic group $Sp(2n,2)$ in terms of generators and relations.
翻訳日:2023-10-26 19:41:28 公開日:2023-10-25
# 3dポイントクラウドのためのエッジ認識学習

Edge Aware Learning for 3D Point Cloud ( http://arxiv.org/abs/2309.13472v2 )

ライセンス: Link先を確認
Lei Li(参考訳) 本稿では,エッジ機能に着目し,エッジ認識とセグメンテーションの改善を目的とした階層型エッジ認識3dポイントクラウドラーニング(hea-net)の革新的アプローチを提案する。 本研究では,ポイントクラウドの分類とセグメンテーションの強化を目的とした,革新的なエッジアウェア学習手法を提案する。 人間の視覚システムからインスピレーションを得たエッジ認識の概念がこの手法に組み込まれ、オブジェクト認識の改善に寄与し、同時に計算時間を短縮した。 私たちの研究は、オブジェクトの分類とセグメンテーションタスクを効果的に管理する高度な3dポイントクラウド学習フレームワークの開発につながった。 ローカルおよびグローバルネットワーク学習パラダイムのユニークな融合が採用され、エッジにフォーカスしたローカルおよびグローバル埋め込みによって強化され、モデルの解釈能力が大幅に向上した。 さらに,ポイントクラウドの処理効率を高めるために階層的トランスフォーマアーキテクチャを適用し,構造理解への微妙な洞察を提供する。 当社のアプローチは,ノイズの多いポイントクラウドデータ管理において大きな可能性を秘めており,3Dポイントクラウド学習におけるエッジアウェア戦略の可能性を強調している。 提案手法は,modelnet40 と shapenet データセットを用いた実験で示されたように,オブジェクト分類やセグメンテーションタスクにおける既存の手法を上回っている。

This paper proposes an innovative approach to Hierarchical Edge Aware 3D Point Cloud Learning (HEA-Net) that seeks to address the challenges of noise in point cloud data, and improve object recognition and segmentation by focusing on edge features. In this study, we present an innovative edge-aware learning methodology, specifically designed to enhance point cloud classification and segmentation. Drawing inspiration from the human visual system, the concept of edge-awareness has been incorporated into this methodology, contributing to improved object recognition while simultaneously reducing computational time. Our research has led to the development of an advanced 3D point cloud learning framework that effectively manages object classification and segmentation tasks. A unique fusion of local and global network learning paradigms has been employed, enriched by edge-focused local and global embeddings, thereby significantly augmenting the model's interpretative prowess. Further, we have applied a hierarchical transformer architecture to boost point cloud processing efficiency, thus providing nuanced insights into structural understanding. Our approach demonstrates significant promise in managing noisy point cloud data and highlights the potential of edge-aware strategies in 3D point cloud learning. The proposed approach is shown to outperform existing techniques in object classification and segmentation tasks, as demonstrated by experiments on ModelNet40 and ShapeNet datasets.
翻訳日:2023-10-26 19:40:39 公開日:2023-10-25
# Adaptive Multimodal Rewards を用いたエージェントのガイド

Guide Your Agent with Adaptive Multimodal Rewards ( http://arxiv.org/abs/2309.10790v2 )

ライセンス: Link先を確認
Changyeon Kim, Younggyo Seo, Hao Liu, Lisa Lee, Jinwoo Shin, Honglak Lee, Kimin Lee(参考訳) 見えない環境に適応できるエージェントを開発することは、模倣学習において難しい課題である。 本研究は,自然言語タスク記述と事前学習型マルチモーダルエンコーダを用いてエージェントの一般化能力を高めるための効率的なフレームワークであるAdaptive Return-conditioned Policy(ARP)を提案する。 我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間(CLIPなど)における視覚観察と自然言語命令の類似性を計算し、報酬信号として使用することである。 次に、マルチモーダル報酬をラベル付けした専門家によるデモンストレーションを用いて、返却条件付きポリシーを訓練する。 マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。 これにより、既存のテキスト条件のポリシーと比較して、目に見えないテキスト命令に直面しても、より優れた一般化性能が得られる。 報酬の質を向上させるため,事前学習したマルチモーダルエンコーダの微調整手法を導入し,さらに性能の向上を図る。 ビデオデモとソースコードはプロジェクトのWebサイトで公開されている。

Developing an agent capable of adapting to unseen environments remains a difficult challenge in imitation learning. This work presents Adaptive Return-conditioned Policy (ARP), an efficient framework designed to enhance the agent's generalization ability using natural language task descriptions and pre-trained multimodal encoders. Our key idea is to calculate a similarity between visual observations and natural language instructions in the pre-trained multimodal embedding space (such as CLIP) and use it as a reward signal. We then train a return-conditioned policy using expert demonstrations labeled with multimodal rewards. Because the multimodal rewards provide adaptive signals at each timestep, our ARP effectively mitigates the goal misgeneralization. This results in superior generalization performances even when faced with unseen text instructions, compared to existing text-conditioned policies. To improve the quality of rewards, we also introduce a fine-tuning method for pre-trained multimodal encoders, further enhancing the performance. Video demonstrations and source code are available on the project website: \url{https://sites.google.com/view/2023arp}.
翻訳日:2023-10-26 19:40:05 公開日:2023-10-25
# 暗号ホワイトペーパーの分析を向上する法律NLP、MiCARと会談

Legal NLP Meets MiCAR: Advancing the Analysis of Crypto White Papers ( http://arxiv.org/abs/2310.10333v3 )

ライセンス: Link先を確認
Carolina Camassa(参考訳) 暗号資産の急速に発展する分野では、ホワイトペーパーは投資家の指導に欠かせない文書であり、現在は欧州連合の暗号資産規制市場(MiCAR)の下で、前例のない内容要件の対象となっている。 自然言語処理(nlp)は、これらの文書の分析と規制の遵守を支援する強力なツールとなり得る。 本稿ではこの話題に2つの貢献をする。 まず,非規制暗号資産のホワイトペーパーに対するテキスト解析の既存の応用を調査し,学際的コラボレーションに橋渡しできる研究ギャップを明らかにする。 次に、MiCARが導入した変更を分析し、新しい規制フレームワークにNLPを統合する機会と課題を強調します。 この発見はさらなる研究の舞台となり、規制当局、仮想通貨発行者、投資家に利益をもたらす可能性がある。

In the rapidly evolving field of crypto assets, white papers are essential documents for investor guidance, and are now subject to unprecedented content requirements under the European Union's Markets in Crypto-Assets Regulation (MiCAR). Natural Language Processing (NLP) can serve as a powerful tool for both analyzing these documents and assisting in regulatory compliance. This paper delivers two contributions to the topic. First, we survey existing applications of textual analysis to unregulated crypto asset white papers, uncovering a research gap that could be bridged with interdisciplinary collaboration. We then conduct an analysis of the changes introduced by MiCAR, highlighting the opportunities and challenges of integrating NLP within the new regulatory framework. The findings set the stage for further research, with the potential to benefit regulators, crypto asset issuers, and investors.
翻訳日:2023-10-26 19:31:30 公開日:2023-10-25
# DSAC-T:3つのリファインメントを持つ分布型ソフトアクター臨界

DSAC-T: Distributional Soft Actor-Critic with Three Refinements ( http://arxiv.org/abs/2310.05858v2 )

ライセンス: Link先を確認
Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, and Shengbo Eben Li(参考訳) 強化学習(rl)は複雑な意思決定と制御タスクに取り組むのに非常に効果的であることが証明されている。 しかし、一般的なモデルなしRL法は、よく知られた過大評価問題のために、しばしば深刻な性能劣化に直面している。 そこで,我々は最近,分散型ソフトアクタ-クリティック(dsac,dsac-v1)と呼ばれるオフポリシーrlアルゴリズムを導入し,連続ガウス値分布を学習することにより,値推定精度を効果的に向上させた。 それでも、標準的なDSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。 本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。 これらの改良は、評価勾配調整、ツイン値分布学習、分散ベースの目標リターンクリッピングからなる。 改良された RL アルゴリズムは 3 つの改良 (DSAC-T または DSAC-v2) を持つ DSAC と命名され、その性能は様々なベンチマークタスクで体系的に評価される。 タスク固有のハイパーパラメータチューニングがなければ、DSAC-TはSAC、TD3、DDPG、TRPO、PPOを含む多くの主要なモデルなしRLアルゴリズムを超越する。 さらに、DSAC-Tは標準的なバージョンとは異なり、高度に安定した学習プロセスを確保し、様々な報酬スケールで同様のパフォーマンスを提供する。

Reinforcement learning (RL) has proven to be highly effective in tackling complex decision-making and control tasks. However, prevalent model-free RL methods often face severe performance degradation due to the well-known overestimation issue. In response to this problem, we recently introduced an off-policy RL algorithm, called distributional soft actor-critic (DSAC or DSAC-v1), which can effectively improve the value estimation accuracy by learning a continuous Gaussian value distribution. Nonetheless, standard DSAC has its own shortcomings, including occasionally unstable learning processes and needs for task-specific reward scaling, which may hinder its overall performance and adaptability in some special tasks. This paper further introduces three important refinements to standard DSAC in order to address these shortcomings. These refinements consist of critic gradient adjusting, twin value distribution learning, and variance-based target return clipping. The modified RL algorithm is named as DSAC with three refinements (DSAC-T or DSAC-v2), and its performances are systematically evaluated on a diverse set of benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T surpasses a lot of mainstream model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T, unlike its standard version, ensures a highly stable learning process and delivers similar performance across varying reward scales.
翻訳日:2023-10-26 19:31:14 公開日:2023-10-25
# 逆関係理解におけるLLMの有効性の検討

An Investigation of LLMs' Inefficacy in Understanding Converse Relations ( http://arxiv.org/abs/2310.05163v2 )

ライセンス: Link先を確認
Chengwen Qi, Bowen Li, Binyuan Hui, Bailin Wang, Jinyang Li, Jinwang Wu, Yuanjun Laili(参考訳) 大規模言語モデル(llm)は、構造的データ・ツー・テキストや意味解析など、多くの形式言語指向タスクで顕著な成功を収めている。 しかし、現在のベンチマークは主にLLMの事前学習データのデータ分布に従っている。 したがって、LLMが形式言語の構造化意味論を本当に理解しているという自然な疑問が生じる。 本稿では,この問題を特殊ケース,逆二項関係で検討する。 一般的な知識グラフ補完データセットから抽出された17の関係と1240のトリプルを含む逆関係に着目した新しいベンチマークであるConvReを紹介する。 re2text と text2re の2つのタスクを特徴としており、llms が関連テキストとのマッチングを決定する能力を評価するために、マルチチョイス質問応答として定式化されている。 評価プロトコルについては,異なるプロンプト方法とは別に,テストテキストとサンプルテキストの変種についても紹介する。 我々は3つのLLMファミリーで実験を行い、様々なスケーリング傾向を観察した。 この結果から,LLMは学習時間を短縮し,提案したベンチマークの課題に直面していることが示唆された。

Large Language Models (LLMs) have achieved remarkable success in many formal language oriented tasks, such as structural data-to-text and semantic parsing. However current benchmarks mostly follow the data distribution of the pre-training data of LLMs. Therefore, a natural question rises that do LLMs really understand the structured semantics of formal languages. In this paper, we investigate this problem on a special case, converse binary relation. We introduce a new benchmark ConvRe focusing on converse relations, which contains 17 relations and 1240 triples extracted from popular knowledge graph completion datasets. Our ConvRE features two tasks, Re2Text and Text2Re, which are formulated as multi-choice question answering to evaluate LLMs' ability to determine the matching between relations and associated text. For the evaluation protocol, apart from different prompting methods, we further introduce variants to the test text and few-shot example text. We conduct experiments on three popular LLM families and have observed various scaling trends. The results suggest that LLMs often resort to shortcut learning and still face challenges on our proposed benchmark.
翻訳日:2023-10-26 19:30:25 公開日:2023-10-25
# codetransocean: コード翻訳のための総合的多言語ベンチマーク

CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation ( http://arxiv.org/abs/2310.04951v2 )

ライセンス: Link先を確認
Weixiang Yan, Yuchen Tian, Yunzhe Li, Qian Chen, Wen Wang(参考訳) 最近のコード翻訳技術は、ニューラルマシン翻訳モデルを利用して、あるプログラミング言語から別のプログラミング言語にソースコードを翻訳し、プロダクション互換性を満たすか、コードベースのメンテナンス効率を改善する。 既存のコード翻訳データセットのほとんどは、人気のあるプログラミング言語のペアにのみフォーカスする。 コード翻訳研究の進展と実世界のアプリケーションの多様な要件を満たすため,コード翻訳のための最大のプログラミング言語をサポートする大規模な総合ベンチマークであるCodeTransOceanを構築した。 CodeTransOceanは、3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードの実行可能性を評価するLLMTransで構成されている。 CodeTransOceanには、さまざまなフレームワーク間でディープラーニングコードを翻訳するための、新しいクロスフレームワークデータセットであるDLTransも含まれている。 我々は、コード翻訳のための多言語モデリング手法を開発し、低リソースと高リソースの言語ペアの翻訳品質を向上し、トレーニング効率を高める大きな可能性を示す。 また,プログラムレベルのコード変換のための評価基準デバッグ成功率@kを提案する。 最後に,LLM ChatGPTをデータセット上で評価し,ファジィ実行予測の可能性を検討する。 CodeTransOceanのベースラインを構築し、将来の研究を導くためのコード翻訳の課題を分析します。 CodeTransOceanのデータセットとコードはhttps://github.com/WeixiangYAN/CodeTransOceanで公開されている。

Recent code translation techniques exploit neural machine translation models to translate source code from one programming language to another to satisfy production compatibility or to improve efficiency of codebase maintenance. Most existing code translation datasets only focus on a single pair of popular programming languages. To advance research on code translation and meet diverse requirements of real-world applications, we construct CodeTransOcean, a large-scale comprehensive benchmark that supports the largest variety of programming languages for code translation. CodeTransOcean consists of three novel multilingual datasets, namely, MultilingualTrans supporting translations between multiple popular programming languages, NicheTrans for translating between niche programming languages and popular ones, and LLMTrans for evaluating executability of translated code by large language models (LLMs). CodeTransOcean also includes a novel cross-framework dataset, DLTrans, for translating deep learning code across different frameworks. We develop multilingual modeling approaches for code translation and demonstrate their great potential in improving the translation quality of both low-resource and high-resource language pairs and boosting the training efficiency. We also propose a novel evaluation metric Debugging Success Rate@K for program-level code translation. Last but not least, we evaluate LLM ChatGPT on our datasets and investigate its potential for fuzzy execution predictions. We build baselines for CodeTransOcean and analyze challenges of code translation for guiding future research. The CodeTransOcean datasets and code are publicly available at https://github.com/WeixiangYAN/CodeTransOcean.
翻訳日:2023-10-26 19:30:05 公開日:2023-10-25
# OpenStreetMapデータとオブジェクト指向トランスを用いた高分解能画像を用いた土地被覆変化検出

Land-cover change detection using paired OpenStreetMap data and optical high-resolution imagery via object-guided Transformer ( http://arxiv.org/abs/2310.02674v2 )

ライセンス: Link先を確認
Hongruixuan Chen and Cuiling Lan and Jian Song and Clifford Broni-Bediako and Junshi Xia and Naoto Yokoya(参考訳) 光高分解能画像とopenstreetmap(osm)データは、土地被覆変化検出のための2つの重要なデータ源である。 これら2つのデータソースにおける従来の研究は、OSMデータの情報を利用して、マルチ時間光高解像度画像の変化検出に役立っている。 本稿では,OSMデータと光学画像を用いた土地被覆変化の直接検出を先導し,よりダイナミックな地球観測を包含する変化検出タスクの地平線を拡大する。 そこで本研究では、オブジェクト指向画像解析(OBIA)技術と高度な視覚変換器アーキテクチャを自然に組み合わせ、オブジェクト指向変換器(ObjFormer)アーキテクチャを提案する。 OBIAの導入により、自己保持モジュールの計算オーバーヘッドとメモリ負荷を大幅に削減できる。 具体的には、ObjFormerは、OSMデータと光画像から異なるレベルの代表的特徴を抽出するオブジェクト誘導自己アテンションモジュールからなる階層的な擬似スキームエンコーダを持ち、オブジェクト誘導相互アテンションモジュールからなるデコーダは、抽出した異種特徴から土地被覆変化を段階的に回復することができる。 本稿では,基本的な2値変化検出タスクに加えて,手動でアノテートされた光学画像のランドカバーラベルを必要としない半教師付きセマンティックな変化検出タスクを提起する。 このタスクを効率的に達成するために、2つの軽量セマンティックデコーダがObjFormerに追加されている。 逆クロスエントロピー損失は負のサンプルを十分に活用するように設計され、このタスクの性能向上に寄与する。 1,287の地図画像ペア(1024$\times$ 1024 pixels for each sample)を含む最初の大規模ベンチマークデータセットは、6大陸の40の領域をカバーしている。

Optical high-resolution imagery and OpenStreetMap (OSM) data are two important data sources for land-cover change detection. Previous studies in these two data sources focus on utilizing the information in OSM data to aid the change detection on multi-temporal optical high-resolution images. This paper pioneers the direct detection of land-cover changes utilizing paired OSM data and optical imagery, thereby broadening the horizons of change detection tasks to encompass more dynamic earth observations. To this end, we propose an object-guided Transformer (ObjFormer) architecture by naturally combining the prevalent object-based image analysis (OBIA) technique with the advanced vision Transformer architecture. The introduction of OBIA can significantly reduce the computational overhead and memory burden in the self-attention module. Specifically, the proposed ObjFormer has a hierarchical pseudo-siamese encoder consisting of object-guided self-attention modules that extract representative features of different levels from OSM data and optical images; a decoder consisting of object-guided cross-attention modules can progressively recover the land-cover changes from the extracted heterogeneous features. In addition to the basic supervised binary change detection task, this paper raises a new semi-supervised semantic change detection task that does not require any manually annotated land-cover labels of optical images to train semantic change detectors. Two lightweight semantic decoders are added to ObjFormer to accomplish this task efficiently. A converse cross-entropy loss is designed to fully utilize the negative samples, thereby contributing to the great performance improvement in this task. The first large-scale benchmark dataset containing 1,287 map-image pairs (1024$\times$ 1024 pixels for each sample) covering 40 regions on six continents ...(see the manuscript for the full abstract)
翻訳日:2023-10-26 19:29:30 公開日:2023-10-25
# OceanGPT: 海洋科学タスクのための大規模言語モデル

OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v4 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, Huajun Chen(参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。 近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。 他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。 内在的な理由は、海洋データの巨大で複雑な性質と、より高い粒度と知識の豊かさの必要性である。 これらの問題を緩和するため,海洋分野における初のLCMであるOceanGPTを紹介した。 マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるDoInstructを提案する。 さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。 総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。 コード、データ、チェックポイントは近々https://github.com/zjunlp/KnowLM.comで公開される。

Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reason may be the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever LLM in the ocean domain, which is expert in various ocean science tasks. We propose DoInstruct, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology. Codes, data and checkpoints will soon be available at https://github.com/zjunlp/KnowLM.
翻訳日:2023-10-26 19:28:53 公開日:2023-10-25
# リモートセンシングのための建物を分割する

Segment Any Building For Remote Sensing ( http://arxiv.org/abs/2310.01164v3 )

ライセンス: Link先を確認
Lei Li(参考訳) リモートセンシング画像中の建物を識別・分断する作業は、学術調査の最前線に長年立っていた。 この原稿は、画像にセグメンテーションを構築するための最先端表現学習パラダイムを用いて、多様なデータセットをタンデムで活用する能力を示す。 異なるデータセットの戦略的アマルガメーションを通じて、モデルトレーニングに利用可能な情報水平線を拡張しただけでなく、複数のデータセットにまたがる非並列なパフォーマンス指標も示した。 我々の前衛合同訓練体制は, 都市インフラ整備, 防災戦略, 生態モニタリングなど, 重要な分野に重大な影響を及ぼし, アプローチのメリットを浮き彫りにしている。 我々の手法は、データセットの融合と事前訓練されたモデルからの洞察に基づくものであり、セグメンテーションの取り組みの成果に新しいベンチマークを彫っている。 この研究の成果は、学術的な追求に伴う基礎の強化と、建物区分の分野における革新的応用による地平線の形成の両方に寄与する。

The task of identifying and segmenting buildings within remote sensing imagery has perennially stood at the forefront of scholarly investigations. This manuscript accentuates the potency of harnessing diversified datasets in tandem with cutting-edge representation learning paradigms for building segmentation in such images. Through the strategic amalgamation of disparate datasets, we have not only expanded the informational horizon accessible for model training but also manifested unparalleled performance metrics across multiple datasets. Our avant-garde joint training regimen underscores the merit of our approach, bearing significant implications in pivotal domains such as urban infrastructural development, disaster mitigation strategies, and ecological surveillance. Our methodology, predicated upon the fusion of datasets and gleaning insights from pre-trained models, carves a new benchmark in the annals of building segmentation endeavors. The outcomes of this research both fortify the foundations for ensuing scholarly pursuits and presage a horizon replete with innovative applications in the discipline of building segmentation.
翻訳日:2023-10-26 19:28:31 公開日:2023-10-25
# 地震計トランスフォーマー:複数の地震監視タスクのための汎用ディープラーニングバックボーンネットワーク

Seismogram Transformer: A generic deep learning backbone network for multiple earthquake monitoring tasks ( http://arxiv.org/abs/2310.01037v2 )

ライセンス: Link先を確認
Sen Li, Xu Yang, Anye Cao, Changbin Wang, Yaoqi Liu, Yapeng Liu, Qiang Niu(参考訳) 地震記録は地震記録として知られ、地震調査とモニタリングのバックボーンを構成する地震イベントによって生じる地震動の重要な記録である。 ディープラーニングの最近の進歩は、様々な地震信号処理タスクを著しく促進してきた。 本稿では,地震計トランスフォーマ(seist)と呼ばれる,各種地震観測タスク用に設計された新しいバックボーンニューラルネットワークモデルを提案する。 その効率的なネットワークアーキテクチャのおかげで、地震検出、地震位相抽出、第一運動極性分類、マグニチュード推定、および後方方位推定タスクにおける最先端のモデル、特に分散汎化性能の面で、seistは、最先端のモデルよりも優れています。 SeisTは、複数の基本ブロックから構成される複数のネットワーク層から構成されており、モデルが低レベルから高レベルの複雑な特徴から地震図の多レベル特徴表現を理解するのに役立ち、入力地震図から周波数、位相、時間周波数の関係などの特徴を効果的に抽出する。 これらの多様な基本モジュールに基づいて、3つの異なるサイズのモデルがカスタマイズされた。 本研究は,広範囲な実験と性能評価を通じて,地震信号処理と地震研究の進展におけるSeesTの能力と可能性を示す。

Seismic records, known as seismograms, are crucial records of ground motion resulting from seismic events, constituting the backbone of earthquake research and monitoring. The latest advancements in deep learning have significantly facilitated various seismic signal processing tasks. This paper introduces a novel backbone neural network model designed for various seismic monitoring tasks, named Seismogram Transformer (SeisT). Thanks to its efficient network architecture, SeisT matches or even outperforms the state-of-the-art models in earthquake detection, seismic phase picking, first-motion polarity classification, magnitude estimation, and back-azimuth estimation tasks, particularly in terms of out-of-distribution generalization performance. SeisT consists of multiple network layers composed of different foundational blocks, which help the model understand multi-level feature representations of seismograms from low-level to high-level complex features, effectively extracting features such as frequency, phase, and time-frequency relationships from input seismograms. Three different-sized models were customized based on these diverse foundational modules. Through extensive experiments and performance evaluations, this study showcases the capabilities and potential of SeisT in advancing seismic signal processing and earthquake research.
翻訳日:2023-10-26 19:28:13 公開日:2023-10-25
# MusicAgent: 大規模言語モデルによる音楽理解と生成のためのAIエージェント

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models ( http://arxiv.org/abs/2310.11954v2 )

ライセンス: Link先を確認
Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian(参考訳) aiによる音楽処理は、生成タスク(音色合成など)から理解タスク(音楽分類など)まで、数十のタスクを包含するさまざまな分野である。 開発者やアマチュアにとって、音楽データの表現の大きな違いや、さまざまなタスクのプラットフォーム間でのモデル適用性を考慮すると、音楽処理の要件を満たすためにこれらのタスクをすべて把握することは極めて困難である。 したがって、これらのタスクを組織化し、統合するシステムを構築し、実践者が自動的に要求を分析し、要求を満たすためのソリューションとして適切なツールを呼び出すのを助ける必要がある。 タスク自動化における大規模言語モデル(LLM)の成功に触発されて,多数の音楽関連ツールとユーザ要求に対応する自律ワークフローを統合したMusicAgentというシステムを開発した。 より具体的に言えば 1) ハグフェイス,github,web apiなど,さまざまなソースからツールを集めたツールセット。 2) LLM(例えばChatGPT)による自律的なワークフローにより、これらのツールを整理し、ユーザ要求を複数のサブタスクに自動的に分解し、対応する音楽ツールを呼び出す。 このシステムの主な目標は、ai音楽ツールの複雑さからユーザーを解放し、創造的な側面に集中させることである。 ツールをシームレスに組み合わせる自由をユーザーに与えることで、シームレスで豊かな音楽体験を提供する。

AI-empowered music processing is a diverse field that encompasses dozens of tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension tasks (e.g., music classification). For developers and amateurs, it is very difficult to grasp all of these task to satisfy their requirements in music processing, especially considering the huge differences in the representations of music data and the model applicability across platforms among various tasks. Consequently, it is necessary to build a system to organize and integrate these tasks, and thus help practitioners to automatically analyze their demand and call suitable tools as solutions to fulfill their requirements. Inspired by the recent success of large language models (LLMs) in task automation, we develop a system, named MusicAgent, which integrates numerous music-related tools and an autonomous workflow to address user requirements. More specifically, we build 1) toolset that collects tools from diverse sources, including Hugging Face, GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g., ChatGPT) to organize these tools and automatically decompose user requests into multiple sub-tasks and invoke corresponding music tools. The primary goal of this system is to free users from the intricacies of AI-music tools, enabling them to concentrate on the creative aspect. By granting users the freedom to effortlessly combine tools, the system offers a seamless and enriching music experience.
翻訳日:2023-10-26 19:22:38 公開日:2023-10-25
# polymatrix decomposability によるマルチプレイヤーゲームにおけるセルフプレイの保証

Guarantees for Self-Play in Multiplayer Games via Polymatrix Decomposability ( http://arxiv.org/abs/2310.11518v2 )

ライセンス: Link先を確認
Revan MacQueen, James R. Wright(参考訳) セルフプレイ(Self-play)は、学習アルゴリズムが自分自身のコピーと対話して学習するマルチエージェントシステムにおける機械学習のテクニックである。 セルフプレイは学習のための大量のデータを生成するのに有用であるが、学習者が学習後に直面するエージェントが、学習者が自分自身と対話することによって予想される行動と劇的に異なる行動をとるという欠点がある。 2人プレイの定額制ゲームの場合、ナッシュ均衡に達するセルフプレイは、トレーニング後の対戦相手に対してうまく機能する戦略を生み出すことが保証されるが、マルチプレイヤーゲームにはそのような保証はない。 そこで、グローバル$\epsilon$-nash equilibria が各サブゲーム(サブゲーム安定性と呼ばれる)のnash equilibriaと境界的に離れている2人のプレイヤーにほぼ分解されるゲームにおいて、自己プレイによって学習する非外部レグレットアルゴリズムは、境界的な脆弱性を持つ戦略を生成する。 本研究は,マルチプレイヤーゲームの構造的特性を初めて同定し,多種多様なセルフプレイアルゴリズムによって生成される戦略の性能保証を実現する。 我々はLeduc pokerの実験を通してこの知見を実証した。

Self-play is a technique for machine learning in multi-agent systems where a learning algorithm learns by interacting with copies of itself. Self-play is useful for generating large quantities of data for learning, but has the drawback that the agents the learner will face post-training may have dramatically different behavior than the learner came to expect by interacting with itself. For the special case of two-player constant-sum games, self-play that reaches Nash equilibrium is guaranteed to produce strategies that perform well against any post-training opponent; however, no such guarantee exists for multiplayer games. We show that in games that approximately decompose into a set of two-player constant-sum games (called constant-sum polymatrix games) where global $\epsilon$-Nash equilibria are boundedly far from Nash equilibria in each subgame (called subgame stability), any no-external-regret algorithm that learns by self-play will produce a strategy with bounded vulnerability. For the first time, our results identify a structural property of multiplayer games that enable performance guarantees for the strategies produced by a broad class of self-play algorithms. We demonstrate our findings through experiments on Leduc poker.
翻訳日:2023-10-26 19:22:14 公開日:2023-10-25
# ACES: 自動言語モデルとセマンティック記述子による多言語プログラミングパズルの生成

ACES: Generating Diverse Programming Puzzles with Autotelic Language Models and Semantic Descriptors ( http://arxiv.org/abs/2310.10692v3 )

ライセンス: Link先を確認
Julien Pourcel, C\'edric Colas, Pierre-Yves Oudeyer, Laetitia Teodorescu(参考訳) 解決すべき新しい興味深い問題の発見と選択は好奇心、科学、イノベーションの中心にある。 ここでは、ピソンプログラミングパズルのオープンエンド空間の文脈における自動問題生成について検討する。 既存の生成モデルはしばしば、明示的な多様性の最適化なしに参照分布をモデル化することを目的としている。 多様性を明示的に最適化する他の方法は、限られた手符号化表現空間でも、興味深いバリエーションの人間の知覚と一致しないような解釈不能な埋め込み空間でもそうである。 ACES(Autotelic Code Exploration via Semantic Descriptors)では,大きな言語モデル(LLM)が生成するセマンティック記述子を利用して,興味ある多様性を直接最適化し,少数ショットベースの生成を行う。 各パズルは10次元にラベル付けされ、それぞれがそれを解くのに必要なプログラミングスキルをキャプチャする。 ACESは、抽象的なセマンティック空間を探索するために、新しく実現可能な目標を生成し、追求する。 一連の実験を通じて, acesは, 既存の多様性を最大化するアルゴリズムよりも, 多様なパズルを発見できることを示した。 さらに,この多様性がパズル解法モデルの学習に応用できるかどうかについても検討した。

Finding and selecting new and interesting problems to solve is at the heart of curiosity, science and innovation. We here study automated problem generation in the context of the open-ended space of python programming puzzles. Existing generative models often aim at modeling a reference distribution without any explicit diversity optimization. Other methods explicitly optimizing for diversity do so either in limited hand-coded representation spaces or in uninterpretable learned embedding spaces that may not align with human perceptions of interesting variations. With ACES (Autotelic Code Exploration via Semantic descriptors), we introduce a new autotelic generation method that leverages semantic descriptors produced by a large language model (LLM) to directly optimize for interesting diversity, as well as few-shot-based generation. Each puzzle is labeled along 10 dimensions, each capturing a programming skill required to solve it. ACES generates and pursues novel and feasible goals to explore that abstract semantic space, slowly discovering a diversity of solvable programming puzzles in any given run. Across a set of experiments, we show that ACES discovers a richer diversity of puzzles than existing diversity-maximizing algorithms as measured across a range of diversity metrics. We further study whether and in which conditions this diversity can translate into the successful training of puzzle solving models.
翻訳日:2023-10-26 19:21:50 公開日:2023-10-25
# R&B: ゼロショット接地画像生成における領域と境界認識

R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation ( http://arxiv.org/abs/2310.08872v3 )

ライセンス: Link先を確認
Jiayu Xiao, Liang Li, Henglei Lv, Shuhui Wang, Qingming Huang(参考訳) 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを入力とする高品質な画像の生成が顕著に進んでいる。 しかし、これらのモデルはレイアウト命令によって指定された適切な空間構成を伝達できない。 本研究では,入力レイアウト情報に対応する画像を生成する拡散モデルを用いて,補助モジュールの訓練や拡散モデルの微調整を行わずにゼロショットグラウンドt2i生成を探索する。 本研究では,生成過程において拡散モデルの注意マップを徐々に変調し,(1)高い忠実度,(2)テキスト入力と高い適合性,(3)レイアウト命令の正確な解釈を支援する領域・境界(r&b)対応のクロス・アテンション誘導手法を提案する。 具体的には,連続したアテンションマップと離散レイアウト制約とのギャップを埋めるために離散サンプリングを利用し,拡散過程における生成レイアウトを洗練するために領域認識損失を設計する。 さらに,対象領域における識別可能性を高めるための境界認識損失を提案する。 実験結果から,提案手法は,既存のゼロショットグラウンドドT2I生成手法よりも,定性的かつ定量的に,複数のベンチマークで大きなマージンを達成できた。

Recent text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images given text-prompts as input. However, these models fail to convey appropriate spatial composition specified by a layout instruction. In this work, we probe into zero-shot grounded T2I generation with diffusion models, that is, generating images corresponding to the input layout information without training auxiliary modules or finetuning diffusion models. We propose a Region and Boundary (R&B) aware cross-attention guidance approach that gradually modulates the attention maps of diffusion model during generative process, and assists the model to synthesize images (1) with high fidelity, (2) highly compatible with textual input, and (3) interpreting layout instructions accurately. Specifically, we leverage the discrete sampling to bridge the gap between consecutive attention maps and discrete layout constraints, and design a region-aware loss to refine the generative layout during diffusion process. We further propose a boundary-aware loss to strengthen object discriminability within the corresponding regions. Experimental results show that our method outperforms existing state-of-the-art zero-shot grounded T2I generation methods by a large margin both qualitatively and quantitatively on several benchmarks.
翻訳日:2023-10-26 19:20:57 公開日:2023-10-25
# 画像補完のための距離重み付きトランスネットワーク

Distance Weighted Trans Network for Image Completion ( http://arxiv.org/abs/2310.07440v2 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Huiyu Zhou, Xuelong Li, and Yue Lu(参考訳) 画像生成の課題は、構造優先問題や変換問題として効果的にモデル化されてきた。 しかしながら、既存のモデルは、特定の固有の特徴(例えば局所帰納的事前)のため、グローバルな入力画像構造を理解するのに不十分な性能を持っている。 近年の研究では、自己着脱が画像補完問題の効率的なモデリング手法であることが示されている。 本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 私たちのモデルでは、畳み込みニューラルネットワーク(cnns)とdwtブロックの両方の強みを利用して、画像補完プロセスを強化しています。 特に、cnnは粗い事前の局所的なテクスチャ情報を強化するために使用され、dwtブロックは特定の粗いテクスチャとコヒーレントな視覚構造を回復するために使用される。 CNNを使って機能マップを作成する現在のアプローチとは異なり、我々はDWTを使ってグローバルな依存関係をエンコードし、距離に基づく重み付けされた特徴マップを計算する。 一方, 繰り返しテクスチャをよりよく作成するために, エンコーダのスキップ特徴と生成器が提供する粗い特徴を組み合わせるために, 残差高速フーリエ畳み込み(res-ffc)ブロックを導入する。 さらに,畳み込みの非ゼロ値の正規化と,勾配ノルムの正規化のためのネットワーク層を微調整し,効率的なトレーニングスタビリザーを実現するための簡易かつ効果的な手法を提案する。 3つの挑戦的なデータセットに対する大規模な定量的および定性的実験は、既存のアプローチと比較して提案モデルが優れていることを示す。

The challenge of image generation has been effectively modeled as a problem of structure priors or transformation. However, existing models have unsatisfactory performance in understanding the global input image structures because of particular inherent features (for example, local inductive prior). Recent studies have shown that self-attention is an efficient modeling technique for image completion problems. In this paper, we propose a new architecture that relies on Distance-based Weighted Transformer (DWT) to better understand the relationships between an image's components. In our model, we leverage the strengths of both Convolutional Neural Networks (CNNs) and DWT blocks to enhance the image completion process. Specifically, CNNs are used to augment the local texture information of coarse priors and DWT blocks are used to recover certain coarse textures and coherent visual structures. Unlike current approaches that generally use CNNs to create feature maps, we use the DWT to encode global dependencies and compute distance-based weighted feature maps, which substantially minimizes the problem of visual ambiguities. Meanwhile, to better produce repeated textures, we introduce Residual Fast Fourier Convolution (Res-FFC) blocks to combine the encoder's skip features with the coarse features provided by our generator. Furthermore, a simple yet effective technique is proposed to normalize the non-zero values of convolutions, and fine-tune the network layers for regularization of the gradient norms to provide an efficient training stabiliser. Extensive quantitative and qualitative experiments on three challenging datasets demonstrate the superiority of our proposed model compared to existing approaches.
翻訳日:2023-10-26 19:20:15 公開日:2023-10-25
# GATはバランスが取れていないか?

Are GATs Out of Balance? ( http://arxiv.org/abs/2310.07235v2 )

ライセンス: Link先を確認
Nimrah Mustafa, Aleksandar Bojchevski, Rebekka Burkholz(参考訳) グラフニューラルネットワーク(gnn)の表現力と計算能力は理論的に研究されているが、その最適化と学習のダイナミクスは概して未解明のままである。 本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするGNNアーキテクチャであるグラフ注意ネットワーク(GAT)について述べる。 我々はGAT勾配流の保存則を導出し、GATの標準初期化を伴うパラメータがトレーニング中に変化に苦しむ理由を説明する。 この効果はより深いGATで増幅され、浅いGATよりも著しく低下する。 この問題を軽減するため,GATネットワークのバランスをとる初期化方式を考案した。 私たちのアプローチ 一 より効果的な勾配の伝播を可能とし、更に深いネットワークのトレーサビリティを可能とし、 二 標準初期化と比較して、訓練及び収束時間の大幅な高速化を達成すること。 我々の主定理は、注意機構を持つ正の均質モデルの学習ダイナミクスを研究するための足場となる。

While the expressive power and computational capabilities of graph neural networks (GNNs) have been theoretically studied, their optimization and learning dynamics, in general, remain largely unexplored. Our study undertakes the Graph Attention Network (GAT), a popular GNN architecture in which a node's neighborhood aggregation is weighted by parameterized attention coefficients. We derive a conservation law of GAT gradient flow dynamics, which explains why a high portion of parameters in GATs with standard initialization struggle to change during training. This effect is amplified in deeper GATs, which perform significantly worse than their shallow counterparts. To alleviate this problem, we devise an initialization scheme that balances the GAT network. Our approach i) allows more effective propagation of gradients and in turn enables trainability of deeper networks, and ii) attains a considerable speedup in training and convergence time in comparison to the standard initialization. Our main theorem serves as a stepping stone to studying the learning dynamics of positive homogeneous models with attention mechanisms.
翻訳日:2023-10-26 19:19:49 公開日:2023-10-25
# シリコンT中心からのキャビティ増強放出

Cavity enhanced emission from a silicon T center ( http://arxiv.org/abs/2310.13808v2 )

ライセンス: Link先を確認
Fariba Islam, Chang-Min Lee, Samuel Harper, Mohammad Habibur Rahaman, Yuqi Zhao, Neelesh Kumar Vij, and Edo Waks(参考訳) シリコンT中心は、全シリコンデバイスで光学活性なスピン量子ビットを生成する可能性を示す。 しかしながら、これらの色中心は長い励起状態寿命と低いデバイ・ウォラー因子を示し、低効率でゼロフォノン線に放出される。 ナノフォトニックキャビティはパーセル効果を通じてゼロフォノン線への放射放出を増強することでこの問題を解決することができる。 本研究は,ナノフォトニックキャビティにおける単一T中心からのキャビティ強調放出を示す。 導波管結合エミッタに対するゼロフォノン線の輝度の2次増加、エミッタからファイバへの収集効率の23%、ゼロフォノン線への総発光効率の63.4%を実現した。 また,フォノン側バンドへの放射を補正する際には,Purcell因子が18を超える5の寿命延長も観察した。 これらの結果は、シリコンフォトニクスにおける効率的なスピン光子界面への道を開く。

Silicon T centers present the promising possibility to generate optically active spin qubits in an all-silicon device. However, these color centers exhibit long excited state lifetimes and a low Debye-Waller factor, making them dim emitters with low efficiency into the zero-phonon line. Nanophotonic cavities can solve this problem by enhancing radiative emission into the zero-phonon line through the Purcell effect. In this work we demonstrate cavity-enhanced emission from a single T center in a nanophotonic cavity. We achieve a two-orders of magnitude increase in brightness of the zero-phonon line relative to waveguide-coupled emitters, a 23% collection efficiency from emitter to fiber, and an overall emission efficiency into the zero-phonon line of 63.4%. We also observe a lifetime enhancement of 5, corresponding to a Purcell factor exceeding 18 when correcting for the emission to the phonon sideband. These results pave the way towards efficient spin-photon interfaces in silicon photonics.
翻訳日:2023-10-26 19:09:41 公開日:2023-10-25
# hunayn: リテラルを越えた翻訳の促進

Hunayn: Elevating Translation Beyond the Literal ( http://arxiv.org/abs/2310.13613v2 )

ライセンス: Link先を確認
Nasser Almousa, Nasser Alzamil, Abdullah Alshehri and Ahmad Sait(参考訳) このプロジェクトでは、従来のツールを超越した英語からアラビア語への翻訳が導入された。 ヘルシンキ変圧器(marianmt)を活用することで、自制的で純粋にアラビア語のデータセットを微調整する手法を提案する。 Google Translateに対する評価は質的な評価において一貫した性能を示す。 特に文化の感度と文脈の正確さに優れている。 本研究は、フシャデータセットを用いた英語とアラビア語の翻訳においてヘルシンキ変換器の優位性を裏付けるものである。

This project introduces an advanced English-to-Arabic translator surpassing conventional tools. Leveraging the Helsinki transformer (MarianMT), our approach involves fine-tuning on a self-scraped, purely literary Arabic dataset. Evaluations against Google Translate show consistent outperformance in qualitative assessments. Notably, it excels in cultural sensitivity and context accuracy. This research underscores the Helsinki transformer's superiority for English-to-Arabic translation using a Fusha dataset.
翻訳日:2023-10-26 19:09:25 公開日:2023-10-25
# VL表現のためのマルチスケール超画素構造差グラフ畳み込みネットワーク

Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation ( http://arxiv.org/abs/2310.13447v2 )

ライセンス: Link先を確認
Siyu Zhang, Yeming Chen, Sirui Cheng, Yaoru Sun, Jun Yang, Lizhi Bai(参考訳) マルチモーダル分野において、ビジョンと言語を統合する鍵は、優れたアライメント戦略を確立することである。 近年,自己指導型学習の成功の恩恵を受け,視覚と言語に対する事前学習モデルに基づく多モーダルな意味表現が顕著に進歩している。 しかし、視覚的意味表現の改善の余地はまだ残っている。 空間的セマンティックコヒーレンスとノイズに対する脆弱性の欠如により、現在のピクセルやパッチベースの方法で複雑なシーン境界を正確に抽出することは困難である。 そこで本研究では,学習可能な画像データの包括的コンパクト表現としてスーパーピクセルを開発し,知覚的に類似した画素をクラスタリングすることで,その後の処理における視覚的プリミティブの数を効果的に削減する。 より正確なトポロジ的関係を明らかにするために,MDGCN (Multiscale Different Graph Convolutional Network) を提案する。 画像全体を、構成する視覚パターンの微調整された階層構造として解析し、隣接するスーパーピクセルをグラフノードとして段階的に結合することで、マルチスケールな特徴をキャプチャする。 さらに,グラフ構造を通して隣接ノード間の差異を予測し,グラフノードのキー情報収集を容易にし,実際の意味関係を推論する。 その後、異なる地域規模で相補的な空間情報を学習することで偏差の理解を避けるため、ボトムアップ方式でマルチレベル融合ルールを設計する。 提案手法は,複数の下流タスク学習に適用可能である。 広汎な実験により,本手法は視覚的推論における他の最先端手法と競合することを示した。 私たちのコードは出版時に公開される。

Within the multimodal field, the key to integrating vision and language lies in establishing a good alignment strategy. Recently, benefiting from the success of self-supervised learning, significant progress has been made in multimodal semantic representation based on pre-trained models for vision and language. However, there is still room for improvement in visual semantic representation. The lack of spatial semantic coherence and vulnerability to noise makes it challenging for current pixel or patch-based methods to accurately extract complex scene boundaries. To this end, this paper develops superpixel as a comprehensive compact representation of learnable image data, which effectively reduces the number of visual primitives for subsequent processing by clustering perceptually similar pixels. To mine more precise topological relations, we propose a Multiscale Difference Graph Convolutional Network (MDGCN). It parses the entire image as a fine-to-coarse hierarchical structure of constituent visual patterns, and captures multiscale features by progressively merging adjacent superpixels as graph nodes. Moreover, we predict the differences between adjacent nodes through the graph structure, facilitating key information aggregation of graph nodes to reason actual semantic relations. Afterward, we design a multi-level fusion rule in a bottom-up manner to avoid understanding deviation by learning complementary spatial information at different regional scales. Our proposed method can be well applied to multiple downstream task learning. Extensive experiments demonstrate that our method is competitive with other state-of-the-art methods in visual reasoning. Our code will be released upon publication.
翻訳日:2023-10-26 19:09:17 公開日:2023-10-25
# InvGC: 逆グラフ畳み込みによるロバストなクロスモーダル検索

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution ( http://arxiv.org/abs/2310.13276v2 )

ライセンス: Link先を確認
Xiangru Jian, Yimu Wang(参考訳) 近年、クロスモーダル検索の大幅な進歩は、主に視覚と言語モデリングのブレークスルーによってもたらされている。 しかし、近年の研究では、マルチモーダルデータ表現は(表現退化問題として)限られた凸円錐内に集結する傾向にあり、これらの表現の分離性による検索性能の低下が示唆されている。 本研究ではまず,複数のベンチマークと手法を用いた表現退化問題の存在を実証的に検証した。 次に,グラフの畳み込みと平均プールにインスパイアされた後処理技術であるInvGCを提案する。 具体的には、InvGCはデータセット内のグラフトポロジーを定義し、次に減算的にグラフ畳み込みを適用する。 この方法はデータポイント間の距離を増加させることで表現を効果的に分離する。 InvGCの効率性と有効性を向上させるため,各データ点と近接する近傍の距離を拡大することのみを目的とした高度なグラフトポロジであるLocalAdjを提案する。 InvGCの動作理由を理解するため,InvGCの展開後,リコールの低限界が改善されることを証明した,詳細な理論的解析を行った。 その結果, InvGC と InvGC w/LocalAdj が表現退化問題を著しく軽減し,検索性能が向上した。 私たちのコードはhttps://github.com/yimuwangcs/Better_Cross_Modal_Retrievalで利用可能です。

Over recent decades, significant advancements in cross-modal retrieval are mainly driven by breakthroughs in visual and linguistic modeling. However, a recent study shows that multi-modal data representations tend to cluster within a limited convex cone (as representation degeneration problem), which hinders retrieval performance due to the inseparability of these representations. In our study, we first empirically validate the presence of the representation degeneration problem across multiple cross-modal benchmarks and methods. Next, to address it, we introduce a novel method, called InvGC, a post-processing technique inspired by graph convolution and average pooling. Specifically, InvGC defines the graph topology within the datasets and then applies graph convolution in a subtractive manner. This method effectively separates representations by increasing the distances between data points. To improve the efficiency and effectiveness of InvGC, we propose an advanced graph topology, LocalAdj, which only aims to increase the distances between each data point and its nearest neighbors. To understand why InvGC works, we present a detailed theoretical analysis, proving that the lower bound of recall will be improved after deploying InvGC. Extensive empirical results show that InvGC and InvGC w/LocalAdj significantly mitigate the representation degeneration problem, thereby enhancing retrieval performance. Our code is available at https://github.com/yimuwangcs/Better_Cross_Modal_Retrieval
翻訳日:2023-10-26 19:08:50 公開日:2023-10-25
# 28Si/SiGeの多電子スピン状態に結合した磁場勾配駆動一重項量子ビットのコヒーレンス

Coherence of a field-gradient-driven singlet-triplet qubit coupled to many-electron spin states in 28Si/SiGe ( http://arxiv.org/abs/2310.12603v2 )

ライセンス: Link先を確認
Younguk Song, Jonginn Yun, Jehyun Kim, Wonjin Jang, Hyeongyu Jang, Jaemin Park, Min-Kyun Cho, Hanseo Sohn, Noritaka Usami, Satoru Miyamoto, Kohei M. Itoh, Dohun Kim(参考訳) 工学的なスピン電結合により、半導体ナノ構造のスピン量子ビットを効率よく、個別に操作することができる。 マイクロマグネットを用いた合成スピン軌道結合はシリコンの単一スピンに基づく量子ビットの駆動に広く使われているが、エンコードされたスピン量子ビットの対応するデモンストレーションは自然シリコンに限られている。 ここでは,符号化されたスピン量子ビットの発振品質係数が580を超えるオンチップマイクロマグネットを用いて,ゲート定義二重量子ドット($^{28}$Si/SiGe)における高速シングルトリップ量子ビット発振(〜100MHz)を実演する。 コヒーレンス時間$\textit{t}_{2}$*はポテンシャルデチューニングと外部磁場の関数として解析される。 弱い磁場では、コヒーレンスはデータ取得時間に比べて速いノイズによって制限され、エルゴード極限において$\textit{T}_{2}$* < 1 ${\mu}$s に制限される。 我々は、量子ドットのスピン状態と量子ビットの最大かつコヒーレントな結合の証拠を示し、適切なスピン-電荷結合により電荷ベースの2量子ビットゲートを (1,1) 電荷配置で実現できることを示す。

Engineered spin-electric coupling enables spin qubits in semiconductor nanostructures to be manipulated efficiently and addressed individually. While synthetic spin-orbit coupling using a micromagnet is widely used for driving qubits based on single spins in silicon, corresponding demonstration for encoded spin qubits is so far limited to natural silicon. Here, we demonstrate fast singlet-triplet qubit oscillation (~100 MHz) in a gate-defined double quantum dot in $^{28}$Si/SiGe with an on-chip micromagnet with which we show the oscillation quality factor of an encoded spin qubit exceeding 580. The coherence time $\textit{T}_{2}$* is analyzed as a function of potential detuning and an external magnetic field. In weak magnetic fields, the coherence is limited by fast noise compared to the data acquisition time, which limits $\textit{T}_{2}$* < 1 ${\mu}$s in the ergodic limit. We present evidence of sizable and coherent coupling of the qubit with the spin states of a nearby quantum dot, demonstrating that appropriate spin-electric coupling may enable a charge-based two-qubit gate in a (1,1) charge configuration.
翻訳日:2023-10-26 19:08:25 公開日:2023-10-25
# 多目的進化最適化のための大規模言語モデル

Large Language Model for Multi-objective Evolutionary Optimization ( http://arxiv.org/abs/2310.12541v2 )

ライセンス: Link先を確認
Fei Liu, Xi Lin, Zhenkun Wang, Shunyu Yao, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang(参考訳) 多目的進化アルゴリズム(MOEA)は、多目的最適化問題の解法である。 過去数十年間、多くのmoeaが提案されており、検索オペレーターはドメイン知識を備えた慎重に手作りのデザインを必要としている。 近年、moeaの手動で設計されたオペレーターを学習ベースのオペレーター(ニューラルネットワークモデルなど)に置き換える試みがなされている。 しかし、そのようなモデルの設計と訓練には依然として多くの努力が必要であり、学習したオペレータは新しい問題に対してうまく一般化できないかもしれない。 上記の課題に対処するため,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。 適切なプロンプトエンジニアリングにより,分解型moea (moea/d) のブラックボックス探索演算子として一般の llm をゼロショット方式で機能させることに成功した。 さらに, LLMの挙動から学習することで, ランダムな明示的なホワイトボックス演算子を設計し, MOEA/D-LOと呼ばれる分解型MOEAの新バージョンを提案する。 実験結果から,提案手法は広く用いられているMOEAと競合する性能が得られることが示された。 また、いくつかのインスタンスからのみ学習したオペレータが、非常に異なるパターンや設定を持つ未発見の問題に対して堅牢な一般化性能を持つことも期待できる。 その結果,MOEAの設計において,事前学習したLLMを使用することの潜在的なメリットが明らかになった。

Multiobjective evolutionary algorithms (MOEAs) are major methods for solving multiobjective optimization problems (MOPs). Many MOEAs have been proposed in the past decades, of which the search operators need a carefully handcrafted design with domain knowledge. Recently, some attempts have been made to replace the manually designed operators in MOEAs with learning-based operators (e.g., neural network models). However, much effort is still required for designing and training such models, and the learned operators might not generalize well on new problems. To tackle the above challenges, this work investigates a novel approach that leverages the powerful large language model (LLM) to design MOEA operators. With proper prompt engineering, we successfully let a general LLM serve as a black-box search operator for decomposition-based MOEA (MOEA/D) in a zero-shot manner. In addition, by learning from the LLM behavior, we further design an explicit white-box operator with randomness and propose a new version of decomposition-based MOEA, termed MOEA/D-LO. Experimental studies on different test benchmarks show that our proposed method can achieve competitive performance with widely used MOEAs. It is also promising to see the operator only learned from a few instances can have robust generalization performance on unseen problems with quite different patterns and settings. The results reveal the potential benefits of using pre-trained LLMs in the design of MOEAs.
翻訳日:2023-10-26 19:07:59 公開日:2023-10-25
# 代名詞の物語:より公平な命令調整機械翻訳のためのジェンダーバイアス緩和に関する解釈可能性

A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for Fairer Instruction-Tuned Machine Translation ( http://arxiv.org/abs/2310.12127v2 )

ライセンス: Link先を確認
Giuseppe Attanasio, Flor Miriam Plaza-del-Arco, Debora Nozza, Anne Lauscher(参考訳) 最近の命令微調整モデルでは、機械翻訳(MT)が顕著なユースケースであるので、複数のNLPタスクを指示された時に解決できる。 しかしながら、現在の研究は、しばしば標準的なパフォーマンスベンチマークに焦点を当てており、説得力のある公正性と倫理的な考慮を残している。 MTでは、これは誤解された翻訳につながる可能性があり、結果としてステレオタイプや偏見の永続性において、多くの害が生じる。 本研究では,このようなモデルが機械翻訳における性別バイアスの程度と程度について検討し,このギャップに対処する。 具体的には、WinoMTコーパスで確立された性別バイアスのメトリクスを英語からドイツ語、スペイン語まで計算する。 iftモデルは男性による翻訳をデフォルトとし、女性の職業的ステレオタイプを無視することさえある。 次に,解釈可能性法を用いて,誤訳における対象職業の性別を示す代名詞を体系的に見落としていることを明らかにする。 最後に,この知見に基づいて,より公平な翻訳に繋がる数少ない学習に基づく,実装が容易で効果的なバイアス軽減ソリューションを提案する。

Recent instruction fine-tuned models can solve multiple NLP tasks when prompted to do so, with machine translation (MT) being a prominent use case. However, current research often focuses on standard performance benchmarks, leaving compelling fairness and ethical considerations behind. In MT, this might lead to misgendered translations, resulting, among other harms, in the perpetuation of stereotypes and prejudices. In this work, we address this gap by investigating whether and to what extent such models exhibit gender bias in machine translation and how we can mitigate it. Concretely, we compute established gender bias metrics on the WinoMT corpus from English to German and Spanish. We discover that IFT models default to male-inflected translations, even disregarding female occupational stereotypes. Next, using interpretability methods, we unveil that models systematically overlook the pronoun indicating the gender of a target occupation in misgendered translations. Finally, based on this finding, we propose an easy-to-implement and effective bias mitigation solution based on few-shot learning that leads to significantly fairer translations.
翻訳日:2023-10-26 19:07:36 公開日:2023-10-25
# ガウス国家の古典的非古典的極性

Classical-Nonclassical Polarity of Gaussian States ( http://arxiv.org/abs/2310.12104v2 )

ライセンス: Link先を確認
Jiru Liu, Wenchao Ge, M. Suhail Zubairy(参考訳) スクイージングや絡み合いのような非古典的性質を持つガウス状態は量子情報処理の重要な資源となる。 多モードガウス状態におけるこれらの性質の正確な定量化はいくつかの課題を提起している。 これに対処するために、統一量子化(unified quantification)を導入する: 'classical-nonclassical polarity' は$\mathcal{p}$ で表される。 単一モードの場合、$\mathcal{p}$の正の値は真空ノイズ以下の最小二次不確かさを捉え、負の値は古典的混合による拡大不確実性を表す。 マルチモードシステムでは、正の$\mathcal{p}$ は二成分量子絡み合いを示す。 古典的非古典的極性の総和は任意の2モードおよび3モードガウス状態に対して任意の線形光変換の下で保存されることを示す。 任意の純多モードガウス状態に対して、全古典非古典的極性は、単モードスクイーズと2モードスクイーズの平均光子数の総和に等しい。 本研究は,非古典的特徴の統一的資源理論に応用できる,単一モード非古典性と絡み合いの定量的関係に関する新しい視点を提供する。

Gaussian states with nonclassical properties such as squeezing and entanglement serve as crucial resources for quantum information processing. Accurately quantifying these properties within multi-mode Gaussian states has posed some challenges. To address this, we introduce a unified quantification: the 'classical-nonclassical polarity', represented by $\mathcal{P}$. For a single mode, a positive value of $\mathcal{P}$ captures the reduced minimum quadrature uncertainty below the vacuum noise, while a negative value represents an enlarged uncertainty due to classical mixtures. For multi-mode systems, a positive $\mathcal{P}$ indicates bipartite quantum entanglement. We show that the sum of the total classical-nonclassical polarity is conserved under arbitrary linear optical transformations for any two-mode and three-mode Gaussian states. For any pure multi-mode Gaussian state, the total classical-nonclassical polarity equals the sum of the mean photon number from single-mode squeezing and two-mode squeezing. Our results provide a new perspective on the quantitative relation between single-mode nonclassicality and entanglement, which may find applications in a unified resource theory of nonclassical features.
翻訳日:2023-10-26 19:07:17 公開日:2023-10-25
# 因果不等角多粒度グラフの分類法

A Causal Disentangled Multi-Granularity Graph Classification Method ( http://arxiv.org/abs/2310.16256v1 )

ライセンス: Link先を確認
Yuan Li, Li Liu, Penggang Chen, Youmin Zhang, Guoyin Wang(参考訳) グラフデータは、大量のデータと複雑な構造を持つ実生活に広く存在する。 グラフデータを低次元埋め込みにマッピングする必要がある。 重要なグラフタスクであるグラフ分類は、主にグラフ内の重要なサブ構造を特定することに依存する。 現在、いくつかのグラフ分類法はグラフデータの多重粒度特性を結合していない。 このモデリングにおける粒度の区別の欠如は、重要な情報とモデル内の偽相関の融合につながる。 したがって、信頼できる解釈可能なモデルの望ましい目標を達成することは困難になる。 本稿では,因果不整合多粒性グラフ表現学習法(CDM-GNN)を提案する。 CDM-GNNモデルは、多粒性の観点から、グラフ内の重要な部分構造とバイアス部分を切り離す。 CDM-GNNモデルの歪みは重要部分とバイアス部分を明らかにし、その分類タスク、特にモデル解釈の基礎を形成する。 CDM-GNNモデルは強い分類性能を示し、人間の認知パターンに沿った説明結果を生成する。 本稿では,本モデルの有効性を検証するために,実世界の3つのデータセットMUTAG, PTC, IMDM-Mを比較した。 GCN、GAT、Top-k、ASAPool、SUGAR、SATの6つの最先端モデルが比較目的で使用されている。 また、解釈結果の質的分析を行う。

Graph data widely exists in real life, with large amounts of data and complex structures. It is necessary to map graph data to low-dimensional embedding. Graph classification, a critical graph task, mainly relies on identifying the important substructures within the graph. At present, some graph classification methods do not combine the multi-granularity characteristics of graph data. This lack of granularity distinction in modeling leads to a conflation of key information and false correlations within the model. So, achieving the desired goal of a credible and interpretable model becomes challenging. This paper proposes a causal disentangled multi-granularity graph representation learning method (CDM-GNN) to solve this challenge. The CDM-GNN model disentangles the important substructures and bias parts within the graph from a multi-granularity perspective. The disentanglement of the CDM-GNN model reveals important and bias parts, forming the foundation for its classification task, specifically, model interpretations. The CDM-GNN model exhibits strong classification performance and generates explanatory outcomes aligning with human cognitive patterns. In order to verify the effectiveness of the model, this paper compares the three real-world datasets MUTAG, PTC, and IMDM-M. Six state-of-the-art models, namely GCN, GAT, Top-k, ASAPool, SUGAR, and SAT are employed for comparison purposes. Additionally, a qualitative analysis of the interpretation results is conducted.
翻訳日:2023-10-26 17:40:23 公開日:2023-10-25
# UAV-Sim:UAVに基づく知覚のためのNeRFに基づく合成データ生成

UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception ( http://arxiv.org/abs/2310.16255v1 )

ライセンス: Link先を確認
Christopher Maxey, Jaehoon Choi, Hyungtae Lee, Dinesh Manocha, Heesung Kwon(参考訳) 高度に自由度の高いUAVベースの撮像条件が組み合わさって、UAVベースの知覚モデルを適切に学習する際のデータの欠如につながっている。 様々な合成レンダラーを知覚モデルと併用することで、地上画像領域での学習を増強する合成データを作成することが一般的である。 しかし、Austere UAVベースの領域における深刻な課題は、データ拡張のための画像合成に特有の解決策を必要とする。 本研究ではニューラルレンダリングの最近の進歩を活用して,特に高高度から,静的でダイナミックなUAVに基づく画像合成を改善する。 最後に, 実データや合成データを別々にではなく, 実データと合成データのハイブリッドセットに最適化した場合に, かなりの性能向上が達成されることを示す。

Tremendous variations coupled with large degrees of freedom in UAV-based imaging conditions lead to a significant lack of data in adequately learning UAV-based perception models. Using various synthetic renderers in conjunction with perception models is prevalent to create synthetic data to augment the learning in the ground-based imaging domain. However, severe challenges in the austere UAV-based domain require distinctive solutions to image synthesis for data augmentation. In this work, we leverage recent advancements in neural rendering to improve static and dynamic novelview UAV-based image synthesis, especially from high altitudes, capturing salient scene attributes. Finally, we demonstrate a considerable performance boost is achieved when a state-ofthe-art detection model is optimized primarily on hybrid sets of real and synthetic data instead of the real or synthetic data separately.
翻訳日:2023-10-26 17:40:04 公開日:2023-10-25
# Condefects: LLMに基づくフォールトローカライゼーションとプログラム修復のためのデータ漏洩問題に対処する新しいデータセット

ConDefects: A New Dataset to Address the Data Leakage Concern for LLM-based Fault Localization and Program Repair ( http://arxiv.org/abs/2310.16253v1 )

ライセンス: Link先を確認
Yonghao Wu, Zheng Li, Jie M. Zhang, Yong Liu(参考訳) フォールトローカライゼーションとプログラム修復に対するLLM(Large Language Models)への関心が高まり、LLMベースの手法の整合性と一般化性が最重要となる。 これらのタスクに対する既存の広く評価されたベンチマークのコードは、LLMの出現前に書かれており、既存のLLMのトレーニングデータに含まれる可能性があるため、データ漏洩の脅威に悩まされ、誤った楽観的なパフォーマンス指標がもたらされた。 この問題に対処するために、このような重複を排除するために慎重にキュレートされた実断層の新しいデータセットである"Condefects"を紹介します。 Condefectsには1,254のJava障害プログラムと1,625のPython障害プログラムが含まれている。 これらのプログラムはすべて、オンラインコンペティションプラットフォームのatcoderから提供され、2021年10月から2023年9月まで生産された。 それぞれの障害を障害箇所と対応する修正コードバージョンとをペアにすることで,障害のローカライズとプログラム修復関連の研究に合わせたものです。 また、異なる時間ウィンドウとコーディングタスクの難しさに基づいてサブセットを選択するインターフェイスも提供します。 LLMベースのタスクにインスパイアされたConDefectsは、allタイプの障害ローカライゼーションとプログラム修復メソッドのベンチマークに使用できる。 データセットは公開されており、デモビデオはhttps://www.youtube.com/watch? v=22j15Hj5ONK。

With the growing interest on Large Language Models (LLMs) for fault localization and program repair, ensuring the integrity and generalizability of the LLM-based methods becomes paramount. The code in existing widely-adopted benchmarks for these tasks was written before the the bloom of LLMs and may be included in the training data of existing popular LLMs, thereby suffering from the threat of data leakage, leading to misleadingly optimistic performance metrics. To address this issue, we introduce "ConDefects", a novel dataset of real faults meticulously curated to eliminate such overlap. ConDefects contains 1,254 Java faulty programs and 1,625 Python faulty programs. All these programs are sourced from the online competition platform AtCoder and were produced between October 2021 and September 2023. We pair each fault with fault locations and the corresponding repaired code versions, making it tailored for in fault localization and program repair related research. We also provide interfaces for selecting subsets based on different time windows and coding task difficulties. While inspired by LLM-based tasks, ConDefects can be adopted for benchmarking ALL types of fault localization and program repair methods. The dataset is publicly available, and a demo video can be found at https://www.youtube.com/watch?v=22j15Hj5ONk.
翻訳日:2023-10-26 17:39:51 公開日:2023-10-25
# マトリックスゲームにおける準最適純粋探索:確率帯域とデュエル帯域の一般化

Near-Optimal Pure Exploration in Matrix Games: A Generalization of Stochastic Bandits & Dueling Bandits ( http://arxiv.org/abs/2310.16252v1 )

ライセンス: Link先を確認
Arnab Maiti, Ross Boczar, Kevin Jamieson, Lillian J. Ratliff(参考訳) ノイズのある2人のゼロサムマトリクスゲームにおいて,純粋戦略ナッシュ均衡(psne)を同定するサンプル複雑性について検討した。 形式的には、任意の学習者が入力行列 $A\in[-1,1]^{n\times m}$ のエントリ $(i,j)$ をサンプリングして、$A_{i,j}+\eta$ を観測できる確率モデルが与えられる。 学習者の目標は、a$のpsneをいつでも識別することであり、可能な限り少数のサンプルを採取しながら高い確率で識別することである。 Zhou et al. (2017) は、PSNE が成り立つ行と列のエントリにのみ依存する、インスタンス依存のサンプル複雑性の下界を示す。 サンプルの複雑さをログ係数まで下界にマッチさせる近似アルゴリズムを設計する。 psneを識別する問題は、確率的多腕バンディットとデュエルバンディットにおける純粋な探索の問題も一般化し、この結果は、両方の設定において、ログ係数まで、最適境界に一致する。

We study the sample complexity of identifying the pure strategy Nash equilibrium (PSNE) in a two-player zero-sum matrix game with noise. Formally, we are given a stochastic model where any learner can sample an entry $(i,j)$ of the input matrix $A\in[-1,1]^{n\times m}$ and observe $A_{i,j}+\eta$ where $\eta$ is a zero-mean 1-sub-Gaussian noise. The aim of the learner is to identify the PSNE of $A$, whenever it exists, with high probability while taking as few samples as possible. Zhou et al. (2017) presents an instance-dependent sample complexity lower bound that depends only on the entries in the row and column in which the PSNE lies. We design a near-optimal algorithm whose sample complexity matches the lower bound, up to log factors. The problem of identifying the PSNE also generalizes the problem of pure exploration in stochastic multi-armed bandits and dueling bandits, and our result matches the optimal bounds, up to log factors, in both the settings.
翻訳日:2023-10-26 17:39:26 公開日:2023-10-25
# パラメータ分布の後方一般化によるベイズ領域不変学習

Bayesian Domain Invariant Learning via Posterior Generalization of Parameter Distributions ( http://arxiv.org/abs/2310.16277v1 )

ライセンス: Link先を確認
Shiyu Shen, Bin Pan, Tianyang Shi, Tao Li, Zhenwei Shi(参考訳) ドメイン不変学習(domain invariant learning)は、さまざまなトレーニングドメインで不変な特徴を抽出するモデルを学ぶことを目的としている。 近年、ベイジアンニューラルネットワークはドメイン不変学習において有望な結果を得たが、ほとんどの研究はパラメータ分布ではなく特徴分布の整合に集中している。 ベイズニューラルネットワークの原理に触発されて,ネットワークパラメータの領域不変な後方分布を直接学習する。 まず,異なる訓練領域の後方を集約することで,パラメータの不変な後方を暗黙的に推測できることを示すための定理を提案する。 我々の仮定はより緩和され、より多くのドメイン不変情報を抽出することができる。 また,不変パラメータ分布を推定するための簡便で効果的な手法として,後方一般化法(ptg)を提案する。 PTGは、トレーニング領域における不変後部と後部を含む、近似パラメータ分布に対する変分推論を完全に活用する。 さらに,PTGの簡易版を開発し,応用範囲を広げた。 PTGはDomainBed上の様々なドメイン一般化ベンチマークで競合性能を示す。 さらに、PTGは既存の領域一般化手法を事前に使用することができ、従来の最先端手法と組み合わせることでパフォーマンスをさらに向上することができる。 コードは公開されます。

Domain invariant learning aims to learn models that extract invariant features over various training domains, resulting in better generalization to unseen target domains. Recently, Bayesian Neural Networks have achieved promising results in domain invariant learning, but most works concentrate on aligning features distributions rather than parameter distributions. Inspired by the principle of Bayesian Neural Network, we attempt to directly learn the domain invariant posterior distribution of network parameters. We first propose a theorem to show that the invariant posterior of parameters can be implicitly inferred by aggregating posteriors on different training domains. Our assumption is more relaxed and allows us to extract more domain invariant information. We also propose a simple yet effective method, named PosTerior Generalization (PTG), that can be used to estimate the invariant parameter distribution. PTG fully exploits variational inference to approximate parameter distributions, including the invariant posterior and the posteriors on training domains. Furthermore, we develop a lite version of PTG for widespread applications. PTG shows competitive performance on various domain generalization benchmarks on DomainBed. Additionally, PTG can use any existing domain generalization methods as its prior, and combined with previous state-of-the-art method the performance can be further improved. Code will be made public.
翻訳日:2023-10-26 17:31:24 公開日:2023-10-25
# 葉画像からの植物同定と病因分類のための深層学習:マルチプレディションアプローチ

Deep Learning for Plant Identification and Disease Classification from Leaf Images: Multi-prediction Approaches ( http://arxiv.org/abs/2310.16273v1 )

ライセンス: Link先を確認
Jianping Yao and Son N. Tran and Saurabh Garg and Samantha Sawyer(参考訳) 深層学習は現代農業において重要な役割を担い、特に葉のイメージを用いた植物病理学では、畳み込みニューラルネットワーク(CNN)が注目を集めている。 この研究領域における深層学習の適用について多くのレビューが寄せられているが、評価に様々なデータセットが使用されているため、洞察に富んだ比較を行う実験的な研究は、いまだに存在しない。 さらに、これらのアプローチの大半は、植物種や病気の様々な側面を予測する多面的な性質を見越して、特異な予測課題としてこの問題に対処する傾向にある。 最後に、植物種と病気のタイプに根ざした意味関係について、より深い考察が必要であることは明らかである。 本稿では,植物識別と病原性分類に関する最近の深層学習アプローチを調査し,本研究に着手する。 我々は、異なるバックボーンCNNを使用できるマルチモデル、マルチラベル、マルチアウトプット、マルチタスクへのアプローチを分類する。 さらに、植物病理学における既存アプローチの調査と機械学習における利用可能なアプローチの研究に基づいて、GSMo-CNN(Generalized Stacking Multi-output CNN)と呼ばれる新しいモデルを提案する。 異なるバックボーンCNNと学習アプローチの有効性を検討するため,プラントビレッジ,植物葉,植物ドキュメンテーションの3つのベンチマークデータセットに対して集中的な実験を行った。 InceptionV3は、AlexNet、VGG16、ResNet101、EfficientNet、MobileNet、そして私たちが開発したカスタムCNNよりもパフォーマンスが良いため、バックボーンCNNにとって良い選択であることを示している。 興味深いことに、経験的な結果は、一つのモデルを使うことは2つのモデルを使用するよりも同等か良いという仮説を支持する。 最後に,提案するgsmo-cnnが3つのベンチマークデータセットで最先端のパフォーマンスを実現することを示す。

Deep learning plays an important role in modern agriculture, especially in plant pathology using leaf images where convolutional neural networks (CNN) are attracting a lot of attention. While numerous reviews have explored the applications of deep learning within this research domain, there remains a notable absence of an empirical study to offer insightful comparisons due to the employment of varied datasets in the evaluation. Furthermore, a majority of these approaches tend to address the problem as a singular prediction task, overlooking the multifaceted nature of predicting various aspects of plant species and disease types. Lastly, there is an evident need for a more profound consideration of the semantic relationships that underlie plant species and disease types. In this paper, we start our study by surveying current deep learning approaches for plant identification and disease classification. We categorise the approaches into multi-model, multi-label, multi-output, and multi-task, in which different backbone CNNs can be employed. Furthermore, based on the survey of existing approaches in plant pathology and the study of available approaches in machine learning, we propose a new model named Generalised Stacking Multi-output CNN (GSMo-CNN). To investigate the effectiveness of different backbone CNNs and learning approaches, we conduct an intensive experiment on three benchmark datasets Plant Village, Plant Leaves, and PlantDoc. The experimental results demonstrate that InceptionV3 can be a good choice for a backbone CNN as its performance is better than AlexNet, VGG16, ResNet101, EfficientNet, MobileNet, and a custom CNN developed by us. Interestingly, empirical results support the hypothesis that using a single model can be comparable or better than using two models. Finally, we show that the proposed GSMo-CNN achieves state-of-the-art performance on three benchmark datasets.
翻訳日:2023-10-26 17:31:03 公開日:2023-10-25
# cyclealign: ブラックボックスllmからホワイトボックスモデルへの反復蒸留によるヒトアライメントの改善

CycleAlign: Iterative Distillation from Black-box LLM to White-box Models for Better Human Alignment ( http://arxiv.org/abs/2310.16271v1 )

ライセンス: Link先を確認
Jixiang Hong, Quan Tu, Changyu Chen, Xing Gao, Ji Zhang, Rui Yan(参考訳) 大規模コーパスで訓練された言語モデルは、しばしば有害な、有害な、あるいは人間の嗜好に反してコンテンツを生成する。 PPOのようなアルゴリズムによる人間からのフィードバック(RLHF)からの強化学習は、アライメントの一般的なアプローチであるが、しばしば複雑で不安定でリソース集約である。 近年,RLフレームワークを教師付き微調整に置き換えることによる安定性と有効性を備えたランキングベースのアライメント手法が登場しているが,アノテートデータの必要性からコストがかかる。 ChatGPTのような既存の大規模言語モデル(LLM)は、すでに比較的整合性があり、コストフレンドリであることを考えると、研究者は言語モデルとAIフィードバックからの人間の好みを一致させ始めている。 LLMから命令追従応答を一方向蒸留する一般的な手法は、ボトルネックによって制約される。 そこで我々はCycleAlignを導入し,パラメータ可視LLM(ブラックボックス)からパラメータ可視モデル(ホワイトボックス)へ反復的にアライメント機能を蒸留する。 コンテキスト内学習(ICL)をサイクルの中核として、ブラックボックスモデルでは、ヒューマンクラフトの指示によって導かれるモデル生成応答と、その好みに関するデモンストレーションをランク付けすることができる。 反復的相互作用の間、ホワイトボックスモデルはそれらが生成する応答について判断する。 その結果、合意ランキングは、文脈内デモを動的に更新し、ブラックボックスモデルの選好ランキング能力を向上させる擬似ラベルと見なすことができる。 複数のインタラクションを通じて、cyclealignフレームワークはホワイトボックスモデルを、低リソースの方法で効果的にブラックボックスモデルと整合させることができる。 実験結果から,CycleAlignが微調整したモデルが既存の手法をはるかに上回り,人的価値に合わせて最先端の性能を達成することが示された。

Language models trained on large-scale corpus often generate content that is harmful, toxic, or contrary to human preferences, making their alignment with human values a critical concern. Reinforcement learning from human feedback (RLHF) with algorithms like PPO is a prevalent approach for alignment but is often complex, unstable, and resource-intensive. Recently, ranking-based alignment methods have emerged, offering stability and effectiveness by replacing the RL framework with supervised fine-tuning, but they are costly due to the need for annotated data. Considering that existing large language models (LLMs) like ChatGPT are already relatively well-aligned and cost-friendly, researchers have begun to align the language model with human preference from AI feedback. The common practices, which unidirectionally distill the instruction-following responses from LLMs, are constrained by their bottleneck. Thus we introduce CycleAlign to distill alignment capabilities from parameter-invisible LLMs (black-box) to a parameter-visible model (white-box) in an iterative manner. With in-context learning (ICL) as the core of the cycle, the black-box models are able to rank the model-generated responses guided by human-craft instruction and demonstrations about their preferences. During iterative interaction, the white-box models also have a judgment about responses generated by them. Consequently, the agreement ranking could be viewed as a pseudo label to dynamically update the in-context demonstrations and improve the preference ranking ability of black-box models. Through multiple interactions, the CycleAlign framework could align the white-box model with the black-box model effectively in a low-resource way. Empirical results illustrate that the model fine-tuned by CycleAlign remarkably exceeds existing methods, and achieves the state-of-the-art performance in alignment with human value.
翻訳日:2023-10-26 17:30:33 公開日:2023-10-25
# アテンションレンズ:アテンションヘッド情報検索機構を機械的に解釈するツール

Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism ( http://arxiv.org/abs/2310.16270v1 )

ライセンス: Link先を確認
Mansi Sakarvadia, Arham Khan, Aswathy Ajith, Daniel Grzenda, Nathaniel Hudson, Andr\'e Bauer, Kyle Chard, Ian Foster(参考訳) Transformer-based Large Language Models (LLM)は、自然言語処理の最先端技術である。 最近の研究は、LLMがテキスト補完タスクの最終予測に到達する内部メカニズムである線形層の役割をリバースエンジニアリングによって復号化しようとしている。 しかし、最終的なトークン予測作成における注意ヘッドの特定の役割についてはほとんど知られていない。 本研究では,注目頭部の出力を,学習された注目頭部特異的なレンズ変換によって語彙トークンに変換するツールであるAttention Lensを提案する。 トレーニングレンズによる予備的な知見は、注意頭が言語モデルにおいて極めて専門的な役割を担っていることを示している。 Attention Lensのコードはgithub.com/msakarvadia/AttentionLensで入手できる。

Transformer-based Large Language Models (LLMs) are the state-of-the-art for natural language tasks. Recent work has attempted to decode, by reverse engineering the role of linear layers, the internal mechanisms by which LLMs arrive at their final predictions for text completion tasks. Yet little is known about the specific role of attention heads in producing the final token prediction. We propose Attention Lens, a tool that enables researchers to translate the outputs of attention heads into vocabulary tokens via learned attention-head-specific transformations called lenses. Preliminary findings from our trained lenses indicate that attention heads play highly specialized roles in language models. The code for Attention Lens is available at github.com/msakarvadia/AttentionLens.
翻訳日:2023-10-26 17:29:34 公開日:2023-10-25
# メディアの多言語的粗い政治的スタンス分類 ChatGPT と Bard 新聞の編集線

Multilingual Coarse Political Stance Classification of Media. The Editorial Line of a ChatGPT and Bard Newspaper ( http://arxiv.org/abs/2310.16269v1 )

ライセンス: Link先を確認
Cristina Espa\~na-Bonet(参考訳) 中立性は達成が難しく、政治的には主観的である。 伝統的なメディアは通常、潜在的な読者がメディアバイアスの指標として使用できる編集ラインを採用する。 いくつかのプラットフォームは現在、政治バイアスに応じてニュースメディアを評価している。 編集ラインと評価は、読者がニュースのバランスのとれたビューを集めるのに役立つ。 しかし、命令に従う言語モデルが出現すると、新聞記事を書くなどのタスクをコンピュータに委譲することができる。 偏見のあるペルソナを課すことなく、AIベースのニュースメディアはバイアス評価の中にどこに置かれるのか? 本研究は,ニュースメディアのレーティングを用いて,多言語対応型コーパス(Left and Right)と自動抽出されたトピックアノテーションを併用したニュースコーパスを作成する。 このデータに基づいて訓練された分類器は、英語、ドイツ語、スペイン語、カタルーニャ語で目に見えないほとんどの新聞の編集ラインを識別できる。 次に4つの言語でchatgptとbardによって書かれた101の新聞記事に分類器を適用する。 従来の新聞と同様、ChatGPT編集ラインは時間とともに進化し、データ駆動システムであるので、生成された記事の姿勢は言語によって異なる。

Neutrality is difficult to achieve and, in politics, subjective. Traditional media typically adopt an editorial line that can be used by their potential readers as an indicator of the media bias. Several platforms currently rate news outlets according to their political bias. The editorial line and the ratings help readers in gathering a balanced view of news. But in the advent of instruction-following language models, tasks such as writing a newspaper article can be delegated to computers. Without imposing a biased persona, where would an AI-based news outlet lie within the bias ratings? In this work, we use the ratings of authentic news outlets to create a multilingual corpus of news with coarse stance annotations (Left and Right) along with automatically extracted topic annotations. We show that classifiers trained on this data are able to identify the editorial line of most unseen newspapers in English, German, Spanish and Catalan. We then apply the classifiers to 101 newspaper-like articles written by ChatGPT and Bard in the 4 languages at different time periods. We observe that, similarly to traditional newspapers, ChatGPT editorial line evolves with time and, being a data-driven system, the stance of the generated articles differs among languages.
翻訳日:2023-10-26 17:29:16 公開日:2023-10-25
# SCB-ST-Dataset4:画像データセットによる学生教室シナリオにおける時空間行動データセットの拡張

SCB-ST-Dataset4: Extending the Spatio-Temporal Behavior Dataset in Student Classroom Scenarios Through Image Dataset Method ( http://arxiv.org/abs/2310.16267v1 )

ライセンス: Link先を確認
Fan Yang and Xiaofei Wang(参考訳) 生徒の授業行動を自動的に検出する深層学習手法は,授業成績の分析と授業効果の向上に有望なアプローチである。 しかし、学生の行動に関する一般公開された時空間データセットの欠如や、このようなデータセットを手動でラベル付けするコストの高騰は、この分野の研究者にとって大きな課題となっている。 そこで,本稿では,学生教室シナリオ(scb-st-dataset4)における時空間行動データセットの拡張手法を提案する。 SCB-ST-Dataset4は754094の画像と25670のラベルで構成されており、手作り、読み書きの3つの行動に焦点を当てている。 提案手法では,アノテーションを必要とせずに時空間行動データセットを迅速に生成できる。 さらに,行動の類似性を検討するために行動類似度指標(bsi)を提案した。 YOLOv5, YOLOv7, YOLOv8, SlowFastアルゴリズムを用いて, 平均精度(マップ)を82.3%まで向上させた。 この実験は,さらに本手法の有効性を示す。 このデータセットは将来の学生行動検出研究の基盤となり、この分野の進歩に寄与する可能性がある。 SCB-ST-Dataset4 は https://github.com/Whiffe/SCB-dataset でダウンロードできる。

Using deep learning methods to detect students' classroom behavior automatically is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available spatio-temporal datasets on student behavior, as well as the high cost of manually labeling such datasets, pose significant challenges for researchers in this field. To address this issue, we proposed a method for extending the spatio-temporal behavior dataset in Student Classroom Scenarios (SCB-ST-Dataset4) through image dataset. Our SCB-ST-Dataset4 comprises 754094 images with 25670 labels, focusing on 3 behaviors: hand-raising, reading, writing. Our proposed method can rapidly generate spatio-temporal behavioral datasets without requiring annotation. Furthermore, we proposed a Behavior Similarity Index (BSI) to explore the similarity of behaviors. We evaluated the dataset using the YOLOv5, YOLOv7, YOLOv8, and SlowFast algorithms, achieving a mean average precision (map) of up to 82.3%. The experiment further demonstrates the effectiveness of our method. This dataset provides a robust foundation for future research in student behavior detection, potentially contributing to advancements in this field. The SCB-ST-Dataset4 is available for download at: https://github.com/Whiffe/SCB-dataset.
翻訳日:2023-10-26 17:28:25 公開日:2023-10-25
# 高忠実度単発読み出しを用いた単一スピン-1系におけるjarzynski等式の実験的検討

Experimental test of the Jarzynski equality in a single spin-1 system using high-fidelity single-shot readouts ( http://arxiv.org/abs/2310.16265v1 )

ライセンス: Link先を確認
Wenquan Liu, Zhibo Niu, Wei Cheng, Xin Li, Chang-Kui Duan, Zhangqi Yin, Xing Rong, Jiangfeng Du(参考訳) 平衡自由エネルギーと非平衡労働統計を結びつけるJE(Jarzynski equality)は、量子熱力学において重要な役割を果たす。 実用量子系は通常マルチレベルシステムであるが、JEのほとんどのテストは2レベルシステムで実行された。 高次元量子システムにおける物理過程の作業分布を直接測定するjeの厳密なテストは、いまだに解明されていない。 本稿では,単一のスピン-1系におけるJEの実験実験について報告する。 我々は,高忠実度シングルショット読み出しをカスケードすることで,この3レベルシステムの非破壊射影測定を実現し,この2点測定プロトコルを用いて作業分布を直接測定した。 JEの有効性は非断熱帯から断熱帯まで, それぞれ異なる有効温度で検証された。 私たちの研究はjeをしっかりとした実験基盤とし、nvセンターシステムを確率的量子熱力学の高度な実験を行うための成熟したツールボックスにしています。

The Jarzynski equality (JE), which connects the equilibrium free energy with non-equilibrium work statistics, plays a crucial role in quantum thermodynamics. Although practical quantum systems are usually multi-level systems, most tests of the JE were executed in two-level systems. A rigorous test of the JE by directly measuring the work distribution of a physical process in a high-dimensional quantum system remains elusive. Here, we report an experimental test of the JE in a single spin-1 system. We realized nondemolition projective measurement of this three-level system via cascading high-fidelity single-shot readouts and directly measured the work distribution utilizing the two-point measurement protocol. The validity of the JE was verified from the non-adiabatic to adiabatic zone and under different effective temperatures. Our work puts the JE on a solid experimental foundation and makes the NV center system a mature toolbox to perform advanced experiments of stochastic quantum thermodynamics.
翻訳日:2023-10-26 17:27:36 公開日:2023-10-25
# セキュアなコード生成のための大規模言語モデルの拡張:脆弱性緩和に関するデータセット駆動の研究

Enhancing Large Language Models for Secure Code Generation: A Dataset-driven Study on Vulnerability Mitigation ( http://arxiv.org/abs/2310.16263v1 )

ライセンス: Link先を確認
Jiexin Wang, Liuwen Cao, Xitong Luo, Zhiping Zhou, Jiayuan Xie, Adam Jatowt, Yi Cai(参考訳) 大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に利益をもたらした。 しかし、GitHubのようなオープンソースのリポジトリから無用なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。 この懸念を効果的に緩和するため,本稿では,ソフトウェアセキュリティの観点からコードllmの評価と拡張に焦点を当てた包括的研究を行う。 secucogen\footnote{secucogenは補足資料としてアップロードされ、公開後公開される予定だ。 重要な脆弱性タイプを対象とする,細心の注意を払ってキュレートされたデータセット。 secucogenは180のサンプルから成り、コード生成、コード修復、脆弱性分類という3つの重要なコード関連タスクの実験を行うための基礎となる。 実験の結果,既存のモデルでは,コード生成時にセキュリティ上の懸念を見落とし,脆弱なコードを生成することが分かりました。 そこで我々は,LLMが生成するコードのセキュリティ脆弱性を軽減し,全体的な堅牢性を高めるための効果的なアプローチを提案する。 さらに,脆弱性情報を提供する場合でも,脆弱性のあるコードを修正する既存モデルの弱点を明らかにする。 さらに、特定の脆弱性タイプはモデルに課題をもたらし、脆弱性分類のパフォーマンスを妨げる。 これらの結果から,我々の研究はソフトウェア工学コミュニティに肯定的な影響を与え,LLMのトレーニングと活用の方法の改善を刺激し,より安全で信頼性の高いモデル展開につながると信じている。

Large language models (LLMs) have brought significant advancements to code generation, benefiting both novice and experienced developers. However, their training using unsanitized data from open-source repositories, like GitHub, introduces the risk of inadvertently propagating security vulnerabilities. To effectively mitigate this concern, this paper presents a comprehensive study focused on evaluating and enhancing code LLMs from a software security perspective. We introduce SecuCoGen\footnote{SecuCoGen has been uploaded as supplemental material and will be made publicly available after publication.}, a meticulously curated dataset targeting 21 critical vulnerability types. SecuCoGen comprises 180 samples and serves as the foundation for conducting experiments on three crucial code-related tasks: code generation, code repair and vulnerability classification, with a strong emphasis on security. Our experimental results reveal that existing models often overlook security concerns during code generation, leading to the generation of vulnerable code. To address this, we propose effective approaches to mitigate the security vulnerabilities and enhance the overall robustness of code generated by LLMs. Moreover, our study identifies weaknesses in existing models' ability to repair vulnerable code, even when provided with vulnerability information. Additionally, certain vulnerability types pose challenges for the models, hindering their performance in vulnerability classification. Based on these findings, we believe our study will have a positive impact on the software engineering community, inspiring the development of improved methods for training and utilizing LLMs, thereby leading to safer and more trustworthy model deployment.
翻訳日:2023-10-26 17:27:17 公開日:2023-10-25
# rTisane: データ分析の概念モデルの外部化はドメイン知識への関与を高め、統計モデルの品質を向上させる

rTisane: Externalizing conceptual models for data analysis increases engagement with domain knowledge and improves statistical model quality ( http://arxiv.org/abs/2310.16262v1 )

ライセンス: Link先を確認
Eunice Jun, Edward Misback, Jeffrey Heer, Ren\'e Just(参考訳) 統計モデルは、変数とその関係に関するアナリストのドメイン知識を正確に反映すべきである。 最近のツールでは、アナリストがこれらの仮定を表現し、結果の統計モデルを作成することができるが、アナリストが何を表現したいのか、外部化が統計モデルの品質にどのような影響を及ぼすのかは不明だ。 本稿ではこれらのギャップに対処する。 まず、ドメイン固有言語(DSL)を用いてアナリストの探索的研究を行い、概念モデルを表現する。 我々は、変数がどう関連しているか、そしてその概念モデルにおける曖昧さを許可したいという願望を詳述する選好を観察し、後に解決する。 対話的曖昧化プロセスで拡張された概念モデルを表現するためのDSLであるrTisaneを開発した。 制御された評価では、rTisaneのDSLがアナリストの仮定をより深く、正確に外部化するのに役立ちます。 rTisaneはまた、アナリストの仮定と一致し、分析意図を維持し、データに適合する統計モデルをもたらす。

Statistical models should accurately reflect analysts' domain knowledge about variables and their relationships. While recent tools let analysts express these assumptions and use them to produce a resulting statistical model, it remains unclear what analysts want to express and how externalization impacts statistical model quality. This paper addresses these gaps. We first conduct an exploratory study of analysts using a domain-specific language (DSL) to express conceptual models. We observe a preference for detailing how variables relate and a desire to allow, and then later resolve, ambiguity in their conceptual models. We leverage these findings to develop rTisane, a DSL for expressing conceptual models augmented with an interactive disambiguation process. In a controlled evaluation, we find that rTisane's DSL helps analysts engage more deeply with and accurately externalize their assumptions. rTisane also leads to statistical models that match analysts' assumptions, maintain analysis intent, and better fit the data.
翻訳日:2023-10-26 17:26:49 公開日:2023-10-25
# 仮面言語モデル事前学習の利点を十分に説明できない分布仮説

The Distributional Hypothesis Does Not Fully Explain the Benefits of Masked Language Model Pretraining ( http://arxiv.org/abs/2310.16261v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Dani Yogatama(参考訳) 分布仮説の観点から,対象関数を事前学習するマスク付き言語モデルの解析を行う。 マスキング言語モデルにより事前学習されたモデルのサンプル効率と一般化能力が,事前学習データの分布特性にエンコードされる意味的類似性に起因しているかどうかを検討する。 合成データセットを用いて, 分布特性は仮学習されたマスキング言語モデルのサンプル効率の向上につながるが, 一般化機能を完全には説明できないことを示唆する。 また,2つの実世界のデータセットの解析を行い,その分布特性は,事前学習された自然言語モデルの一般化能力も説明できないことを示した。 本研究は,モデル事前学習の限定的な理解と今後の研究方向性を示すものである。

We analyze the masked language modeling pretraining objective function from the perspective of the distributional hypothesis. We investigate whether better sample efficiency and the better generalization capability of models pretrained with masked language modeling can be attributed to the semantic similarity encoded in the pretraining data's distributional property. Via a synthetic dataset, our analysis suggests that distributional property indeed leads to the better sample efficiency of pretrained masked language models, but does not fully explain the generalization capability. We also conduct analyses over two real-world datasets and demonstrate that the distributional property does not explain the generalization ability of pretrained natural language models either. Our results illustrate our limited understanding of model pretraining and provide future research directions.
翻訳日:2023-10-26 17:26:30 公開日:2023-10-25
# URL-BERT: ソーシャルメディアによるWebページ表現のトレーニング

URL-BERT: Training Webpage Representations via Social Media Engagements ( http://arxiv.org/abs/2310.16303v1 )

ライセンス: Link先を確認
Ayesha Qamar, Chetan Verma, Ahmed El-Kishky, Sumit Binnani, Sneha Mehta, Taylor Berg-Kirkpatrick(参考訳) ウェブページの理解と表現は、ユーザーがURLを共有してエンゲージするオンラインソーシャルネットワークにとって不可欠である。 BERTのような共通言語モデル(LM)エンコーダは、Webページのテキストの内容を理解し、表現するために使用することができる。 しかし、これらの表現は、WebドメインやURLのテーマ情報をモデル化したり、ソーシャルメディアユーザーに正確にアピールするものではない。 本稿では,URLやWebページの理解にLMを適用するための事前学習の新たな手法を提案する。 提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づくURLの浅い表現を学習するためのスケーラブルなグラフ埋め込み,(2) LM表現と前述のグラフベース表現とを整合させるコントラスト的目的,の2段階からなる。 BERTの多言語バージョンにフレームワークを適用し、モデルURL-BERTを得る。 当社のトレーニング前アプローチが,さまざまなタスクやtwitter内部および外部ベンチマークのwebページ理解を改善することを実験的に実証した。

Understanding and representing webpages is crucial to online social networks where users may share and engage with URLs. Common language model (LM) encoders such as BERT can be used to understand and represent the textual content of webpages. However, these representations may not model thematic information of web domains and URLs or accurately capture their appeal to social media users. In this work, we introduce a new pre-training objective that can be used to adapt LMs to understand URLs and webpages. Our proposed framework consists of two steps: (1) scalable graph embeddings to learn shallow representations of URLs based on user engagement on social media and (2) a contrastive objective that aligns LM representations with the aforementioned graph-based representation. We apply our framework to the multilingual version of BERT to obtain the model URL-BERT. We experimentally demonstrate that our continued pre-training approach improves webpage understanding on a variety of tasks and Twitter internal and external benchmarks.
翻訳日:2023-10-26 17:20:47 公開日:2023-10-25
# マルチUAVネットワークのための不完全なディジタル双極子支援低コスト強化訓練

Imperfect Digital Twin Assisted Low Cost Reinforcement Training for Multi-UAV Networks ( http://arxiv.org/abs/2310.16302v1 )

ライセンス: Link先を確認
Xiucheng Wang, Nan Cheng, Longfei Ma, Zhisheng Yin, Tom. Luan, Ning Lu(参考訳) Deep Reinforcement Learning (DRL)は、マルチUAVネットワークの性能を最適化するために広く使われている。 しかし、DRLの訓練はUAVと環境の間の頻繁な相互作用に依存しており、実際の実験ではUAVの飛行と通信のために多くのエネルギーを消費している。 物理空間の特徴に対処して構築されたデジタル空間におけるアルゴリズムの性能をシミュレートするデジタルツイン(DT)技術にインスパイアされたDTは、エネルギーやハードウェア購入といった実用的なトレーニングコストを削減するために導入された。 仮想デジタルによる物理の完全な反映を前提とした従来のDT支援作品とは違い,マルチUAVネットワークのトレーニングを支援するための偏差のある不完全なDTモデルを考える。 特筆すべきは, トレーニングコスト, DT建設コスト, DTの偏差がトレーニングに与える影響をトレードオフするために, 自然および事実上発生するUAV混合配置法を提案することである。 2つのカスケードニューラルネットワーク(NN)は、仮想的に生成されたUAVの結合数、DT構築コスト、マルチUAVネットワークの性能を最適化するために使用される。 これら2つのnnは教師なし学習と強化学習によって訓練される。 シミュレーションの結果,トレーニング性能を保証しながらトレーニングコストを大幅に削減できることがわかった。 これは、マルチUAVネットワークにおける不完全なDTで効率的な決定をすることができることを意味する。

Deep Reinforcement Learning (DRL) is widely used to optimize the performance of multi-UAV networks. However, the training of DRL relies on the frequent interactions between the UAVs and the environment, which consumes lots of energy due to the flying and communication of UAVs in practical experiments. Inspired by the growing digital twin (DT) technology, which can simulate the performance of algorithms in the digital space constructed by coping features of the physical space, the DT is introduced to reduce the costs of practical training, e.g., energy and hardware purchases. Different from previous DT-assisted works with an assumption of perfect reflecting real physics by virtual digital, we consider an imperfect DT model with deviations for assisting the training of multi-UAV networks. Remarkably, to trade off the training cost, DT construction cost, and the impact of deviations of DT on training, the natural and virtually generated UAV mixing deployment method is proposed. Two cascade neural networks (NN) are used to optimize the joint number of virtually generated UAVs, the DT construction cost, and the performance of multi-UAV networks. These two NNs are trained by unsupervised and reinforcement learning, both low-cost label-free training methods. Simulation results show the training cost can significantly decrease while guaranteeing the training performance. This implies that an efficient decision can be made with imperfect DTs in multi-UAV networks.
翻訳日:2023-10-26 17:20:28 公開日:2023-10-25
# ChatGPTは多人数会話ソリューションか?

Is ChatGPT a Good Multi-Party Conversation Solver? ( http://arxiv.org/abs/2310.16301v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling(参考訳) 大規模言語モデル(llm)は、自然言語処理の分野で影響力のある手段として登場してきたが、マルチパーティ会話(mpc)を扱う能力は、複雑な情報交換に関わる複数の対話者の存在によって特徴付けられるが、いまだに残っていない。 本稿では,MPC の文脈において,ChatGPT や GPT-4 などの生成 LLM の可能性を探る。 代表的な5つのタスクを含む3つのMPCデータセットを対象に,ChatGPTとGPT-4のゼロショット学習能力を評価する実験的検討を行った。 その結果,多くの評価済みMPCタスクにおけるChatGPTの性能は,GPT-4の結果が有望な未来へと移行する一方で,望まれる部分が多いことがわかった。 さらに,我々は,話者と宛先の両方のアーキテクチャを包含し,mpc構造の導入による性能向上に努める。 本研究は, MPC に生成 LLM を適用し, より効果的で堅牢な MPC エージェントの創出と創出に光を当て, 徹底的な評価と解析を行う。 同時に、この研究は、グラフィカルな情報フローの解読やスタイリスティックな一貫した応答の生成など、MPCにLLMを使用する際の課題を暗黙的に示す。

Large Language Models (LLMs) have emerged as influential instruments within the realm of natural language processing; nevertheless, their capacity to handle multi-party conversations (MPCs) -- a scenario marked by the presence of multiple interlocutors involved in intricate information exchanges -- remains uncharted. In this paper, we delve into the potential of generative LLMs such as ChatGPT and GPT-4 within the context of MPCs. An empirical analysis is conducted to assess the zero-shot learning capabilities of ChatGPT and GPT-4 by subjecting them to evaluation across three MPC datasets that encompass five representative tasks. The findings reveal that ChatGPT's performance on a number of evaluated MPC tasks leaves much to be desired, whilst GPT-4's results portend a promising future. Additionally, we endeavor to bolster performance through the incorporation of MPC structures, encompassing both speaker and addressee architecture. This study provides an exhaustive evaluation and analysis of applying generative LLMs to MPCs, casting a light upon the conception and creation of increasingly effective and robust MPC agents. Concurrently, this work underscores the challenges implicit in the utilization of LLMs for MPCs, such as deciphering graphical information flows and generating stylistically consistent responses.
翻訳日:2023-10-26 17:20:07 公開日:2023-10-25
# モデル解釈のためのニューラルネットワークのインスタンスワイズ線形化

Instance-wise Linearization of Neural Network for Model Interpretation ( http://arxiv.org/abs/2310.16295v1 )

ライセンス: Link先を確認
Zhimin Li, Shusen Liu, Kailkhura Bhavya, Timo Bremer, Valerio Pascucci(参考訳) ニューラルネットワークは多くの科学分野で顕著な成功を収めた。 しかし、ニューラルネットワークモデルの解釈可能性はまだ、そのようなテクニックを私たちの日常生活に展開する上で大きなボトルネックです。 この課題は、ニューラルネットワークの非線形動作に潜むことができ、モデルが入力機能を使って意思決定を行う方法に批判的な疑問を生じさせる。 この課題に対処する古典的なアプローチは、各入力特徴に重要なスコアを割り当て、現在の予測の重要性を明らかにする特徴属性である。 しかしながら、現在の特徴帰属アプローチは、内部でモデルによって実際にどのように処理されるかの詳細なしに、各入力機能の重要性を示すことが多い。 これらの帰属アプローチは、モデル予測の正しい特徴を強調するかどうかをしばしば懸念する。 ニューラルネットワークモデルでは、非線形動作はしばしばモデルの非線形活性化単位によって引き起こされる。 しかし,1つの予測は1つの活性化パターンしか持たないため,ニューラルネットワークモデルからの予測の計算挙動は局所線形である。 この観測に基づいて,ニューラルネットワーク予測の前方計算過程を再構成するインスタンスワイズ線形化手法を提案する。 このアプローチは、畳み込みニューラルネットワークの異なる層を線形行列乗法に変換する。 すべてのレイヤの計算を集約すると、予測複雑な畳み込みニューラルネットワークの操作は線形行列乗法$F(x) = W \cdot x + b$として記述できる。 この方程式は、入力特徴の重要な部分を強調する特徴属性マップを提供するだけでなく、各入力特徴が正確に予測にどのように貢献するかを示すこともできる。 さらに,この手法を教師あり分類と教師なしニューラルネットワーク学習パラメトリックt-sne次元低減の両方に応用する。

Neural network have achieved remarkable successes in many scientific fields. However, the interpretability of the neural network model is still a major bottlenecks to deploy such technique into our daily life. The challenge can dive into the non-linear behavior of the neural network, which rises a critical question that how a model use input feature to make a decision. The classical approach to address this challenge is feature attribution, which assigns an important score to each input feature and reveal its importance of current prediction. However, current feature attribution approaches often indicate the importance of each input feature without detail of how they are actually processed by a model internally. These attribution approaches often raise a concern that whether they highlight correct features for a model prediction. For a neural network model, the non-linear behavior is often caused by non-linear activation units of a model. However, the computation behavior of a prediction from a neural network model is locally linear, because one prediction has only one activation pattern. Base on the observation, we propose an instance-wise linearization approach to reformulates the forward computation process of a neural network prediction. This approach reformulates different layers of convolution neural networks into linear matrix multiplication. Aggregating all layers' computation, a prediction complex convolution neural network operations can be described as a linear matrix multiplication $F(x) = W \cdot x + b$. This equation can not only provides a feature attribution map that highlights the important of the input features but also tells how each input feature contributes to a prediction exactly. Furthermore, we discuss the application of this technique in both supervise classification and unsupervised neural network learning parametric t-SNE dimension reduction.
翻訳日:2023-10-26 17:19:42 公開日:2023-10-25
# クラウドソーシングとアンサンブル学習の分類におけるラベル集約

Crowd-Certain: Label Aggregation in Crowdsourced and Ensemble Learning Classification ( http://arxiv.org/abs/2310.16293v1 )

ライセンス: Link先を確認
Mohammad S. Majdi and Jeffrey J. Rodriguez(参考訳) クラウドソーシングシステムは、コンピュータビジョンや自然言語処理などのアプリケーションに大量のラベル付きデータを蓄積するために使われてきた。 しかし,クラウドソースラベリングは本質的に動的かつ不確実であるため,ほとんどの状況で機能する技術を開発することは極めて困難である。 本稿では,クラウドソース型およびアンサンブル型学習分類タスクにおけるラベルアグリゲーションのための新しいアプローチであるCrowd-Certainを紹介する。 提案手法は,アノテータと訓練された分類器の整合性を利用して,各アノテータの信頼性スコアを決定する。 さらにcrowd-certainは予測確率を活用し、将来のサンプルデータでの訓練された分類器の再利用を可能にし、既存の手法に固有の再帰シミュレーションプロセスの必要性をなくす。 私たちは、10の異なるデータセットにまたがる10の既存の技術に対するアプローチを広範囲に評価しました。 その結果、Crowd-Certainは既存の手法(Tao, Sheng, KOS, MACE, MajorityVote, MMSR, Wawa, Zero-Based Skill, GLAD, Dawid Skene)をほぼすべてのシナリオで上回り、より高い平均精度、F1スコア、AUCレートを実現している。 さらに,既存の信頼度測定手法を2種類導入した。 最後に,これら2つの信頼度評価手法を,期待校正誤差 (ECE) とBrier Score Loss の2つの評価指標を用いて評価した。 以上の結果から,Crowd-Certainはより高いBrier Score,低ECEを実現し,キャリブレーションの結果が得られた。

Crowdsourcing systems have been used to accumulate massive amounts of labeled data for applications such as computer vision and natural language processing. However, because crowdsourced labeling is inherently dynamic and uncertain, developing a technique that can work in most situations is extremely challenging. In this paper, we introduce Crowd-Certain, a novel approach for label aggregation in crowdsourced and ensemble learning classification tasks that offers improved performance and computational efficiency for different numbers of annotators and a variety of datasets. The proposed method uses the consistency of the annotators versus a trained classifier to determine a reliability score for each annotator. Furthermore, Crowd-Certain leverages predicted probabilities, enabling the reuse of trained classifiers on future sample data, thereby eliminating the need for recurrent simulation processes inherent in existing methods. We extensively evaluated our approach against ten existing techniques across ten different datasets, each labeled by varying numbers of annotators. The findings demonstrate that Crowd-Certain outperforms the existing methods (Tao, Sheng, KOS, MACE, MajorityVote, MMSR, Wawa, Zero-Based Skill, GLAD, and Dawid Skene), in nearly all scenarios, delivering higher average accuracy, F1 scores, and AUC rates. Additionally, we introduce a variation of two existing confidence score measurement techniques. Finally we evaluate these two confidence score techniques using two evaluation metrics: Expected Calibration Error (ECE) and Brier Score Loss. Our results show that Crowd-Certain achieves higher Brier Score, and lower ECE across the majority of the examined datasets, suggesting better calibrated results.
翻訳日:2023-10-26 17:19:17 公開日:2023-10-25
# コヒーレント状態を超えた半古典重力

Semiclassical gravity beyond coherent states ( http://arxiv.org/abs/2310.16289v1 )

ライセンス: Link先を確認
Shahnewaz Ahmed, Caroline Lima and Eduardo Mart\'in-Mart\'inez(参考訳) 我々は、場の状態がコヒーレントな状態を超えた量子場理論とともに、半古典重力を用いることが可能であることを示す。 特に、重力逆反応が半古典的重力によってモデル化できる猫状態(非常に非古典的特徴を持つほとんど区別可能なコヒーレント状態の重ね合わせ)の族を同定する。

We show that it is possible to still use semiclassical gravity together with quantum field theory beyond the regimes where the field state is coherent. In particular, we identify families of cat states (superposition of almost-distinguishable coherent states that have very non-classical features) for which the gravitational backreaction can be modeled by semiclassical gravity.
翻訳日:2023-10-26 17:18:43 公開日:2023-10-25
# MotionAGFormer: Transformer-GCNFormer ネットワークによる3次元人物位置推定の実現

MotionAGFormer: Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network ( http://arxiv.org/abs/2310.16288v1 )

ライセンス: Link先を確認
Soroush Mehraban, Vida Adeli, Babak Taati(参考訳) 近年の変圧器に基づく手法は、3次元ポーズ推定において優れた性能を示している。 しかし、それらは全体論的な視点を持ち、すべてのジョイント間のグローバルな関係をエンコードすることで、局所的な依存関係を正確に捉えることはできない。 本稿では、2つの並列トランスとGCNFormerストリームを用いてチャネル数を分割する新しいAGFormer(Attention-GCNFormer)ブロックを提案する。 提案するGCNFormerモジュールは, 隣接する接合部間の局所的関係を利用して, トランス出力を補完する新しい表現を出力する。 これらの2つの表現を適応的に融合することにより、agformerは基礎となる3d構造をより良く学習する能力を示す。 複数のAGFormerブロックを積み重ねることで、4つの異なる変種でMotionAGFormerを提案する。 我々は、Human3.6MとMPI-INF-3DHPの2つの人気のあるベンチマークデータセットでモデルを評価する。 MotionAGFormer-Bは、それぞれ38.4mmと16.2mmのP1エラーで最先端の結果を得る。 注目すべきは、パラメータの4分の1を使用し、前回のHuman3.6Mデータセットの3倍の計算効率である。 コードとモデルはhttps://github.com/TaatiTeam/MotionAGFormer.comで入手できる。

Recent transformer-based approaches have demonstrated excellent performance in 3D human pose estimation. However, they have a holistic view and by encoding global relationships between all the joints, they do not capture the local dependencies precisely. In this paper, we present a novel Attention-GCNFormer (AGFormer) block that divides the number of channels by using two parallel transformer and GCNFormer streams. Our proposed GCNFormer module exploits the local relationship between adjacent joints, outputting a new representation that is complementary to the transformer output. By fusing these two representation in an adaptive way, AGFormer exhibits the ability to better learn the underlying 3D structure. By stacking multiple AGFormer blocks, we propose MotionAGFormer in four different variants, which can be chosen based on the speed-accuracy trade-off. We evaluate our model on two popular benchmark datasets: Human3.6M and MPI-INF-3DHP. MotionAGFormer-B achieves state-of-the-art results, with P1 errors of 38.4mm and 16.2mm, respectively. Remarkably, it uses a quarter of the parameters and is three times more computationally efficient than the previous leading model on Human3.6M dataset. Code and models are available at https://github.com/TaatiTeam/MotionAGFormer.
翻訳日:2023-10-26 17:18:36 公開日:2023-10-25
# 拡散モデルによるCMB観測からのダスト除去

Removing Dust from CMB Observations with Diffusion Models ( http://arxiv.org/abs/2310.16285v1 )

ライセンス: Link先を確認
David Heurtel-Depeiges, Blakesley Burkhart, Ruben Ohana, Bruno R\'egaldo-Saint Blancard(参考訳) 宇宙論において、宇宙マイクロ波背景観測(CMB)における原始的B$-modesの探索は、銀河ダストフォアグラウンドの洗練されたモデルの必要性を強調している。 粉塵の前景の拡散モデルと成分分離への応用について検討した。 既知の宇宙論(あるいは共分散行列)を持つガウス CMB の仮定の下では、拡散モデルがダストエミッションマップの例に基づいて訓練され、それらのサンプリングプロセスは、成分分離の文脈における後続サンプリングと直接一致することを示す。 ダストエミッションとCMBのシミュレーション混合物について説明する。 このプロセスにより,成分の共通要約統計(パワースペクトル,ミンコフスキー汎関数)が回復することを示す。 また、CMB宇宙論によって規定されたモデルを導入し、成分分離に関する単一宇宙論を用いて訓練されたモデルより優れる。 このようなモデルは、拡散に基づく宇宙論的推論のために将来の研究に使用される。

In cosmology, the quest for primordial $B$-modes in cosmic microwave background (CMB) observations has highlighted the critical need for a refined model of the Galactic dust foreground. We investigate diffusion-based modeling of the dust foreground and its interest for component separation. Under the assumption of a Gaussian CMB with known cosmology (or covariance matrix), we show that diffusion models can be trained on examples of dust emission maps such that their sampling process directly coincides with posterior sampling in the context of component separation. We illustrate this on simulated mixtures of dust emission and CMB. We show that common summary statistics (power spectrum, Minkowski functionals) of the components are well recovered by this process. We also introduce a model conditioned by the CMB cosmology that outperforms models trained using a single cosmology on component separation. Such a model will be used in future work for diffusion-based cosmological inference.
翻訳日:2023-10-26 17:18:18 公開日:2023-10-25
# TransPose:Geometry-Aware Transformer を用いた6次元オブジェクト位置推定

TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer ( http://arxiv.org/abs/2310.16279v1 )

ライセンス: Link先を確認
Xiao Lin, Deming Wang, Guangliang Zhou, Chengju Liu, and Qijun Chen(参考訳) 6dオブジェクトのポーズの推定は、多くのアプリケーションで不可欠なタスクです。 奥行き情報がないため、既存のRGBベースの手法は閉塞や照明の変化に敏感である。 正確な予測を達成するためには,深層情報の幾何特徴の抽出と活用が不可欠である。 そこで本稿では,トランスフォーマーエンコーダを幾何対応モジュールで活用し,ポイントクラウド特徴表現の学習能力を向上させる,新しい6次元ポーズフレームワークであるtransposeを提案する。 具体的には,まず点クラウドを一様にサンプリングし,グラフ畳み込みネットワーク上で設計した局所特徴抽出器を用いて局所幾何特徴を抽出する。 咬合に対するロバスト性を改善するため,グローバル情報の交換にtransformerを採用し,各局所特徴にグローバル情報を含むようにした。 最後に,Transformer Encoder にジオメトリ対応モジュールを導入し,ポイントクラウド機能学習の効果的な制約を構築し,ポイントクラウドタスクとグローバル情報交換をより緊密に結合させる。 大規模な実験はTransPoseの有効性を示し、3つのベンチマークデータセットで競合する結果を得る。

Estimating the 6D object pose is an essential task in many applications. Due to the lack of depth information, existing RGB-based methods are sensitive to occlusion and illumination changes. How to extract and utilize the geometry features in depth information is crucial to achieve accurate predictions. To this end, we propose TransPose, a novel 6D pose framework that exploits Transformer Encoder with geometry-aware module to develop better learning of point cloud feature representations. Specifically, we first uniformly sample point cloud and extract local geometry features with the designed local feature extractor base on graph convolution network. To improve robustness to occlusion, we adopt Transformer to perform the exchange of global information, making each local feature contains global information. Finally, we introduce geometry-aware module in Transformer Encoder, which to form an effective constrain for point cloud feature learning and makes the global information exchange more tightly coupled with point cloud tasks. Extensive experiments indicate the effectiveness of TransPose, our pose estimation pipeline achieves competitive results on three benchmark datasets.
翻訳日:2023-10-26 17:18:05 公開日:2023-10-25
# XFEVER: 言語間のFact Verificationを探る

XFEVER: Exploring Fact Verification across Languages ( http://arxiv.org/abs/2310.16278v1 )

ライセンス: Link先を確認
Yi-Chen Chang, Canasai Kruengkrai, Junichi Yamagishi(参考訳) 本稿では,異なる言語間のファクト検証モデルをベンチマークするためのxfever(cross-lingual fact extraction and verification)データセットを提案する。 Fact extract and VERification(FEVER)データセットのクレームとエビデンステキストを6言語に翻訳して構築した。 トレーニングセットと開発セットは機械翻訳を使用して翻訳され、テストセットはプロの翻訳者によって翻訳されたテキストと機械翻訳されたテキストを含む。 xfeverデータセットを用いて,ゼロショット学習と翻訳訓練学習という2つの言語横断的事実検証シナリオを定義し,各シナリオのベースラインモデルも提案する。 実験の結果,多言語モデルを用いて異なる言語における事実検証モデルを効率的に構築できることがわかった。 しかし、その性能は言語によって異なり、英語の場合よりやや劣っている。 また,英語と対象言語間の予測類似性を考慮することで,モデルの誤りを効果的に軽減できることがわかった。 XFEVERデータセット、コード、モデルチェックポイントはhttps://github.com/nii-yamagishilab/xfever.comから入手できる。

This paper introduces the Cross-lingual Fact Extraction and VERification (XFEVER) dataset designed for benchmarking the fact verification models across different languages. We constructed it by translating the claim and evidence texts of the Fact Extraction and VERification (FEVER) dataset into six languages. The training and development sets were translated using machine translation, whereas the test set includes texts translated by professional translators and machine-translated texts. Using the XFEVER dataset, two cross-lingual fact verification scenarios, zero-shot learning and translate-train learning, are defined, and baseline models for each scenario are also proposed in this paper. Experimental results show that the multilingual language model can be used to build fact verification models in different languages efficiently. However, the performance varies by language and is somewhat inferior to the English case. We also found that we can effectively mitigate model miscalibration by considering the prediction similarity between the English and target languages. The XFEVER dataset, code, and model checkpoints are available at https://github.com/nii-yamagishilab/xfever.
翻訳日:2023-10-26 17:17:46 公開日:2023-10-25
# パーソナライズされたfederated x-armed bandit

Personalized Federated X -armed Bandit ( http://arxiv.org/abs/2310.16323v1 )

ライセンス: Link先を確認
Wenjie Li, Qifan Song, Jean Honorio(参考訳) 本研究では,フェデレーション学習のパラダイムにおいて,クライアントの異種な局所目標を同時に最適化する,パーソナライズされたフェデレートされた$\mathcal{x}$-armed bandit問題について検討する。 本稿では,非最適領域を安全に排除しつつ,局所目的の偏りはあるが効果的な評価を通じて協調協調を奨励する,一意的な二重除去戦略を持つ \texttt{pf-pne} アルゴリズムを提案する。 提案する \texttt{pf-pne} アルゴリズムは、任意のレベルの不均一性を持つ局所目的を最適化することができ、その限られた通信はクライアント側の報酬データの機密性を保護する。 本理論解析は,提案アルゴリズムの利点を示すものである。 実験的に、‘texttt{PF-PNE} は合成および実生活データセットの両方で複数のベースラインを上回っている。

In this work, we study the personalized federated $\mathcal{X}$-armed bandit problem, where the heterogeneous local objectives of the clients are optimized simultaneously in the federated learning paradigm. We propose the \texttt{PF-PNE} algorithm with a unique double elimination strategy, which safely eliminates the non-optimal regions while encouraging federated collaboration through biased but effective evaluations of the local objectives. The proposed \texttt{PF-PNE} algorithm is able to optimize local objectives with arbitrary levels of heterogeneity, and its limited communications protects the confidentiality of the client-wise reward data. Our theoretical analysis shows the benefit of the proposed algorithm over single-client algorithms. Experimentally, \texttt{PF-PNE} outperforms multiple baselines on both synthetic and real life datasets.
翻訳日:2023-10-26 17:09:06 公開日:2023-10-25
# Samsung R&D Institute Philippines at WMT 2023

Samsung R&D Institute Philippines at WMT 2023 ( http://arxiv.org/abs/2310.16322v1 )

ライセンス: Link先を確認
Jan Christian Blaise Cruz(参考訳) 本稿では,Samsung R&D Institute Philippines が WMT 2023 General Translation Task に提出した制約付きMTシステムについて述べる: en$\rightarrow$he と he$\rightarrow$en である。 我々のシステムはTransformerベースのシーケンス・ツー・シーケンス・モデルで構成されており、包括的データ前処理パイプライン、合成逆変換データ、オンラインデコード中のノイズチャネルの再評価など、様々なベストプラクティスで訓練されている。 mbart50 m2m や nllb 200 moe など,2つのベンチマークではパラメータがかなり少ないが,強固なベースライン制約のないシステムである flores-200 と ntrex-128 に比較して比較可能である。

In this paper, we describe the constrained MT systems submitted by Samsung R&D Institute Philippines to the WMT 2023 General Translation Task for two directions: en$\rightarrow$he and he$\rightarrow$en. Our systems comprise of Transformer-based sequence-to-sequence models that are trained with a mix of best practices: comprehensive data preprocessing pipelines, synthetic backtranslated data, and the use of noisy channel reranking during online decoding. Our models perform comparably to, and sometimes outperform, strong baseline unconstrained systems such as mBART50 M2M and NLLB 200 MoE despite having significantly fewer parameters on two public benchmarks: FLORES-200 and NTREX-128.
翻訳日:2023-10-26 17:08:51 公開日:2023-10-25
# 確率勾配ハミルトニアンモンテカルロによる低精度サンプリングの促進

Enhancing Low-Precision Sampling via Stochastic Gradient Hamiltonian Monte Carlo ( http://arxiv.org/abs/2310.16320v1 )

ライセンス: Link先を確認
Ziyi Wang, Yujie Chen, Qifan Song, Ruqi Zhang(参考訳) 低精度トレーニングは、多くの精度を犠牲にすることなく、ディープニューラルネットワークのトレーニング効率を高めるための有望な低コスト技術として登場した。 そのベイズ語版はさらに不確かさの定量化と一般化精度の向上をもたらすことができる。 本稿では, 強対数対数分布と非対数対数分布の両方に対して, 低整定・全整定勾配アキュムレータを有する確率勾配ハミルトンモンテカルロ (sghmc) による低整定サンプリングについて検討する。 理論的には、非対数分布に対する2-ワッサーシュタイン距離における$\epsilon$-errorを達成するために、低精度SGHMCは2次改善(\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$)を、最先端の低精度サンプリング器であるStochastic Gradient Langevin Dynamics(SGLD)$(\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)$)と比較した。 さらに、低精度SGHMCは、モーメントベースの更新Wr.t.勾配雑音の頑健性のため、低精度SGLDと比較して量子化誤差に対してより堅牢であることを示す。 実験では, 合成データと<MNIST, CIFAR-10 \& CIFAR-100}データセットについて実験を行い, 理論的知見を検証した。 本研究は,大規模・資源制限型機械学習の効率的かつ正確なサンプリング手法として,低精度SGHMCの可能性を明らかにする。

Low-precision training has emerged as a promising low-cost technique to enhance the training efficiency of deep neural networks without sacrificing much accuracy. Its Bayesian counterpart can further provide uncertainty quantification and improved generalization accuracy. This paper investigates low-precision sampling via Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) with low-precision and full-precision gradient accumulators for both strongly log-concave and non-log-concave distributions. Theoretically, our results show that, to achieve $\epsilon$-error in the 2-Wasserstein distance for non-log-concave distributions, low-precision SGHMC achieves quadratic improvement ($\widetilde{\mathbf{O}}\left({\epsilon^{-2}{\mu^*}^{-2}\log^2\left({\epsilon^{-1}}\right)}\right)$) compared to the state-of-the-art low-precision sampler, Stochastic Gradient Langevin Dynamics (SGLD) ($\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left({\epsilon^{-1}}\right)}\right)$). Moreover, we prove that low-precision SGHMC is more robust to the quantization error compared to low-precision SGLD due to the robustness of the momentum-based update w.r.t. gradient noise. Empirically, we conduct experiments on synthetic data, and {MNIST, CIFAR-10 \& CIFAR-100} datasets, which validate our theoretical findings. Our study highlights the potential of low-precision SGHMC as an efficient and accurate sampling method for large-scale and resource-limited machine learning.
翻訳日:2023-10-26 17:08:34 公開日:2023-10-25
# DiQAD: エンドツーエンドのオープンドメイン対話評価のためのベンチマークデータセット

DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue Assessment ( http://arxiv.org/abs/2310.16319v1 )

ライセンス: Link先を確認
Yukun Zhao, Lingyong Yan, Weiwei Sun, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin(参考訳) 対話評価はオープンドメイン対話システムの開発において重要な役割を担っている。 既存の作業では、エンドツーエンドおよび人文的評価データセットを提供することはできないが、コヒーレンスのようなサブメトリックのみを提供するか、実際のユーザ設定から遠く離れたアノテータ間で会話される。 本稿では,オープンドメインの対話品質を自動評価する大規模対話品質評価データセット(DiQAD)をリリースする。 具体的には,(1)対話の質に関する人間の判断に適合する次元に基づく評価基準を定め,(2)実ユーザ間で会話する大規模対話を,約10万の対話を含むアノテーション基準に基づいてアノテートする。 DiQADのベンチマークとして,いくつかの実験を行い,ベースラインの性能を報告する。 データセットはhttps://github.com/yukunZhao/Dataset_Dialogue_quality_evaluationで公開されている。

Dialogue assessment plays a critical role in the development of open-domain dialogue systems. Existing work are uncapable of providing an end-to-end and human-epistemic assessment dataset, while they only provide sub-metrics like coherence or the dialogues are conversed between annotators far from real user settings. In this paper, we release a large-scale dialogue quality assessment dataset (DiQAD), for automatically assessing open-domain dialogue quality. Specifically, we (1) establish the assessment criteria based on the dimensions conforming to human judgements on dialogue qualities, and (2) annotate large-scale dialogues that conversed between real users based on these annotation criteria, which contains around 100,000 dialogues. We conduct several experiments and report the performances of the baselines as the benchmark on DiQAD. The dataset is openly accessible at https://github.com/yukunZhao/Dataset_Dialogue_quality_evaluation.
翻訳日:2023-10-26 17:07:51 公開日:2023-10-25
# メタ学習型マスクオートエンコーダによるモダリティ非依存型自己教師付き学習

Modality-Agnostic Self-Supervised Learning with Meta-Learned Masked Auto-Encoder ( http://arxiv.org/abs/2310.16318v1 )

ライセンス: Link先を確認
Huiwon Jang, Jihoon Tack, Daewon Choi, Jongheon Jeong, Jinwoo Shin(参考訳) 幅広いモダリティにおいて実践的な重要性があるにもかかわらず、近年の自己教師付き学習(SSL)の進歩は、視覚や言語など、ドメイン固有の知識に頼っているいくつかのよく訓練された領域に主に焦点を当てている。 例えば、Masked Auto-Encoder (MAE) はこれらのドメインで一般的なアーキテクチャの1つとなっているが、他のモダリティではその可能性を探求していない。 本稿では,統一型モダリティに依存しないSSLフレームワークとしてMAEを開発した。 そこで我々は,MAEをモダリティに依存しない学習者と解釈する鍵としてメタラーニングを論じ,様々なモダリティにまたがるSSLを共同で改善する動機から,MAEの強化を提案する。 我々のキーとなる考え方は、MAEのマスク再構築をメタラーニングタスクとして見ることである: マスク付きトークンは、未マスクトークンの暗黙化を通じてトランスフォーマーメタラーナーを適応させることによって予測される。 この新しい解釈に基づき, 2つの高度なメタ学習手法を統合することを提案する。 まず, グラデーションに基づくメタラーニングを用いて, トランスコーダの償却潜時を適応させ, 復元性を高める。 そこで我々は,Transformerエンコーダを指導するタスクコントラスト学習により,暗黙化と適応された潜伏者のアライメントを最大化する。 実験では,モダリティに依存しないSSLベンチマーク(DABS)におけるMetaMAEの優位性を実証した。 コードはhttps://github.com/alinlab/MetaMAEで入手できる。

Despite its practical importance across a wide range of modalities, recent advances in self-supervised learning (SSL) have been primarily focused on a few well-curated domains, e.g., vision and language, often relying on their domain-specific knowledge. For example, Masked Auto-Encoder (MAE) has become one of the popular architectures in these domains, but less has explored its potential in other modalities. In this paper, we develop MAE as a unified, modality-agnostic SSL framework. In turn, we argue meta-learning as a key to interpreting MAE as a modality-agnostic learner, and propose enhancements to MAE from the motivation to jointly improve its SSL across diverse modalities, coined MetaMAE as a result. Our key idea is to view the mask reconstruction of MAE as a meta-learning task: masked tokens are predicted by adapting the Transformer meta-learner through the amortization of unmasked tokens. Based on this novel interpretation, we propose to integrate two advanced meta-learning techniques. First, we adapt the amortized latent of the Transformer encoder using gradient-based meta-learning to enhance the reconstruction. Then, we maximize the alignment between amortized and adapted latents through task contrastive learning which guides the Transformer encoder to better encode the task-specific knowledge. Our experiment demonstrates the superiority of MetaMAE in the modality-agnostic SSL benchmark (called DABS), significantly outperforming prior baselines. Code is available at https://github.com/alinlab/MetaMAE.
翻訳日:2023-10-26 17:07:35 公開日:2023-10-25
# 素粒子モデル:特徴群に対する忠実な帰属

Sum-of-Parts Models: Faithful Attributions for Groups of Features ( http://arxiv.org/abs/2310.16316v1 )

ライセンス: Link先を確認
Weiqiu You, Helen Qu, Marco Gatti, Bhuvnesh Jain, Eric Wong(参考訳) 機械学習モデルの説明は、モデルの決定過程を正確に反映すれば「偽り」と見なされる。 しかし、深層学習における特徴属性などの説明は、忠実であることは保証されておらず、誤解を招く可能性のある解釈を生み出すことができる。 本研究では,予測に忠実な特徴帰属を持つモデル群であるsum-of-parts (sop) を開発した。 このモデルは、予測を解釈可能なスコアの合計に分解し、それぞれが特徴のスパースグループに直接帰属する。 我々は、標準的な解釈可能性指標を持つベンチマークでSOPを評価し、SOPの忠実な説明を用いて、天体物理学者が銀河形成に関する新しい知識を発見するのを助ける。

An explanation of a machine learning model is considered "faithful" if it accurately reflects the model's decision-making process. However, explanations such as feature attributions for deep learning are not guaranteed to be faithful, and can produce potentially misleading interpretations. In this work, we develop Sum-of-Parts (SOP), a class of models whose predictions come with grouped feature attributions that are faithful-by-construction. This model decomposes a prediction into an interpretable sum of scores, each of which is directly attributable to a sparse group of features. We evaluate SOP on benchmarks with standard interpretability metrics, and in a case study, we use the faithful explanations from SOP to help astrophysicists discover new knowledge about galaxy formation.
翻訳日:2023-10-26 17:07:04 公開日:2023-10-25
# コードセマンティックスを理解する:要約におけるトランスフォーマーモデルの評価

Understanding Code Semantics: An Evaluation of Transformer Models in Summarization ( http://arxiv.org/abs/2310.16314v1 )

ライセンス: Link先を確認
Debanjan Mondal, Abhilasha Lodha, Ankita Sahoo, Beena Kumari(参考訳) 本稿では,先進的なトランスフォーマーに基づく言語モデルを用いて,コード要約の複雑さを考察する。 経験的な研究を通じて,関数や変数名を変更することで,コードの意味論を真に理解しているか,あるいは単にテキストの手がかりに頼っているかを調べることで,コード要約の有効性を評価する。 また、デッドコードや3つのプログラミング言語(Python、Javascript、Java)にまたがるコメントコードのような敵も導入して、モデルの理解をさらに精査しています。 最終的には、トランスフォーマーベースのlmsの内部動作に関する貴重な洞察を提供し、コードを理解する能力を高め、より効率的なソフトウェア開発プラクティスとメンテナンスワークフローに貢献することを目標としています。

This paper delves into the intricacies of code summarization using advanced transformer-based language models. Through empirical studies, we evaluate the efficacy of code summarization by altering function and variable names to explore whether models truly understand code semantics or merely rely on textual cues. We have also introduced adversaries like dead code and commented code across three programming languages (Python, Javascript, and Java) to further scrutinize the model's understanding. Ultimately, our research aims to offer valuable insights into the inner workings of transformer-based LMs, enhancing their ability to understand code and contributing to more efficient software development practices and maintenance workflows.
翻訳日:2023-10-26 17:06:50 公開日:2023-10-25
# 回路QED共振器における小光子数の測定

Measurement of small photon numbers in circuit QED resonators ( http://arxiv.org/abs/2310.16312v1 )

ライセンス: Link先を確認
Juan Atalaya, Alex Opremcak, Ani Nersisyan, Kenny Lee and Alexander N. Korotkov(参考訳) 共振器内の変動光子の量子ビットとのオフ共振相互作用は、量子ビットデファスレートを増加させる。 この効果を利用して、コヒーレントまたは熱駆動のキャビティ内光子の平均数を測定する。 スペクトル分解では、qubit を carr-purcell-meiboom-gill (cpmg) シーケンスに入力し、qubit $\pi$-pulses 間の様々な期間の qubit 強調率を記録する。 記録されたデータは、1つの光子による量子ビットの周波数シフトであり、$\kappa$は共振器減衰率である2\chi/\kappa$という任意の比の非ガウスノイズレジームに対して導出した光子誘起劣化率の式で解析される。 提案するcpmg劣化率式は, 実験結果とよく一致し, 温度およびコヒーレント光子数を10^{-4}$程度で測定できることを示した。

Off-resonant interaction of fluctuating photons in a resonator with a qubit increases the qubit dephasing rate. We use this effect to measure a small average number of intracavity photons that are coherently or thermally driven. For spectral resolution, we do this by subjecting the qubit to a Carr-Purcell-Meiboom-Gill (CPMG) sequence and record the qubit dephasing rate for various periods between qubit $\pi$-pulses. The recorded data is then analyzed with formulas for the photon-induced dephasing rate that we have derived for the non-Gaussian noise regime with an arbitrary ratio $2\chi/\kappa$, where $2\chi$ is the qubit frequency shift due to a single photon and $\kappa$ is the resonator decay rate. We show that the presented CPMG dephasing rate formulas agree well with experimental results and demonstrate measurement of thermal and coherent photon populations at the level of a few $10^{-4}$.
翻訳日:2023-10-26 17:06:38 公開日:2023-10-25
# スコアマッチングに基づく不確かさ定量化を伴うニューラルマーク付き時空間点過程の擬似リフレーション推定

Score Matching-based Pseudolikelihood Estimation of Neural Marked Spatio-Temporal Point Process with Uncertainty Quantification ( http://arxiv.org/abs/2310.16310v1 )

ライセンス: Link先を確認
Zichong Li, Qunzhi Xu, Zhenghao Xu, Yajun Mei, Tuo Zhao, Hongyuan Zha(参考訳) 時空間点過程(STPP)は時間的特徴と空間的特徴の両方で事象をモデル化し予測するための強力な数学的ツールである。 汎用性にもかかわらず、既存のstpp学習法は時空間分布の制限された形式をとるか、確率訓練目的における難解積分の不正確な近似に苦しむ。 これらの問題は一般に確率密度関数の正規化項から生じる。 さらに、現在の手法では、予測されたイベントの到着時刻の信頼区間や、そのイベントの位置の信頼領域など、モデルの予測に対して不確実な定量化を提供していない。 これらの課題に対処するために、SMASH: Score MAtching-based pSeudolikeliHood 推定器を紹介した。 具体的には,スコアマッチングによるマーク付きstppの擬似類似度を推定し,生成したサンプルに対する信頼度領域を算出し,予測されたイベント時間,位置,マークの不確かさを定量化する。 提案手法の優れた性能は,事象予測と不確実性定量化の両方において広範な実験によって実証された。

Spatio-temporal point processes (STPPs) are potent mathematical tools for modeling and predicting events with both temporal and spatial features. Despite their versatility, most existing methods for learning STPPs either assume a restricted form of the spatio-temporal distribution, or suffer from inaccurate approximations of the intractable integral in the likelihood training objective. These issues typically arise from the normalization term of the probability density function. Moreover, current techniques fail to provide uncertainty quantification for model predictions, such as confidence intervals for the predicted event's arrival time and confidence regions for the event's location, which is crucial given the considerable randomness of the data. To tackle these challenges, we introduce SMASH: a Score MAtching-based pSeudolikeliHood estimator for learning marked STPPs with uncertainty quantification. Specifically, our framework adopts a normalization-free objective by estimating the pseudolikelihood of marked STPPs through score-matching and offers uncertainty quantification for the predicted event time, location and mark by computing confidence regions over the generated samples. The superior performance of our proposed framework is demonstrated through extensive experiments in both event prediction and uncertainty quantification.
翻訳日:2023-10-26 17:06:15 公開日:2023-10-25
# dolfin: オートエンコーダのない拡散レイアウトトランスフォーマー

Dolfin: Diffusion Layout Transformers without Autoencoder ( http://arxiv.org/abs/2310.16305v1 )

ライセンス: Link先を確認
Yilin Wang, Zeyuan Chen, Liangjun Zhong, Zheng Ding, Zhizhou Sha, Zhuowen Tu(参考訳) 本稿では,新しい生成モデルであるautoencoderのない拡散レイアウトトランスフォーマ(dolfin)について紹介する。 dolfinはトランスフォーマーベースの拡散プロセスを使用してレイアウト生成をモデル化する。 効率の良い双方向(非因果継手)配列表現に加えて,特にアライメント,サイズ,重なりなど,隣接するオブジェクトに対するリッチなセマンティックな相関を捉えることが可能な自己回帰拡散モデル(Dolfin-AR)を提案する。 標準的な生成的レイアウトベンチマークに対して評価すると、Dolfinはさまざまなメトリクス(ファイド、アライメント、オーバーラップ、MaxIoU、DocSimスコア)のパフォーマンスを改善し、プロセスの透明性と相互運用性を向上させる。 さらに、dolfinのアプリケーションはレイアウト生成を超えて拡張され、線分のような幾何学的構造のモデリングに適している。 本実験はDolfinの利点を示すために定性的および定量的な結果を示した。

In this paper, we introduce a novel generative model, Diffusion Layout Transformers without Autoencoder (Dolfin), which significantly improves the modeling capability with reduced complexity compared to existing methods. Dolfin employs a Transformer-based diffusion process to model layout generation. In addition to an efficient bi-directional (non-causal joint) sequence representation, we further propose an autoregressive diffusion model (Dolfin-AR) that is especially adept at capturing rich semantic correlations for the neighboring objects, such as alignment, size, and overlap. When evaluated against standard generative layout benchmarks, Dolfin notably improves performance across various metrics (fid, alignment, overlap, MaxIoU and DocSim scores), enhancing transparency and interoperability in the process. Moreover, Dolfin's applications extend beyond layout generation, making it suitable for modeling geometric structures, such as line segments. Our experiments present both qualitative and quantitative results to demonstrate the advantages of Dolfin.
翻訳日:2023-10-26 17:05:51 公開日:2023-10-25
# 全光相関ノイズチャネルとその量子コヒーレンス回復への応用

All-optical correlated noisy channel and its application in recovering quantum coherence ( http://arxiv.org/abs/2310.16342v1 )

ライセンス: Link先を確認
Dan Lei, Disheng Guo, Jun Xin, and Xiao-Ming Lu(参考訳) 量子コヒーレンス(quantum coherence)は、量子力学の基本的な特徴である。 脆弱で、環境騒音にさらされたオープン量子システムでは消滅する。 本稿では、相関雑音による量子状態のデコヒーレンスを軽減することができる4波長混合プロセスに依存する全光相関ノイズチャネル(ACNC)を提案する。 コヒーレント状態と2モード圧縮状態を含む2つの量子系が検討されている。 また,acncの性能に及ぼす損失の影響についても検討した。 従来の電気光学変換を用いた相関ノイズチャネルとは異なり、このプロトコルのノイズチャネルは全光であり、当社のACNCはより大きな動作帯域を所有している。

Quantum coherence is a fundamental feature in quantum mechanics. It is fragile and will vanish in open quantum systems exposed to environmental noise. In this paper, we propose an all-optical correlated noisy channel (ACNC) relying on four-wave mixing processes that could mitigate the decoherence of quantum states caused by correlated noise. Two quantum systems are considered, including a coherent state and a two-mode squeezed state. In addition, we also analyze the effect of losses on the performance of the ACNC. Different from the correlated noisy channel proposed in previous works using electro-optic conversions, the noisy channel in our protocol is all-optical, and thus our ACNC owns larger operational bandwidth.
翻訳日:2023-10-26 17:00:04 公開日:2023-10-25
# RCAgent: ツール強化大規模言語モデルを用いた自律エージェントによるクラウドルート解析

RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models ( http://arxiv.org/abs/2310.16340v1 )

ライセンス: Link先を確認
Zefan Wang, Zichuan Liu, Yingying Zhang, Aoxiao Zhong, Lunting Fan, Lingfei Wu, Qingsong Wen(参考訳) 近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。 しかし、現在のメソッドは手動のワークフロー設定に依存しており、LCMの意思決定と環境相互作用能力を解き放たない。 RCAgentは、実用的でプライバシーに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。 RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。 私たちのフレームワークは、アクショントラジェクトリのためのユニークなセルフ一貫性や、コンテキスト管理、安定化、ドメイン知識のインポートのための一連のメソッドなど、さまざまな拡張を組み合わせています。 我々の実験は、RCAのすべての側面 – 根本原因、ソリューション、エビデンス、責任の予測 -- におけるReActに対するRCAgentの明らかかつ一貫した優位性、そして、自動化されたメトリクスと人的評価の両方によって検証された現在のルールによってカバーまたは明らかにされたタスクを示しています。 さらに、RCAgentはすでにAlibaba CloudのApache Flink用のReal-time Compute Platformの診断と問題発見ワークフローに統合されている。

Large language model (LLM) applications in cloud root cause analysis (RCA) have been actively explored recently. However, current methods are still reliant on manual workflow settings and do not unleash LLMs' decision-making and environment interaction capabilities. We present RCAgent, a tool-augmented LLM autonomous agent framework for practical and privacy-aware industrial RCA usage. Running on an internally deployed model rather than GPT families, RCAgent is capable of free-form data collection and comprehensive analysis with tools. Our framework combines a variety of enhancements, including a unique Self-Consistency for action trajectories, and a suite of methods for context management, stabilization, and importing domain knowledge. Our experiments show RCAgent's evident and consistent superiority over ReAct across all aspects of RCA -- predicting root causes, solutions, evidence, and responsibilities -- and tasks covered or uncovered by current rules, as validated by both automated metrics and human evaluations. Furthermore, RCAgent has already been integrated into the diagnosis and issue discovery workflow of the Real-time Compute Platform for Apache Flink of Alibaba Cloud.
翻訳日:2023-10-26 16:59:53 公開日:2023-10-25
# フローマッチングによる音声生成事前学習

Generative Pre-training for Speech with Flow Matching ( http://arxiv.org/abs/2310.16338v1 )

ライセンス: Link先を確認
Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei-Ning Hsu(参考訳) 生成モデルは、高忠実な合成データを生成するためにデータ分布の推定とサンプリングを必要とするタスクにおいて顕著に成功したため、近年ますます注目を集めている。 音声では、音声合成とニューラルボコーダが生成モデルが輝いている良い例である。 生成モデルは音声の異なる用途に適用されているが、音声を直接モデル化する汎用生成モデルは存在しない。 そこで本研究では,事前学習された単一生成モデルが,高い性能を持つ異なる下流タスクに適応できることを示すことにより,この方向への一歩を踏み出す。 具体的には、フローマッチングとマスキング条件を併用した60k時間で、SpeechFlowという生成モデルを事前学習した。 実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。 本研究は, 生成前訓練を用いて, 音声におけるタスク生成の基礎モデルを構築することを提案する。

Generative models have gained more and more attention in recent years for their remarkable success in tasks that required estimating and sampling data distribution to generate high-fidelity synthetic data. In speech, text-to-speech synthesis and neural vocoder are good examples where generative models have shined. While generative models have been applied to different applications in speech, there exists no general-purpose generative model that models speech directly. In this work, we take a step toward this direction by showing a single pre-trained generative model can be adapted to different downstream tasks with strong performance. Specifically, we pre-trained a generative model, named SpeechFlow, on 60k hours of untranscribed speech with Flow Matching and masked conditions. Experiment results show the pre-trained generative model can be fine-tuned with task-specific data to match or surpass existing expert models on speech enhancement, separation, and synthesis. Our work suggested a foundational model for generation tasks in speech can be built with generative pre-training.
翻訳日:2023-10-26 16:59:31 公開日:2023-10-25
# SMURF-THP:Score Matching-based UnceRtainty QuantiFication for Transformer Hawkes Process

SMURF-THP: Score Matching-based UnceRtainty quantiFication for Transformer Hawkes Process ( http://arxiv.org/abs/2310.16336v1 )

ライセンス: Link先を確認
Zichong Li, Yanbo Xu, Simiao Zuo, Haoming Jiang, Chao Zhang, Tuo Zhao, Hongyuan Zha(参考訳) Transformer Hawkesプロセスモデルは、イベントシーケンスデータのモデリングに成功している。 しかし、既存の訓練手法のほとんどは、難解な積分を計算することを含む事象列の最大化に依存している。 さらに、既存の手法では、予測された事象の到着時間に対する信頼区間などのモデル予測の不確実性定量化ができない。 そこで本研究では,トランスフォーマー・ホークス過程を学習し,予測の不確かさを定量化するためのスコアベース手法であるsmurf-thpを提案する。 具体的には、SMURF-THPは、難解な計算を避けるスコアマッチング目的に基づいて、イベントの到着時刻のスコア関数を学習する。 このような学習スコア関数により、予測分布からイベントの到着時刻をサンプリングすることができる。 これは自然に、生成されたサンプルに対する信頼区間を計算することによって不確実性の定量化を可能にする。 我々は,イベントタイプ予測と到着時間の不確実性定量化の両方において広範な実験を行う。 全ての実験において、SMURF-THPは既存の可能性に基づく信頼度校正法よりも優れ、予測精度は同等である。

Transformer Hawkes process models have shown to be successful in modeling event sequence data. However, most of the existing training methods rely on maximizing the likelihood of event sequences, which involves calculating some intractable integral. Moreover, the existing methods fail to provide uncertainty quantification for model predictions, e.g., confidence intervals for the predicted event's arrival time. To address these issues, we propose SMURF-THP, a score-based method for learning Transformer Hawkes process and quantifying prediction uncertainty. Specifically, SMURF-THP learns the score function of events' arrival time based on a score-matching objective that avoids the intractable computation. With such a learned score function, we can sample arrival time of events from the predictive distribution. This naturally allows for the quantification of uncertainty by computing confidence intervals over the generated samples. We conduct extensive experiments in both event type prediction and uncertainty quantification of arrival time. In all the experiments, SMURF-THP outperforms existing likelihood-based methods in confidence calibration while exhibiting comparable prediction accuracy.
翻訳日:2023-10-26 16:59:16 公開日:2023-10-25
# レコメンダシステムにおけるモデル抽出攻撃に対する防御

Defense Against Model Extraction Attacks on Recommender Systems ( http://arxiv.org/abs/2310.16335v1 )

ライセンス: Link先を確認
Sixiao Zhang, Hongzhi Yin, Hongxu Chen, Cheng Long(参考訳) 推薦システムの堅牢性は、研究コミュニティにおいて顕著なトピックとなっている。 多くの敵攻撃が提案されているが、そのほとんどは、ホワイトボックス攻撃やブラックボックス攻撃など、特定の外部知識が利用できると仮定した、広範な事前知識に依存している。 これらの攻撃のうち、モデル抽出攻撃は、ターゲットモデルを繰り返しクエリすることで代理モデルをトレーニングすることを含む、有望で実用的な手法として際立っている。 しかし、リコメンデータシステムに対するモデル抽出攻撃に対する防御に関しては、既存の文献では大きなギャップがある。 本稿では,このような攻撃に対応するために設計された最初の防御戦略である勾配ベースランキング最適化(gro)を提案する。 我々は,攻撃者の代理モデルの損失を最大化しつつ,保護対象モデルの損失を最小限に抑えるため,防御を最適化問題として形式化する。 トップkランキングリストは微分不可能であるため、代わりに微分可能な行列をスワップに変換する。 これらのスワップ行列は、代理モデルの振る舞いをエミュレートする学生モデルへの入力として機能する。 学生モデルの損失をバックプロパゲーションすることにより,スワップ行列の勾配を求める。 これらの勾配はスワップ損失を計算するために使われ、学生モデルの損失を最大化する。 本研究では,3つのベンチマークデータセットを用いて,groの性能評価を行い,モデル抽出攻撃に対する防御効果を実証した。

The robustness of recommender systems has become a prominent topic within the research community. Numerous adversarial attacks have been proposed, but most of them rely on extensive prior knowledge, such as all the white-box attacks or most of the black-box attacks which assume that certain external knowledge is available. Among these attacks, the model extraction attack stands out as a promising and practical method, involving training a surrogate model by repeatedly querying the target model. However, there is a significant gap in the existing literature when it comes to defending against model extraction attacks on recommender systems. In this paper, we introduce Gradient-based Ranking Optimization (GRO), which is the first defense strategy designed to counter such attacks. We formalize the defense as an optimization problem, aiming to minimize the loss of the protected target model while maximizing the loss of the attacker's surrogate model. Since top-k ranking lists are non-differentiable, we transform them into swap matrices which are instead differentiable. These swap matrices serve as input to a student model that emulates the surrogate model's behavior. By back-propagating the loss of the student model, we obtain gradients for the swap matrices. These gradients are used to compute a swap loss, which maximizes the loss of the student model. We conducted experiments on three benchmark datasets to evaluate the performance of GRO, and the results demonstrate its superior effectiveness in defending against model extraction attacks.
翻訳日:2023-10-26 16:58:58 公開日:2023-10-25
# AccoMontage-3:Sequential Style TransferとMulti-Track Functionによるフルバンドアレンジメント

AccoMontage-3: Full-Band Accompaniment Arrangement via Sequential Style Transfer and Multi-Track Function Prior ( http://arxiv.org/abs/2310.16334v1 )

ライセンス: Link先を確認
Jingwei Zhao, Gus Xia, Ye Wang(参考訳) 本稿では,コード付きリードメロディ(リードシート)の入力に基づいて,マルチトラックのフルバンド伴奏を生成可能なシンボリック・ミュージック・オートメーションシステムであるAccoMontage-3を提案する。 システムには3つのモジュラーコンポーネントが含まれており、それぞれがフルバンド構成の重要な側面をモデル化している。 第1の構成要素は、潜在コード・テクスチャ・ディアングルメントとテクスチャドナーのヒューリスティック検索を用いてテクスチャスタイルをコードに転送することでリードシートのピアノ伴奏を生成するピアノアレンジメントである。 第2のコンポーネントは、個々のトラック関数によって符号化されたオーケストレーションスタイルに従って、ピアノ伴奏スコアをフルバンドアレンジメントにオーケストレーションする。 前の2つをつなぐ3番目のコンポーネントは、音楽全体にわたるオーケストレーションスタイルのグローバル構造を特徴付ける、以前のモデルである。 終端から終端まで、システムは、テクスチャとオーケストレーションという2つのレベルのポリフォニックな構成でスタイル転送を適用し、自己教師付き方式でフルバンド伴奏を生成することを学習する。 実験の結果,本システムはベースラインを著しく上回り,モジュール設計は音楽的に意味のある効果的な制御を提供することがわかった。

We propose AccoMontage-3, a symbolic music automation system capable of generating multi-track, full-band accompaniment based on the input of a lead melody with chords (i.e., a lead sheet). The system contains three modular components, each modelling a vital aspect of full-band composition. The first component is a piano arranger that generates piano accompaniment for the lead sheet by transferring texture styles to the chords using latent chord-texture disentanglement and heuristic retrieval of texture donors. The second component orchestrates the piano accompaniment score into full-band arrangement according to the orchestration style encoded by individual track functions. The third component, which connects the previous two, is a prior model characterizing the global structure of orchestration style over the whole piece of music. From end to end, the system learns to generate full-band accompaniment in a self-supervised fashion, applying style transfer at two levels of polyphonic composition: texture and orchestration. Experiments show that our system outperforms the baselines significantly, and the modular design offers effective controls in a musically meaningful way.
翻訳日:2023-10-26 16:58:37 公開日:2023-10-25
# 深部視覚特徴の破壊的ニューロン説明

Corrupting Neuron Explanations of Deep Visual Features ( http://arxiv.org/abs/2310.16332v1 )

ライセンス: Link先を確認
Divyansh Srivastava, Tuomas Oikarinen, Tsui-Wei Weng(参考訳) DNNがブラックボックスの動作を説明できないことが最近の説明可能性手法の急増につながっている。 しかし、これらの説明可能性の方法が堅牢で信頼できるものではないという懸念が高まっている。 本研究は,ニューロン説明法の最初のロバスト性解析を行い,これらの説明はランダムなノイズと,それらの探索データに適切に設計された摂動によって著しく損なわれることを示す。 0.02の標準偏差で小さなランダムノイズを付加しても、より深い層に最大28%のニューロンが割り当てられた概念を変更できることがわかった。 さらに, 新たな汚職アルゴリズムを考案し, 探索データの10%未満を汚染することにより, 80%以上のニューロンの説明を操作可能であることを示す。 これにより、実生活の安全と公正なクリティカルな応用においてニューロン説明法を信頼することへの懸念が高まる。

The inability of DNNs to explain their black-box behavior has led to a recent surge of explainability methods. However, there are growing concerns that these explainability methods are not robust and trustworthy. In this work, we perform the first robustness analysis of Neuron Explanation Methods under a unified pipeline and show that these explanations can be significantly corrupted by random noises and well-designed perturbations added to their probing data. We find that even adding small random noise with a standard deviation of 0.02 can already change the assigned concepts of up to 28% neurons in the deeper layers. Furthermore, we devise a novel corruption algorithm and show that our algorithm can manipulate the explanation of more than 80% neurons by poisoning less than 10% of probing data. This raises the concern of trusting Neuron Explanation Methods in real-life safety and fairness critical applications.
翻訳日:2023-10-26 16:58:18 公開日:2023-10-25
# 可変ダイナミクスと短期塑性を有するメムリスタを用いた脳誘発貯留層計算

Brain-Inspired Reservoir Computing Using Memristors with Tunable Dynamics and Short-Term Plasticity ( http://arxiv.org/abs/2310.16331v1 )

ライセンス: Link先を確認
Nicholas X. Armendarez, Ahmed S. Mohamed, Anurag Dhungel, Md Razuan Hossain, Md Sakib Hasan, Joseph S. Najem(参考訳) 近年の貯水池コンピューティング研究の進歩は、貯水池の物理的実装を容易にし、より少ないエネルギーを消費しながらより高速な情報処理を約束し、より小さな面積の面積を占めるアナログデバイスへの需要を生み出した。 非線形および短期記憶のダイナミクスを持つ動的memristorは、時間的分類および予測タスクのための情報処理デバイスまたは貯水池として優れた候補である。 従来の実装では、入力データに同じ非線形変換を適用した、名目上同一の memristor に依存していたため、リッチな状態空間を実現するには不十分であった。 この制限に対処するため、研究者は複数の memristor にまたがるデータを多様化するか、あるいは memristor 間の確率的デバイス間変動を利用した。 しかし、このアプローチは追加の事前処理ステップを必要とし、同期の問題を引き起こす。 代わりに、データを一度エンコードして、異なるダイナミクスを持つメムリスタからなる貯水層に渡すことが好ましい。 本稿では,電圧依存ダイナミクスを持つイオンチャネル型memristorを,電圧やイオンチャネル濃度の調整によって制御および予測的に調整し,多様な動的特性を示すことを実証する。 実験とシミュレーションにより,少数の異なるメムリスタで構築された貯水層は,単一のデータ符号化による予測精度と分類精度が著しく高いことを示す。 その結果, 2次非線形力学系予測タスクにおいて, 5つのメムリスタのみを用いた平均2乗誤差0.0015を実験的に達成した。 さらに、神経活動分類タスクでは、3つの異なるメムリスタの貯水池が96.5%の精度を実験的に達成した。

Recent advancements in reservoir computing research have created a demand for analog devices with dynamics that can facilitate the physical implementation of reservoirs, promising faster information processing while consuming less energy and occupying a smaller area footprint. Studies have demonstrated that dynamic memristors, with nonlinear and short-term memory dynamics, are excellent candidates as information-processing devices or reservoirs for temporal classification and prediction tasks. Previous implementations relied on nominally identical memristors that applied the same nonlinear transformation to the input data, which is not enough to achieve a rich state space. To address this limitation, researchers either diversified the data encoding across multiple memristors or harnessed the stochastic device-to-device variability among the memristors. However, this approach requires additional pre-processing steps and leads to synchronization issues. Instead, it is preferable to encode the data once and pass it through a reservoir layer consisting of memristors with distinct dynamics. Here, we demonstrate that ion-channel-based memristors with voltage-dependent dynamics can be controllably and predictively tuned through voltage or adjustment of the ion channel concentration to exhibit diverse dynamic properties. We show, through experiments and simulations, that reservoir layers constructed with a small number of distinct memristors exhibit significantly higher predictive and classification accuracies with a single data encoding. We found that for a second-order nonlinear dynamical system prediction task, the varied memristor reservoir experimentally achieved a normalized mean square error of 0.0015 using only five distinct memristors. Moreover, in a neural activity classification task, a reservoir of just three distinct memristors experimentally attained an accuracy of 96.5%.
翻訳日:2023-10-26 16:58:04 公開日:2023-10-25
# CoheSentia: 生成したテキストにおけるコヒーレンスのインクリメンタルとホリスティック評価の新しいベンチマーク

CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment of Coherence in Generated Texts ( http://arxiv.org/abs/2310.16329v1 )

ライセンス: Link先を確認
Aviya Maimon and Reut Tsarfaty(参考訳) コヒーレンス(英: Coherence)は、論理的に一貫性があり、読者にとって意味のある、小さなテキスト単位(文、命題)の関係を指す言語用語である。 nlpにおける生成基礎モデルの進歩により、自動生成テキストの人間が知覚するコヒーレンスを自動的に評価する必要性が高まっている。 これまで、生成したテキストのコヒーレンスを明示的に評価し、コヒーレンスに寄与する要因を分析する作業はほとんど行われていない。 このトピックに関する以前の研究は、コヒーレンス検出の先頭に近づくのではなく、コヒーレンスのプロキシとして、例えば文の並べ替えなどの他のタスクを使った。 本稿では,自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである {\sc CoheSentia} を紹介する。 アノテーションプロトコルは2つの視点を反映している。1つはグローバルで、1つはコヒーレンススコアを割り当て、もう1つはインクリメンタルで、文章は文ごとにスコア付けする。 インクリメンタルなメソッドは、各テキストフラグメントに対して(イン)コヒーレンススコアを生成し、その時点でのコヒーレンスの原因も特定する。 提案ベンチマークでは, 自動生成および人称注釈付き500段落を, それぞれにアノテートした。 解析の結果,インクリメンタルモードにおけるアノテーション間合意は,コヒーレンス検出のために微調整された標準lmsは,コヒーレンスに寄与するさまざまな要因において,様々な性能を示すことがわかった。 全体として、これらのモデルは不満足なパフォーマンスをもたらし、より信頼性の高いコヒーレンス評価方法の開発の必要性を強調している。

Coherence is a linguistic term that refers to the relations between small textual units (sentences, propositions), which make the text logically consistent and meaningful to the reader. With the advances of generative foundational models in NLP, there is a pressing need to automatically assess the human-perceived coherence of automatically generated texts. Up until now, little work has been done on explicitly assessing the coherence of generated texts and analyzing the factors contributing to (in)coherence. Previous work on the topic used other tasks, e.g., sentence reordering, as proxies of coherence, rather than approaching coherence detection heads on. In this paper, we introduce {\sc CoheSentia}, a novel benchmark of human-perceived coherence of automatically generated texts. Our annotation protocol reflects two perspectives; one is global, assigning a single coherence score, and the other is incremental, scoring sentence by sentence. The incremental method produces an (in)coherence score for each text fragment and also pinpoints reasons for incoherence at that point. Our benchmark contains 500 automatically-generated and human-annotated paragraphs, each annotated in both methods, by multiple raters. Our analysis shows that the inter-annotator agreement in the incremental mode is higher than in the holistic alternative, and our experiments show that standard LMs fine-tuned for coherence detection show varied performance on the different factors contributing to (in)coherence. All in all, these models yield unsatisfactory performance, emphasizing the need for developing more reliable methods for coherence assessment.
翻訳日:2023-10-26 16:57:32 公開日:2023-10-25
# 再サンプリングによるSBMグラフィックゲームの強化学習

Reinforcement Learning for SBM Graphon Games with Re-Sampling ( http://arxiv.org/abs/2310.16326v1 )

ライセンス: Link先を確認
Peihan Huo, Oscar Peralta, Junyu Guo, Qiaomin Xie, Andreea Minca(参考訳) 平均場近似は、大きな人口動態を研究するための扱いやすいアプローチである。 しかしながら、すべてのエージェント間の均質性と普遍的な接続に関する仮定は、多くの実世界のシナリオでその適用性を制限する。 MP-MFG(Multi-Population Mean-Field Game)モデルはこれらの制限に対処するために文献に導入されている。 基礎となる確率ブロックモデルが知られているとき、ポリシミラー・アセントアルゴリズムがMP-MFGナッシュ平衡を見つけることを示す。 ブロックモデルが未知のより現実的なシナリオでは、有限N-プレーヤMP-MFGモデルと統合されたグラフトンからの再サンプリングスキームを提案する。 我々はエージェントの接続の複雑なネットワーク構造をキャプチャする再サンプリング(GGR-S)モデルを用いたグラフゲームに基づく新しい学習フレームワークを開発する。 我々はGGR-Sのダイナミクスを分析し,MP-MFGのダイナミックスへの収束を確立する。 そこで本研究では,GGR-Sの集団操作を伴わない効率的なサンプルベースN-player Reinforcement Learningアルゴリズムを提案し,有限標本保証を用いた厳密な収束解析を行う。

The Mean-Field approximation is a tractable approach for studying large population dynamics. However, its assumption on homogeneity and universal connections among all agents limits its applicability in many real-world scenarios. Multi-Population Mean-Field Game (MP-MFG) models have been introduced in the literature to address these limitations. When the underlying Stochastic Block Model is known, we show that a Policy Mirror Ascent algorithm finds the MP-MFG Nash Equilibrium. In more realistic scenarios where the block model is unknown, we propose a re-sampling scheme from a graphon integrated with the finite N-player MP-MFG model. We develop a novel learning framework based on a Graphon Game with Re-Sampling (GGR-S) model, which captures the complex network structures of agents' connections. We analyze GGR-S dynamics and establish the convergence to dynamics of MP-MFG. Leveraging this result, we propose an efficient sample-based N-player Reinforcement Learning algorithm for GGR-S without population manipulation, and provide a rigorous convergence analysis with finite sample guarantee.
翻訳日:2023-10-26 16:56:59 公開日:2023-10-25
# 制約付きアクター批判アルゴリズムと制約付き自然アクター批判アルゴリズムの有限時間解析

Finite Time Analysis of Constrained Actor Critic and Constrained Natural Actor Critic Algorithms ( http://arxiv.org/abs/2310.16363v1 )

ライセンス: Link先を確認
Prashansa Panda, Shalabh Bhatnagar(参考訳) アクターの批判手法は、特に状態-アクション空間が大きい場合、幅広い強化学習タスクで膨大な応用を見出している。 本稿では,不等式制約を含む制約付きマルコフ決定過程(C-MDP)の関数近似を用いたアクター評論家および自然なアクター評論家アルゴリズムについて考察し,これらのアルゴリズムを非i.d(マルコフアン)環境で非漸近解析する。 目的関数と制約関数の両方が所定コスト関数の政策依存の長期平均となるような長期平均コスト基準を考察する。 我々はラグランジュ乗算法を用いて不等式制約を扱う。 We prove that these algorithms are guaranteed to find a first-order stationary point (i.e., $\Vert \nabla L(\theta,\gamma)\Vert_2^2 \leq \epsilon$) of the performance (Lagrange) function $L(\theta,\gamma)$, with a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.5})$ in the case of both Constrained Actor Critic (C-AC) and Constrained Natural Actor Critic (C-NAC) algorithms.We also show the results of experiments on a few different grid world settings and observe good empirical performance using both of these algorithms. 特に、大きなグリッドサイズの場合、制約付き自然アクター批評家は、制約付きアクター批評家よりわずかに良い結果を示し、後者は小さなグリッドサイズではわずかに良い結果を示す。

Actor Critic methods have found immense applications on a wide range of Reinforcement Learning tasks especially when the state-action space is large. In this paper, we consider actor critic and natural actor critic algorithms with function approximation for constrained Markov decision processes (C-MDP) involving inequality constraints and carry out a non-asymptotic analysis for both of these algorithms in a non-i.i.d (Markovian) setting. We consider the long-run average cost criterion where both the objective and the constraint functions are suitable policy-dependent long-run averages of certain prescribed cost functions. We handle the inequality constraints using the Lagrange multiplier method. We prove that these algorithms are guaranteed to find a first-order stationary point (i.e., $\Vert \nabla L(\theta,\gamma)\Vert_2^2 \leq \epsilon$) of the performance (Lagrange) function $L(\theta,\gamma)$, with a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.5})$ in the case of both Constrained Actor Critic (C-AC) and Constrained Natural Actor Critic (C-NAC) algorithms.We also show the results of experiments on a few different grid world settings and observe good empirical performance using both of these algorithms. In particular, for large grid sizes, Constrained Natural Actor Critic shows slightly better results than Constrained Actor Critic while the latter is slightly better for a small grid size.
翻訳日:2023-10-26 16:48:35 公開日:2023-10-25
# 障害物対応局所運動計画のための神経電位場

Neural Potential Field for Obstacle-Aware Local Motion Planning ( http://arxiv.org/abs/2310.16362v1 )

ライセンス: Link先を確認
Muhammad Alhaddad, Konstantin Mironov, Aleksey Staroverov, Aleksandr Panov(参考訳) モデル予測制御(mpc)は、移動ロボットプラットフォームに局所的な動作計画を提供する。 難易度は、障害物マップとロボットフットプリントの両方が任意である場合の衝突コストの解析的表現である。 本研究では,ロボットのポーズや障害物マップ,ロボットの足跡などに基づいて,識別可能な衝突コストを返すニューラルネットワークモデルを提案する。 このモデルの微分性はmpcソルバ内での利用を可能にする。 非常に多くのパラメータで問題を解くのは非常に困難である。 そこで我々は,障害物マップとロボットの足跡を組込みに変換するニューラルイメージエンコーダを用いて,問題次元を2桁削減した。 符号付き距離関数のアルゴリズム計算に基づいて、ネットワークトレーニングのための基準データを生成する。 比較実験により、提案手法は既存の局所プランナーに匹敵するものであり、よりスムーズで、経路長に匹敵し、障害物から安全な距離を持つ軌道を提供する。 Husky UGVモバイルロボットの実験は、我々のアプローチがリアルタイムで安全なローカルプランニングを可能にすることを示した。 このアプローチのコードは、デモビデオとともにhttps://github.com/cog-isa/NPFieldで公開されています。

Model predictive control (MPC) may provide local motion planning for mobile robotic platforms. The challenging aspect is the analytic representation of collision cost for the case when both the obstacle map and robot footprint are arbitrary. We propose a Neural Potential Field: a neural network model that returns a differentiable collision cost based on robot pose, obstacle map, and robot footprint. The differentiability of our model allows its usage within the MPC solver. It is computationally hard to solve problems with a very high number of parameters. Therefore, our architecture includes neural image encoders, which transform obstacle maps and robot footprints into embeddings, which reduce problem dimensionality by two orders of magnitude. The reference data for network training are generated based on algorithmic calculation of a signed distance function. Comparative experiments showed that the proposed approach is comparable with existing local planners: it provides trajectories with outperforming smoothness, comparable path length, and safe distance from obstacles. Experiment on Husky UGV mobile robot showed that our approach allows real-time and safe local planning. The code for our approach is presented at https://github.com/cog-isa/NPField together with demo video.
翻訳日:2023-10-26 16:48:11 公開日:2023-10-25
# instructpts: 製品タイトル要約のための命令チューニングllm

InstructPTS: Instruction-Tuning LLMs for Product Title Summarization ( http://arxiv.org/abs/2310.16361v1 )

ライセンス: Link先を確認
Besnik Fetahu, Zhiyu Chen, Oleg Rokhlenko, Shervin Malmasi(参考訳) Eコマース製品カタログには何十億ものアイテムが含まれている。 ほとんどの製品には長いタイトルがあり、売り手は検索を改善するために製品属性を詰め込み、重要な製品側面を強調する。 これにより、このような不自然な製品タイトルと、顧客がそれらを参照する方法のギャップが生じる。 また、eコマースストアは、レコメンデーションやQA、レビューの要約のために、これらの売り手が提供するタイトルを利用できる。 命令調整llmに関する最近の研究に触発されて,製品タイトル要約(pts)タスクの制御可能なアプローチであるinstructptsを提案する。 新しい指示の微調整戦略を使って訓練されたこのアプローチは、様々な基準(要約中の単語数、特定のフレーズの包含など)に従って製品タイトルを要約することができる。 実世界のeコマースカタログの広範な評価は、llmの単純な微調整と比較して、提案手法がより正確な製品名要約を生成できることを示し、それぞれ14 bleu と 8 rouge point を改良した。

E-commerce product catalogs contain billions of items. Most products have lengthy titles, as sellers pack them with product attributes to improve retrieval, and highlight key product aspects. This results in a gap between such unnatural products titles, and how customers refer to them. It also limits how e-commerce stores can use these seller-provided titles for recommendation, QA, or review summarization. Inspired by recent work on instruction-tuned LLMs, we present InstructPTS, a controllable approach for the task of Product Title Summarization (PTS). Trained using a novel instruction fine-tuning strategy, our approach is able to summarize product titles according to various criteria (e.g. number of words in a summary, inclusion of specific phrases, etc.). Extensive evaluation on a real-world e-commerce catalog shows that compared to simple fine-tuning of LLMs, our proposed approach can generate more accurate product name summaries, with an improvement of over 14 and 8 BLEU and ROUGE points, respectively.
翻訳日:2023-10-26 16:47:53 公開日:2023-10-25
# AI搭載無人航空機の概観:トレンド,ビジョン,課題

A Comprehensive Review of AI-enabled Unmanned Aerial Vehicle: Trends, Vision , and Challenges ( http://arxiv.org/abs/2310.16360v1 )

ライセンス: Link先を確認
Osim Kumar Pal, Md Sakib Hossain Shovon, M. F. Mridha and Jungpil Shin(参考訳) 近年,人工知能(AI)と無人航空機(UAV)の組み合わせは,様々な分野で進歩を遂げている。 この包括的な分析は、AI駆動のUAVと、アプリケーションにおけるフレンドリーなコンピューティングの状況の変化を探索する。 それは、新しいトレンド、未来的なビジョン、そしてこの関係に生じる固有の課題を扱っている。 この研究は、AIがナビゲーション、物体の検出と追跡、野生生物のモニタリング、精密農業の強化、救助活動の促進、監視活動の実施、環境に配慮した計算技術を用いたUAV間のコミュニケーションの確立にどのように貢献するかを検討する。 この分析は、AIとUAVの相互作用を掘り下げることで、農業、監視プラクティス、災害管理戦略などの産業に革命をもたらす可能性があることを浮き彫りにしている。 可能性を見据えながら、倫理的考慮、安全性に関する懸念、確立すべき規制フレームワーク、AIに強化されたUAVシステムの責任ある展開についても検討する。 この分野での研究成果を集約することにより、このレビューは、AI駆動UAVの進化する展望を理解しつつ、この変革的な領域におけるさらなる探索のステージを設定します。

In recent years, the combination of artificial intelligence (AI) and unmanned aerial vehicles (UAVs) has brought about advancements in various areas. This comprehensive analysis explores the changing landscape of AI-powered UAVs and friendly computing in their applications. It covers emerging trends, futuristic visions, and the inherent challenges that come with this relationship. The study examines how AI plays a role in enabling navigation, detecting and tracking objects, monitoring wildlife, enhancing precision agriculture, facilitating rescue operations, conducting surveillance activities, and establishing communication among UAVs using environmentally conscious computing techniques. By delving into the interaction between AI and UAVs, this analysis highlights the potential for these technologies to revolutionise industries such as agriculture, surveillance practices, disaster management strategies, and more. While envisioning possibilities, it also takes a look at ethical considerations, safety concerns, regulatory frameworks to be established, and the responsible deployment of AI-enhanced UAV systems. By consolidating insights from research endeavours in this field, this review provides an understanding of the evolving landscape of AI-powered UAVs while setting the stage for further exploration in this transformative domain.
翻訳日:2023-10-26 16:47:33 公開日:2023-10-25
# 単純から複雑へ: 文書レベルの代名詞抽出のためのプログレッシブなフレームワーク

From Simple to Complex: A Progressive Framework for Document-level Informative Argument Extraction ( http://arxiv.org/abs/2310.16358v1 )

ライセンス: Link先を確認
Quzhe Huang, Yanxi Zhang, Dongyan Zhao(参考訳) ドキュメントレベルのイベント引数抽出(EAE)では、単一のドキュメントから複数のイベントの引数を抽出する必要がある。 これらのイベント間の基盤となる依存関係を考慮すると、最近の取り組みは、すでに予測されているイベントの結果がキャッシュされ、次のイベントの予測を支援するために取得できる"メモリ"というアイデアを活用している。 これらの方法は文書中の出現順に応じてイベントを抽出するが、第1文に現れるイベントは、抽出するのが最も容易であるという意味ではない。 既存のメソッドは、以前のイベントの誤った予測に依存する場合、今後のイベントの抽出にノイズをもたらす可能性がある。 より信頼性の高いメモリを提供するため,文書レベルEAEのための簡易・複雑プログレッシブフレームワークを提案する。 具体的には、まず各事象の難易度を計算し、次に単純で複雑な順序で抽出を行う。 このようにして、メモリは最も特定の結果を格納し、モデルはこれらの信頼できるソースを使用してより難しいイベントを予測するのに役立つ。 WikiEventsの実験では、私たちのモデルはF1においてSOTAよりも1.4%優れており、EAEタスクにおいて提案されたシンプルで複雑なフレームワークが有用であることを示している。

Document-level Event Argument Extraction (EAE) requires the model to extract arguments of multiple events from a single document. Considering the underlying dependencies between these events, recent efforts leverage the idea of "memory", where the results of already predicted events are cached and can be retrieved to help the prediction of upcoming events. These methods extract events according to their appearance order in the document, however, the event that appears in the first sentence does not mean that it is the easiest to extract. Existing methods might introduce noise to the extraction of upcoming events if they rely on an incorrect prediction of previous events. In order to provide more reliable memory, we propose a simple-to-complex progressive framework for document-level EAE. Specifically, we first calculate the difficulty of each event and then, we conduct the extraction following a simple-to-complex order. In this way, the memory will store the most certain results, and the model could use these reliable sources to help the prediction of more difficult events. Experiments on WikiEvents show that our model outperforms SOTA by 1.4% in F1, indicating the proposed simple-to-complex framework is useful in the EAE task.
翻訳日:2023-10-26 16:47:12 公開日:2023-10-25
# 文書画像分類のためのマルチモーダル多言語ベンチマーク

A Multi-Modal Multilingual Benchmark for Document Image Classification ( http://arxiv.org/abs/2310.16356v1 )

ライセンス: Link先を確認
Yoshinari Fujinuma, Siddharth Varia, Nishant Sankaran, Srikar Appalaraju, Bonan Min, Yogarshi Vyas(参考訳) 文書画像分類は、平文文書分類とは異なっており、形式、電子メール、その他の文書の内容や構造を理解して文書を分類する。 既存のデータセット(Lewis et al., 2006)にはいくつかの制限があり、これらの制限を克服したWIKI-DOCとMultiEURLEX-DOCの2つの新たにキュレーションされた多言語データセットを導入する。 さらに,従来未検証であった文書画像分類における視覚リッチな文書理解や文書aiモデルの包括的研究も行う。 1)マルチラベル分類、及び 2) ゼロショット言語間転送設定。 実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。 われわれのデータセットと発見は、Document AIモデルを改善するための将来の研究の扉を開く。

Document image classification is different from plain-text document classification and consists of classifying a document by understanding the content and structure of documents such as forms, emails, and other such documents. We show that the only existing dataset for this task (Lewis et al., 2006) has several limitations and we introduce two newly curated multilingual datasets WIKI-DOC and MULTIEURLEX-DOC that overcome these limitations. We further undertake a comprehensive study of popular visually-rich document understanding or Document AI models in previously untested setting in document image classification such as 1) multi-label classification, and 2) zero-shot cross-lingual transfer setup. Experimental results show limitations of multilingual Document AI models on cross-lingual transfer across typologically distant languages. Our datasets and findings open the door for future research into improving Document AI models.
翻訳日:2023-10-26 16:46:51 公開日:2023-10-25
# redco:gpu/tpus上でllmの分散トレーニングを自動化する軽量ツール

Redco: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs ( http://arxiv.org/abs/2310.16355v1 )

ライセンス: Link先を確認
Bowen Tan, Yun Zhu, Lijuan Liu, Hongyi Wang, Yonghao Zhuang, Jindong Chen, Eric Xing, Zhiting Hu(参考訳) 最近のAIの進歩は、主に大きな言語モデル(LLM)によるものである。 しかし、そのエスカレートするメモリ要件は、機械学習(ML)の研究者とエンジニアに課題をもたらす。 これに対応するには、開発者は大きなモデルを分割して複数のGPUやTPUに分散する必要がある。 これはMegatron-LM、DeepSpeed、Alpaといった既存のモデル並列ツールによるコーディングと複雑な構成作業を必要とする。 これらのツールは機械学習システム(MLSys)におけるユーザの専門知識を必要とし、特にMLSysのバックグラウンドを持たない開発者にとってLLM開発におけるボトルネックを生み出す。 本稿では,llmの分散トレーニングと推論を自動化するとともに,mlパイプライン開発を簡略化する軽量でユーザフレンドリなツールであるredcoを提案する。 Redcoの設計は2つの重要な側面を強調している。 まず,モデルパラリズムを自動化するために,任意の llm に対してテンソル並列戦略を生成するための2つの素直なルールを同定した。 これらのルールをredcoに統合することで、無駄な分散llmトレーニングと推論が容易になり、追加のコーディングや複雑な構成が不要になる。 GPT-J, LLaMA, T5, OPT など一連の LLM アーキテクチャに Redco を適用することで, 最大 66B までの有効性を示す。 第2に,多ホスト関連処理のような冗長で定型的なコードを排除し,単に3つの関数を定義することで,多様なMLパイプラインのカスタマイズを可能にする機構を提案する。 このメカニズムは、基礎言語モデリングからメタラーニングや強化学習のような複雑なアルゴリズムまで、MLアルゴリズムの範囲で適応可能であることを証明している。 その結果、Redcoの実装は公式実装に比べてコード行数がはるかに少ない。

The recent progress of AI can be largely attributed to large language models (LLMs). However, their escalating memory requirements introduce challenges for machine learning (ML) researchers and engineers. Addressing this requires developers to partition a large model to distribute it across multiple GPUs or TPUs. This necessitates considerable coding and intricate configuration efforts with existing model parallel tools, such as Megatron-LM, DeepSpeed, and Alpa. These tools require users' expertise in machine learning systems (MLSys), creating a bottleneck in LLM development, particularly for developers without MLSys background. In this work, we present Redco, a lightweight and user-friendly tool crafted to automate distributed training and inference for LLMs, as well as to simplify ML pipeline development. The design of Redco emphasizes two key aspects. Firstly, to automate model parallism, our study identifies two straightforward rules to generate tensor parallel strategies for any given LLM. Integrating these rules into Redco facilitates effortless distributed LLM training and inference, eliminating the need of additional coding or complex configurations. We demonstrate the effectiveness by applying Redco on a set of LLM architectures, such as GPT-J, LLaMA, T5, and OPT, up to the size of 66B. Secondly, we propose a mechanism that allows for the customization of diverse ML pipelines through the definition of merely three functions, eliminating redundant and formulaic code like multi-host related processing. This mechanism proves adaptable across a spectrum of ML algorithms, from foundational language modeling to complex algorithms like meta-learning and reinforcement learning. Consequently, Redco implementations exhibit much fewer code lines compared to their official counterparts.
翻訳日:2023-10-26 16:46:37 公開日:2023-10-25
# ニューラルネットワークにおける特徴抽出機構の解明

Unraveling Feature Extraction Mechanisms in Neural Networks ( http://arxiv.org/abs/2310.16350v1 )

ライセンス: Link先を確認
Xiaobing Sun, Jiaxi Li, Wei Lu(参考訳) ニューラルネットワークの正確な知識を捉えるメカニズムは、一貫した研究の主題となっている。 本研究では,ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し,そのメカニズムを解明する。 具体的には、無限のネットワーク幅を考慮すると、ターゲットモデルの学習力学が直感的にトレーニングデータから得られる特徴を解明し、内部メカニズムへの洞察を深める可能性があると仮定する。 このアプローチをいくつかの基本モデルに適用し,勾配降下時の統計的特徴をどのように活用するか,最終決定にどのように統合するかを明らかにする。 また,アクティベーション関数の選択が特徴抽出に影響を及ぼすことがわかった。 例えば、 \textit{ReLU} アクティベーション関数の使用は、機能にバイアスをもたらす可能性がある。 さらに、自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れているようである。 これらの理論的な知見を実験を通して検証し,分類の特殊変種と見なすことができる言語モデリングタスクの解析に応用できることを見出した。 当社のコントリビューションは,大規模言語モデルにおける基本コンポーネントの役割とキャパシティに関する洞察を提供し,複雑なシステムのより広範な理解を支援します。

The underlying mechanism of neural networks in capturing precise knowledge has been the subject of consistent research efforts. In this work, we propose a theoretical approach based on Neural Tangent Kernels (NTKs) to investigate such mechanisms. Specifically, considering the infinite network width, we hypothesize the learning dynamics of target models may intuitively unravel the features they acquire from training data, deepening our insights into their internal mechanisms. We apply our approach to several fundamental models and reveal how these models leverage statistical features during gradient descent and how they are integrated into final decisions. We also discovered that the choice of activation function can affect feature extraction. For instance, the use of the \textit{ReLU} activation function could potentially introduce a bias in features, providing a plausible explanation for its replacement with alternative functions in recent pre-trained language models. Additionally, we find that while self-attention and CNN models may exhibit limitations in learning n-grams, multiplication-based models seem to excel in this area. We verify these theoretical findings through experiments and find that they can be applied to analyze language modeling tasks, which can be regarded as a special variant of classification. Our contributions offer insights into the roles and capacities of fundamental components within large language models, thereby aiding the broader understanding of these complex systems.
翻訳日:2023-10-26 16:46:11 公開日:2023-10-25
# DiffRef3D:3次元物体検出のための拡散型提案記述フレームワーク

DiffRef3D: A Diffusion-based Proposal Refinement Framework for 3D Object Detection ( http://arxiv.org/abs/2310.16349v1 )

ライセンス: Link先を確認
Se-Ho Kim, Inyong Koo, Inyoung Lee, Byeongjun Park, Changick Kim(参考訳) 消音拡散モデルは生成的タスクにおいて顕著な性能を示しており、その知覚的タスクにおける潜在的な応用が注目されている。 本稿では,点雲を用いた3次元物体検出における拡散過程を初めて採用したdiffref3dという新しいフレームワークを提案する。 具体的には,条件拡散過程として2段階3次元物体検出器の提案改良段階を定式化する。 トレーニング中、diffref3dはプロポーザルとターゲットオブジェクトの間の残差に徐々にノイズを加え、その後、ノイズの残差をプロポーザルに適用して仮説を生成する。 リファインメントモジュールは、これらの仮説を利用してノイズ残差を解消し、正確なボックス予測を生成する。 推論フェーズでは、DiffRef3Dはガウス分布からノイズをサンプリングして初期仮説を生成し、反復的なステップを通じて仮説を洗練する。 DiffRef3Dは、既存の3Dオブジェクト検出モデルの性能を一貫して改善する汎用的な提案改善フレームワークである。 我々は,KITTIベンチマークの広範な実験を通じて,DiffRef3Dの重要性を示す。 コードは利用可能だ。

Denoising diffusion models show remarkable performances in generative tasks, and their potential applications in perception tasks are gaining interest. In this paper, we introduce a novel framework named DiffRef3D which adopts the diffusion process on 3D object detection with point clouds for the first time. Specifically, we formulate the proposal refinement stage of two-stage 3D object detectors as a conditional diffusion process. During training, DiffRef3D gradually adds noise to the residuals between proposals and target objects, then applies the noisy residuals to proposals to generate hypotheses. The refinement module utilizes these hypotheses to denoise the noisy residuals and generate accurate box predictions. In the inference phase, DiffRef3D generates initial hypotheses by sampling noise from a Gaussian distribution as residuals and refines the hypotheses through iterative steps. DiffRef3D is a versatile proposal refinement framework that consistently improves the performance of existing 3D object detection models. We demonstrate the significance of DiffRef3D through extensive experiments on the KITTI benchmark. Code will be available.
翻訳日:2023-10-26 16:45:48 公開日:2023-10-25
# 大言語モデルにおける制約付きテキスト生成の包括的評価

A Comprehensive Evaluation of Constrained Text Generation for Large Language Models ( http://arxiv.org/abs/2310.16343v1 )

ライセンス: Link先を確認
Xiang Chen and Xiaojun Wan(参考訳) 自然言語生成(NLG)と大規模言語モデル(LLM)の進歩は、様々なタスクにおいて有能なテキスト生成につながっている。 しかし、LLMの不透明さのため、複雑な制約をニューラルネットワークに組み込むことは依然として困難である。 本研究では, LLMの生成過程において事前定義された制約を適用したLLMの制約付きテキスト生成について検討する。 本研究は,chatgpt や gpt-4 を含む複数の llm について検討し,制約を語彙型,構造型,関係型に分類する。 公平な評価を容易にするためのベンチマークも提示する。 この研究は、LLMが制約に準拠する範囲など、いくつかの重要な研究課題に対処する。 その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。 コードとデータセットは受け入れ次第リリースされる。

Advancements in natural language generation (NLG) and large language models (LLMs) have led to proficient text generation in various tasks. However, integrating intricate constraints into neural text generation, due to LLMs' opacity, remains challenging. This study investigates constrained text generation for LLMs, where predefined constraints are applied during LLM's generation process. Our research examines multiple LLMs, including ChatGPT and GPT-4, categorizing constraints into lexical, structural, and relation-based types. We also present various benchmarks to facilitate fair evaluation. The study addresses some key research questions, including the extent of LLMs' compliance with constraints. Results illuminate LLMs' capacity and deficiency to incorporate constraints and provide insights for future developments in constrained text generation. Codes and datasets will be released upon acceptance.
翻訳日:2023-10-26 16:45:30 公開日:2023-10-25
# open-nerf: オープンボキャブラリのnrf分解に向けて

Open-NeRF: Towards Open Vocabulary NeRF Decomposition ( http://arxiv.org/abs/2310.16383v1 )

ライセンス: Link先を確認
Hao Zhang, Fang Li, and Narendra Ahuja(参考訳) 本稿では,3次元再構成とビュー合成におけるオブジェクト操作の重要な課題であるオープン語彙からのオブジェクトへのニューラルラジアンス場(NeRF)の分解について述べる。 現在のNeRF分解技術は、オープン語彙クエリ処理の柔軟性と3次元セグメンテーションの精度のトレードオフを含む。 本稿では,segment anything model (sam) のような大規模・オフ・ザ・棚型セグメンテーションモデルを活用したオープン・ボキャブラリー埋め込みニューラルネットワーク放射場(open-nerf)を提案し,オープン・ボキャブラリー・クエリの柔軟性と3次元セグメンテーション精度の両立を実現する階層的埋め込みによる統合・分割パラダイムを提案する。 Open-NeRFは、まず大規模な基礎モデルを用いて、様々な視点から階層的な2Dマスクの提案を生成する。 これらの提案は追跡アプローチによって整列され、3D空間に統合され、3Dフィールドに蒸留される。 このプロセスは、閉塞や不明瞭な特徴を伴う困難なシナリオでさえも、異なる視点からのオブジェクトの一貫した認識と粒度を保証する。 実験の結果,提案したOpen-NeRFは,オープン語彙シナリオにおいてLERF \cite{lerf} やFFD \cite{ffd} などの最先端手法よりも優れていた。 Open-NeRFは、オープン語彙クエリによってガイドされるNeRF分解の有望なソリューションを提供する。

In this paper, we address the challenge of decomposing Neural Radiance Fields (NeRF) into objects from an open vocabulary, a critical task for object manipulation in 3D reconstruction and view synthesis. Current techniques for NeRF decomposition involve a trade-off between the flexibility of processing open-vocabulary queries and the accuracy of 3D segmentation. We present, Open-vocabulary Embedded Neural Radiance Fields (Open-NeRF), that leverage large-scale, off-the-shelf, segmentation models like the Segment Anything Model (SAM) and introduce an integrate-and-distill paradigm with hierarchical embeddings to achieve both the flexibility of open-vocabulary querying and 3D segmentation accuracy. Open-NeRF first utilizes large-scale foundation models to generate hierarchical 2D mask proposals from varying viewpoints. These proposals are then aligned via tracking approaches and integrated within the 3D space and subsequently distilled into the 3D field. This process ensures consistent recognition and granularity of objects from different viewpoints, even in challenging scenarios involving occlusion and indistinct features. Our experimental results show that the proposed Open-NeRF outperforms state-of-the-art methods such as LERF \cite{lerf} and FFD \cite{ffd} in open-vocabulary scenarios. Open-NeRF offers a promising solution to NeRF decomposition, guided by open-vocabulary queries, enabling novel applications in robotics and vision-language interaction in open-world 3D scenes.
翻訳日:2023-10-26 16:41:01 公開日:2023-10-25
# 深層学習を用いた侵入検知性能向上のためのマルチアタック分類モデル

A model for multi-attack classification to improve intrusion detection performance using deep learning approaches ( http://arxiv.org/abs/2310.16380v1 )

ライセンス: Link先を確認
Arun Kumar Silivery, Ram Mohan Rao Kovvur(参考訳) 本モデルでは,新しい深層学習手法を提案する。 目的は、悪意のある攻撃を特定するのに役立つ、信頼できる侵入検知メカニズムを作ることである。 ディープラーニングベースのソリューションフレームワークは、3つのアプローチで構成される。 最初のアプローチは、adamax、SGD、adagrad、adam、RMSprop、nadam、adadeltaといった7つのオプティマイザ機能を備えたLong-Short Term Memory Recurrent Neural Network (LSTM-RNN)である。 モデルはNSL-KDDデータセットと分類多重攻撃分類に基づいて評価される。 このモデルは、精度、検出率、誤報率の点でadamaxオプティマイザよりも優れています。 アダマックスオプティマイザを用いたLSTM-RNNの結果は、精度、検出率、誤警報率の低い既存の浅層機械およびディープラーニングモデルと比較される。 Recurrent Neural Network (RNN)、Long-Short Term Memory Recurrent Neural Network (LSTM-RNN)、Deep Neural Network (DNN)からなるマルチモデル手法。 マルチモデルは、KDD99、NSL-KDD、UNSWNB15データセットなどのベンチマークデータセットで評価される。 モデルは特徴を自己学習し、攻撃クラスをマルチアタック分類として分類する。 モデル RNN と LSTM-RNN は KDD99 および NSL-KDD データセット上の他の既存手法と比較してかなり性能が良い。

This proposed model introduces novel deep learning methodologies. The objective here is to create a reliable intrusion detection mechanism to help identify malicious attacks. Deep learning based solution framework is developed consisting of three approaches. The first approach is Long-Short Term Memory Recurrent Neural Network (LSTM-RNN) with seven optimizer functions such as adamax, SGD, adagrad, adam, RMSprop, nadam and adadelta. The model is evaluated on NSL-KDD dataset and classified multi attack classification. The model has outperformed with adamax optimizer in terms of accuracy, detection rate and low false alarm rate. The results of LSTM-RNN with adamax optimizer is compared with existing shallow machine and deep learning models in terms of accuracy, detection rate and low false alarm rate. The multi model methodology consisting of Recurrent Neural Network (RNN), Long-Short Term Memory Recurrent Neural Network (LSTM-RNN), and Deep Neural Network (DNN). The multi models are evaluated on bench mark datasets such as KDD99, NSL-KDD, and UNSWNB15 datasets. The models self-learnt the features and classifies the attack classes as multi-attack classification. The models RNN, and LSTM-RNN provide considerable performance compared to other existing methods on KDD99 and NSL-KDD dataset
翻訳日:2023-10-26 16:40:33 公開日:2023-10-25
# 心理指標を用いた汎用AIの評価

Evaluating General-Purpose AI with Psychometrics ( http://arxiv.org/abs/2310.16379v1 )

ライセンス: Link先を確認
Xiting Wang, Liming Jiang, Jose Hernandez-Orallo, Luning Sun, David Stillwell, Fang Luo, Xing Xie(参考訳) 人工知能(AI)は、タスク固有のシステムから汎用システムへの進化を目の当たりにした。 AIシステムは社会において重要な役割を担い始めるにつれて、適切に評価されることが重要である。 現在のAIベンチマークは通常、特定のタスクのコレクションのパフォーマンスを評価する。 これは汎用AIシステムを評価する際には欠点がある。 まず、AIシステムが今まで見たことのない新しいタスクを完了できるかどうかを予測することは困難である。 第二に、これらのベンチマークはパフォーマンスの指標全体に焦点を当てることが多い。 最後に、既存のベンチマークの信頼性や測定対象に関する質問に対する懸念が高まっている。 これらの課題を解決するために,心理学的測定の科学である心理計測が汎用AI評価の核に置かれるべきであることを示す。 サイコメトリックスは、複数のタスクにまたがるパフォーマンスを損なう潜在構造を識別し、測定するための厳密な方法論を提供する。 そのメリットを議論し,潜在的な落とし穴に対して警告するとともに,それを実践するためのフレームワークを提案する。 最後に、心理学とAIを統合する将来の機会を探る。

Artificial intelligence (AI) has witnessed an evolution from task-specific to general-purpose systems that trend toward human versatility. As AI systems begin to play pivotal roles in society, it is important to ensure that they are adequately evaluated. Current AI benchmarks typically assess performance on collections of specific tasks. This has drawbacks when used for assessing general-purpose AI systems. First, it is difficult to predict whether AI systems could complete a new task it has never seen or that did not previously exist. Second, these benchmarks often focus on overall performance metrics, potentially overlooking the finer details crucial for making informed decisions. Lastly, there are growing concerns about the reliability of existing benchmarks and questions about what is being measured. To solve these challenges, this paper suggests that psychometrics, the science of psychological measurement, should be placed at the core of evaluating general-purpose AI. Psychometrics provides a rigorous methodology for identifying and measuring the latent constructs that underlie performance across multiple tasks. We discuss its merits, warn against potential pitfalls, and propose a framework for putting it into practice. Finally, we explore future opportunities to integrate psychometrics with AI.
翻訳日:2023-10-26 16:40:11 公開日:2023-10-25
# 量子干渉計:原理と応用

Quantum interferometers: principles and applications ( http://arxiv.org/abs/2310.16378v1 )

ライセンス: Link先を確認
Rui-Bo Jin, Zi-Qi Zeng, Chenglong You, Chenzhi Yuan(参考訳) 干渉は波動の重ね合わせに関連する現象であり、物理学の進歩において重要な役割を担い、物理学や工学の計測における幅広い応用を見出した。 干渉計は干渉を観測し操作するために設計された実験装置である。 技術の発展に伴い、多くの量子干渉計が発見され、量子物理学の分野の土台となった。 量子干渉計は量子世界の性質を探求するだけでなく、量子通信、量子コンピューティング、量子測定といった量子情報技術にも幅広く応用されている。 本稿では,Hong-Ou-Mandel(HOM)干渉計,N00N状態干渉計,Franson干渉計の3つの典型的な量子干渉計を解析・要約する。 これら3つの干渉計の原理と応用に焦点を当てる。 本論では, 単モード理論と多モード理論を含む, これらの干渉計の理論モデルについて述べる。 本稿では,これらの干渉計の量子通信,計算,計測への応用について概説する。 本論文は,基礎科学と実用工学の両分野における量子干渉の進展を促進することを願っている。

Interference, which refers to the phenomenon associated with the superposition of waves, has played a crucial role in the advancement of physics and finds a wide range of applications in physical and engineering measurements. Interferometers are experimental setups designed to observe and manipulate interference. With the development of technology, many quantum interferometers have been discovered and have become cornerstone tools in the field of quantum physics. Quantum interferometers not only explore the nature of the quantum world but also have extensive applications in quantum information technology, such as quantum communication, quantum computing, and quantum measurement. In this review, we analyze and summarize three typical quantum interferometers: the Hong-Ou-Mandel (HOM) interferometer, the N00N state interferometer, and the Franson interferometer. We focus on the principles and applications of these three interferometers. In the principles section, we present the theoretical models for these interferometers, including single-mode theory and multi-mode theory. In the applications section, we review the applications of these interferometers in quantum communication, computation, and measurement. We hope that this review article will promote the development of quantum interference in both fundamental science and practical engineering applications.
翻訳日:2023-10-26 16:39:51 公開日:2023-10-25
# GADY:動的グラフによる教師なし異常検出

GADY: Unsupervised Anomaly Detection on Dynamic Graphs ( http://arxiv.org/abs/2310.16376v1 )

ライセンス: Link先を確認
Shiqi Lou, Qingyue Zhang, Shujie Yang, Yuyang Tian, Zhaoxuan Tan, Minnan Luo(参考訳) 動的グラフ上の異常検出は、グラフ内で観察されるノルムとその時間的情報から明らかに振る舞いが逸脱する実体を検出することを指す。 この分野では、金融、ネットワークセキュリティ、ソーシャルネットワークなどへの応用により、注目度が高まっている。 しかし、既存の手法では2つの課題に直面している: 動的構造構築チャレンジ - 複雑な時間情報を持つグラフ構造を捕捉する難しさと、教師なし学習のための優れた負のサンプルを構築することができない負のサンプリングチャレンジ。 これらの課題に対処するために,動的グラフの非教師付き生成異常検出(GADY)を提案する。 第1の課題に取り組むため,我々は,既存の離散的手法の限界を破る細粒度情報を取り込む連続動的グラフモデルを提案する。 具体的には、メッセージパッシングフレームワークと位置特徴を組み合わせてエッジ埋め込みを行い、異常を識別するためにデコードする。 第2の課題として,生成的敵ネットワークを用いた負のインタラクションの生成を開拓した。 さらに,生成したサンプルの多様性と品質を確保しつつ,生成者の訓練目標を変更するための損失関数を設計する。 広範な実験により,提案手法が3つの実世界のデータセットにおいて,従来の最先端手法を大きく上回ることを示した。 補足的な実験は、モデル設計の有効性と各モジュールの必要性をさらに検証します。

Anomaly detection on dynamic graphs refers to detecting entities whose behaviors obviously deviate from the norms observed within graphs and their temporal information. This field has drawn increasing attention due to its application in finance, network security, social networks, and more. However, existing methods face two challenges: dynamic structure constructing challenge - difficulties in capturing graph structure with complex time information and negative sampling challenge - unable to construct excellent negative samples for unsupervised learning. To address these challenges, we propose Unsupervised Generative Anomaly Detection on Dynamic Graphs (GADY). To tackle the first challenge, we propose a continuous dynamic graph model to capture the fine-grained information, which breaks the limit of existing discrete methods. Specifically, we employ a message-passing framework combined with positional features to get edge embeddings, which are decoded to identify anomalies. For the second challenge, we pioneer the use of Generative Adversarial Networks to generate negative interactions. Moreover, we design a loss function to alter the training goal of the generator while ensuring the diversity and quality of generated samples. Extensive experiments demonstrate that our proposed GADY significantly outperforms the previous state-of-the-art method on three real-world datasets. Supplementary experiments further validate the effectiveness of our model design and the necessity of each module.
翻訳日:2023-10-26 16:39:33 公開日:2023-10-25
# DyExplainer: 説明可能な動的グラフニューラルネットワーク

DyExplainer: Explainable Dynamic Graph Neural Networks ( http://arxiv.org/abs/2310.16375v1 )

ライセンス: Link先を確認
Tianchun Wang, Dongsheng Luo, Wei Cheng, Haifeng Chen, Xiang Zhang(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データから表現をキャプチャする素晴らしい能力によって、トレンド研究の対象として復活する。 しかしながら、GNNのブラックボックスの性質は、これらのモデルの理解と信頼性において重要な課題を示し、ミッションクリティカルなシナリオにおける実践的応用を制限する。 近年、GNNの説明の分野ではかなりの進歩があったが、これらの研究の大部分は静的グラフを中心にしており、動的GNNの説明はほとんど探索されていない。 進化を続けるグラフ構造を持つ動的gnnは、独特な課題をもたらし、時間的依存関係と構造的関係を効果的に捉えるために追加の努力を必要とする。 この課題に対処するために,動的GNNを高速で説明するための新しいアプローチであるDyExplainerを提案する。 DyExplainerは動的なGNNバックボーンをトレーニングし、スナップショット毎にグラフの表現を抽出すると同時に、スパースアテンションテクニックを通じて構造的関係と時間的依存関係を同時に探索する。 構造的整合性や時間的連続性といった説明の望ましい性質を維持するため,我々は,事前誘導正規化を実現するために,コントラスト学習技術を用いてアプローチを強化する。 長期の時間依存性をモデル化するために,バッファベースのトレーニング用ライブ更新方式を開発した。 様々なデータセットを用いた広範な実験の結果,モデル予測の忠実な説明性だけでなく,リンク予測タスクで証明されたモデル予測精度も大幅に向上した。

Graph Neural Networks (GNNs) resurge as a trending research subject owing to their impressive ability to capture representations from graph-structured data. However, the black-box nature of GNNs presents a significant challenge in terms of comprehending and trusting these models, thereby limiting their practical applications in mission-critical scenarios. Although there has been substantial progress in the field of explaining GNNs in recent years, the majority of these studies are centered on static graphs, leaving the explanation of dynamic GNNs largely unexplored. Dynamic GNNs, with their ever-evolving graph structures, pose a unique challenge and require additional efforts to effectively capture temporal dependencies and structural relationships. To address this challenge, we present DyExplainer, a novel approach to explaining dynamic GNNs on the fly. DyExplainer trains a dynamic GNN backbone to extract representations of the graph at each snapshot, while simultaneously exploring structural relationships and temporal dependencies through a sparse attention technique. To preserve the desired properties of the explanation, such as structural consistency and temporal continuity, we augment our approach with contrastive learning techniques to provide priori-guided regularization. To model longer-term temporal dependencies, we develop a buffer-based live-updating scheme for training. The results of our extensive experiments on various datasets demonstrate the superiority of DyExplainer, not only providing faithful explainability of the model predictions but also significantly improving the model prediction accuracy, as evidenced in the link prediction task.
翻訳日:2023-10-26 16:39:11 公開日:2023-10-25
# cramer-wold distance による関節分布学習

Joint Distributional Learning via Cramer-Wold Distance ( http://arxiv.org/abs/2310.16374v1 )

ライセンス: Link先を確認
Seunghwan An and Jong-June Jeon(参考訳) 変分オートエンコーダ(vae)デコーダモデリングで主に使用される観測変数間の条件付き独立性の仮定は、観測変数間の高次元データセットや複素相関構造を扱う場合に制限がある。 この問題に対処するために,閉形式で計算可能なクラーウォルド距離正規化を導入し,高次元データセットの協調分布学習を容易にする。 さらに、フレキシブルな事前モデリングを可能にする2段階学習法を導入し、集約後と事前分布のアライメントを改善した。 さらに,本カテゴリ内の既存手法と理論的に区別する。 提案手法の合成データ生成性能を評価するために,複数のカテゴリ変数を持つ高次元データセットの実験を行った。 利用可能なデータセットやデータサイエンスアプリケーションの多くがこのようなデータセットを含んでいることを考慮し,提案手法の有効性を実証する。

The assumption of conditional independence among observed variables, primarily used in the Variational Autoencoder (VAE) decoder modeling, has limitations when dealing with high-dimensional datasets or complex correlation structures among observed variables. To address this issue, we introduced the Cramer-Wold distance regularization, which can be computed in a closed-form, to facilitate joint distributional learning for high-dimensional datasets. Additionally, we introduced a two-step learning method to enable flexible prior modeling and improve the alignment between the aggregated posterior and the prior distribution. Furthermore, we provide theoretical distinctions from existing methods within this category. To evaluate the synthetic data generation performance of our proposed approach, we conducted experiments on high-dimensional datasets with multiple categorical variables. Given that many readily available datasets and data science applications involve such datasets, our experiments demonstrate the effectiveness of our proposed methodology.
翻訳日:2023-10-26 16:38:28 公開日:2023-10-25
# マイクロブログ投稿によるサッカーマッチのトランスフォーマーによるライブ更新生成

Transformer-based Live Update Generation for Soccer Matches from Microblog Posts ( http://arxiv.org/abs/2310.16368v1 )

ライセンス: Link先を確認
Masashi Oshika, Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 大量の多様なライブツイートから適切なスポーツ更新を生成することは困難であることが知られているが、つぶやきによるスポーツのライブ視聴体験は人気を集めている。 本稿では,試合の進行状況を瞬時に把握し,生のつぶやきから試合の興奮を享受できるように,試合のライブ更新をツイートから生成するシステムの構築に焦点をあてる。 提案システムは,大規模な事前学習型言語モデルに基づいて,更新数を制御する機構と,重複や類似の更新の冗長性を低減する機構を備えている。

It has been known to be difficult to generate adequate sports updates from a sequence of vast amounts of diverse live tweets, although the live sports viewing experience with tweets is gaining the popularity. In this paper, we focus on soccer matches and work on building a system to generate live updates for soccer matches from tweets so that users can instantly grasp a match's progress and enjoy the excitement of the match from raw tweets. Our proposed system is based on a large pre-trained language model and incorporates a mechanism to control the number of updates and a mechanism to reduce the redundancy of duplicate and similar updates.
翻訳日:2023-10-26 16:38:01 公開日:2023-10-25
# 非相対論的電子対に対するグリーン関数とLDOS

Green's function and LDOS for non-relativistic electron pair ( http://arxiv.org/abs/2310.16366v1 )

ライセンス: Link先を確認
Tomasz M. Rusin(参考訳) 魅力的なクーロン力の場における非相対論的荷電粒子に対するクーロングリーン関数(gf)は、2つの非相対論的電子の反発クーロン力による相互作用を記述するために拡張される。 GFの閉形式表現は、電子スピンがないときに一次元積分として導かれる。 結果は電子スピンを含むように一般化され、パウリの排他原理が考慮される。 これにより、交換粒子に関して偶数と奇数の2つの成分からなる最後のGFが作られ、1次元積分として表される閉形式表現が導かれる。 スピン独立ポテンシャルに対するダイソン方程式が提示される。 状態の局所密度(ldos)は計算され、偶数と奇数両方のgfからの寄与の組み合わせである。 この計算はLDOSの電子間距離とエネルギーへの依存を明らかにする。 パウリ排他原理の影響を別々に分析する。 緑機能に対する2体の役割から生じる擬似LDOSの検討を行う。 約$r=0$でのLDOSの完全抑制は、この項によって保証され、空間範囲が制限される。 この擬似LDOSの出現の理由は解明されている。

The Coulomb Green's function (GF) for non-relativistic charged particle in field of attractive Coulomb force is extended to describe the interaction of two non-relativistic electrons through repulsive Coulomb forces. Closed-form expressions for the GF, in the absence of electron spins, are derived as one-dimensional integrals. The results are then generalized to include electron spins and account for the Pauli exclusion principle. This leads to a final GF composed of two components, one even and the other odd with respect to exchange particles, with closed-form expressions represented as one-dimensional integrals. The Dyson equations for spin-independent potentials is presented. The local density of states (LDOS) is calculated, which is a combination of contributions from both even and odd GFs. This calculation reveals the dependence of LDOS on inter-electron distance and energy. Separate analysis of the impact of the Pauli exclusion principle is provided. An examination of the pseudo-LDOS, arising from the two-body contribution to the Green's function, is undertaken. Complete suppression of the LDOS at~$r=0$ is ensured by this term, which exhibits a restricted spatial extent. The reasons for the emergence of this pseudo-LDOS are elucidated.
翻訳日:2023-10-26 16:37:16 公開日:2023-10-25
# 大規模マスキング顔認識に向けて

Towards Large-scale Masked Face Recognition ( http://arxiv.org/abs/2310.16364v1 )

ライセンス: Link先を確認
Manyuan Zhang, Bingqi Ma, Guanglu Song, Yunxiao Wang, Hongsheng Li, Yu Liu(参考訳) 新型コロナウイルス(covid-19)の感染拡大中、ほぼ全員がマスクを着用しているため、ディープラーニングベースの顔認識アルゴリズムにとって大きな課題となっている。 本稿では,ICCV MFR WebFace260M と InsightFace の制約のないトラックに \textbf{championship} ソリューションを提案する。 大規模なマスク付き顔認識における4つの課題、すなわち、超大規模トレーニング、データノイズハンドリング、マスク付きおよび非マスク型顔認識精度バランス、推論に優しいモデルアーキテクチャの設計方法に焦点を当てる。 これら4つの側面に関する議論が、より堅牢な顔認識システムに向けた将来の研究を導くことを願っている。

During the COVID-19 coronavirus epidemic, almost everyone is wearing masks, which poses a huge challenge for deep learning-based face recognition algorithms. In this paper, we will present our \textbf{championship} solutions in ICCV MFR WebFace260M and InsightFace unconstrained tracks. We will focus on four challenges in large-scale masked face recognition, i.e., super-large scale training, data noise handling, masked and non-masked face recognition accuracy balancing, and how to design inference-friendly model architecture. We hope that the discussion on these four aspects can guide future research towards more robust masked face recognition systems.
翻訳日:2023-10-26 16:36:49 公開日:2023-10-25
# 2結合二重量子ドットにおける量子相関の量子熱力学と階層とテレポーテーションの忠実性

Quantum Thermodynamics and Hierarchy of Quantum Correlations and Fidelity of Teleportation in a Two Coupled Double Quantum Dots ( http://arxiv.org/abs/2310.16394v1 )

ライセンス: Link先を確認
Mohamed Amazioug and Mohammed Daoud(参考訳) 2つの過剰電子を含む2つの結合量子ドットの量子相関、忠実度、量子熱力学について検討する。 そこで本研究では,熱的効果とトンネル結合による測定値の進化を考察し,比較する。 量子相関の階層と、2つの量子ドット間の一方向のステアリングを見出す。 我々は、温度の値を上げることによって量子相関が減少することを期待した。 この状態が量子テレポーテーションに使用できることを示す。 他方では,状態の抽出作業と効率について論じる。 抽出作業と素エネルギーを比較する。 以上の結果から,量子ドット状態は,量子相関を保ち,量子情報処理プロトコルの展開に優れた資源の1つであることが示唆された。

We explore the quantum correlations, fidelity and quantum thermodynamics of two coupled double quantum dots containing two excess electrons. In this regard, we investigate and compare the evolution of those measures under thermal effects and tunneling coupling. We find the hierarchy of quantum correlations, and one-way steering between the two quantum dots. We found, as expect that the quantum correlations are diminishes by increasing the values of temperature. We show that this state can be used for quantum teleportation. On the other, we address the extracting work and efficiency of the state. We compare the extraction work with the bare energies. Our results show that quantum dots states have a reliable and better capacity to preserve quantum correlations and remain one of the good resources for the deployment of quantum information processing protocols.
翻訳日:2023-10-26 16:28:26 公開日:2023-10-25
# ZGUL:マルチソース言語アダプタを用いた未知言語へのゼロショット一般化

ZGUL: Zero-shot Generalization to Unseen Languages using Multi-source Ensembling of Language Adapters ( http://arxiv.org/abs/2310.16393v1 )

ライセンス: Link先を確認
Vipul Rathore, Rajdeep Dhingra, Parag Singla, Mausam(参考訳) 我々は,言語アダプタ(LA)を用いて,NLPタスクにおけるゼロショット言語間移動の問題に取り組む。 初期の研究の多くは、単一のソース(しばしば英語)のアダプタを使ってトレーニングを行い、ターゲットのLAまたは他の関連言語のLAを使ってテストした。 訓練対象のLAはラベルのないデータを必要とするが、それは低リソースの未使用言語では容易に利用できない。 私たちは、1つのソースLAではなく、より効果的な言語間転送のために、トレーニングとテストタイムの両方で複数の(言語的または地理的に関連のある)ソース言語のLAを活用する必要があると仮定します。 4つの言語グループにわたる大規模な実験は、15の未確認対象言語をカバーし、標準的な微調整やPOSタグやNERタスクの強力なベースラインよりも平均3.2ポイント改善されている。 また、ZGULを(1)ラベルのないデータか(2)ターゲット言語で使用可能ないくつかのトレーニング例のどちらかに拡張します。 ZGULはこれらの設定でもベースラインを上回り続けています。

We tackle the problem of zero-shot cross-lingual transfer in NLP tasks via the use of language adapters (LAs). Most of the earlier works have explored training with adapter of a single source (often English), and testing either using the target LA or LA of another related language. Training target LA requires unlabeled data, which may not be readily available for low resource unseen languages: those that are neither seen by the underlying multilingual language model (e.g., mBERT), nor do we have any (labeled or unlabeled) data for them. We posit that for more effective cross-lingual transfer, instead of just one source LA, we need to leverage LAs of multiple (linguistically or geographically related) source languages, both at train and test-time - which we investigate via our novel neural architecture, ZGUL. Extensive experimentation across four language groups, covering 15 unseen target languages, demonstrates improvements of up to 3.2 average F1 points over standard fine-tuning and other strong baselines on POS tagging and NER tasks. We also extend ZGUL to settings where either (1) some unlabeled data or (2) few-shot training examples are available for the target language. We find that ZGUL continues to outperform baselines in these settings too.
翻訳日:2023-10-26 16:28:14 公開日:2023-10-25
# 敗戦チケットから受賞:アウト・オブ・ディストリビューション一般化のための変数パラメータ探索による不変学習の改善

Winning Prize Comes from Losing Tickets: Improve Invariant Learning by Exploring Variant Parameters for Out-of-Distribution Generalization ( http://arxiv.org/abs/2310.16391v1 )

ライセンス: Link先を確認
Zhuo Huang, Muyang Li, Li Shen, Jun Yu, Chen Gong, Bo Han, Tongliang Liu(参考訳) Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。 抽選券仮説(lth)に基づく最近の研究では、学習対象を最小化し、タスクに重要なパラメータを見つけることでこの問題に対処している。 しかし,OOD問題では,学習課題には分布ノイズが強く,最適化過程を誤解させる可能性があるため,そのような解は最適以下である。 したがって、タスクに関連するパラメータ(すなわち不変パラメータ)を見つけることとは別に、分布の知識を利用して分布シフトに敏感なパラメータ(すなわち変分パラメータ)を見つけるinvariant learning(evil)の変種パラメータを探索する。 変種パラメータが不変学習から除外されると、分散シフトに耐性を持つロバストなサブネットワークが見つかる。 さらに、分布をまたいで比較的安定なパラメータは不変学習を改善するための不変パラメータと見なすことができる。 可変パラメータと不変パラメータの両方を十分に探索することにより、EVILはOOD一般化を改善するための堅牢なサブネットワークを効果的に特定できる。 統合テストベッドに関する広範な実験: DomainBedでは、EVILは、EMM、IRM、SAMなど、多くの一般的なメソッドを効果的かつ効率的に拡張することができる。

Out-of-Distribution (OOD) Generalization aims to learn robust models that generalize well to various environments without fitting to distribution-specific features. Recent studies based on Lottery Ticket Hypothesis (LTH) address this problem by minimizing the learning target to find some of the parameters that are critical to the task. However, in OOD problems, such solutions are suboptimal as the learning task contains severe distribution noises, which can mislead the optimization process. Therefore, apart from finding the task-related parameters (i.e., invariant parameters), we propose Exploring Variant parameters for Invariant Learning (EVIL) which also leverages the distribution knowledge to find the parameters that are sensitive to distribution shift (i.e., variant parameters). Once the variant parameters are left out of invariant learning, a robust subnetwork that is resistant to distribution shift can be found. Additionally, the parameters that are relatively stable across distributions can be considered invariant ones to improve invariant learning. By fully exploring both variant and invariant parameters, our EVIL can effectively identify a robust subnetwork to improve OOD generalization. In extensive experiments on integrated testbed: DomainBed, EVIL can effectively and efficiently enhance many popular methods, such as ERM, IRM, SAM, etc.
翻訳日:2023-10-26 16:27:52 公開日:2023-10-25
# api誤用修復のための事前学習言語モデルの評価

Evaluating Pre-trained Language Models for Repairing API Misuses ( http://arxiv.org/abs/2310.16390v1 )

ライセンス: Link先を確認
Ting Zhang and Ivana Clairine Irsan and Ferdian Thung and David Lo and Asankhaya Sharma and Lingxiao Jiang(参考訳) APIの誤用は、ソフトウェアバグやクラッシュ、脆弱性につながることが多い。 api誤用検出器がいくつか提案されているが、この目的のために特別に設計された自動修理ツールは存在しない。 最近の研究では、テストスーツベースの自動プログラム修復(APR)ツールがAPI誤用の修復に有効でないことが判明した。 しかし、この研究は非学習支援aprツールに焦点を当てているため、学習支援aprツールがapi誤用を修正できるかどうかは不明だ。 近年,プレトレーニング言語モデル(PLM)は多くの自然言語処理タスクで大きく成功している。 PLMをAPRに適用することへの関心が高まっている。 しかし,API誤用修復におけるPLMの有効性について検討する研究は行われていない。 このギャップを埋めるために,我々は,最先端の汎用plmと2つのaprツールの9つを含む11の学習支援aprツールに関する包括的実証研究を行った。 これらのモデルを2つの変種からなるapi-misuse repairデータセットで評価する。 以上の結果から, PLMはAPI誤用を修復する際のAPRツールよりも優れていた。 事前訓練された9つのモデルの中で、CodeT5は正確なマッチで最高のパフォーマーである。 また、今後の研究のための洞察と潜在的な探索の方向も提供します。

API misuses often lead to software bugs, crashes, and vulnerabilities. While several API misuse detectors have been proposed, there are no automatic repair tools specifically designed for this purpose. In a recent study, test-suite-based automatic program repair (APR) tools were found to be ineffective in repairing API misuses. Still, since the study focused on non-learning-aided APR tools, it remains unknown whether learning-aided APR tools are capable of fixing API misuses. In recent years, pre-trained language models (PLMs) have succeeded greatly in many natural language processing tasks. There is a rising interest in applying PLMs to APR. However, there has not been any study that investigates the effectiveness of PLMs in repairing API misuse. To fill this gap, we conduct a comprehensive empirical study on 11 learning-aided APR tools, which include 9 of the state-of-the-art general-purpose PLMs and two APR tools. We evaluate these models with an API-misuse repair dataset, consisting of two variants. Our results show that PLMs perform better than the studied APR tools in repairing API misuses. Among the 9 pre-trained models tested, CodeT5 is the best performer in the exact match. We also offer insights and potential exploration directions for future research.
翻訳日:2023-10-26 16:27:28 公開日:2023-10-25
# MVFAN:4次元レーダ物体検出のための多視点特徴支援ネットワーク

MVFAN: Multi-View Feature Assisted Network for 4D Radar Object Detection ( http://arxiv.org/abs/2310.16389v1 )

ライセンス: Link先を確認
Qiao Yan, Yihan Wang(参考訳) 4Dレーダーは、悪天候下での弾力性と費用対効果で認識されており、自動運転において重要な役割を担っている。 カメラとライダーは通常、自動運転車の知覚モジュールで使用される主要なセンサーであるが、レーダーは貴重な補足センサーとして機能する。 LiDARやカメラとは異なり、レーダーは厳しい気象条件で損傷を受けていないため、困難な環境では信頼性の高い代替手段を提供する。 レーダーによる3Dオブジェクト検出の開発は、自動運転車の能力を高めるだけでなく、経済的利益をもたらす。 そこで,我々は4d-radarに基づく自律走行車用3d物体検出のためのエンドツーエンド・アンカーフリー・シングルステージフレームワークであるmulti-view feature assisted network (\textit{mvfan})を提案する。 レーダー点雲の不規則分布を考慮したフォアグラウンドとバックグラウンドポイントの強化による特徴学習の強化を目的とした,新しい位置マップ生成モジュールの導入により,特徴利用不足の問題に対処した。 さらに,4dレーダセンサが提供するドップラー速度と反射率データを完全に活用するために,先駆的なバックボーンであるレーダー機能支援バックボーンを提案する。 astyx と vod データセットを用いた包括的実験とアブレーション研究は,このフレームワークの有効性を証明している。 ドップラー速度とRCS反射率の付加により、歩行者やサイクリストなどの小型移動物体の検出性能が劇的に向上する。 その結果,自律走行システムにおける高度に最適化された4次元レーダーによる物体検出能力が達成され,新たな標準が確立された。

4D radar is recognized for its resilience and cost-effectiveness under adverse weather conditions, thus playing a pivotal role in autonomous driving. While cameras and LiDAR are typically the primary sensors used in perception modules for autonomous vehicles, radar serves as a valuable supplementary sensor. Unlike LiDAR and cameras, radar remains unimpaired by harsh weather conditions, thereby offering a dependable alternative in challenging environments. Developing radar-based 3D object detection not only augments the competency of autonomous vehicles but also provides economic benefits. In response, we propose the Multi-View Feature Assisted Network (\textit{MVFAN}), an end-to-end, anchor-free, and single-stage framework for 4D-radar-based 3D object detection for autonomous vehicles. We tackle the issue of insufficient feature utilization by introducing a novel Position Map Generation module to enhance feature learning by reweighing foreground and background points, and their features, considering the irregular distribution of radar point clouds. Additionally, we propose a pioneering backbone, the Radar Feature Assisted backbone, explicitly crafted to fully exploit the valuable Doppler velocity and reflectivity data provided by the 4D radar sensor. Comprehensive experiments and ablation studies carried out on Astyx and VoD datasets attest to the efficacy of our framework. The incorporation of Doppler velocity and RCS reflectivity dramatically improves the detection performance for small moving objects such as pedestrians and cyclists. Consequently, our approach culminates in a highly optimized 4D-radar-based 3D object detection capability for autonomous driving systems, setting a new standard in the field.
翻訳日:2023-10-26 16:27:09 公開日:2023-10-25
# deepfake detection: 2dおよび3d cnnアンサンブルのパワーを活用する

Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles ( http://arxiv.org/abs/2310.16388v1 )

ライセンス: Link先を確認
Aagam Bakliwal, Amit D. Joshi(参考訳) ディープフェイク検出のダイナミックな領域において、この研究は映像コンテンツを検証する革新的なアプローチを示す。 この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。 3Dモデルは、スライディングフィルタによって時空間の特徴を捉え、空間次元と時間次元の両方を通して拡張するように一意に調整されている。 この構成は、画素配置におけるニュアンスドパターン認識とフレーム間の時間的進化を可能にする。 同時に、2Dモデルは効率的なNetアーキテクチャを活用し、畳み込みニューラルネットワークのオートスケーリングを利用する。 このアンサンブルは、Voting EnsemblesとAdaptive Weighted Ensemblingを統合している。 3次元モデルの出力の戦略的優先順位付けは、その例外的な時空間的特徴抽出に基づく。 実験的な検証は、ディープフェイク世代が偽造行為に対処する可能性を示す、この戦略の有効性を裏付けるものである。

In the dynamic realm of deepfake detection, this work presents an innovative approach to validate video content. The methodology blends advanced 2-dimensional and 3-dimensional Convolutional Neural Networks. The 3D model is uniquely tailored to capture spatiotemporal features via sliding filters, extending through both spatial and temporal dimensions. This configuration enables nuanced pattern recognition in pixel arrangement and temporal evolution across frames. Simultaneously, the 2D model leverages EfficientNet architecture, harnessing auto-scaling in Convolutional Neural Networks. Notably, this ensemble integrates Voting Ensembles and Adaptive Weighted Ensembling. Strategic prioritization of the 3-dimensional model's output capitalizes on its exceptional spatio-temporal feature extraction. Experimental validation underscores the effectiveness of this strategy, showcasing its potential in countering deepfake generation's deceptive practices.
翻訳日:2023-10-26 16:26:40 公開日:2023-10-25
# 学習画像圧縮のための周波数認識トランス

Frequency-Aware Transformer for Learned Image Compression ( http://arxiv.org/abs/2310.16387v1 )

ライセンス: Link先を確認
Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) 近年,学習画像圧縮(lic)が画像記憶と伝送に有効なソリューションとして注目されている。 しかし、既存のlic法は、異方性周波数成分の捕捉と方向詳細の保存に制限があるため、潜在表現では冗長である。 これらの課題を克服するため,我々は,licの多元的方向アナリシスを初めて達成する新しい周波数認識トランスフォーマ(fat)ブロックを提案する。 FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。 さらに、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。 さらに,チャネル依存を効果的に活用するt-ca(transformer-based channel-wise autoregressive)モデルを提案する。 実験により,本手法は既存の標準手法と比較して最先端の速度歪み性能を実現し,コダック,テックニック,CLICデータセット上でのBDレートの14.5%,15.1%,13.0%,最新の標準コーデックVTM-12.1よりも明らかに優れていた。

Learned image compression (LIC) has gained traction as an effective solution for image storage and transmission in recent years. However, existing LIC methods are redundant in latent representation due to limitations in capturing anisotropic frequency components and preserving directional details. To overcome these challenges, we propose a novel frequency-aware transformer (FAT) block that for the first time achieves multiscale directional ananlysis for LIC. The FAT block comprises frequency-decomposition window attention (FDWA) modules to capture multiscale and directional frequency components of natural images. Additionally, we introduce frequency-modulation feed-forward network (FMFFN) to adaptively modulate different frequency components, improving rate-distortion performance. Furthermore, we present a transformer-based channel-wise autoregressive (T-CA) model that effectively exploits channel dependencies. Experiments show that our method achieves state-of-the-art rate-distortion performance compared to existing LIC methods, and evidently outperforms latest standardized codec VTM-12.1 by 14.5%, 15.1%, 13.0% in BD-rate on the Kodak, Tecnick, and CLIC datasets.
翻訳日:2023-10-26 16:26:29 公開日:2023-10-25
# 量子非局所性:マルチコピーリソース・インターコンバータビリティとその漸近的非等価性

Quantum Nonlocality: Multi-copy Resource Inter-convertibility & Their Asymptotic Inequivalence ( http://arxiv.org/abs/2310.16386v1 )

ライセンス: Link先を確認
Subhendu B. Ghosh, Snehasish Roy Chowdhury, Guruprasad Kar, Arup Roy, Tamal Guha and Manik Banik(参考訳) ベルの独創的な研究の先駆者であり、その後一連の実験を通じて検証された量子非局所性は、様々なプロトコルの実践的応用により、かなりの注目を集めている。 異なる量子相関における非局所性の評価と比較は、かなりの実用的妥当性を持つ。 資源理論フレームワーク内では、自由局所演算の下での異なる非局所相関と共有ランダム性の間の変換率を評価することで、これを実現できる。 しかし,本研究では,最強の意味で比較不能な量子非局所相関の例を示す。 具体的には、ある非局所相関の任意の数のコピーから始めると、他の相関の1つのコピーも取得できなくなり、この非競合性は両方の方向に保たれる。 驚くべきことに、これらの非比較可能な量子相関は、2つの当事者を含む最も単純なベルシナリオにおいても得ることができる。 特に、そのような非可算数の非可算な相関が存在する。 この結果は、非局所性蒸留の研究において非自明な意味を持つ量子非局所性の資源理論の枠組みの中で、「最大資源状態」と呼ばれる「特異金貨」の概念に挑戦する。

Quantum nonlocality, pioneered in Bell's seminal work and subsequently verified through a series of experiments, has drawn substantial attention due to its practical applications in various protocols. Evaluating and comparing the extent of nonlocality within distinct quantum correlations holds significant practical relevance. Within the resource theoretic framework this can be achieved by assessing the inter-conversion rate among different nonlocal correlations under free local operations and shared randomness. In this study we, however, present instances of quantum nonlocal correlations that are incomparable in the strongest sense. Specifically, when starting with an arbitrary many copies of one nonlocal correlation, it becomes impossible to obtain even a single copy of the other correlation, and this incomparability holds in both directions. Remarkably, these incomparable quantum correlations can be obtained even in the simplest Bell scenario, which involves two parties, each having two dichotomic measurements setups. Notably, there exist an uncountable number of such incomparable correlations. Our result challenges the notion of a 'unique gold coin', often referred to as the 'maximally resourceful state', within the framework of the resource theory of quantum nonlocality, which has nontrivial implications in the study of nonlocality distillation.
翻訳日:2023-10-26 16:26:08 公開日:2023-10-25
# 45 nm nmos回路効果による量子パラメトリック増幅と非古典相関

Quantum Parametric Amplification and NonClassical Correlations due to 45 nm nMOS Circuitry Effect ( http://arxiv.org/abs/2310.16385v1 )

ライセンス: Link先を確認
Ahmad Salmanogli and Amine Bermak(参考訳) 本研究は量子回路における半導体技術の利用の画期的な探索を明らかにする。 45nmCMOS技術の極低温(~300mK)でのユニークな操作性を活用して、新しい量子電子回路を精巧に設計する。 オープン量子系として動作する45nm nmosトランジスタを介して2つのマッチング回路の複雑な結合により、回路量子ハミルトニアンおよび関連するハイゼンベルク・ランゲバン方程式が導出され、包括的な量子解析のステージが設定される。 この研究の中心となる3つの重要な係数は、トランジスタの内部回路を介して結合した発振器電荷とフラックス演算子の間の結合である。 これらの係数は臨界決定因子として現れ、パラメトリック増幅器として回路電位と量子特性への影響の両方を形成する。 この研究は、これらの係数間の微妙な相互作用を展開させ、量子不協和とパラメトリック増幅器の利得に深い影響を示す。 したがって、45 nm cmos技術と量子回路の同化により、パラメトリック増幅器が必要かつ重要なデバイスである量子コンピューティングアプリケーションにおける技術的ギャップを橋渡しすることができる。 設計された新規量子デバイスは量子信号を増幅する量子パラメトリック増幅器として機能するだけでなく、非古典性などの信号の固有量子特性を高める。 したがって、信号の量子特性を同時に改善する効果的なパラメトリック増幅器を作成できる。 より興味深い結果として、そのような理論が適用されれば、深低温で実装された回路は、同じ電子的特徴を量子プロセッサと互換性を維持しながら、回路の次のステップと容易に互換性を持つことができる。

This study unveils a groundbreaking exploration of using semiconductor technology in quantum circuitry. Leveraging the unique operability of 45 nm CMOS technology at deep cryogenic temperatures (~ 300 mK), a novel quantum electronic circuit is meticulously designed. Through the intricate coupling of two matching circuits via a 45 nm nMOS transistor, operating as an open quantum system, the circuit quantum Hamiltonian and the related Heisenberg-Langevin equation are derived, setting the stage for a comprehensive quantum analysis. Central to this investigation are three pivotal coefficients derived, which are the coupling between the coupled oscillator charge and flux operators through the internal circuit of the transistor. These coefficients emerge as critical determinants, shaping both the circuit potential as a parametric amplifier and its impact on quantum properties. The study unfolds a delicate interplay between these coefficients, showcasing their profound influence on quantum discord and the gain of the parametric amplifier. Consequently, the assimilation of 45 nm CMOS technology with quantum circuitry makes it possible to potentially bridge the technological gap in quantum computing applications, where the parametric amplifier is a necessary and critical device. The designed novel quantum device serves not only as a quantum parametric amplifier to amplify quantum signals but also enhances the inherent quantum properties of the signals such as non-classicality. Therefore, one can create an effective parametric amplifier that simultaneously improves the quantum characteristics of the signals. The more interesting result is that if such a theory becomes applicable, the circuit implemented in the deep-cryogenic temperature can be easily compatible with the next step of circuitry while keeping the same electronic features compatibility with the quantum processor.
翻訳日:2023-10-26 16:25:47 公開日:2023-10-25
# 球面上の核補間の分散不確かさの定量化

Distributed Uncertainty Quantification of Kernel Interpolation on Spheres ( http://arxiv.org/abs/2310.16384v1 )

ライセンス: Link先を確認
Shao-Bo Lin, Xingping Sun, Di Wang(参考訳) 散乱データの放射基底関数(RBF)カーネル補間については、1995年にシャバックは達成可能な近似誤差と基底補間行列の条件番号を同時に小さくすることはできないことを示した。 彼はこの発見を「不確実性関係」("uncertainty relation")と呼び、RBFカーネルの補間がノイズデータの影響を受けやすいと結論付けた。 本稿では,非無視等級の雑音球面データを補間することにより生じる不確実性を管理し,定量化する分散補間法を提案する。 また,本手法は,難解な計算環境からのノイズデータを扱う上で,実用的で堅牢であることを示す数値シミュレーション結果も提示する。

For radial basis function (RBF) kernel interpolation of scattered data, Schaback in 1995 proved that the attainable approximation error and the condition number of the underlying interpolation matrix cannot be made small simultaneously. He referred to this finding as an "uncertainty relation", an undesirable consequence of which is that RBF kernel interpolation is susceptible to noisy data. In this paper, we propose and study a distributed interpolation method to manage and quantify the uncertainty brought on by interpolating noisy spherical data of non-negligible magnitude. We also present numerical simulation results showing that our method is practical and robust in terms of handling noisy data from challenging computing environments.
翻訳日:2023-10-26 16:25:17 公開日:2023-10-25
# FlatMatch: 半教師付き学習のためのラベル付きデータとクロスシャープ付きラベルなしデータ

FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness for Semi-Supervised Learning ( http://arxiv.org/abs/2310.16412v1 )

ライセンス: Link先を確認
Zhuo Huang, Li Shen, Jun Yu, Bo Han, Tongliang Liu(参考訳) Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。 しかしながら、ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。 したがってラベルデータに対するラベルガイダンスをラベルデータに伝達することは困難である。 したがって、ラベル付きデータの学習プロセスは、ラベル付きデータを好まないローカルのミニマムに陥りやすいラベル付きデータよりもずっと高速であり、最適でない一般化性能をもたらす。 本稿では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネスを最小化するFlatMatchを提案する。 具体的には、ラベル付きデータに対する経験的リスクを増大させ、拡張すべき障害ケースである最悪のケースモデルを得る。 そして、ラベルなしデータの豊かさを活用することで、最悪ケースモデルと元のモデルとの予測差(すなわちクロスシャープ性)をペナルティ化し、ラベルなしデータの一般化に学習方向が有益になるようにする。 したがって,ラベル情報不足に制限されることなく,学習プロセスを校正することができる。 その結果、ミスマッチした学習性能を軽減でき、さらにラベルなしデータの有効活用とSSL性能の向上が可能となる。 包括的な検証を通じて、FlatMatchは多くのSSL設定で最先端の結果を達成することを示す。

Semi-Supervised Learning (SSL) has been an effective way to leverage abundant unlabeled data with extremely scarce labeled data. However, most SSL methods are commonly based on instance-wise consistency between different data transformations. Therefore, the label guidance on labeled data is hard to be propagated to unlabeled data. Consequently, the learning process on labeled data is much faster than on unlabeled data which is likely to fall into a local minima that does not favor unlabeled data, leading to sub-optimal generalization performance. In this paper, we propose FlatMatch which minimizes a cross-sharpness measure to ensure consistent learning performance between the two datasets. Specifically, we increase the empirical risk on labeled data to obtain a worst-case model which is a failure case that needs to be enhanced. Then, by leveraging the richness of unlabeled data, we penalize the prediction difference (i.e., cross-sharpness) between the worst-case model and the original model so that the learning direction is beneficial to generalization on unlabeled data. Therefore, we can calibrate the learning process without being limited to insufficient label information. As a result, the mismatched learning performance can be mitigated, further enabling the effective exploitation of unlabeled data and improving SSL performance. Through comprehensive validation, we show FlatMatch achieves state-of-the-art results in many SSL settings.
翻訳日:2023-10-26 16:19:36 公開日:2023-10-25
# Decoding Stumper: 大規模言語モデルとヒューマン問題ソルバー

Decoding Stumpers: Large Language Models vs. Human Problem-Solvers ( http://arxiv.org/abs/2310.16411v1 )

ライセンス: Link先を確認
Alon Goldstein, Miriam Havin, Roi Reichart and Ariel Goldstein(参考訳) 本稿では,大規模言語モデル(LLM)の課題解決能力について,人間の問題解決に課題を提起する独特な単一ステップ直観問題であるステンパーの性能を評価することによって検討する。 本研究は,4種類の最先端LCM(Davinci-2,Davinci-3,GPT-3.5-Turbo,GPT-4)とヒトとの比較を行った。 以上の結果から, 次世代LSMはステンパーの解決に優れ, 人的性能を上回っていることが明らかとなった。 しかし、人間は同じ問題に対する解決策を検証する優れた技術を示す。 本研究は,llmsの認知能力の理解を深め,様々な領域にまたがる問題解決可能性を高めるための洞察を提供する。

This paper investigates the problem-solving capabilities of Large Language Models (LLMs) by evaluating their performance on stumpers, unique single-step intuition problems that pose challenges for human solvers but are easily verifiable. We compare the performance of four state-of-the-art LLMs (Davinci-2, Davinci-3, GPT-3.5-Turbo, GPT-4) to human participants. Our findings reveal that the new-generation LLMs excel in solving stumpers and surpass human performance. However, humans exhibit superior skills in verifying solutions to the same problems. This research enhances our understanding of LLMs' cognitive abilities and provides insights for enhancing their problem-solving potential across various domains.
翻訳日:2023-10-26 16:19:14 公開日:2023-10-25
# 人間のAI知識ギャップのブリッジ:AlphaZeroにおける概念発見と伝達

Bridging the Human-AI Knowledge Gap: Concept Discovery and Transfer in AlphaZero ( http://arxiv.org/abs/2310.16410v1 )

ライセンス: Link先を確認
Lisa Schut, Nenad Tomasev, Tom McGrath, Demis Hassabis, Ulrich Paquet, Been Kim(参考訳) 人工知能(AI)システムは、様々な領域で超人的なパフォーマンスを実現している。 これにより、これらの高性能AIシステムに符号化された隠れた知識を活用することで、人間の知識をさらに向上し、人間の専門家のパフォーマンスを向上させる機会が得られます。 しかし、この知識を抽出することはしばしば困難であり、理解したり、そこから学ぶことは困難である。 本稿では,人間の監督なしにチェスのゲームを習得するaiシステムであるalphazeroにおいて,新たなチェス概念を抽出可能にする新しい手法を提案することで,これが可能であることを示す。 我々の分析は、alphazeroは既存の人間の知識を超えて広がる知識をエンコードするが、最終的には人間の理解を超えず、そこから学ぶことができることを示している。 4人のチェスのグランドマスターが提示されたコンセプトのプロトタイプ位置の解法の改善を示した結果,これらの概念はトップ人間の専門家によって学習可能であることが示された。 これは、AIを活用することで人間の知識のフロンティアを前進させる上で、重要な最初のマイルストーンとなる。

Artificial Intelligence (AI) systems have made remarkable progress, attaining super-human performance across various domains. This presents us with an opportunity to further human knowledge and improve human expert performance by leveraging the hidden knowledge encoded within these highly performant AI systems. Yet, this knowledge is often hard to extract, and may be hard to understand or learn from. Here, we show that this is possible by proposing a new method that allows us to extract new chess concepts in AlphaZero, an AI system that mastered the game of chess via self-play without human supervision. Our analysis indicates that AlphaZero may encode knowledge that extends beyond the existing human knowledge, but knowledge that is ultimately not beyond human grasp, and can be successfully learned from. In a human study, we show that these concepts are learnable by top human experts, as four top chess grandmasters show improvements in solving the presented concept prototype positions. This marks an important first milestone in advancing the frontier of human knowledge by leveraging AI; a development that could bear profound implications and help us shape how we interact with AI systems across many AI applications.
翻訳日:2023-10-26 16:19:00 公開日:2023-10-25
# 大規模言語モデルを導入したレコメンデーションシステムにおける複数キー値戦略

Multiple Key-value Strategy in Recommendation Systems Incorporating Large Language Model ( http://arxiv.org/abs/2310.16409v1 )

ライセンス: Link先を確認
Dui Wang, Xiangyu Hou, Xiaohui Yang, Bo Zhang, Renbing Chen and Daiyue Xue(参考訳) レコメンデーションシステム(RS)は、インターネットアプリケーションに必要なユーザ情報にマッチする上で重要な役割を担い、通常、バニラニューラルネットワークをバックボーンとして使用して、埋め込みの詳細を処理する。 近年,大規模言語モデル (LLM) が出現し,CVコミュニティとNLPコミュニティの両方で大きなブレークスルーを遂げている。 したがって、rsをllmをより良く組み込むのが論理的であり、これが新たな研究の方向性となっている。 現存する作品の中にはこの問題に貢献するものもあるが、主に単一の重要な状況(例えば歴史的相互作用)、特にシーケンシャルなレコメンデーションについて考察している。 複数のキー値データの状況は単に無視される。 この重要なシナリオは、ユーザ(例えば、年齢、職業等)とアイテム(例えば、タイトル、カテゴリー等)の情報が1つ以上のキーを持つ現実の実用アプリケーションにおいて主流である。 そこで我々は,RSをLLMに組み込むことで,複数のキー値データに基づく逐次レコメンデーションを実現することを目的とする。 特に、RSのドメイン知識を事前学習したLLMに注入するために、一般的なオープンソースLLM(Llama 7B)をチューニングするように指示する。 複数のキーバリュー戦略を採用するため、LLMはこれらのキー間でうまく学習するのは難しい。 このように、データ議論の革新的方法として、一般的かつ革新的なシャッフルおよびマスク戦略が設計されている。 提案手法の有効性を示すために,複数のキー値を含む人気データセットmovielensについて,広範囲にわたる実験を行った。 実験の結果,この課題を良好かつ効果的に解決できることがわかった。

Recommendation system (RS) plays significant roles in matching users information needs for Internet applications, and it usually utilizes the vanilla neural network as the backbone to handle embedding details. Recently, the large language model (LLM) has exhibited emergent abilities and achieved great breakthroughs both in the CV and NLP communities. Thus, it is logical to incorporate RS with LLM better, which has become an emerging research direction. Although some existing works have made their contributions to this issue, they mainly consider the single key situation (e.g. historical interactions), especially in sequential recommendation. The situation of multiple key-value data is simply neglected. This significant scenario is mainstream in real practical applications, where the information of users (e.g. age, occupation, etc) and items (e.g. title, category, etc) has more than one key. Therefore, we aim to implement sequential recommendations based on multiple key-value data by incorporating RS with LLM. In particular, we instruct tuning a prevalent open-source LLM (Llama 7B) in order to inject domain knowledge of RS into the pre-trained LLM. Since we adopt multiple key-value strategies, LLM is hard to learn well among these keys. Thus the general and innovative shuffle and mask strategies, as an innovative manner of data argument, are designed. To demonstrate the effectiveness of our approach, extensive experiments are conducted on the popular and suitable dataset MovieLens which contains multiple keys-value. The experimental results demonstrate that our approach can nicely and effectively complete this challenging issue.
翻訳日:2023-10-26 16:18:41 公開日:2023-10-25
# トポロジーアウェア不均質フェデレーションエッジ学習におけるノイズチャネル上の情報理論一般化解析

Information-Theoretic Generalization Analysis for Topology-aware Heterogeneous Federated Edge Learning over Noisy Channels ( http://arxiv.org/abs/2310.16407v1 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Hongfang Yu, Jie Liu(参考訳) エッジインテリジェンス(エッジインテリジェンス)の急速な成長に伴い、無線ネットワーク上でのフェデレーション学習(FL)の展開は、フェデレーションエッジラーニング(FEEL)と呼ばれる注目度が高まっている。 モバイル機器がノイズの多いチャネル上でモデルパラメータを送信し、多様な環境でデータを集めることは、トレーニングされたモデルの一般化に困難をもたらす。 さらに、デバイスはデバイス間通信を介して分散flを行うことができ、接続されたデバイスの通信トポロジーはモデルの一般化にも影響を及ぼす。 最近の理論的研究は、一般化分析を開発する際にこれらすべての効果をFEELに組み込むことを見落としている。 対照的に本研究は,データの不均一性とノイズチャネルの存在下でのトポロジー認識に対する情報論的一般化解析を提案する。 さらに,FedGMIR(Federated Global Mutual Information Reduction)と呼ばれる新たな正規化手法を提案する。 数値実験により,提案手法の有効性を検証し,その検証を行った。

With the rapid growth of edge intelligence, the deployment of federated learning (FL) over wireless networks has garnered increasing attention, which is called Federated Edge Learning (FEEL). In FEEL, both mobile devices transmitting model parameters over noisy channels and collecting data in diverse environments pose challenges to the generalization of trained models. Moreover, devices can engage in decentralized FL via Device-to-Device communication while the communication topology of connected devices also impacts the generalization of models. Most recent theoretical studies overlook the incorporation of all these effects into FEEL when developing generalization analyses. In contrast, our work presents an information-theoretic generalization analysis for topology-aware FEEL in the presence of data heterogeneity and noisy channels. Additionally, we propose a novel regularization method called Federated Global Mutual Information Reduction (FedGMIR) to enhance the performance of models based on our analysis. Numerical results validate our theoretical findings and provide evidence for the effectiveness of the proposed method.
翻訳日:2023-10-26 16:18:12 公開日:2023-10-25
# 高周波フィンガープリントの課題:データ収集から展開まで

Challenges of Radio Frequency Fingerprinting: From Data Collection to Deployment ( http://arxiv.org/abs/2310.16406v1 )

ライセンス: Link先を確認
Saeif Alhazbi, Ahmed Hussain, Savio Sciancalepore, Gabriele Oligeri, Panos Papadimitratos(参考訳) RFF(Radio Frequency Fingerprinting)技術は、製造時に導入された固有のハードウェア欠陥に基づいて、物理層における無線デバイスを認証することを約束する。 このようなRF送信装置の不完全性は無線信号に反映され、受信機はRF送信元を正確に識別することができる。 機械学習の最近の進歩、特にディープラーニング(DL)では、デバイス固有の指紋を構成する複雑な特徴を抽出し学習するRFFシステムの能力が改善されている。 しかし、dl技術をrffと統合し、現実のシナリオでシステムを操作することは、多くの課題をもたらす。 本稿では、DLベースのRFFシステムの3つの参照フェーズを考慮して、これらの課題を特定し、分析する。 (i)データ収集及び前処理 (ii)訓練、そして最後に (iii)展開。 今後の今後の方向性を議論しながら,RFFの実際の展開を阻止するオープンな課題が指摘され,さらなる研究の道が開けている。

Radio Frequency Fingerprinting (RFF) techniques promise to authenticate wireless devices at the physical layer based on inherent hardware imperfections introduced during manufacturing. Such RF transmitter imperfections are reflected into over-the-air signals, allowing receivers to accurately identify the RF transmitting source. Recent advances in Machine Learning, particularly in Deep Learning (DL), have improved the ability of RFF systems to extract and learn complex features that make up the device-specific fingerprint. However, integrating DL techniques with RFF and operating the system in real-world scenarios presents numerous challenges. This article identifies and analyzes these challenges while considering the three reference phases of any DL-based RFF system: (i) data collection and preprocessing, (ii) training, and finally, (iii) deployment. Our investigation points out the current open problems that prevent real deployment of RFF while discussing promising future directions, thus paving the way for further research in the area.
翻訳日:2023-10-26 16:17:52 公開日:2023-10-25
# コンテントコンディショニングクエリを用いたトランスフォーマによるビデオ参照表現理解

Video Referring Expression Comprehension via Transformer with Content-conditioned Query ( http://arxiv.org/abs/2310.16402v1 )

ライセンス: Link先を確認
Ji Jiang, Meng Cao, Tengtao Song, Long Chen, Yi Wang, Yuexian Zou(参考訳) Video Referring Expression Comprehension (REC) は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。 最近のビデオrecの改善は、学習可能なクエリを持つトランスフォーマティブベースの手法で行われている。 しかし,テキスト管理によってもたらされるビデオRECのオープンな性質を考えると,この単純クエリ設計は理想的ではない。 多くの潜在的なセマンティクスカテゴリにおいて、いくつかの遅い更新クエリのみに依存することは、それらを特徴付けるのに不十分である。 この問題の解決策は、入力ビデオと言語の両方で条件付き動的クエリを作成し、参照される多様なオブジェクトをモデル化することである。 具体的には、フレーム全体に一定の数の学習可能なバウンディングボックスを配置し、それに対応する領域特徴を用いて事前情報を提供する。 また、現在のクエリ機能は、クロスモーダルアライメントの重要性を見逃していることに気づきました。 これを解決するために、文中の特定のフレーズを意味的に関連する視覚領域にアノテートし、既存のビデオデータセット(VID-Sentence と VidSTG)にアノテートする。 これら2つの設計を取り入れることで、提案したモデル(ConFormerと呼ばれる)は、広くベンチマークされたデータセット上で他のモデルよりも優れている。 例えば、VID-Sentenceデータセットのテスト分割では、ConFormerはAccuの8.75%の絶対的な改善を実現している。 以前の最先端モデルと比較すると、@0.6。

Video Referring Expression Comprehension (REC) aims to localize a target object in videos based on the queried natural language. Recent improvements in video REC have been made using Transformer-based methods with learnable queries. However, we contend that this naive query design is not ideal given the open-world nature of video REC brought by text supervision. With numerous potential semantic categories, relying on only a few slow-updated queries is insufficient to characterize them. Our solution to this problem is to create dynamic queries that are conditioned on both the input video and language to model the diverse objects referred to. Specifically, we place a fixed number of learnable bounding boxes throughout the frame and use corresponding region features to provide prior information. Also, we noticed that current query features overlook the importance of cross-modal alignment. To address this, we align specific phrases in the sentence with semantically relevant visual areas, annotating them in existing video datasets (VID-Sentence and VidSTG). By incorporating these two designs, our proposed model (called ConFormer) outperforms other models on widely benchmarked datasets. For example, in the testing split of VID-Sentence dataset, ConFormer achieves 8.75% absolute improvement on Accu.@0.6 compared to the previous state-of-the-art model.
翻訳日:2023-10-26 16:17:35 公開日:2023-10-25
# パラメタライズドグラフの分布を持つグラフニューラルネットワーク

Graph Neural Networks with a Distribution of Parametrized Graphs ( http://arxiv.org/abs/2310.16401v1 )

ライセンス: Link先を確認
See Hian Lee, Feng Ji, Kelin Xia and Wee Peng Tay(参考訳) 従来、グラフニューラルネットワークは単一の観測グラフを使用して訓練されてきた。 しかし、観測されたグラフは1つしか実現できない。 多くの応用において、グラフは誤ったエッジや欠落、情報的価値の少ないエッジ重みなど不確実性に遭遇する可能性がある。 これらの課題に対処し、以前に観測されたグラフになかった追加情報をキャプチャするために、複数のグラフをパラメータ化し生成するための潜在変数を導入する。 複数のグラフに基づく期待最大化(EM)フレームワークにおいて,ネットワークパラメータの最大推定値を得る。 具体的には,マルコフ連鎖モンテカルロ法 (MCMC) を用いてグラフの分布を反復的に決定し,PAC-ベイジアン理論の原理を取り入れた。 数値実験により、異種グラフのノード分類と化学データセットのグラフ回帰におけるベースラインモデルに対する性能改善が示されている。

Traditionally, graph neural networks have been trained using a single observed graph. However, the observed graph represents only one possible realization. In many applications, the graph may encounter uncertainties, such as having erroneous or missing edges, as well as edge weights that provide little informative value. To address these challenges and capture additional information previously absent in the observed graph, we introduce latent variables to parameterize and generate multiple graphs. We obtain the maximum likelihood estimate of the network parameters in an Expectation-Maximization (EM) framework based on the multiple graphs. Specifically, we iteratively determine the distribution of the graphs using a Markov Chain Monte Carlo (MCMC) method, incorporating the principles of PAC-Bayesian theory. Numerical experiments demonstrate improvements in performance against baseline models on node classification for heterogeneous graphs and graph regression on chemistry datasets.
翻訳日:2023-10-26 16:17:13 公開日:2023-10-25
# unfuse your latents:マルチソース・潜在拡散モデルによるビデオ編集

Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models ( http://arxiv.org/abs/2310.16400v1 )

ライセンス: Link先を確認
Tianyi Lu, Xing Zhang, Jiaxi Gu, Hang Xu, Renjing Pei, Songcen Xu, Zuxuan Wu(参考訳) 潜在拡散モデル(ldms)は、画像合成とビデオ合成の強力な能力で有名である。 しかし、ビデオ編集手法は、事前学習データやビデオによる再訓練コストの不足に苦しむ。 FLDM(Fused Latent Diffusion Model)は,ビデオ LDM にオフザシェルフ画像編集手法を適用し,テキストガイドによる映像編集を実現するための訓練不要なフレームワークである。 特にFLDMは、デノナイジング過程中に画像LDMとビデオLDMとを融合させる。 これにより、映像LDMからの高忠実度を活用しつつ、時間的一貫性をビデオLDMで保持することができる。 一方、FLDM は画像 LDM とビデオ LDM の両方を置き換えることができるため、InstructPix2Pix や ControlNet などの高度な画像編集手法を利用することができる。 我々の知る限り、FLDMはビデオ編集のためのビデオLDMにオフザシェルフ画像編集手法を適用するための最初の方法である。 広汎な定量的および定性的実験により、FLDMは編集されたビデオのテキストアライメントと時間的一貫性を改善することができることが示された。

Latent Diffusion Models (LDMs) are renowned for their powerful capabilities in image and video synthesis. Yet, video editing methods suffer from insufficient pre-training data or video-by-video re-training cost. In addressing this gap, we propose FLDM (Fused Latent Diffusion Model), a training-free framework to achieve text-guided video editing by applying off-the-shelf image editing methods in video LDMs. Specifically, FLDM fuses latents from an image LDM and an video LDM during the denoising process. In this way, temporal consistency can be kept with video LDM while high-fidelity from the image LDM can also be exploited. Meanwhile, FLDM possesses high flexibility since both image LDM and video LDM can be replaced so advanced image editing methods such as InstructPix2Pix and ControlNet can be exploited. To the best of our knowledge, FLDM is the first method to adapt off-the-shelf image editing methods into video LDMs for video editing. Extensive quantitative and qualitative experiments demonstrate that FLDM can improve the textual alignment and temporal consistency of edited videos.
翻訳日:2023-10-26 16:17:00 公開日:2023-10-25
# グラフスプラインネットワークを用いた効率的な代理モデル学習

Learning Efficient Surrogate Dynamic Models with Graph Spline Networks ( http://arxiv.org/abs/2310.16397v1 )

ライセンス: Link先を確認
Chuanbo Hua, Federico Berto, Michael Poli, Stefano Massaroli, Jinkyoo Park(参考訳) 物理システムの複雑なシミュレーションは、工学や科学計算で広く使われているが、そのしばしば禁止される計算要件の低下は、ディープラーニングのアプローチによって最近取り組まれている。 本稿では,深層代理モデルのグリッドサイズと繰り返しステップ数を削減し,物理システムの予測を高速化する新しいディープラーニング手法であるGraphSplineNetsを提案する。 本手法は, 2つの微分可能な直交スプラインコロケーション法を用いて, 時間と空間の任意の位置における応答を効率的に予測する。 さらに,重要な領域からのサンプリングを優先するために,空間に適応的なコロケーション戦略を導入する。 GraphSplineNetsは、熱方程式、減衰波伝播、ナビエ・ストークス方程式、正規領域および不規則領域における実世界の海流など、複雑さを増す様々な力学系を予測する際の精度-スピードアップトレードオフを改善する。

While complex simulations of physical systems have been widely used in engineering and scientific computing, lowering their often prohibitive computational requirements has only recently been tackled by deep learning approaches. In this paper, we present GraphSplineNets, a novel deep-learning method to speed up the forecasting of physical systems by reducing the grid size and number of iteration steps of deep surrogate models. Our method uses two differentiable orthogonal spline collocation methods to efficiently predict response at any location in time and space. Additionally, we introduce an adaptive collocation strategy in space to prioritize sampling from the most important regions. GraphSplineNets improve the accuracy-speedup tradeoff in forecasting various dynamical systems with increasing complexity, including the heat equation, damped wave propagation, Navier-Stokes equations, and real-world ocean currents in both regular and irregular domains.
翻訳日:2023-10-26 16:16:41 公開日:2023-10-25
# 非等方性持続ホモロジー:phの計量依存性を活用する

Non-isotropic Persistent Homology: Leveraging the Metric Dependency of PH ( http://arxiv.org/abs/2310.16437v1 )

ライセンス: Link先を確認
Vincent P. Grande and Michael T. Schaub(参考訳) Persistent Homologyは、特定のフィルターに基づいて点雲の位相特性を簡潔に記述する、広く使われているトポロジカルデータ解析ツールである。 永続ホモロジーに使用されるほとんどのフィルターは、選択された計量に(単純に)依存しており、通常、$\mathbb{R}^n$ 上の標準ユークリッド計量として無数に選択される。 最近の研究は、より意味のある永続的ホモロジー結果を得るために、距離と測度関数を用いて点雲上の「真の」計量を解明しようと試みている。 ここでは、この問題に対する別の考察を提案する: 一つの(正しい)距離関数に永続的ホモロジーを制限する際に、点雲に関する情報が失われると仮定する。 代わりに、基底空間上の距離関数を変動させ、永続図形の対応するシフトを分析することで、追加の位相的および幾何学的情報を抽出できることを示す。 最後に,非等方性持続ホモロジーは,ランダムに生成した点雲の向き,方向分散,スケーリングに関する情報を精度良く抽出し,実世界データで実験できることを数値的に示す。

Persistent Homology is a widely used topological data analysis tool that creates a concise description of the topological properties of a point cloud based on a specified filtration. Most filtrations used for persistent homology depend (implicitly) on a chosen metric, which is typically agnostically chosen as the standard Euclidean metric on $\mathbb{R}^n$. Recent work has tried to uncover the 'true' metric on the point cloud using distance-to-measure functions, in order to obtain more meaningful persistent homology results. Here we propose an alternative look at this problem: we posit that information on the point cloud is lost when restricting persistent homology to a single (correct) distance function. Instead, we show how by varying the distance function on the underlying space and analysing the corresponding shifts in the persistence diagrams, we can extract additional topological and geometrical information. Finally, we numerically show that non-isotropic persistent homology can extract information on orientation, orientational variance, and scaling of randomly generated point clouds with good accuracy and conduct some experiments on real-world data.
翻訳日:2023-10-26 16:08:02 公開日:2023-10-25
# DDCoT:言語モデルにおけるマルチモーダル推論のためのDuty-distinct Chain-of-Thought Prompting

DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models ( http://arxiv.org/abs/2310.16436v1 )

ライセンス: Link先を確認
Ge Zheng, Bin Yang, Jiajin Tang, Hong-Yu Zhou, Sibei Yang(参考訳) AIシステムの長年の目標は、人間のような複雑なマルチモーダル推論を実行することだ。 近年,大規模言語モデル(LLM)は,思考の連鎖(CoT)を利用して人間の思考を模倣することによって,言語モダリティの多段階的推論において顕著な進歩を遂げている。 しかし、これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性や、柔軟性、一般化可能性、説明可能性の限界など、より高い課題をもたらす。 マルチモダリティにおけるCoT推論を誘発するために、この研究はまず、マルチモダリティによって引き起こされるこれらの課題を詳細に分析し、マルチモダリティのCoT推論において「批判的思考を維持する」と「全員が仕事をする」という2つの重要な洞察を提示する。 本研究は,まずllmの推論責任を推論と認識に分割し,次に視覚モデルの視覚認識能力を共同推論プロセスに統合することにより,否定空間の促進を通じて批判的態度を維持し,推論にマルチモーダリティを組み込む新しいddcot促進手法を提案する。 DDCoTが生成した理論的根拠は、ゼロショットプロンプトと微調整学習において、大小両方の言語モデルの推論能力を向上するだけでなく、最先端の手法よりも優れ、また、優れた一般化性と説明可能性を示す。

A long-standing goal of AI systems is to perform complex multimodal reasoning like humans. Recently, large language models (LLMs) have made remarkable strides in such multi-step reasoning on the language modality solely by leveraging the chain of thought (CoT) to mimic human thinking. However, the transfer of these advancements to multimodal contexts introduces heightened challenges, including but not limited to the impractical need for labor-intensive annotation and the limitations in terms of flexibility, generalizability, and explainability. To evoke CoT reasoning in multimodality, this work first conducts an in-depth analysis of these challenges posed by multimodality and presents two key insights: "keeping critical thinking" and "letting everyone do their jobs" in multimodal CoT reasoning. Furthermore, this study proposes a novel DDCoT prompting that maintains a critical attitude through negative-space prompting and incorporates multimodality into reasoning by first dividing the reasoning responsibility of LLMs into reasoning and recognition and then integrating the visual recognition capability of visual models into the joint reasoning process. The rationales generated by DDCoT not only improve the reasoning abilities of both large and small language models in zero-shot prompting and fine-tuning learning, significantly outperforming state-of-the-art methods but also exhibit impressive generalizability and explainability.
翻訳日:2023-10-26 16:07:34 公開日:2023-10-25
# 異常検出における画素レベル性能評価について

On Pixel-level Performance Assessment in Anomaly Detection ( http://arxiv.org/abs/2310.16435v1 )

ライセンス: Link先を確認
Mehdi Rafiei, Toby P. Breckon, Alexandros Iosifidis(参考訳) 異常検出手法は様々な応用で顕著な成功を収めている。 しかしながら、特に画素レベルでの性能を評価することは、通常試料と異常試料の間で最もよく見られる重度の不均衡のため、複雑な課題となる。 一般に採用されている画素レベル検出のための評価指標は、このクラスの不均衡から生じる微妙な性能変動を効果的に捉えることができない。 本稿では,この課題の複雑さを,視覚的エビデンスと統計的分析によって説明し,不均衡を考慮に入れた評価指標の必要性を考察する。 我々は,21個の異常検出問題に対して,11個の現代的異常検出手法を用いて,より正確な指標を考察する。 全体として、この広範囲な実験的評価から、精度リコールベースのメトリクスは、相対的なメソッドパフォーマンスをよりよく捉え、タスクに適合させることができると結論付けることができる。

Anomaly detection methods have demonstrated remarkable success across various applications. However, assessing their performance, particularly at the pixel-level, presents a complex challenge due to the severe imbalance that is most commonly present between normal and abnormal samples. Commonly adopted evaluation metrics designed for pixel-level detection may not effectively capture the nuanced performance variations arising from this class imbalance. In this paper, we dissect the intricacies of this challenge, underscored by visual evidence and statistical analysis, leading to delve into the need for evaluation metrics that account for the imbalance. We offer insights into more accurate metrics, using eleven leading contemporary anomaly detection methods on twenty-one anomaly detection problems. Overall, from this extensive experimental evaluation, we can conclude that Precision-Recall-based metrics can better capture relative method performance, making them more suitable for the task.
翻訳日:2023-10-26 16:07:07 公開日:2023-10-25
# ストローク予測強化のための積分パラダイム:XGBoostとxDeepFMアルゴリズムの相乗化

An Integrative Paradigm for Enhanced Stroke Prediction: Synergizing XGBoost and xDeepFM Algorithms ( http://arxiv.org/abs/2310.16430v1 )

ライセンス: Link先を確認
Weinan Dai, Yifeng Jiang, Chengjie Mou, Chongyu Zhang(参考訳) ストローク予測は、この不安定な状態の予防と管理において重要な役割を果たす。 本研究では,包括的データセットを用いた脳卒中予測の課題に対処し,XGBoostアルゴリズムとxDeepFMアルゴリズムのパワーを組み合わせたアンサンブルモデルを提案する。 本研究の目的は,既存のストローク予測モデルの改良であり,精度とロバスト性の向上である。 厳密な実験を通じて,AUCメトリックを用いたアンサンブルモデルの有効性を検証する。 この分野の他のモデルと比較することで、様々なアプローチのメリットと欠点に対する貴重な洞察を得ることができます。 これは、特に脳卒中予測領域における機械学習とディープラーニング技術の進歩に大きく貢献する。

Stroke prediction plays a crucial role in preventing and managing this debilitating condition. In this study, we address the challenge of stroke prediction using a comprehensive dataset, and propose an ensemble model that combines the power of XGBoost and xDeepFM algorithms. Our work aims to improve upon existing stroke prediction models by achieving higher accuracy and robustness. Through rigorous experimentation, we validate the effectiveness of our ensemble model using the AUC metric. Through comparing our findings with those of other models in the field, we gain valuable insights into the merits and drawbacks of various approaches. This, in turn, contributes significantly to the progress of machine learning and deep learning techniques specifically in the domain of stroke prediction.
翻訳日:2023-10-26 16:06:53 公開日:2023-10-25
# PromptAgent: エキスパートレベルのPrompt最適化を可能にする言語モデルによる戦略的計画

PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization ( http://arxiv.org/abs/2310.16427v1 )

ライセンス: Link先を確認
Xinyuan Wang, Chenxi Li, Zhen Wang, Fan Bai, Haotian Luo, Jiayou Zhang, Nebojsa Jojic, Eric P. Xing, Zhiting Hu(参考訳) 非常に効果的なタスク固有のプロンプトは、大言語モデル(llm)の本能と目的とするタスクの複雑さの両方の深い理解に基づいて、詳細な指示とドメイン洞察を統合するために専門家によって深く設計されることが多い。 しかし、そのような専門家レベルのプロンプトを自動生成することは、いまだ明白である。 既存のプロンプト最適化手法は、ドメイン知識の深さを見落とし、エキスパートレベルのプロンプトの広大な空間を効率的に探索するのに苦労する傾向がある。 この問題に対処するため,専門家が手工芸品に匹敵する品質を自律的に生成する最適化手法であるPromptAgentを提案する。 PromptAgentは、プロンプトを戦略的計画問題とみなし、モンテカルロ木探索に根ざした原理的な計画アルゴリズムを用いて、専門家レベルのプロンプト空間を戦略的にナビゲートする。 PromptAgentは人間のような試行錯誤の探索にインスパイアされ、モデルエラーを反映し、建設的なエラーフィードバックを生成することによって、専門家レベルの正確な洞察と詳細な指示を誘導する。 このような新しいフレームワークにより、エージェントは中間プロンプト(状態)を反復的に検証し、エラーフィードバック(アクション)に基づいてそれらを洗練し、将来の報酬をシミュレートし、専門家のプロンプトにつながるハイリワードパスを探すことができる。 我々は,3つの実践的領域にまたがる12のタスク,すなわち big-bench hard (bbh) と domain-specific and general nlp tasks に適用した。 広範な分析は、専門家レベル、詳細、ドメインの洞察に富んだプロンプトを、非常に効率性と汎用性で作ることができることを強調する。

Highly effective, task-specific prompts are often heavily engineered by experts to integrate detailed instructions and domain insights based on a deep understanding of both instincts of large language models (LLMs) and the intricacies of the target task. However, automating the generation of such expert-level prompts remains elusive. Existing prompt optimization methods tend to overlook the depth of domain knowledge and struggle to efficiently explore the vast space of expert-level prompts. Addressing this, we present PromptAgent, an optimization method that autonomously crafts prompts equivalent in quality to those handcrafted by experts. At its core, PromptAgent views prompt optimization as a strategic planning problem and employs a principled planning algorithm, rooted in Monte Carlo tree search, to strategically navigate the expert-level prompt space. Inspired by human-like trial-and-error exploration, PromptAgent induces precise expert-level insights and in-depth instructions by reflecting on model errors and generating constructive error feedback. Such a novel framework allows the agent to iteratively examine intermediate prompts (states), refine them based on error feedbacks (actions), simulate future rewards, and search for high-reward paths leading to expert prompts. We apply PromptAgent to 12 tasks spanning three practical domains: BIG-Bench Hard (BBH), as well as domain-specific and general NLP tasks, showing it significantly outperforms strong Chain-of-Thought and recent prompt optimization baselines. Extensive analyses emphasize its capability to craft expert-level, detailed, and domain-insightful prompts with great efficiency and generalizability.
翻訳日:2023-10-26 16:06:42 公開日:2023-10-25
# ポートベーステレポーテーションからフロベニウス相反定理へ:部分的に還元された既約表現とその応用

From port-based teleportation to Frobenius reciprocity theorem: partially reduced irreducible representations and their applications ( http://arxiv.org/abs/2310.16423v1 )

ライセンス: Link先を確認
Marek Mozrzymas, Micha{\l} Horodecki, Micha{\l} Studzi\'nski(参考訳) 本稿では,ポートベーステレポーテーションプロトコルの文脈において,2つの概念を誘導表現として接続し,部分的還元不能表現(prir)が出現することを示す。 すなわち、任意の部分群 $h$ を持つ与えられた有限群 $g$ に対して、その部分群 $h$ に対する制限を $h$ の行列表現として、ブロック内で$h$ の既約表現を持つ対角ブロック形式に完全に還元する行列既約表現の特定の場合を考える。 このような表現の基本的な性質が与えられる。 すると、この概念の応用として、ポートベースのテレポーテーション作用素のスペクトルは、対称群に対する対応するjucys-murphy演算子のスペクトルと非常に単純な方法で接続されていることを、対称群の表現論の観点から見て、s(m-1)\subset s(m)$ - 基本対象であることを示す。 これは、決定論的 PBT スキームの性質を記述する中心対象と対称群の抽象表現論において自然に現れる対象との間に深い関係を示す。 追加であるが自明ではない結果として、文字に対するフロベニウス相互性定理の純粋に行列的証明を与える。

In this paper, we present a connection of two concepts as induced representation and partially reduced irreducible representations (PRIR) appear in the context of port-based teleportation protocols. Namely, for a given finite group $G$ with arbitrary subgroup $H$, we consider a particular case of matrix irreducible representations, whose restriction to the subgroup $H$, as a matrix representation of $H$, is completely reduced to diagonal block form with an irreducible representation of $H$ in the blocks. The basic properties of such representations are given. Then as an application of this concept, we show that the spectrum of the port-based teleportation operator is connected in a very simple way with the spectrum of the corresponding Jucys-Murphy operator for symmetric groups $S(m-1)\subset S(m)$ - basic objects from the point of view of representation theory of the symmetric group. This shows a deep connection between the central object describing properties of deterministic PBT schemes and objects appearing naturally in the abstract representation theory of the symmetric group. As an additional but not trivial result, we give also purely matrix proof of the Frobenius reciprocity theorem for characters.
翻訳日:2023-10-26 16:06:06 公開日:2023-10-25
# Graph Agent: グラフの明示的推論エージェント

Graph Agent: Explicit Reasoning Agent for Graphs ( http://arxiv.org/abs/2310.16421v1 )

ライセンス: Link先を確認
Qinyong Wang, Zhenxiang Gao, Rong Xu(参考訳) グラフニューラルネットワーク(GNN)やグラフ変換器などのグラフ埋め込み手法は、知識グラフ上の様々なタスクに対するグラフ推論アルゴリズムの開発に寄与している。 しかしながら、グラフ埋め込みメソッドの解釈可能性と説明可能性の欠如は、明示的な推論を必要とするシナリオでの適用性を制限している。 本稿では,大規模言語モデル(llms)を活用したインテリジェントエージェント手法であるグラフエージェント(ga),帰納的推論モジュール,知識グラフ推論タスクのための長期記憶について紹介する。 GAはシンボリック推論と既存のグラフ埋め込みの側面を統合し、複雑なグラフ推論タスクに革新的なアプローチを提供する。 グラフ構造をテキストデータに変換することで、GAはLLMが人間の解釈可能な説明と共に処理、推論、予測を行うことを可能にする。 ノード分類とリンク予測タスクにおいてGAの有効性を評価した。 その結果、GAは最先端のパフォーマンスに達し、精度は90.65%、95.48%、Cola、PubMed、PrimeKGの各データセットで89.32%であった。 既存のGNNやトランスフォーマーモデルと比較して、GAは明示的な推論能力、学習自由度、様々なグラフ推論タスクへの適応の利点を提供した。

Graph embedding methods such as Graph Neural Networks (GNNs) and Graph Transformers have contributed to the development of graph reasoning algorithms for various tasks on knowledge graphs. However, the lack of interpretability and explainability of graph embedding methods has limited their applicability in scenarios requiring explicit reasoning. In this paper, we introduce the Graph Agent (GA), an intelligent agent methodology of leveraging large language models (LLMs), inductive-deductive reasoning modules, and long-term memory for knowledge graph reasoning tasks. GA integrates aspects of symbolic reasoning and existing graph embedding methods to provide an innovative approach for complex graph reasoning tasks. By converting graph structures into textual data, GA enables LLMs to process, reason, and provide predictions alongside human-interpretable explanations. The effectiveness of the GA was evaluated on node classification and link prediction tasks. Results showed that GA reached state-of-the-art performance, demonstrating accuracy of 90.65%, 95.48%, and 89.32% on Cora, PubMed, and PrimeKG datasets, respectively. Compared to existing GNN and transformer models, GA offered advantages of explicit reasoning ability, free-of-training, easy adaption to various graph reasoning tasks
翻訳日:2023-10-26 16:05:45 公開日:2023-10-25
# マルチタスクアンラーニングによるオープン知識ベース正準化

Open Knowledge Base Canonicalization with Multi-task Unlearning ( http://arxiv.org/abs/2310.16419v1 )

ライセンス: Link先を確認
Bingchen Liu, Shihao Hou, Weixin Zeng, Xiang Zhao, Shijun Liu, Li Pan(参考訳) 大規模オープンナレッジベース(OKB)の構築は、モバイルコンピューティングの分野で多くのアプリケーションに不可欠である。 okbにおける名詞句と関係句はしばしば冗長性と曖昧さに苦しめられ、okbの正準化に関する調査が求められる。 しかし、プライバシー保護規則の要件を満たし、データのタイムラインを確保するために、標準化されたOKBは機密情報や時代遅れのデータを削除する必要があることが多い。 OKB正準化における機械学習は上記の問題に対する優れた解法である。 現在のソリューションは、高度なクラスタリングアルゴリズムを考案し、知識グラフ埋め込み(KGE)を使用して、標準化プロセスをさらに促進することでOKB標準化に対処している。 クラスタリングとKGE学習による機械学習を完全にシナジー化するには、効果的なスキームが必要である。 そこで我々は,OKB標準化における機械学習問題に対処するため,マルチタスクアンラーニングフレームワークであるMulCanonを提案する。 具体的には, 拡散モデルにおけるノイズ特性を利用して, OKBのデータに対する機械学習の効果を実現する。 MulCanonは拡散モデル、KGE、クラスタリングアルゴリズムの学習目標を統一し、トレーニングに2段階のマルチタスク学習パラダイムを採用する。 一般的なOKB標準化データセットに関する徹底的な実験的研究は、MulCanonが高度な機械学習効果を達成することを検証する。

The construction of large open knowledge bases (OKBs) is integral to many applications in the field of mobile computing. Noun phrases and relational phrases in OKBs often suffer from redundancy and ambiguity, which calls for the investigation on OKB canonicalization. However, in order to meet the requirements of some privacy protection regulations and to ensure the timeliness of the data, the canonicalized OKB often needs to remove some sensitive information or outdated data. The machine unlearning in OKB canonicalization is an excellent solution to the above problem. Current solutions address OKB canonicalization by devising advanced clustering algorithms and using knowledge graph embedding (KGE) to further facilitate the canonicalization process. Effective schemes are urgently needed to fully synergise machine unlearning with clustering and KGE learning. To this end, we put forward a multi-task unlearning framework, namely MulCanon, to tackle machine unlearning problem in OKB canonicalization. Specifically, the noise characteristics in the diffusion model are utilized to achieve the effect of machine unlearning for data in OKB. MulCanon unifies the learning objectives of diffusion model, KGE and clustering algorithms, and adopts a two-step multi-task learning paradigm for training. A thorough experimental study on popular OKB canonicalization datasets validates that MulCanon achieves advanced machine unlearning effects.
翻訳日:2023-10-26 16:05:25 公開日:2023-10-25
# 単語レベルポリシーを用いた同時機械翻訳の強化

Enhanced Simultaneous Machine Translation with Word-level Policies ( http://arxiv.org/abs/2310.16417v1 )

ライセンス: Link先を確認
Kang Kim and Hankyu Cho(参考訳) 近年, 同時機械翻訳(SiMT)の分野では, 翻訳プロセスの各段階において, READ か WRITE かを規定する革新的政策の導入により, 顕著な進歩を遂げている。 しかし、既存の多くの研究で共通する仮定は、ほとんどの実践的なシナリオにおける入力と出力の標準単位が通常、ワードレベルであるにもかかわらず、サブワードレベルで操作が実行されるということである。 本稿では,サブワードレベルで考案・検証されたポリシーが,複数のサブワードを処理して1つのステップで完全な単語を形成するワードレベルで動作しているポリシーよりも優れていることを示す。 さらに、言語モデル(lms)を用いたsimtモデルを強化する手法を提案し、提案する単語レベルのポリシーが、lmsモデルとsimtモデルのサブワード格差に対処する上で重要な役割を担っている。 コードはhttps://github.com/xl8-ai/WordSiMTで入手できる。

Recent years have seen remarkable advances in the field of Simultaneous Machine Translation (SiMT) due to the introduction of innovative policies that dictate whether to READ or WRITE at each step of the translation process. However, a common assumption in many existing studies is that operations are carried out at the subword level, even though the standard unit for input and output in most practical scenarios is typically at the word level. This paper demonstrates that policies devised and validated at the subword level are surpassed by those operating at the word level, which process multiple subwords to form a complete word in a single step. Additionally, we suggest a method to boost SiMT models using language models (LMs), wherein the proposed word-level policy plays a vital role in addressing the subword disparity between LMs and SiMT models. Code is available at https://github.com/xl8-ai/WordSiMT.
翻訳日:2023-10-26 16:05:02 公開日:2023-10-25
# 原子空洞実験のための動的ファブリ・ペロキャビティ安定化技術

Dynamic Fabry-Perot cavity stabilization technique for atom-cavity experiments ( http://arxiv.org/abs/2310.16415v1 )

ライセンス: Link先を確認
S. P. Dinesh, V. R. Thakar, V. I. Gokul, Arun Bahuleyan and S. A. Rangwala(参考訳) 本研究では,原子キャビティ量子電磁力学(QED)実験において,中程度の微粒Fabry-P\erot(FP)キャビティの共振周波数をロック・動的に調整する安定化手法を提案する。 能動安定化を伴うほとんどの実験装置は、1つの固定共振周波数で作動するか、共振周波数を調整できる移動キャビティを使用する。 本研究では,100MHz以上の動的チューニング範囲を1MHz未満の精度で達成しつつ,光学キャビティを能動的に安定化する,シンプルで費用対効果の高いソリューションを提案する。 我々のユニークな方式は、電気光学変調器(EOM)シフト飽和吸収分光(SAS)信号にロックされた基準レーザーを用いる。 この基準レーザの反射強度の低下から得られたpdh誤差信号にキャビティをロックする。 我々の装置は、基準レーザーまたは共振器のいずれかをアンロック・再ロックすることなく、EOMドライブを変更するだけで、キャビティの共振周波数を効率的に調整する機能を提供する。 本研究では,共振キャビティ周波数と真空ラビ分割(vrs)の精密制御測定を行い,その安定性を定量化し,様々なキャビティqed実験に適していることを示す。

We present a stabilization technique developed to lock and dynamically tune the resonant frequency of a moderate finesse Fabry-P\'erot (FP) cavity used in precision atom-cavity quantum electrodynamics (QED) experiments. Most experimental setups with active stabilization either operate at one fixed resonant frequency or use transfer cavities to achieve the ability to tune the resonant frequency of the cavity. In this work, we present a simple and cost-effective solution to actively stabilize an optical cavity while achieving a dynamic tuning range of over 100 MHz with a precision under 1 MHz. Our unique scheme uses a reference laser locked to an electro-optic modulator (EOM) shifted saturation absorption spectroscopy (SAS) signal. The cavity is locked to the PDH error signal obtained from the dip in the reflected intensity of this reference laser. Our setup provides the feature to efficiently tune the resonant frequency of the cavity by only changing the EOM drive without unlocking and re-locking either the reference laser or the cavity. We present measurements of precision control of the resonant cavity frequency and vacuum Rabi splitting (VRS) to quantify the stability achieved and hence show that this technique is suitable for a variety of cavity QED experiments.
翻訳日:2023-10-26 16:04:47 公開日:2023-10-25
# DualMatch: デュアルレベルインタラクションによるロバストな半教師付き学習

DualMatch: Robust Semi-Supervised Learning with Dual-Level Interaction ( http://arxiv.org/abs/2310.16459v1 )

ライセンス: Link先を確認
Cong Wang, Xiaofeng Cao, Lanzhe Guo2, and Zenglin Shi(参考訳) 半教師付き学習はラベルが不十分なときにラベル付きデータを活用するための表現力のあるフレームワークを提供する。 従来の半教師あり学習法は、データ提供された異なるビューのモデル予測を単一レベルのインタラクション方式でマッチングするが、これは擬似ラベルの品質に大きく依存しており、半教師あり学習は堅牢ではない。 本稿では,デュアルマッチと呼ばれる新しいssl手法を提案する。 DualMatchはデータ拡張に一貫性のある正規化を必要とする。 1)異なる拡張ビューが一貫したクラス予測で規制されること、及び 2) あるクラスの異なるデータが同様の機能埋め込みによって規制されることを保証する。 大規模な実験はDualMatchの有効性を示す。 標準SSL設定では、SOTA法と比較して9%のエラー削減が達成されるが、より困難なクラス不均衡設定でも6%のエラー削減が達成できる。 コードはhttps://github.com/CWangAI/DualMatchで入手できる。

Semi-supervised learning provides an expressive framework for exploiting unlabeled data when labels are insufficient. Previous semi-supervised learning methods typically match model predictions of different data-augmented views in a single-level interaction manner, which highly relies on the quality of pseudo-labels and results in semi-supervised learning not robust. In this paper, we propose a novel SSL method called DualMatch, in which the class prediction jointly invokes feature embedding in a dual-level interaction manner. DualMatch requires consistent regularizations for data augmentation, specifically, 1) ensuring that different augmented views are regulated with consistent class predictions, and 2) ensuring that different data of one class are regulated with similar feature embeddings. Extensive experiments demonstrate the effectiveness of DualMatch. In the standard SSL setting, the proposal achieves 9% error reduction compared with SOTA methods, even in a more challenging class-imbalanced setting, the proposal can still achieve 6% error reduction. Code is available at https://github.com/CWangAI/DualMatch
翻訳日:2023-10-26 15:58:34 公開日:2023-10-25
# 単眼深度推定における説明可能性に向けて

Towards Explainability in Monocular Depth Estimation ( http://arxiv.org/abs/2310.16457v1 )

ライセンス: Link先を確認
Vasileios Arampatzakis and George Pavlidis and Kyriakos Pantoglou and Nikolaos Mitianoudis and Nikos Papamarkos(参考訳) 2次元画像の深度推定は、コンピュータビジョンにおいて長年、困難かつ広範囲に研究されてきた課題である。 近年、ディープラーニングベースのアプローチが出現し、大きな進歩を遂げている。 本稿では,人間が深度をどう知覚するかという観点から,単分子深度推定法における説明可能性に着目した。 この予備的研究は、ほぼすべての画像で顕著な、最も重要な視覚的手がかりである相対的な大きさの1つを強調している。 我々は,人間の実験を模倣する特定の実験をデザインし,最先端の手法をテストし,定義した文脈における説明可能性について間接的に評価した。 また, 精度の測定にはさらなる注意が必要であり, 具体的なアプローチが提案されている。 その結果, 平均77%の精度が達成され, いくつかの手法が顕著に向上し, 相対的な大きさなど, 単分子深度を発見できる可能性が間接的に明らかとなった。

The estimation of depth in two-dimensional images has long been a challenging and extensively studied subject in computer vision. Recently, significant progress has been made with the emergence of Deep Learning-based approaches, which have proven highly successful. This paper focuses on the explainability in monocular depth estimation methods, in terms of how humans perceive depth. This preliminary study emphasizes on one of the most significant visual cues, the relative size, which is prominent in almost all viewed images. We designed a specific experiment to mimic the experiments in humans and have tested state-of-the-art methods to indirectly assess the explainability in the context defined. In addition, we observed that measuring the accuracy required further attention and a particular approach is proposed to this end. The results show that a mean accuracy of around 77% across methods is achieved, with some of the methods performing markedly better, thus, indirectly revealing their corresponding potential to uncover monocular depth cues, like relative size.
翻訳日:2023-10-26 15:58:20 公開日:2023-10-25
# ClearMark: トランスポーズモデルトレーニングによる直感的およびロバストなモデル透かし

ClearMark: Intuitive and Robust Model Watermarking via Transposed Model Training ( http://arxiv.org/abs/2310.16453v1 )

ライセンス: Link先を確認
Torsten Krau{\ss} and Jasper Stang and Alexandra Dmitrienko(参考訳) データ取得とモデルトレーニングの費用がかかるため、Deep Neural Networks (DNN) はモデル作成者の知的財産権に属する。 したがって、不正な使用、盗難、または修正は、法的影響をもたらす可能性がある。 既存のDNN透かし法は、しばしば直感的ではなく、人間の目に見えないマークを埋め込んで、人間の理解できない属性を欠いているアルゴリズム的な評価を信頼し、厳格な閾値に依存し、部分的な透かし消去の場合には失敗に陥る。 本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。 clearmarkは目に見えるウォーターマークを埋め込み、厳格な値しきい値なしで人間の意思決定を可能にし、技術支援の評価を可能にする。 ClearMarkはトランスポーズされたモデルアーキテクチャを定義しており、すべてのモデルパラメータでウォーターマークとメインタスクを織り込むために、モデルを後方に使用することができる。 既存の透かし法と比較して、clearmarkは複雑な検証アルゴリズムや厳格なしきい値を必要とすることなく、人間が容易に理解できる視覚透かしを生成する。 透かしはすべてのモデルパラメータに埋め込まれ、メインタスクと絡み合っており、優れた堅牢性を示している。 8,544ビットの透かし容量は、現存する最強の作品に匹敵する。 重要なのは、ClearMarkの有効性はモデルとデータセット非依存であり、4つのデータセットと7つのアーキテクチャで実施された包括的な研究で示されているように、敵モデル操作に対する耐性である。

Due to costly efforts during data acquisition and model training, Deep Neural Networks (DNNs) belong to the intellectual property of the model creator. Hence, unauthorized use, theft, or modification may lead to legal repercussions. Existing DNN watermarking methods for ownership proof are often non-intuitive, embed human-invisible marks, require trust in algorithmic assessment that lacks human-understandable attributes, and rely on rigid thresholds, making it susceptible to failure in cases of partial watermark erasure. This paper introduces ClearMark, the first DNN watermarking method designed for intuitive human assessment. ClearMark embeds visible watermarks, enabling human decision-making without rigid value thresholds while allowing technology-assisted evaluations. ClearMark defines a transposed model architecture allowing to use of the model in a backward fashion to interwove the watermark with the main task within all model parameters. Compared to existing watermarking methods, ClearMark produces visual watermarks that are easy for humans to understand without requiring complex verification algorithms or strict thresholds. The watermark is embedded within all model parameters and entangled with the main task, exhibiting superior robustness. It shows an 8,544-bit watermark capacity comparable to the strongest existing work. Crucially, ClearMark's effectiveness is model and dataset-agnostic, and resilient against adversarial model manipulations, as demonstrated in a comprehensive study performed with four datasets and seven architectures.
翻訳日:2023-10-26 15:58:03 公開日:2023-10-25
# 知識グラフ上の説明可能な推薦のための忠実パス言語モデリング

Faithful Path Language Modelling for Explainable Recommendation over Knowledge Graph ( http://arxiv.org/abs/2310.16452v1 )

ライセンス: Link先を確認
Giacomo Balloccu, Ludovico Boratto, Christian Cancedda, Gianni Fenu, Mirko Marras(参考訳) 知識グラフ上の経路推論手法は、レコメンデーションシステムにおける透明性向上の可能性から人気を集めている。 しかし、結果として得られたモデルは、まだ事前学習された知識グラフの埋め込みに依存しており、推奨のためにkg内のエンティティと関係の間の相互依存を完全に活用できず、不正確な説明を生成する可能性がある。 本稿では,言語モデルによるユーザ行動と製品側知識を効率的に捉える新しいアプローチであるpealmを提案する。 我々のアプローチでは、知識グラフの埋め込みは言語モデルによってKG上の経路から直接学習され、同じ最適化空間におけるエンティティと関係を統一する。 シーケンス復号の制約により、KGに対する経路忠実性も保証される。 2つのデータセットの実験は、最先端のベースラインと比較して、我々のアプローチの有効性を示している。 ソースコードとデータセット:AVAILABLE After GETTING ACCEPTED。

Path reasoning methods over knowledge graphs have gained popularity for their potential to improve transparency in recommender systems. However, the resulting models still rely on pre-trained knowledge graph embeddings, fail to fully exploit the interdependence between entities and relations in the KG for recommendation, and may generate inaccurate explanations. In this paper, we introduce PEARLM, a novel approach that efficiently captures user behaviour and product-side knowledge through language modelling. With our approach, knowledge graph embeddings are directly learned from paths over the KG by the language model, which also unifies entities and relations in the same optimisation space. Constraints on the sequence decoding additionally guarantee path faithfulness with respect to the KG. Experiments on two datasets show the effectiveness of our approach compared to state-of-the-art baselines. Source code and datasets: AVAILABLE AFTER GETTING ACCEPTED.
翻訳日:2023-10-26 15:57:38 公開日:2023-10-25
# CLEX:大規模言語モデルのための連続長外挿法

CLEX: Continuous Length Extrapolation for Large Language Models ( http://arxiv.org/abs/2310.16450v1 )

ライセンス: Link先を確認
Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing(参考訳) トランスフォーマティブベースの大規模言語モデル(llms)は、多くの自然言語処理タスクの先駆者であるが、その例外的な能力は、トランスフォーマの事前設定されたコンテキストウィンドウ内で制限されている。 位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張するのに有効であるが、外挿能力の顕著な制限を示すか、コンテキストウィンドウ内の部分的なパフォーマンスを犠牲にする。 長さ外挿法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張することができるが、実際的なロングコンテキスト応用では性能が劣ることが多い。 これらの課題に対処するため,LLMのためのCLEX(Continuous Length Extrapolation)を提案する。 PEスケーリング手法を一般化し、長さスケーリング係数上の常微分方程式による連続力学をモデル化することにより、特定の長さのために設計された現在のPEスケーリング手法の制約を克服する。 さらに、動的をトレーニングシーケンス長を超えて所望のコンテキスト長に拡張することにより、CLEXは、実用的なタスクにおいて印象的なパフォーマンスを持つ長さ外挿を容易にする。 CLEX は LLaMA や GPT-NeoX などのロータリー位置埋め込み機能を備えた LLM にシームレスに組み込むことができ、トレーニングや推論の遅延にほとんど影響しない。 実験の結果,CLEXはコンテキストウィンドウを4倍,約8倍のトレーニング長に効果的に拡張できることがわかった。 さらに,実用的LongBenchベンチマークで評価すると,4k長でトレーニングしたモデルは,32k長までの文脈でトレーニングした最先端のオープンソースモデルに対して,競合性能を示す。

Transformer-based Large Language Models (LLMs) are pioneering advances in many natural language processing tasks, however, their exceptional capabilities are restricted within the preset context window of Transformer. Position Embedding (PE) scaling methods, while effective in extending the context window to a specific length, demonstrate either notable limitations in their extrapolation abilities or sacrificing partial performance within the context window. Length extrapolation methods, although theoretically capable of extending the context window beyond the training sequence length, often underperform in practical long-context applications. To address these challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We generalise the PE scaling approaches to model the continuous dynamics by ordinary differential equations over the length scaling factor, thereby overcoming the constraints of current PE scaling methods designed for specific lengths. Moreover, by extending the dynamics to desired context lengths beyond the training sequence length, CLEX facilitates the length extrapolation with impressive performance in practical tasks. We demonstrate that CLEX can be seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such as LLaMA and GPT-NeoX, with negligible impact on training and inference latency. Experimental results reveal that CLEX can effectively extend the context window to over 4x or almost 8x training length, with no deterioration in performance. Furthermore, when evaluated on the practical LongBench benchmark, our model trained on a 4k length exhibits competitive performance against state-of-the-art open-source models trained on context lengths up to 32k.
翻訳日:2023-10-26 15:57:25 公開日:2023-10-25
# ChimpACT:チンパンジーの行動を理解するための時系列データセット

ChimpACT: A Longitudinal Dataset for Understanding Chimpanzee Behaviors ( http://arxiv.org/abs/2310.16447v1 )

ライセンス: Link先を確認
Xiaoxuan Ma, Stephan P. Kaufhold, Jiajun Su, Wentao Zhu, Jack Terwilliger, Andres Meza, Yixin Zhu, Federico Rossano, Yizhou Wang(参考訳) 非ヒト霊長類の行動を理解することは、動物福祉を改善し、社会的行動をモデル化し、人間と系統学的に共有された行動に対する洞察を得るために重要である。 しかし、人間以外の霊長類の行動に関するデータセットがないことは、霊長類の社会的相互作用の詳細な調査を妨げる。 これらの制約に対処するため、社会集団内のチンパンジーの縦断行動と社会的関係を定量化する包括的なデータセットChimpACTを提案する。 2015年から2018年にかけて、ChimpACTはドイツのライプツィヒ動物園に住む20以上のチンパンジーのグループのビデオを公開した。 ChimpACTは包括的で難易度が高く、合計160,500フレームの163本のビデオで構成されており、それぞれに検出、識別、ポーズ推定、微粒な時空間行動ラベルが付加されている。 我々はChimpACT上の3トラックの代表手法をベンチマークする。 (i)追跡と識別 (ii)ポーズ推定、及び (iii)チンパンジーの時空間的行動検出 実験の結果,新たな手法を考案し,検出,ポーズ推定,行動分析など,チンパンジーグループに適用する基本的なコンピュータビジョン課題を解決するために既存の手法を応用し,最終的には非ヒト霊長類におけるコミュニケーションと社会性の理解を深める機会が豊富にあることが明らかとなった。

Understanding the behavior of non-human primates is crucial for improving animal welfare, modeling social behavior, and gaining insights into distinctively human and phylogenetically shared behaviors. However, the lack of datasets on non-human primate behavior hinders in-depth exploration of primate social interactions, posing challenges to research on our closest living relatives. To address these limitations, we present ChimpACT, a comprehensive dataset for quantifying the longitudinal behavior and social relations of chimpanzees within a social group. Spanning from 2015 to 2018, ChimpACT features videos of a group of over 20 chimpanzees residing at the Leipzig Zoo, Germany, with a particular focus on documenting the developmental trajectory of one young male, Azibo. ChimpACT is both comprehensive and challenging, consisting of 163 videos with a cumulative 160,500 frames, each richly annotated with detection, identification, pose estimation, and fine-grained spatiotemporal behavior labels. We benchmark representative methods of three tracks on ChimpACT: (i) tracking and identification, (ii) pose estimation, and (iii) spatiotemporal action detection of the chimpanzees. Our experiments reveal that ChimpACT offers ample opportunities for both devising new methods and adapting existing ones to solve fundamental computer vision tasks applied to chimpanzee groups, such as detection, pose estimation, and behavior analysis, ultimately deepening our comprehension of communication and sociality in non-human primates.
翻訳日:2023-10-26 15:56:57 公開日:2023-10-25
# ストーリーブックの多様性向上型ナラティブ質問生成

Diversity Enhanced Narrative Question Generation for Storybooks ( http://arxiv.org/abs/2310.16446v1 )

ライセンス: Link先を確認
Hokeun Yoon, JinYeong Bak(参考訳) 与えられた文脈からの質問生成(QG)は、学習や会話環境における理解、エンゲージメント、評価、全体的な効果を高めることができる。 近年のQGの進歩にもかかわらず、生成した質問の多様性を向上または測定するという課題は、しばしば未解決のままである。 本稿では、文脈や質問に焦点をあてて、多種多様な回答可能な質問を生成できるマルチクエスト生成モデル(mQG)を提案する。 生成した質問の解答可能性を検証するために、SQuAD2.0の微調整された質問応答モデルを用いて、質問を解答可能か否かを分類する。 ストーリーブックに基づくよく構造化されたQAデータセットであるFairytaleQAデータセット上でmQGをトレーニングし、評価する。 さらに、TellMeWhyとSQuAD1.1データセットにゼロショット適応を適用する。 mQGは様々な評価指標で有望な結果を示している。

Question generation (QG) from a given context can enhance comprehension, engagement, assessment, and overall efficacy in learning or conversational environments. Despite recent advancements in QG, the challenge of enhancing or measuring the diversity of generated questions often remains unaddressed. In this paper, we introduce a multi-question generation model (mQG), which is capable of generating multiple, diverse, and answerable questions by focusing on context and questions. To validate the answerability of the generated questions, we employ a SQuAD2.0 fine-tuned question answering model, classifying the questions as answerable or not. We train and evaluate mQG on the FairytaleQA dataset, a well-structured QA dataset based on storybooks, with narrative questions. We further apply a zero-shot adaptation on the TellMeWhy and SQuAD1.1 datasets. mQG shows promising results across various evaluation metrics, among strong baselines.
翻訳日:2023-10-26 15:56:28 公開日:2023-10-25
# ニューロモルフィックなハードウェアはどうやって脳のような機能を実現するのか?

How can neuromorphic hardware attain brain-like functional capabilities? ( http://arxiv.org/abs/2310.16444v1 )

ライセンス: Link先を確認
Wolfgang Maass(参考訳) ニューロモルフィックコンピューティングの研究は、新しいハードウェアで脳のような計算能力、学習能力、エネルギー効率をエミュレートできるというビジョンによって進められている。 残念ながら、このビジョンは今までも半耳で追求されてきた。 現在のニューロモルフィックハードウェア(NMHW)は、標準的な人工ニューロンの代わりに脳のようなスパイクニューロンを使用している。 これは、いくつかの計算のエネルギー効率を改善する良い第1ステップであり、多くの例の1つに \citep{rao2022long} がある。 しかし、NMHWのスパイクニューロンネットワークの現在のアーキテクチャとトレーニング方法は、主に人工ニューラルネットワークからコピーされている。 したがって、脳のような機能的能力を得るよりも、人工ニューラルネットワークの多くの欠陥を継承していることは驚くにあたらない。 もちろん脳は非常に複雑で、nmhwでその詳細をすべて実装することはできない。 その代わり、我々はNMHWで簡単に実装でき、脳に似た機能をサポートするであろう原則に焦点を当てる必要があります。 この記事の目標は、それらのいくつかを強調することだ。

Research on neuromorphic computing is driven by the vision that we can emulate brain-like computing capability, learning capability, and energy-efficiency in novel hardware. Unfortunately, this vision has so far been pursued in a half-hearted manner. Most current neuromorphic hardware (NMHW) employs brain-like spiking neurons instead of standard artificial neurons. This is a good first step, which does improve the energy-efficiency of some computations, see \citep{rao2022long} for one of many examples. But current architectures and training methods for networks of spiking neurons in NMHW are largely copied from artificial neural networks. Hence it is not surprising that they inherit many deficiencies of artificial neural networks, rather than attaining brain-like functional capabilities. Of course, the brain is very complex, and we cannot implement all its details in NMHW. Instead, we need to focus on principles that are both easy to implement in NMHW and are likely to support brain-like functionality. The goal of this article is to highlight some of them.
翻訳日:2023-10-26 15:56:16 公開日:2023-10-25
# 線形推定器におけるグロッキング--理解せずにグロックする可解モデル

Grokking in Linear Estimators -- A Solvable Model that Groks without Understanding ( http://arxiv.org/abs/2310.16441v1 )

ライセンス: Link先を確認
Noam Levi and Alon Beck and Yohai Bar-Sinai(参考訳) グロッキング(Grokking)は、トレーニングデータに適合した後、モデルが一般化することを学習する興味深い現象である。 解析的にも数値的にも,ガウス入力を用いた単純な教師スチューデントで線形タスクを行う線形ネットワークにおいて,グロッキングが驚くほど発生することを示した。 この設定では、トレーニングおよび一般化データ共分散行列の観点から、フルトレーニングダイナミクスが導出される。 グロッキング時間は入力と出力の次元、サンプルサイズ、正規化、ネットワーク初期化にどのように依存するかを正確に予測する。 一般化精度の急激な増加は「記憶」から「理解」への移行を意味するものではなく、単に精度測定の成果であることを示す。 計算の実証的な検証と予備的な結果から、より深いネットワークでも、非線形なアクティベーションを伴う予測が成り立つことを示す。

Grokking is the intriguing phenomenon where a model learns to generalize long after it has fit the training data. We show both analytically and numerically that grokking can surprisingly occur in linear networks performing linear tasks in a simple teacher-student setup with Gaussian inputs. In this setting, the full training dynamics is derived in terms of the training and generalization data covariance matrix. We present exact predictions on how the grokking time depends on input and output dimensionality, train sample size, regularization, and network initialization. We demonstrate that the sharp increase in generalization accuracy may not imply a transition from "memorization" to "understanding", but can simply be an artifact of the accuracy measure. We provide empirical verification for our calculations, along with preliminary results indicating that some predictions also hold for deeper networks, with non-linear activations.
翻訳日:2023-10-26 15:56:00 公開日:2023-10-25
# 非共振レーザーパルスによる偏光相互作用による振動波パケット操作の最適制御

Optimal control for manipulating vibrational wave packets through polarizability interactions induced by non-resonant laser pulses ( http://arxiv.org/abs/2310.16440v1 )

ライセンス: Link先を確認
Reon Ishii, Tomotaro Namba, Hiroyuki Katsuki, Kenji Ohmori, and Yukiyoshi Ohtsuki(参考訳) 最適制御理論に基づき, 軽度非共振レーザー(nr)パルスによる周期平均偏光相互作用を用いて分子振動の最適制御法を数値的に検討した。 制御すべき必須要素は, 振動固有状態の確率振幅, 相対位相であり, 選択的な人口移動, 集団制御と相対位相制御の両方を必要とするウェーブパケット形成, 集団再分配を回避しつつ相対位相制御のみを必要とするウェーブパケット変形抑制の3つの基本的な制御目標を考える。 ウェーブパケットの変形抑制の非自明な制御は、前回のウェーブパケットの拡散抑制に関する研究の延長である。 i2のb状態における振動ダイナミクスを事例として,インパルス励起近似による最適制御シミュレーションとモデル解析を適用し,nrパルスを形作る制御目標の達成方法を体系的に検討した。 最適解は常にNRパルス列によって与えられ、各パルス間隔と各パルス強度を調整して振動力学と協調させ、量子干渉を効果的に利用して高い確率で制御目標を実現する。

On the basis of optimal control theory, we numerically study how to optimally manipulate molecular vibrational dynamics by using cycle-averaged polarizability interactions induced by mildly intense non-resonant laser (NR) pulses. As the essential elements to be controlled are the probability amplitudes, namely, the populations and the relative phases of the vibrational eigenstates, we consider three fundamental control objectives: selective population transfer, wave packet shaping that requires both population control and relative-phase control, and wave packet deformation suppression that solely requires relative-phase control while avoiding population redistribution. The non-trivial control of wave packet deformation suppression is an extension of our previous study on wave packet spreading suppression. Focusing on the vibrational dynamics in the B state of I2 as a case study, we adopt optimal control simulations and model analyses under the impulsive excitation approximation to systematically examine how to achieve the control objectives with shaped NR pulses. Optimal solutions are always given by NR pulse trains, in which each pulse interval and each pulse intensity are adjusted to cooperate with the vibrational dynamics to effectively utilize the quantum interferences to realize the control objectives with high probability.
翻訳日:2023-10-26 15:55:46 公開日:2023-10-25
# 多目的強化学習のためのハイパーパラメータ最適化

Hyperparameter Optimization for Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2310.16487v1 )

ライセンス: Link先を確認
Florian Felten, Daniel Gareev, El-Ghazali Talbi, Gr\'egoire Danoy(参考訳) 強化学習(Reinforcement Learning, RL)は、複雑な問題に対処するための強力なアプローチである。 近年,多目的強化学習(MORL)の導入により,エージェントが複数の目的に対してトレードオフを行うことで,RLの範囲をさらに拡大した。 この進歩は、対処できる問題の範囲を広げるだけでなく、探査と進歩のための多くの機会を生み出した。 しかし、rlエージェントの有効性はハイパーパラメータの設定に大きく依存している。 実際には、このタスクは難しいことがしばしば証明され、様々なインスタンスでこれらのテクニックのデプロイが失敗に終わる。 したがって、この懸念に対処するために、以前の研究はrlにおけるハイパーパラメータ最適化を探求した。 本稿では,特にmorlに対するハイパーパラメータ最適化の課題について検討する。 我々はこの問題を形式化し,その特徴ある課題を浮き彫りにして,それに対処するための体系的な方法論を提案する。 提案手法を最先端のMORLアルゴリズムを用いてよく知られた環境に適用し,予備的な結果を報告する。 提案手法は,morlエージェントの性能を著しく向上させるハイパーパラメータ構成を効果的に提供できることを示す。 さらに,morlのハイパーパラメータ最適化の分野をさらに進めるための,今後の様々な研究機会を明らかにする。

Reinforcement learning (RL) has emerged as a powerful approach for tackling complex problems. The recent introduction of multi-objective reinforcement learning (MORL) has further expanded the scope of RL by enabling agents to make trade-offs among multiple objectives. This advancement not only has broadened the range of problems that can be tackled but also created numerous opportunities for exploration and advancement. Yet, the effectiveness of RL agents heavily relies on appropriately setting their hyperparameters. In practice, this task often proves to be challenging, leading to unsuccessful deployments of these techniques in various instances. Hence, prior research has explored hyperparameter optimization in RL to address this concern. This paper presents an initial investigation into the challenge of hyperparameter optimization specifically for MORL. We formalize the problem, highlight its distinctive challenges, and propose a systematic methodology to address it. The proposed methodology is applied to a well-known environment using a state-of-the-art MORL algorithm, and preliminary results are reported. Our findings indicate that the proposed methodology can effectively provide hyperparameter configurations that significantly enhance the performance of MORL agents. Furthermore, this study identifies various future research opportunities to further advance the field of hyperparameter optimization for MORL.
翻訳日:2023-10-26 15:47:14 公開日:2023-10-25
# 多変量時系列データにおける深層学習に基づくイベント検出のための総合PythonライブラリとNLPにおける情報検索

A Comprehensive Python Library for Deep Learning-Based Event Detection in Multivariate Time Series Data and Information Retrieval in NLP ( http://arxiv.org/abs/2310.16485v1 )

ライセンス: Link先を確認
Menouar Azib, Benjamin Renard, Philippe Garnier, Vincent G\'enot, Nicolas Andr\'e(参考訳) 時系列データのイベント検出は、金融、医療、サイバーセキュリティ、科学など、さまざまな分野において重要である。 時系列データにおけるイベントの正確な識別は、情報的な決定、異常の検出、将来のトレンドの予測に不可欠である。 時系列におけるイベント検出のさまざまな方法に関する広範な研究と、ディープラーニングのアプローチが最も進歩しているものの、この分野における改善とイノベーションの余地はまだ残っている。 本稿では,多変量時系列データにおける事象検出のための深層学習教師付き手法を提案する。 本手法は,既存の深層学習指導法と比較して,4つの新しい特徴を組み合わせたものである。 第一に、二項分類ではなく回帰に基づく。 第二に、各ポイントがラベル付けされたラベル付きデータセットを必要としない。代わりに、時間ポイントまたは時間間隔として定義された参照イベントのみを必要とする。 第3に、古典的なフィードフォワードニューラルネットワーク(ffn)からトランスフォーマーのような最先端アーキテクチャまで、ディープラーニングモデルを組み合わせた、積み重ねられたアンサンブル学習メタモデルを使用することで、堅牢に設計されている。 このアンサンブルアプローチは、個々のモデルの弱点とバイアスを緩和し、より堅牢な予測をもたらす。 最後に,実用的な実装を容易にするため,提案手法に準拠したpythonパッケージを開発した。 eventdetector-tsと呼ばれるパッケージは、Python Package Index (PyPI)経由でインストールできる。 本稿では,本手法について述べるとともに,パッケージの利用に関する包括的ガイドを提供する。 自然言語処理(NLP)から金融セキュリティドメインまで,さまざまな実世界のユースケースを通じて,その汎用性と有効性を示す。

Event detection in time series data is crucial in various domains, including finance, healthcare, cybersecurity, and science. Accurately identifying events in time series data is vital for making informed decisions, detecting anomalies, and predicting future trends. Despite extensive research exploring diverse methods for event detection in time series, with deep learning approaches being among the most advanced, there is still room for improvement and innovation in this field. In this paper, we present a new deep learning supervised method for detecting events in multivariate time series data. Our method combines four distinct novelties compared to existing deep-learning supervised methods. Firstly, it is based on regression instead of binary classification. Secondly, it does not require labeled datasets where each point is labeled; instead, it only requires reference events defined as time points or intervals of time. Thirdly, it is designed to be robust by using a stacked ensemble learning meta-model that combines deep learning models, ranging from classic feed-forward neural networks (FFNs) to state-of-the-art architectures like transformers. This ensemble approach can mitigate individual model weaknesses and biases, resulting in more robust predictions. Finally, to facilitate practical implementation, we have developed a Python package to accompany our proposed method. The package, called eventdetector-ts, can be installed through the Python Package Index (PyPI). In this paper, we present our method and provide a comprehensive guide on the usage of the package. We showcase its versatility and effectiveness through different real-world use cases from natural language processing (NLP) to financial security domains.
翻訳日:2023-10-26 15:46:56 公開日:2023-10-25
# サブスペース年代記:言語モデル学習における言語情報の発生・変化・相互作用

Subspace Chronicles: How Linguistic Information Emerges, Shifts and Interacts during Language Model Training ( http://arxiv.org/abs/2310.16484v1 )

ライセンス: Link先を確認
Max M\"uller-Eberstein, Rob van der Goot, Barbara Plank and Ivan Titov(参考訳) 言語モデリングによって学習される表現空間は自然言語処理(nlp)の基本であるが、訓練中の様々な言語情報の出現と相互作用に関する理解は限られている。 タスク性能だけでなく,その表現部分空間を直接比較できる新しい情報理論探索スイートを活用し,構文,意味論,推論を含む9つのタスクを,2Mの事前学習ステップと5つのシードで解析する。 タスクと時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有する。 これらの段階を通じて、構文知識は完全な訓練の0.5%後に急速に取得される。 継続的なパフォーマンス改善は、主にオープンドメイン知識の獲得に起因し、セマンティクスと推論タスクは、後の長距離コンテキスト化と高度な専門化によって恩恵を受ける。 クロスタスクの類似度を測定することで、言語関連タスクがトレーニングを通して情報を共有し、前や後よりも学習の重要なフェーズにおいて、より多くのことをすることが明らかになる。 この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。

Representational spaces learned via language modeling are fundamental to Natural Language Processing (NLP), however there has been limited understanding regarding how and when during training various types of linguistic information emerge and interact. Leveraging a novel information theoretic probing suite, which enables direct comparisons of not just task performance, but their representational subspaces, we analyze nine tasks covering syntax, semantics and reasoning, across 2M pre-training steps and five seeds. We identify critical learning phases across tasks and time, during which subspaces emerge, share information, and later disentangle to specialize. Across these phases, syntactic knowledge is acquired rapidly after 0.5% of full training. Continued performance improvements primarily stem from the acquisition of open-domain knowledge, while semantics and reasoning tasks benefit from later boosts to long-range contextualization and higher specialization. Measuring cross-task similarity further reveals that linguistically related tasks share information throughout training, and do so more during the critical phase of learning than before or after. Our findings have implications for model interpretability, multi-task learning, and learning from limited data.
翻訳日:2023-10-26 15:46:32 公開日:2023-10-25
# グラミアン・アテンション・ヘッドは強いが効果的な視覚学習者

Gramian Attention Heads are Strong yet Efficient Vision Learners ( http://arxiv.org/abs/2310.16483v1 )

ライセンス: Link先を確認
Jongbin Ryu, Dongyoon Han, Jongwoo Lim(参考訳) チャネル拡張や付加的なビルディングブロックに頼るのではなく,複数のヘッド分類器 (\ie, classification head) を組み込むことで表現性を高める新しいアーキテクチャ設計を提案する。 本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用する。 グラミアン行列を計算して各頭部の注目層におけるクラストークンを補強する。 これにより、ヘッドはより差別的な表現を学び、集約能力を高めることができる。 さらに,アグリゲーションの相関を小さくすることで,頭部の補間を促す学習アルゴリズムを提案する。 われわれのモデルは最終的に、ImageNet-1Kの精度スループットトレードオフに関して最先端のCNNやViTを超越し、COCOオブジェクトインスタンスセグメンテーション、ADE20kセマンティックセグメンテーション、きめ細かい視覚的分類データセットなど、さまざまな下流タスクに顕著なパフォーマンスを提供する。 本フレームワークの有効性は, 実験結果によって実証され, さらに一般化誤差境界によって裏付けられている。 コードはhttps://github.com/lab-lvm/imagenet-modelsで公開しています。

We introduce a novel architecture design that enhances expressiveness by incorporating multiple head classifiers (\ie, classification heads) instead of relying on channel expansion or additional building blocks. Our approach employs attention-based aggregation, utilizing pairwise feature similarity to enhance multiple lightweight heads with minimal resource overhead. We compute the Gramian matrices to reinforce class tokens in an attention layer for each head. This enables the heads to learn more discriminative representations, enhancing their aggregation capabilities. Furthermore, we propose a learning algorithm that encourages heads to complement each other by reducing correlation for aggregation. Our models eventually surpass state-of-the-art CNNs and ViTs regarding the accuracy-throughput trade-off on ImageNet-1K and deliver remarkable performance across various downstream tasks, such as COCO object instance segmentation, ADE20k semantic segmentation, and fine-grained visual classification datasets. The effectiveness of our framework is substantiated by practical experimental results and further underpinned by generalization error bound. We release the code publicly at: https://github.com/Lab-LVM/imagenet-models.
翻訳日:2023-10-26 15:46:10 公開日:2023-10-25
# 臨床現場におけるオーディオ・ビジュアル・モデリング

Show from Tell: Audio-Visual Modelling in Clinical Settings ( http://arxiv.org/abs/2310.16477v1 )

ライセンス: Link先を確認
Jianbo Jiao, Mohammad Alsharid, Lior Drukker, Aris T. Papageorghiou, Andrew Zisserman, J. Alison Noble(参考訳) 聴覚と視覚の信号は通常互いに存在し、自然環境だけでなく臨床環境においても相互に関連づけられる。 しかし、音声/映像信号の異なるソースと聴覚信号のノイズ(信号レベルと意味レベルの両方)のため、後者の場合の音声-視覚モデリングはより困難になる可能性がある。 本稿では,音声と視覚のモデリングを臨床現場で検討し,専門家のアノテーションを使わずに,様々な臨床課題に役立つ医療表現を学習するためのソリューションを提供する。 この目的のために,単純かつ効果的なマルチモーダル自己教師付き学習フレームワークを提案する。 提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。 大規模臨床用マルチモーダル超音波ビデオデータセットの実験的評価から, 提案手法は, 自動下流臨床タスクの性能を向上し, 完全教師付きソリューションよりも優れていることを示す。

Auditory and visual signals usually present together and correlate with each other, not only in natural environments but also in clinical settings. However, the audio-visual modelling in the latter case can be more challenging, due to the different sources of audio/video signals and the noise (both signal-level and semantic-level) in auditory signals -- usually speech. In this paper, we consider audio-visual modelling in a clinical setting, providing a solution to learn medical representations that benefit various clinical tasks, without human expert annotation. A simple yet effective multi-modal self-supervised learning framework is proposed for this purpose. The proposed approach is able to localise anatomical regions of interest during ultrasound imaging, with only speech audio as a reference. Experimental evaluations on a large-scale clinical multi-modal ultrasound video dataset show that the proposed self-supervised method learns good transferable anatomical representations that boost the performance of automated downstream clinical tasks, even outperforming fully-supervised solutions.
翻訳日:2023-10-26 15:45:45 公開日:2023-10-25
# 専門家の交響曲:強化学習における敵対的洞察によるオーケストレーション

Symphony of experts: orchestration with adversarial insights in reinforcement learning ( http://arxiv.org/abs/2310.16473v1 )

ライセンス: Link先を確認
Matthieu Jonckheere (LAAS), Chiara Mignacco (LMO, CELESTE), Gilles Stoltz (LMO, CELESTE)(参考訳) 構造化強化学習は、特に探索が課題を引き起こすシナリオにおいて、より優れたパフォーマンスを達成するために、有利な特性を持つポリシーを活用する。 我々は、この領域をオーケストレーションの概念を通じて探求し、(小さな)専門家ポリシーの集合が意思決定をガイドし、そのモデリングが私たちの最初の貢献となる。 次に,テーブル設定におけるオーケストレーションのための値関数の後悔境界を,敵設定から後悔値の結果を転送することによって確立する。 agarwal et alにおける自然政策勾配の解析を一般化・拡張する。 [2021条5.3] 任意の敵の集合戦略 また,推定アドバンテージ関数の場合にも拡張し,期待値と確率値の両方において,サンプル複雑性に関する洞察を提供する。 われわれのアプローチの要点は、既存の方法に比べて明らかに透明な証明にある。 最後に,確率的マッチング玩具モデルのシミュレーションを提案する。

Structured reinforcement learning leverages policies with advantageous properties to reach better performance, particularly in scenarios where exploration poses challenges. We explore this field through the concept of orchestration, where a (small) set of expert policies guides decision-making; the modeling thereof constitutes our first contribution. We then establish value-functions regret bounds for orchestration in the tabular setting by transferring regret-bound results from adversarial settings. We generalize and extend the analysis of natural policy gradient in Agarwal et al. [2021, Section 5.3] to arbitrary adversarial aggregation strategies. We also extend it to the case of estimated advantage functions, providing insights into sample complexity both in expectation and high probability. A key point of our approach lies in its arguably more transparent proofs compared to existing methods. Finally, we present simulations for a stochastic matching toy model.
翻訳日:2023-10-26 15:45:28 公開日:2023-10-25
# 軽量記述論理のセミリング特性

Semiring Provenance for Lightweight Description Logics ( http://arxiv.org/abs/2310.16472v1 )

ライセンス: Link先を確認
Camille Bourgaux, Ana Ozaki, Rafael Pe\~naloza(参考訳) セミリングの証明について検討する - もともとリレーショナルデータベースの設定で定義されたフレームワーク、- 記述ロジックについて。 この文脈では、オントロジー公理は可換半環の要素でアノテートされ、これらの注釈はどのように導かれるかを反映してオントロジーの結果に伝達される。 我々は、いくつかの軽量な記述論理を包含する言語のプロヴァンスセマンティクスを定義し、特定の種類のアノテーション(ファジィ次数など)でアノテートされたオントロジーで定義されたセマンティクスとの関係を示す。 半環に対するいくつかの制限の下では、意味論は望ましい性質(例えば、データベースで定義された半環のプロヴァンスを拡張する)を満たす。 次に,各加法的および乗法的等化的可換半環に対するセミリング証明を計算し,公理や共役的な問合せ解の証明に関連する問題の複雑性について検討する,よく知られた理由証明に焦点をあてる。 最後に、データベース設定における正のブール前兆と系統に対応する2つの制限されたケースについて考察する。 これらの場合、記述論理の説明に関連するよく知られた概念との関係を示し、複雑性分析を完了させる。 副次的貢献として、抽出可能な推論を保証するELHI_botオントロジーの条件を提供する。

We investigate semiring provenance--a successful framework originally defined in the relational database setting--for description logics. In this context, the ontology axioms are annotated with elements of a commutative semiring and these annotations are propagated to the ontology consequences in a way that reflects how they are derived. We define a provenance semantics for a language that encompasses several lightweight description logics and show its relationships with semantics that have been defined for ontologies annotated with a specific kind of annotation (such as fuzzy degrees). We show that under some restrictions on the semiring, the semantics satisfies desirable properties (such as extending the semiring provenance defined for databases). We then focus on the well-known why-provenance, which allows to compute the semiring provenance for every additively and multiplicatively idempotent commutative semiring, and for which we study the complexity of problems related to the provenance of an axiom or a conjunctive query answer. Finally, we consider two more restricted cases which correspond to the so-called positive Boolean provenance and lineage in the database setting. For these cases, we exhibit relationships with well-known notions related to explanations in description logics and complete our complexity analysis. As a side contribution, we provide conditions on an ELHI_bot ontology that guarantee tractable reasoning.
翻訳日:2023-10-26 15:45:16 公開日:2023-10-25
# 調和振動子に対する2回レゲットガルグ不等式違反

Violation of the two-time Leggett-Garg inequalities for a harmonic oscillator ( http://arxiv.org/abs/2310.16471v1 )

ライセンス: Link先を確認
Kosei Hatakeyama, Daisuke Miki, Masaki Tani, Yuuki Yamasaki, Satoshi Iso, Apriadi Salim Adam, Ar Rohim, Kazuhiro Yamamoto(参考訳) 各種量子状態における高調波発振器のレゲット・ガルグ不等式違反について検討する。 本研究では,高調波発振器の位置演算子を組み込んだ双調変数を用いた2回準確率分布関数に着目した。 まず,mawby と halliwell [phys.rev.a, 107 032216 (2023)] の最近の論文で開発された式と比較し, 2回準確率分布関数を計算する新しい式を開発した。 第2に, 2回レゲット・ガーグの不等式が, 圧縮コヒーレント状態, 熱圧縮コヒーレント状態を含む調和振動子の様々な量子状態と仮定している場合の変動を実演した。 第3に,ディコトミック変数と対応するプロジェクション演算子のある種の拡張が,基底状態と圧縮状態に対するレゲット・ガルグの不等式違反を増大させることを示した。 また,Leggett-Gargの不等式が直観的に破られた場合についても論じる。

We investigate the violation of the Leggett-Garg inequalities for a harmonic oscillator in various quantum states. We focus on the two-time quasi-probability distribution function with a dichotomic variable constructed with the position operator of a harmonic oscillator. First, we developed a new formula to compute the two-time quasi-probability distribution function, whose validity is demonstrated in comparison with the formula developed in the recent paper by Mawby and Halliwell[Phys.Rev.A, 107 032216 (2023)]. Second, we demonstrated the variety of the violation of the two-time Leggett-Garg inequalities assuming various quantum states of a harmonic oscillator including the squeezed coherent state and the thermal squeezed coherent state. Third, we demonstrated that a certain type of extension of the dichotomic variable and the corresponding projection operator can boost violation of the Leggett-Garg inequalities for the ground state and the squeezed state. We also discuss when the Leggett-Garg inequalities are violated in an intuitive manner.
翻訳日:2023-10-26 15:44:53 公開日:2023-10-25
# 自動車産業開発における形式的エラー検出

Formal Runtime Error Detection During Development in the Automotive Industry ( http://arxiv.org/abs/2310.16468v1 )

ライセンス: Link先を確認
Jesko Hecking-Harbusch, Jochen Quante, Maximilian Schlund(参考訳) 現代の自動車ソフトウェアは非常に複雑で、数百万行のコードで構成される。 安全関連ソフトウェアでは,音声静的プログラム解析を用いて実行時エラーの欠如を証明することが推奨されている。 しかし、この分析は開発者が長時間実行し、多くの誤報を発生させるため、しばしば負担になると見なされる。 統合ソフトウェアシステム上で解析を行う場合、スケーラビリティの問題が発生し、その解析は開発後期にのみ可能である。 分析が個々のモジュール上で実行される場合、これは開発の初期段階で可能であるが、モジュールの使用状況が欠落しているため、誤報が多すぎる。 本稿では,自動推論契約がモジュールレベルの解析にどのようにコンテキストを追加するかを示す。 これらのコントラクトを抽象的な解釈のための既製のツールで活用することで、モジュールレベルの分析をより正確かつスケーラブルにすることができる。 我々は,この枠組みを自動車分野の異なる産業事例から定量的に評価する。 さらに,大規模組み込みソフトウェアプロジェクトの検証における質的な経験について報告する。

Modern automotive software is highly complex and consists of millions lines of code. For safety-relevant automotive software, it is recommended to use sound static program analysis to prove the absence of runtime errors. However, the analysis is often perceived as burdensome by developers because it runs for a long time and produces many false alarms. If the analysis is performed on the integrated software system, there is a scalability problem, and the analysis is only possible at a late stage of development. If the analysis is performed on individual modules instead, this is possible at an early stage of development, but the usage context of modules is missing, which leads to too many false alarms. In this case study, we present how automatically inferred contracts add context to module-level analysis. Leveraging these contracts with an off-the-shelf tool for abstract interpretation makes module-level analysis more precise and more scalable. We evaluate this framework quantitatively on industrial case studies from different automotive domains. Additionally, we report on our qualitative experience for the verification of large-scale embedded software projects.
翻訳日:2023-10-26 15:44:29 公開日:2023-10-25
# データ適応確率過程によるスカース観測からの連続ネットワーク創発ダイナミクスの学習

Learning Continuous Network Emerging Dynamics from Scarce Observations via Data-Adaptive Stochastic Processes ( http://arxiv.org/abs/2310.16466v1 )

ライセンス: Link先を確認
Jiaxu Cui, Bingyi Sun, Jiming Liu, Bo Yang(参考訳) 経験的構造と時空間観測データからネットワークダイナミクスを学習することは、幅広い領域における複雑なネットワークの相互作用メカニズムを明らかにする上で重要である。 しかし、既存の手法のほとんどは、特定の常微分方程式のインスタンスによって生成されるネットワークの動的挙動を学習することだけを目標としており、その結果、新しいものに対しては非効率となり、一般に密接な観察を必要とする。 観測されたデータ、特にネットワークの創発的なダイナミクスは、通常取得が困難であり、モデル学習に問題を引き起こす。 したがって、スパース、不規則にサンプリングされた部分的、ノイズの多い観測で正確なネットワーク力学を学習する方法は、依然として根本的な課題である。 NDP4ND(Neural ODE Processs for Network Dynamics)は、確率的データ適応型ネットワークダイナミクスによって制御される新しい確率的プロセスのクラスであり、この課題を克服し、少ない観測から連続的なネットワークダイナミクスを学習する。 Intensive experiments conducted on various network dynamics in ecological population evolution, phototaxis movement, brain activity, epidemic spreading, and real-world empirical systems, demonstrate that the proposed method has excellent data adaptability and computational efficiency, and can adapt to unseen network emerging dynamics, producing accurate interpolation and extrapolation with reducing the ratio of required observation data to only about 6\% and improving the learning speed for new dynamics by three orders of magnitude.

Learning network dynamics from the empirical structure and spatio-temporal observation data is crucial to revealing the interaction mechanisms of complex networks in a wide range of domains. However, most existing methods only aim at learning network dynamic behaviors generated by a specific ordinary differential equation instance, resulting in ineffectiveness for new ones, and generally require dense observations. The observed data, especially from network emerging dynamics, are usually difficult to obtain, which brings trouble to model learning. Therefore, how to learn accurate network dynamics with sparse, irregularly-sampled, partial, and noisy observations remains a fundamental challenge. We introduce Neural ODE Processes for Network Dynamics (NDP4ND), a new class of stochastic processes governed by stochastic data-adaptive network dynamics, to overcome the challenge and learn continuous network dynamics from scarce observations. Intensive experiments conducted on various network dynamics in ecological population evolution, phototaxis movement, brain activity, epidemic spreading, and real-world empirical systems, demonstrate that the proposed method has excellent data adaptability and computational efficiency, and can adapt to unseen network emerging dynamics, producing accurate interpolation and extrapolation with reducing the ratio of required observation data to only about 6\% and improving the learning speed for new dynamics by three orders of magnitude.
翻訳日:2023-10-26 15:44:14 公開日:2023-10-25
# 一般化ワッサースタイン勾配流による粒子ベース変分推論

Particle-based Variational Inference with Generalized Wasserstein Gradient Flow ( http://arxiv.org/abs/2310.16516v1 )

ライセンス: Link先を確認
Ziheng Cheng, Shiyue Zhang, Longlin Yu, Cheng Zhang(参考訳) ステイン変分勾配降下(svgd)のような粒子ベースの変分推定法(parvis)は、クルバック・ライバー(kl)分岐の核化ワッサースタイン勾配流に基づいて粒子を更新する。 しかし、カーネルの設計はしばしば非自明であり、メソッドの柔軟性に制限を加えることができる。 最近の研究は、2次形式正規化項による関数勾配流近似が性能を向上させることを示している。 本稿では,KL分散の一般化ワッサースタイン勾配流に基づく一般化ワッサースタイン勾配勾配(GWG)と呼ばれるParVIフレームワークを提案する。 GWGが強い収束保証を示すことを示す。 また,収束を加速するためにwassersteinメトリックを自動的に選択する適応バージョンも提供する。 実験では,シミュレーション問題と実データ問題の両方に対する提案フレームワークの有効性と効率を示す。

Particle-based variational inference methods (ParVIs) such as Stein variational gradient descent (SVGD) update the particles based on the kernelized Wasserstein gradient flow for the Kullback-Leibler (KL) divergence. However, the design of kernels is often non-trivial and can be restrictive for the flexibility of the method. Recent works show that functional gradient flow approximations with quadratic form regularization terms can improve performance. In this paper, we propose a ParVI framework, called generalized Wasserstein gradient descent (GWG), based on a generalized Wasserstein gradient flow of the KL divergence, which can be viewed as a functional gradient method with a broader class of regularizers induced by convex functions. We show that GWG exhibits strong convergence guarantees. We also provide an adaptive version that automatically chooses Wasserstein metric to accelerate convergence. In experiments, we demonstrate the effectiveness and efficiency of the proposed framework on both simulated and real data problems.
翻訳日:2023-10-26 15:35:37 公開日:2023-10-25
# JavaとAWS Lambdaを使用したパフォーマンスベストプラクティス

Performance best practices using Java and AWS Lambda ( http://arxiv.org/abs/2310.16510v1 )

ライセンス: Link先を確認
Juan Mera Men\'endez, Martin Bartlett(参考訳) 既に広く普及しているが、引き続き普及している。 ますます多くの開発者やアーキテクトがFaaS(Function as a Service)モデルをクラウドソリューションに適用し続けている。 最も広く使用されているFaaSサービスは、Amazon Web Servicesが提供するAWS Lambdaである。 さらに、プログラミング言語の新しいトレンドにもかかわらず、Javaは依然としてかなりの使用率を維持している。 これら2つの技術を一緒に使用する際に生じる主な問題は、大きなレイテンシと恐ろしいコールドスタートである。 しかし、多くの労力を費やすことなく、この問題を大幅に軽減することができる。 本稿では,コールドスタートの削減とLambda関数のJavaによるパフォーマンス向上を目的とした,さまざまな技術,戦略,アプローチについて検討する。 AWS lambda、java、DynamoDB、Api Gatewayを含むシステムから始める。 各アプローチは独立してテストされ、負荷テストによって影響を分析する。 その後、最大のパフォーマンス改善を達成するために、それらを組み合わせてテストします。

Despite its already widespread popularity, it continues to gain adoption. More and more developers and architects continue to adopt and apply the FaaS (Function as a Service) model in cloud solutions. The most extensively used FaaS service is AWS Lambda, provided by Amazon Web Services. Moreover, despite the new trends in programming languages, Java still maintains a significant share of usage. The main problem that arises when using these two technologies together is widely known: significant latencies and the dreaded cold start. However, it is possible to greatly mitigate this problem without dedicating too much effort. In this article, various techniques, strategies and approaches will be studied with the aim of reducing the cold start and significantly improving the performance of Lambda functions with Java. Starting from a system that involves AWS lambda, java, DynamoDB and Api Gateway. Each approach will be tested independently, analyzing its impact through load tests. Subsequently, they will be tested in combination in an effort to achieve the greatest possible performance improvement.
翻訳日:2023-10-26 15:35:21 公開日:2023-10-25
# バイアスの理由を特定する:議論に基づくアプローチ

Identifying Reasons for Bias: An Argumentation-Based Approach ( http://arxiv.org/abs/2310.16506v1 )

ライセンス: Link先を確認
Madeleine Waller, Odinaldo Rodrigues, Oana Cocarascu(参考訳) アルゴリズムによる意思決定システムが社会で普及するにつれて、これらのシステムの公平性がますます重要になっている。 公平なアルゴリズム的意思決定システムの構築にはかなりの研究がなされているが、その大半は個人的特徴を含むトレーニングデータへのアクセスを必要としており、どの個人が不公平に分類されているかは明確ではない。 本稿では,個人が類似する個人に対して,なぜ異なる分類をするのかを判断するためのモデル非依存な議論に基づく新しい手法を提案する。 本手法では,個々の属性値対と類似した属性値対を定量的に表現するために,定量的な議論フレームワークを用いて,属性値対を識別するためによく知られたセマンティクスを用いる。 フェアネス文献でよく用いられる2つのデータセットを用いて本手法の評価を行い,バイアスの同定に有効であることを示す。

As algorithmic decision-making systems become more prevalent in society, ensuring the fairness of these systems is becoming increasingly important. Whilst there has been substantial research in building fair algorithmic decision-making systems, the majority of these methods require access to the training data, including personal characteristics, and are not transparent regarding which individuals are classified unfairly. In this paper, we propose a novel model-agnostic argumentation-based method to determine why an individual is classified differently in comparison to similar individuals. Our method uses a quantitative argumentation framework to represent attribute-value pairs of an individual and of those similar to them, and uses a well-known semantics to identify the attribute-value pairs in the individual contributing most to their different classification. We evaluate our method on two datasets commonly used in the fairness literature and illustrate its effectiveness in the identification of bias.
翻訳日:2023-10-26 15:35:10 公開日:2023-10-25
# 量子スピン鎖のブートストラップ絡み合い

Bootstrapping entanglement in quantum spin chains ( http://arxiv.org/abs/2310.16503v1 )

ライセンス: Link先を確認
Jiaju Zhang, Arash Jafarizadeh, M. A. Rajabpour(参考訳) 本稿では,量子スピン系の絡み合いに着目し,量子多体系の特性の理解と計算方法を再定義することを目的とする。 従来のアプローチでは、固有値、相関関数、量子絡み合いなどの性質を確認するためにシステムのハミルトニアンの対角化が必要となる。 対照的に, 直接対角化ではなく, 一貫性関係を利用したブートストラップ法を用いて, これらの特性を推定する。 我々の研究は量子スピン系へのブートストラップアプローチを拡張し、横磁場と縦磁場の両方を持つよく知られたリプキン-メシュコフ-グリックモデルに集中する。 我々の手法は、主に基底状態の性質に焦点を当てた以前の研究とは異なり、すべての固有状態に対するエネルギースペクトル、角運動量、コンカレンス、タングル、残留タングル、量子フィッシャー情報(QFI)を含む幅広い特性の計算を可能にする。 このアプローチは、新しい計算方法論を提供するだけでなく、固有状態のスペクトル全体にわたる二部および多部両方の絡み合い特性の包括的ビューを提供する。 具体的には、スペクトルの中心領域で典型的に見られる状態は、スペクトルの端にある状態に比べて、より大きいQFI値によって示されるような、より大きな多部構造の絡み合いを示すことを示す。 対照的に、並行性は逆の傾向を示す。 この観察行動は、量子絡み合いを司る一夫一婦制の原理と一致している。

This paper aims to redefine how we understand and calculate the properties of quantum many-body systems, specifically focusing on entanglement in quantum spin systems. Traditional approaches necessitate the diagonalization of the system's Hamiltonian to ascertain properties such as eigenvalues, correlation functions, and quantum entanglement. In contrast, we employ the bootstrap method, a technique that leverages consistency relations rather than direct diagonalization, to estimate these properties. Our work extends the bootstrap approach to quantum spin systems, concentrating on the well-known Lipkin-Meshkov-Glick model with both transverse and longitudinal external magnetic fields. Unlike previous studies that have focused mainly on ground-state properties, our methodology allows for the calculation of a broad range of properties, including energy spectrum, angular momentum, concurrence, tangle, residual tangle, and quantum Fisher information (QFI), for all eigenstates. We show that this approach offers not only a new computational methodology but also a comprehensive view of both bipartite and multipartite entanglement properties across the entire spectrum of eigenstates. Specifically, we demonstrate that states typically found in the central region of the spectrum exhibit greater multipartite entanglement, as indicated by larger QFI values, compared to states at the edges of the spectrum. In contrast, concurrence displays the opposite trend. This observed behavior is in line with the monogamy principle governing quantum entanglement.
翻訳日:2023-10-26 15:34:53 公開日:2023-10-25
# 非線形付加雑音モデルの全体的および部分的因果的健全性評価

Assessing the overall and partial causal well-specification of nonlinear additive noise models ( http://arxiv.org/abs/2310.16502v1 )

ライセンス: Link先を確認
Christoph Schultheiss and Peter B\"uhlmann(参考訳) 非線形因果加法および潜在的にヘテロシドスティックノイズモデルにおけるモデル誤特定を検出する手法を提案する。 このような不特定な場合であっても因果効果を推測できる予測変数の同定を目標としている。 我々は,多変量観測データ分布の知識に基づく一般的なフレームワークを開発し,有限サンプルデータに対するアルゴリズムを提案し,その漸近特性について議論し,シミュレーションおよび実データ上での性能を示す。

We propose a method to detect model misspecifications in nonlinear causal additive and potentially heteroscedastic noise models. We aim to identify predictor variables for which we can infer the causal effect even in cases of such misspecification. We develop a general framework based on knowledge of the multivariate observational data distribution and we then propose an algorithm for finite sample data, discuss its asymptotic properties, and illustrate its performance on simulated and real data.
翻訳日:2023-10-26 15:34:31 公開日:2023-10-25
# ディープラーニングにおけるデータ最適化:調査

Data Optimization in Deep Learning: A Survey ( http://arxiv.org/abs/2310.16499v1 )

ライセンス: Link先を確認
Ou Wu and Rujing Yao(参考訳) 大規模で高品質なデータは、多くのディープラーニング技術の応用に欠かせない要素であると考えられている。 一方で、多くの現実世界のディープラーニングタスクは、十分な量の高品質なデータが不足していることと相容れない。 さらに、モデルの堅牢性、公正性、信頼性といった問題も、トレーニングデータと密接に関連している。 その結果、既存の文献における多くの研究は、ディープラーニングタスクにおけるデータ側面に焦点を当てている。 典型的なデータ最適化技術には、データ拡張、ロジット摂動、サンプル重み付け、データ凝縮などがある。 これらのテクニックは通常、異なる深層学習部門から生まれ、理論的なインスピレーションやヒューリスティックなモチベーションは互いに無関係に思える。 本研究は,従来の文献からの深層学習のための多様なデータ最適化手法を整理し,それらを包括的に分類することを目的としている。 構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。 この分類に基づいて,深層学習のための広範囲データ最適化手法間の接続を4つの側面から構築する。 我々はいくつかの将来有望で興味深い方向を描いている。 構築された分類学と明らかにされた接続は、既存の手法のより良い理解と新しいデータ最適化手法の設計を啓蒙する。 さらに,本調査の目的は,深層学習の独立した部門としてデータ最適化を促進することである。 ディープラーニングのデータ最適化に関連するリソースのキュレーションされた最新リストは、 \url{https://github.com/yaorujing/data-optimization}で見ることができる。

Large-scale, high-quality data are considered an essential factor for the successful application of many deep learning techniques. Meanwhile, numerous real-world deep learning tasks still have to contend with the lack of sufficient amounts of high-quality data. Additionally, issues such as model robustness, fairness, and trustworthiness are also closely related to training data. Consequently, a huge number of studies in the existing literature have focused on the data aspect in deep learning tasks. Some typical data optimization techniques include data augmentation, logit perturbation, sample weighting, and data condensation. These techniques usually come from different deep learning divisions and their theoretical inspirations or heuristic motivations may seem unrelated to each other. This study aims to organize a wide range of existing data optimization methodologies for deep learning from the previous literature, and makes the effort to construct a comprehensive taxonomy for them. The constructed taxonomy considers the diversity of split dimensions, and deep sub-taxonomies are constructed for each dimension. On the basis of the taxonomy, connections among the extensive data optimization methods for deep learning are built in terms of four aspects. We probe into rendering several promising and interesting future directions. The constructed taxonomy and the revealed connections will enlighten the better understanding of existing methods and the design of novel data optimization techniques. Furthermore, our aspiration for this survey is to promote data optimization as an independent subdivision of deep learning. A curated, up-to-date list of resources related to data optimization in deep learning is available at \url{https://github.com/YaoRujing/Data-Optimization}.
翻訳日:2023-10-26 15:34:23 公開日:2023-10-25
# 市民参加:クラウドセンシングによる屋内位置情報サービス

Citizen participation: crowd-sensed sustainable indoor location services ( http://arxiv.org/abs/2310.16496v1 )

ライセンス: Link先を確認
Ioannis Nasios, Konstantinos Vogklis, Avleen Malhi, Anastasia Vayona, Panos Chatziadam and Vasilis Katos(参考訳) 持続可能なイノベーションの時代において、循環経済のパラダイムは、既存の有限資源の最適利用と活用を決定する。 同時に、スマートインフラストラクチャへの移行には、資本、リソース、人々へのかなりの投資が必要です。 本研究では,室内における位置認識を実現するための汎用機械学習手法を提案する。 屋内での要求は標準的なGPSソリューションに制限を与えるため,スマートフォンを搭載した訪問者が利用可能なWiFiインフラと対話して位置情報を推定するユースケースを探る。 その結果,提案手法は2m未満の精度を達成でき,かなりの数のBSSIDが投下された場合でもモデルが回復可能であることがわかった。

In the present era of sustainable innovation, the circular economy paradigm dictates the optimal use and exploitation of existing finite resources. At the same time, the transition to smart infrastructures requires considerable investment in capital, resources and people. In this work, we present a general machine learning approach for offering indoor location awareness without the need to invest in additional and specialised hardware. We explore use cases where visitors equipped with their smart phone would interact with the available WiFi infrastructure to estimate their location, since the indoor requirement poses a limitation to standard GPS solutions. Results have shown that the proposed approach achieves a less than 2m accuracy and the model is resilient even in the case where a substantial number of BSSIDs are dropped.
翻訳日:2023-10-26 15:33:59 公開日:2023-10-25
# Lang3DSG:3次元シーングラフ予測のための言語ベースのコントラスト事前学習

Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph prediction ( http://arxiv.org/abs/2310.16494v1 )

ライセンス: Link先を確認
Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi, Timo Ropinski(参考訳) Dシーングラフは、シーンに存在するオブジェクトとそれらの関係の両方をモデル化する、新たな3Dシーン表現である。 しかし、3Dシーングラフの学習は、オブジェクトラベルだけでなく、データセットでは非常に少ない関係アノテーションを必要とするため、難しい作業である。 低データ環境におけるモデル性能向上のためには,事前学習が有効な手法であると広く認識されているが,本稿では,既存の事前学習手法が3次元シーングラフには不適当であることを示す。 そこで本研究では,3次元シーングラフに対する最初の言語ベース事前学習手法を提案し,シーングラフと言語間の強い関係を生かした。 この目的のために、人気のあるビジョン言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。 我々は,関係のテキスト埋め込み(主観-述語-対象のトリプレット)と予測する3dグラフの特徴を整合させた,コントラスト的事前学習を定式化する。 本手法は,事前学習ベースラインよりも精度が向上し,既存の全教師付きシーングラフ予測手法を有意差で上回って,主意味3dシーングラフベンチマークの最先端結果を得る。 さらに、シーングラフ機能は言語に整合しているので、ゼロショットで機能の言語空間を問い合わせることができます。 本稿では,このような特徴を生かして,さらなる訓練を行わずにシーンの部屋タイプを予測する例を示す。

D scene graphs are an emerging 3D scene representation, that models both the objects present in the scene as well as their relationships. However, learning 3D scene graphs is a challenging task because it requires not only object labels but also relationship annotations, which are very scarce in datasets. While it is widely accepted that pre-training is an effective approach to improve model performance in low data regimes, in this paper, we find that existing pre-training methods are ill-suited for 3D scene graphs. To solve this issue, we present the first language-based pre-training approach for 3D scene graphs, whereby we exploit the strong relationship between scene graphs and language. To this end, we leverage the language encoder of CLIP, a popular vision-language model, to distill its knowledge into our graph-based network. We formulate a contrastive pre-training, which aligns text embeddings of relationships (subject-predicate-object triplets) and predicted 3D graph features. Our method achieves state-of-the-art results on the main semantic 3D scene graph benchmark by showing improved effectiveness over pre-training baselines and outperforming all the existing fully supervised scene graph prediction methods by a significant margin. Furthermore, since our scene graph features are language-aligned, it allows us to query the language space of the features in a zero-shot manner. In this paper, we show an example of utilizing this property of the features to predict the room type of a scene without further training.
翻訳日:2023-10-26 15:33:48 公開日:2023-10-25
# 視覚ood検出のためのテキストアウトリーア露光の強力性について

On the Powerfulness of Textual Outlier Exposure for Visual OoD Detection ( http://arxiv.org/abs/2310.16492v1 )

ライセンス: Link先を確認
Sangha Park, Jisoo Mok, Dahuin Jung, Saehyung Lee, Sungroh Yoon(参考訳) ニューラルネットワークの安全なデプロイを保証するために、OoD(Out-of-Distribution)データの検出が成功している。 OoD検出の主な課題の1つは、ニューラルネットワークがOoDデータに対して過信予測を出力していることだ。 Outlierの露出は、トレーニング中のOoDデータに対する低信頼度予測を促進する追加の損失を導入することでこの問題に対処する。 outlier exposureはood検出性能の向上に有望な可能性があるが、以前のoutlier exposureに関するすべての研究は、visual outliersを活用することに限定されている。 視覚言語事前学習の最近の進歩からインスピレーションを得て,本論文は文体外周露出の未開領域に展開する。 まず、画像領域内の実または仮想のオフレイアをテキスト等価物に置き換えることで、テキストアウトレイラを使用する利点を明らかにする。 次に,好適な文的外れ値を生成する様々な方法を提案する。 大規模なOoDベンチマークとハードOoDベンチマークにおいて,テキストアウトレーヤの生成が競合性能を達成することを示す。 さらに,テキスト・アウトリーの実証分析を行い,テキスト・アウトリーを設計するための主要な基準である,近分布,記述性,視覚的意味論の含意について述べる。

Successful detection of Out-of-Distribution (OoD) data is becoming increasingly important to ensure safe deployment of neural networks. One of the main challenges in OoD detection is that neural networks output overconfident predictions on OoD data, make it difficult to determine OoD-ness of data solely based on their predictions. Outlier exposure addresses this issue by introducing an additional loss that encourages low-confidence predictions on OoD data during training. While outlier exposure has shown promising potential in improving OoD detection performance, all previous studies on outlier exposure have been limited to utilizing visual outliers. Drawing inspiration from the recent advancements in vision-language pre-training, this paper venture out to the uncharted territory of textual outlier exposure. First, we uncover the benefits of using textual outliers by replacing real or virtual outliers in the image-domain with textual equivalents. Then, we propose various ways of generating preferable textual outliers. Our extensive experiments demonstrate that generated textual outliers achieve competitive performance on large-scale OoD and hard OoD benchmarks. Furthermore, we conduct empirical analyses of textual outliers to provide primary criteria for designing advantageous textual outliers: near-distribution, descriptiveness, and inclusion of visual semantics.
翻訳日:2023-10-26 15:33:21 公開日:2023-10-25
# TSONN:偏微分方程式を解くための時間ステッピング指向ニューラルネットワーク

TSONN: Time-stepping-oriented neural network for solving partial differential equations ( http://arxiv.org/abs/2310.16491v1 )

ライセンス: Link先を確認
Wenbo Cao, Weiwei Zhang(参考訳) ディープニューラルネットワーク(DNN)、特に物理インフォームドニューラルネットワーク(PINN)は、最近偏微分方程式(PDE)によって支配される前方および逆問題の解法として人気がある。 しかしながら、これらの手法は、PDEベースのソフト制約によるPDE残差を最小限に抑えることにより、多くの問題において安定したトレーニングと正しい結果を得るという課題に直面している。 PDE残差を直接最小化する既存の方法とは異なり、この研究は深層学習とタイムステッピング法を統合し、元の不条件最適化問題を与えられた擬似時間間隔上の一連の条件付きサブプロブレムに変換する。 モデル学習の収束性は、擬似タイムステッピング過程の軌跡に従い、ロバストな最適化ベースのPDEソルバによって大幅に改善される。 その結果,本手法は安定なトレーニングを実現し,標準ピンが解決できない問題の多くを正すことができ,損失関数の修正だけでよいことがわかった。 さらに,ニューラルネットワークに基づく最適化手法の枠組みにおいて,従来のグリッド型数値法と比較して,時間決定手法の新たな特性と利点を示す。 具体的には、明示的なスキームははるかに大きな時間ステップを可能にするが、暗黙的なスキームは明示的なスキームのように簡単に実装できる。

Deep neural networks (DNNs), especially physics-informed neural networks (PINNs), have recently become a new popular method for solving forward and inverse problems governed by partial differential equations (PDEs). However, these methods still face challenges in achieving stable training and obtaining correct results in many problems, since minimizing PDE residuals with PDE-based soft constraint make the problem ill-conditioned. Different from all existing methods that directly minimize PDE residuals, this work integrates time-stepping method with deep learning, and transforms the original ill-conditioned optimization problem into a series of well-conditioned sub-problems over given pseudo time intervals. The convergence of model training is significantly improved by following the trajectory of the pseudo time-stepping process, yielding a robust optimization-based PDE solver. Our results show that the proposed method achieves stable training and correct results in many problems that standard PINNs fail to solve, requiring only a simple modification on the loss function. In addition, we demonstrate several novel properties and advantages of time-stepping methods within the framework of neural network-based optimization approach, in comparison to traditional grid-based numerical method. Specifically, explicit scheme allows significantly larger time step, while implicit scheme can be implemented as straightforwardly as explicit scheme.
翻訳日:2023-10-26 15:32:55 公開日:2023-10-25
# R$^3$ Prompting: 騒々しい文脈下での大規模言語モデルにおける連鎖推論のレビュー, 言い換え, 解決

R$^3$ Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context ( http://arxiv.org/abs/2310.16535v1 )

ライセンス: Link先を確認
Qingyuan Tian, Hanlun Zhu, Lei Wang, Yang Li, Yunshi Lan(参考訳) CoT(Chain-of-Thought)の助けを借りて、LLM(Large Language Models)は様々な推論タスクにおいて顕著なパフォーマンスを達成した。 しかし,そのほとんどは雑音のない環境下で評価されており,騒音条件下での不正確な結果を生成するLLMのジレンマは十分に研究されていない。 既存の研究では、トリガー文を利用して、LSMが関連する情報に集中するように促しているが、トリガーは最終回答の予測に限られている。 ユーザとLLM間の複数ラウンドの相互作用によって中間的推論ステップが促進される対話型CoT法に着想を得て,雑音条件下でのCoT推論のための新しいプロンプト法R$^3$プロンプト法を提案する。 具体的には、R$^3$プロンプトはLLMと対話して、キー文抽出、変数宣言、応答予測を実行する。 最後のインタラクションで生成された応答は、次のインタラクションの応答に向かうためのヒントとして実行される。 実験の結果,R$^3$は,雑音条件下での5つの推論タスクにおいて,既存のCoTプロンプトよりも有意に優れていた。 GPT-3.5-turboでは,雑音条件下での推論作業における平均3.7%の精度向上が観測された。 さらなる分析とアブレーション研究は、雑音条件下でのLLMにおける推論タスクの解法におけるR$^3$プロンプト法の堅牢性と一般化を示している。

With the help of Chain-of-Thought (CoT) prompting, Large Language Models (LLMs) have achieved remarkable performance on various reasoning tasks. However, most of them have been evaluated under noise-free context and the dilemma for LLMs to produce inaccurate results under the noisy context has not been fully investigated. Existing studies utilize trigger sentences to encourage LLMs to concentrate on the relevant information but the trigger has limited effect on final answer prediction. Inspired by interactive CoT method, where intermediate reasoning steps are promoted by multiple rounds of interaction between users and LLMs, we propose a novel prompting method, namely R$^3$ prompting, for CoT reasoning under noisy context. Specifically, R$^3$ prompting interacts with LLMs to perform key sentence extraction, variable declaration and answer prediction, which corresponds to a thought process of reviewing, rephrasing and resolving. The responses generated at the last interaction will perform as hints to guide toward the responses of the next interaction. Our experiments show that R$^3$ prompting significantly outperforms existing CoT prompting methods on five reasoning tasks under noisy context. With GPT-3.5-turbo, we observe 3.7% accuracy improvement on average on the reasoning tasks under noisy context compared to the most competitive prompting baseline. More analyses and ablation studies show the robustness and generalization of R$^3$ prompting method in solving reasoning tasks in LLMs under noisy context.
翻訳日:2023-10-26 15:25:04 公開日:2023-10-25
# GPT-4V(ision)の早期評価

An Early Evaluation of GPT-4V(ision) ( http://arxiv.org/abs/2310.16534v1 )

ライセンス: Link先を確認
Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin(参考訳) 本稿では,gpt-4vの視覚理解,言語理解,視覚パズル解法,奥行き,熱,映像,音声といった他のモダリティの理解など,様々な能力を評価する。 GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。 The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. 実験結果から, GPT-4Vの能力と限界が明らかとなり, GPT-4Vの応用と研究についていくつかの知見が得られることを期待する。

In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V's performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V's performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.
翻訳日:2023-10-26 15:24:35 公開日:2023-10-25
# 脳波記録によるロバストな深部視覚表現の学習

Learning Robust Deep Visual Representations from EEG Brain Recordings ( http://arxiv.org/abs/2310.16532v1 )

ライセンス: Link先を確認
Prajwal Singh, Dwip Dalal, Gautam Vashishtha, Krishna Miyapuram, Shanmuganathan Raman(参考訳) 人間の脳をデコードすることは、神経科学者や人工知能研究者の目玉だ。 脳脳波(EEG)信号からの視覚画像の再構成は、脳とコンピュータのインターフェイスへの応用により、多くの関心を集めている。 本研究は,脳波に基づく深部表現の頑健な学習のための第1段階として,画像生成と分類に学習表現を利用する2段階の手法を提案する。 教師付きおよびコントラスト学習手法を用いたディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を示す。 我々は、一般化可能性主張をさらに支援するために、ゼロショット脳波分類タスクを実行した。 本研究は,脳波データのみを用いて,脳波と画像の協調表現学習と比較して,k平均精度が向上する一様条件下で,被写体不変な線形分離可能な視覚表現を学習することを目的とした。 最後に,未確認画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案し,脳波信号から画像再構成の可能性を示す。 脳波を用いた画像合成法では, 脳GCVPR40とThoughtvizデータセットの開始スコアが62.9%,36.13%向上した。

Decoding the human brain has been a hallmark of neuroscientists and Artificial Intelligence researchers alike. Reconstruction of visual images from brain Electroencephalography (EEG) signals has garnered a lot of interest due to its applications in brain-computer interfacing. This study proposes a two-stage method where the first step is to obtain EEG-derived features for robust learning of deep representations and subsequently utilize the learned representation for image generation and classification. We demonstrate the generalizability of our feature extraction pipeline across three different datasets using deep-learning architectures with supervised and contrastive learning methods. We have performed the zero-shot EEG classification task to support the generalizability claim further. We observed that a subject invariant linearly separable visual representation was learned using EEG data alone in an unimodal setting that gives better k-means accuracy as compared to a joint representation learning between EEG and images. Finally, we propose a novel framework to transform unseen images into the EEG space and reconstruct them with approximation, showcasing the potential for image reconstruction from EEG signals. Our proposed image synthesis method from EEG shows 62.9% and 36.13% inception score improvement on the EEGCVPR40 and the Thoughtviz datasets, which is better than state-of-the-art performance in GAN.
翻訳日:2023-10-26 15:24:15 公開日:2023-10-25
# 多言語マルチタスク情報検索におけるMRL 2023共有タスクへのCUNIの提出

CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval ( http://arxiv.org/abs/2310.16528v1 )

ライセンス: Link先を確認
Jind\v{r}ich Helcl and Jind\v{r}ich Libovick\'y(参考訳) 本稿では,多言語多タスク情報検索におけるMRL〜2023共有タスクのためのチャールズ大学システムを提案する。 共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答システムを開発することである。 両方のサブタスクに対する私たちのソリューションは、翻訳テストアプローチに依存しています。 まず、ラベルのない例を多言語機械翻訳モデルを用いて英語に翻訳する。 次に,強いタスク固有モデルを用いて変換データ上で推論を行う。 最後に、ラベル付きデータを元の言語に投影する。 推定されたタグを元の言語の正しい位置に保つために,ラベルに敏感な翻訳モデルを用いて候補位置をスコア付けする手法を提案する。 いずれの場合も,翻訳データの分類モデルを微調整する実験を行った。 しかし、開発データと共有タスク検証とテストセットのドメインミスマッチのため、微調整されたモデルはベースラインを上回りませんでした。

We present the Charles University system for the MRL~2023 Shared Task on Multi-lingual Multi-task Information Retrieval. The goal of the shared task was to develop systems for named entity recognition and question answering in several under-represented languages. Our solutions to both subtasks rely on the translate-test approach. We first translate the unlabeled examples into English using a multilingual machine translation model. Then, we run inference on the translated data using a strong task-specific model. Finally, we project the labeled data back into the original language. To keep the inferred tags on the correct positions in the original language, we propose a method based on scoring the candidate positions using a label-sensitive translation model. In both settings, we experiment with finetuning the classification models on the translated data. However, due to a domain mismatch between the development data and the shared task validation and test sets, the finetuned models could not outperform our baselines.
翻訳日:2023-10-26 15:23:52 公開日:2023-10-25
# マルチタスク事前学習による文書情報分析の強化:ビジュアルリッチ文書におけるロバストな情報抽出手法

Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents ( http://arxiv.org/abs/2310.16527v1 )

ライセンス: Link先を確認
Tofik Ali and Partha Pratim Roy(参考訳) 本稿では,文書情報分析のための深層学習モデルを提案し,文書分類,エンティティ関係抽出,文書の視覚的質問応答を強調する。 提案モデルでは,テキスト情報,ビジュアル情報,レイアウト情報など,文書画像に存在するすべての情報をトランスフォーマティブモデルを用いてエンコードする。 このモデルは事前学習され、その後様々な文書画像分析タスクのために微調整される。 提案モデルでは,文書画像中の異なるレイアウトセグメントの読み込み順序の識別,PubLayNetによるレイアウトセグメントの分類,所定のレイアウトセグメント(テキストブロック)内でのテキストシーケンスの生成など,事前学習段階の3つのタスクが組み込まれている。 このモデルは、すべてのデータセットで事前トレーニングや微調整を含む、検討中のすべてのタスクの損失が考慮される、集合的事前トレーニングスキームも組み込んでいる。 追加のエンコーダとデコーダブロックがRoBERTaネットワークに追加され、すべてのタスクの結果が生成される。 提案モデルは,文書分類のためのRVL-CDIPデータセットで95.87%,FUNSD,CORD,SROIE,Kleister-NDAデータセットで0.9306,0.9804,0.9794,0.8742,DocVQAデータセットで0.8468の精度で,すべてのタスクにおいて顕著な結果を得た。 その結果,複雑な文書レイアウトや内容の理解と解釈における提案モデルの有効性が強調され,文書解析タスクに有望なツールとなった。

This paper introduces a deep learning model tailored for document information analysis, emphasizing document classification, entity relation extraction, and document visual question answering. The proposed model leverages transformer-based models to encode all the information present in a document image, including textual, visual, and layout information. The model is pre-trained and subsequently fine-tuned for various document image analysis tasks. The proposed model incorporates three additional tasks during the pre-training phase, including reading order identification of different layout segments in a document image, layout segments categorization as per PubLayNet, and generation of the text sequence within a given layout segment (text block). The model also incorporates a collective pre-training scheme where losses of all the tasks under consideration, including pre-training and fine-tuning tasks with all datasets, are considered. Additional encoder and decoder blocks are added to the RoBERTa network to generate results for all tasks. The proposed model achieved impressive results across all tasks, with an accuracy of 95.87% on the RVL-CDIP dataset for document classification, F1 scores of 0.9306, 0.9804, 0.9794, and 0.8742 on the FUNSD, CORD, SROIE, and Kleister-NDA datasets respectively for entity relation extraction, and an ANLS score of 0.8468 on the DocVQA dataset for visual question answering. The results highlight the effectiveness of the proposed model in understanding and interpreting complex document layouts and content, making it a promising tool for document analysis tasks.
翻訳日:2023-10-26 15:23:39 公開日:2023-10-25
# 周期指向確率的グラフモデル:構造化結果に基づく提案

Cyclic Directed Probabilistic Graphical Model: A Proposal Based on Structured Outcomes ( http://arxiv.org/abs/2310.16525v1 )

ライセンス: Link先を確認
Oleksii Sirotkin(参考訳) 観測データの集合から確率的グラフィカルモデルを構築する(構造学習)過程において、モデルのランダム変数間の方向的・周期的依存関係がしばしば見つかる。 ベイジアンネットワークやマルコフネットワークのような既存のグラフィカルモデルは、そのような依存を反映することができる。 しかし、これは、追加変数の追加やモデルグラフを別々のサブグラフに分割するなど、これらのモデルを複雑化する必要がある。 本稿では,構造学習中に指向性周期依存を直接キャプチャできる確率的グラフィカルモデル(確率的関係ネットワーク)について述べる。 このモデルは、観測されたデータの各サンプルを任意のグラフ(構造化結果)で表現できるという単純な考え方に基づいており、サンプルに含まれる変数の依存関係の構造を反映している。 それぞれの結果にはグラフィカルモデル構造の一部しか含まれていないが、確率モデルの完全なグラフは異なる結果を組み合わせることで得られる。 そのようなグラフは、ベイズネットワークやマルコフネットワークとは異なり、向き付けされ、サイクルを持つことができる。 提案モデルにおける変数の完全結合分布と条件分布および条件独立性について検討した。 モデル構築のためのアルゴリズムをデータセットから定義し,条件付きおよび完全ジョイント分布の計算を行った。 また,ベイジアンネットワークとマルコフネットワークの数値比較を行った。 このモデルは確率公理に違反せず、観測データからの学習をサポートする。 特に、確率的推論をサポートし、データ分析および専門家および設計アプリケーションにおける予測ツールとなる。

In the process of building (structural learning) a probabilistic graphical model from a set of observed data, the directional, cyclic dependencies between the random variables of the model are often found. Existing graphical models such as Bayesian and Markov networks can reflect such dependencies. However, this requires complicating those models, such as adding additional variables or dividing the model graph into separate subgraphs. Herein, we describe a probabilistic graphical model - probabilistic relation network - that allows the direct capture of directional cyclic dependencies during structural learning. This model is based on the simple idea that each sample of the observed data can be represented by an arbitrary graph (structured outcome), which reflects the structure of the dependencies of the variables included in the sample. Each of the outcomes contains only a part of the graphical model structure; however, a complete graph of the probabilistic model is obtained by combining different outcomes. Such a graph, unlike Bayesian and Markov networks, can be directed and can have cycles. We explored the full joint distribution and conditional distribution and conditional independence properties of variables in the proposed model. We defined the algorithms for constructing of the model from the dataset and for calculating the conditional and full joint distributions. We also performed a numerical comparison with Bayesian and Markov networks. This model does not violate the probability axioms, and it supports learning from observed data. Notably, it supports probabilistic inference, making it a prospective tool in data analysis and in expert and design-making applications.
翻訳日:2023-10-26 15:23:06 公開日:2023-10-25
# モデル評価を頼りにできますか? 合成テストデータによるモデル評価の改善

Can You Rely on Your Model Evaluation? Improving Model Evaluation with Synthetic Test Data ( http://arxiv.org/abs/2310.16524v1 )

ライセンス: Link先を確認
Boris van Breugel, Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar(参考訳) 多様なサブグループ上での機械学習モデルの性能評価は、実世界のアプリケーションにおける公平性と信頼性を確保するために不可欠である。 しかし,(1)小規模サブグループにおけるテストデータの不足,(2)利用可能なテストデータと一致しないモデルのデプロイメント設定における分散シフトの可能性,という2つの課題により,モデル性能の正確な評価が困難になる。 本研究では,小さな部分群に対する合成テストセットを生成し,分布シフトをシミュレートすることで,モデル評価を容易にする3Sテストを紹介する。 実験により, 3Sテストは, マイノリティサブグループにおけるモデル性能を推定し, 分布シフトが妥当な条件下で, 従来のベースライン(実データのみを含む)より優れていることを示した。 さらに、3sはパフォーマンス見積りの間隔を提供し、既存のアプローチよりも根拠の真理に優れたカバレッジを示している。 全体として、これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという疑問を提起する。

Evaluating the performance of machine learning models on diverse and underrepresented subgroups is essential for ensuring fairness and reliability in real-world applications. However, accurately assessing model performance becomes challenging due to two main issues: (1) a scarcity of test data, especially for small subgroups, and (2) possible distributional shifts in the model's deployment setting, which may not align with the available test data. In this work, we introduce 3S Testing, a deep generative modeling framework to facilitate model evaluation by generating synthetic test sets for small subgroups and simulating distributional shifts. Our experiments demonstrate that 3S Testing outperforms traditional baselines -- including real test data alone -- in estimating model performance on minority subgroups and under plausible distributional shifts. In addition, 3S offers intervals around its performance estimates, exhibiting superior coverage of the ground truth compared to existing approaches. Overall, these results raise the question of whether we need a paradigm shift away from limited real test data towards synthetic test data.
翻訳日:2023-10-26 15:22:44 公開日:2023-10-25
# 集団批判と自己投票による大規模言語モデルにおける人口動態の多様性の改善

Improving Diversity of Demographic Representation in Large Language Models via Collective-Critiques and Self-Voting ( http://arxiv.org/abs/2310.16523v1 )

ライセンス: Link先を確認
Preethi Lahoti, Nicholas Blumm, Xiao Ma, Raghavendra Kotikalapudi, Sahitya Potluri, Qijun Tan, Hansa Srinivasan, Ben Packer, Ahmad Beirami, Alex Beutel, Jilin Chen(参考訳) 生成型大規模言語モデル(llms)にとって重要な課題は多様性である: ユーザのプロンプトが過小に指定されている場合、モデルは応答を生成しながら暗黙的な仮定に従う可能性がある。 本稿では,ジェネレーティブLLMにおける表現の多様性を形式化する。 評価データセットを提案し,人や文化軸に沿った生成応答の多様性を測定する指標を提案する。 LLMは多様性の概念を理解し、その目標に対して自身の反応を推論し、批判することができる。 この発見は、集団批判と自己投票(CCSV)と呼ばれる新たなプロンプト手法を動機付け、手作りの例や迅速なチューニングに頼ることなく、多様性推論能力を活用することでLLMの多様性を自己改善する。 人間と自動評価による広範な実験の結果,提案手法は,人間と文化の多様性向上に有効であり,すべてのベースライン手法を大差で上回っていることがわかった。

A crucial challenge for generative large language models (LLMs) is diversity: when a user's prompt is under-specified, models may follow implicit assumptions while generating a response, which may result in homogenization of the responses, as well as certain demographic groups being under-represented or even erased from the generated responses. In this paper, we formalize diversity of representation in generative LLMs. We present evaluation datasets and propose metrics to measure diversity in generated responses along people and culture axes. We find that LLMs understand the notion of diversity, and that they can reason and critique their own responses for that goal. This finding motivated a new prompting technique called collective-critique and self-voting (CCSV) to self-improve people diversity of LLMs by tapping into its diversity reasoning capabilities, without relying on handcrafted examples or prompt tuning. Extensive empirical experiments with both human and automated evaluations show that our proposed approach is effective at improving people and culture diversity, and outperforms all baseline methods by a large margin.
翻訳日:2023-10-26 15:22:26 公開日:2023-10-25
# 自己解釈型グラフレベル異常検出に向けて

Towards Self-Interpretable Graph-Level Anomaly Detection ( http://arxiv.org/abs/2310.16520v1 )

ライセンス: Link先を確認
Yixin Liu, Kaize Ding, Qinghua Lu, Fuyi Li, Leo Yu Zhang, Shirui Pan(参考訳) グラフレベルの異常検出(GLAD)は、コレクションの大多数と比べて顕著な相違を示すグラフを識別することを目的としている。 しかし、現在の研究は主にグラフレベルの異常の評価に重点を置いており、予測に対して有意義な説明を提供していない。 本稿では,各グラフサンプルの異常を,それに対応する説明,すなわち予測に導く重要な部分グラフで予測することを目的とした,新たな課題である説明可能なGLADについて検討する。 この課題に対処するために、異常グラフを検出し、同時に情報的説明を生成する自己解釈グラフaNomaly dETectionモデル(略してSIGNET)を提案する。 具体的には,まず,マルチビュー・サブグラフ情報ボトルネック(msib)フレームワークを導入し,自己解釈可能なgreyアプローチの設計基盤とした。 これにより、SIGNETは、相互情報に基づいて各グラフの異常を測定するだけでなく、自己監督的な方法で、入力グラフとその双対ハイパーグラフからボトルネック部分グラフを抽出することで、情報グラフの有理性を提供することができる。 16のデータセットに対する大規模な実験は、SIGNETの異常検出能力と自己解釈性を示している。

Graph-level anomaly detection (GLAD) aims to identify graphs that exhibit notable dissimilarity compared to the majority in a collection. However, current works primarily focus on evaluating graph-level abnormality while failing to provide meaningful explanations for the predictions, which largely limits their reliability and application scope. In this paper, we investigate a new challenging problem, explainable GLAD, where the learning objective is to predict the abnormality of each graph sample with corresponding explanations, i.e., the vital subgraph that leads to the predictions. To address this challenging problem, we propose a Self-Interpretable Graph aNomaly dETection model (SIGNET for short) that detects anomalous graphs as well as generates informative explanations simultaneously. Specifically, we first introduce the multi-view subgraph information bottleneck (MSIB) framework, serving as the design basis of our self-interpretable GLAD approach. This way SIGNET is able to not only measure the abnormality of each graph based on cross-view mutual information but also provide informative graph rationales by extracting bottleneck subgraphs from the input graph and its dual hypergraph in a self-supervised way. Extensive experiments on 16 datasets demonstrate the anomaly detection capability and self-interpretability of SIGNET.
翻訳日:2023-10-26 15:22:03 公開日:2023-10-25
# OccuQuest: 包括的大規模言語モデルにおけるOccupational Biasの緩和

OccuQuest: Mitigating Occupational Bias for Inclusive Large Language Models ( http://arxiv.org/abs/2310.16517v1 )

ライセンス: Link先を確認
Mingfeng Xue, Dayiheng Liu, Kexin Yang, Guanting Dong, Wenqiang Lei, Zheng Yuan, Chang Zhou, Jingren Zhou(参考訳) 大規模言語モデル(llm)の出現は自然言語処理タスクに革命をもたらした。 しかし、既存のインストラクションチューニングデータセットは職業バイアスに悩まされており、ほとんどのデータは少数の職業に関係しており、インストラクションチューニング LLM は特定の分野の実践者からプロのクエリに対する有用な応答を生成する。 この問題を緩和し、職業包括的LLMを促進するために、12000以上のプロンプト・コンプリートペアと30,000以上の対話を含む、26の職業カテゴリーで1,000以上の職業をカバーする命令チューニングデータセット「emph{OccuQuest}」を作成しました。 我々はChatGPTを体系的に要求し、職業専門質問の包括的カバレッジを確保するために、職業、責任、トピック、質問に基づいて階層的にクエリを編成する。 一般的な3つのデータセット(Dolly、ShareGPT、WizardLM)と比較することにより、OccuQuestは職業間でよりバランスの取れた分布を示す。 さらに,包括的評価のための3つのテストセット,25の職種を対象としたオククテストセット,不動産に焦点を当てた不動産セット,およびQuoraの現実世界質問を含むオククキュラセットを組み立てた。 次に、OccuQuest上でLLaMAを微調整し、OccuLLaMAを得る。これは、GPT-4および人間の評価における専門的な質問に対して、最先端のLLaMA(Vicuna、Tulu、WizardLM)を著しく上回る。 特にオククキュラセットでは、オクキュラマはウィザードLMに対して86.4\%の勝利率に達する。

The emergence of large language models (LLMs) has revolutionized natural language processing tasks. However, existing instruction-tuning datasets suffer from occupational bias: the majority of data relates to only a few occupations, which hampers the instruction-tuned LLMs to generate helpful responses to professional queries from practitioners in specific fields. To mitigate this issue and promote occupation-inclusive LLMs, we create an instruction-tuning dataset named \emph{OccuQuest}, which contains 110,000+ prompt-completion pairs and 30,000+ dialogues covering over 1,000 occupations in 26 occupational categories. We systematically request ChatGPT, organizing queries hierarchically based on Occupation, Responsibility, Topic, and Question, to ensure a comprehensive coverage of occupational specialty inquiries. By comparing with three commonly used datasets (Dolly, ShareGPT, and WizardLM), we observe that OccuQuest exhibits a more balanced distribution across occupations. Furthermore, we assemble three test sets for comprehensive evaluation, an occu-test set covering 25 occupational categories, an estate set focusing on real estate, and an occu-quora set containing real-world questions from Quora. We then fine-tune LLaMA on OccuQuest to obtain OccuLLaMA, which significantly outperforms state-of-the-art LLaMA variants (Vicuna, Tulu, and WizardLM) on professional questions in GPT-4 and human evaluations. Notably, on the occu-quora set, OccuLLaMA reaches a high win rate of 86.4\% against WizardLM.
翻訳日:2023-10-26 15:21:42 公開日:2023-10-25
# 正半定値行列の部分転置の慣性

Inertia of partial transpose of positive semidefinite matrices ( http://arxiv.org/abs/2310.16567v1 )

ライセンス: Link先を確認
Yixuan Liang, Jiahao Yan, Dongran Si, and Lin Chen(参考訳) 9\times 9$正半定義行列の部分転置は慣性 (4,1,4) と (3,2,4) を持たない。 これは「LINEAR and MultiLINEAR ALGEBRA, Changchun Feng et al, 2022」のオープンな問題を解決している。 我々は、いくつかの慣性を構築し、さらに12\times 12$の正の半定値行列の部分的転置の可能な全ての慣性のリストを示す。

We show that the partial transpose of $9\times 9$ positive semidefinite matrices do not have inertia (4,1,4) and (3,2,4). It solves an open problem in "LINEAR AND MULTILINEAR ALGEBRA, Changchun Feng et al, 2022". We apply our results to construct some inertia, as well as present the list of all possible inertia of partial transpose of $12\times 12$ positive semidefinite matrices.
翻訳日:2023-10-26 15:15:59 公開日:2023-10-25
# 逐次推薦のためのモデル強化コントラスト強化学習

Model-enhanced Contrastive Reinforcement Learning for Sequential Recommendation ( http://arxiv.org/abs/2310.16566v1 )

ライセンス: Link先を確認
Chengpeng Li, Zhengyi Yang, Jizhi Zhang, Jiancan Wu, Dingxian Wang, Xiangnan He, Xiang Wang(参考訳) 強化学習(RL)は,ユーザの長期エンゲージメントを最適化する可能性から,レコメンデーションシステムに広く応用されている。 RLの観点からは、レコメンデーションはMarkov決定プロセス(MDP)として定式化され、レコメンデーションシステム(エージェント)はユーザ(環境)と対話し、フィードバック(リワード信号)を取得することができる。 しかし、ユーザエクスペリエンスや実装の複雑さに関する懸念からオンラインインタラクションを行うことは現実的ではなく、リターン信号や状態遷移の制限を含むオフラインデータセットでRLレコメンデータをトレーニングすることしかできません。 そのため、既存のRLレコメンダは長年見過ごされてきたが、報酬信号や状態遷移のデータスポーサリティの問題は非常に深刻であり、RLメソッドは試行錯誤モードを通じて学習するが、負のフィードバックは暗黙のフィードバックレコメンダでは得られず、オフラインRLレコメンダの過大評価問題を悪化させる。 これらの課題に対処するために,モデル強化コントラスト強化学習(MCRL)という新しいRL推薦手法を提案する。 一方,ユーザの長期関与を推定する価値関数と,過大評価問題を緩和する保守的価値学習機構を学習する一方で,mdpの内部構造情報を活用するために,報酬関数と状態遷移関数をモデル化するための肯定的および否定的な状態動作ペアを構築した。 実験により,提案手法が既存のオフラインrlおよび自己教師付きrl法を2つの実世界のデータセット上で異なる代表バックボーンネットワークで大幅に上回ることを示した。

Reinforcement learning (RL) has been widely applied in recommendation systems due to its potential in optimizing the long-term engagement of users. From the perspective of RL, recommendation can be formulated as a Markov decision process (MDP), where recommendation system (agent) can interact with users (environment) and acquire feedback (reward signals).However, it is impractical to conduct online interactions with the concern on user experience and implementation complexity, and we can only train RL recommenders with offline datasets containing limited reward signals and state transitions. Therefore, the data sparsity issue of reward signals and state transitions is very severe, while it has long been overlooked by existing RL recommenders.Worse still, RL methods learn through the trial-and-error mode, but negative feedback cannot be obtained in implicit feedback recommendation tasks, which aggravates the overestimation problem of offline RL recommender. To address these challenges, we propose a novel RL recommender named model-enhanced contrastive reinforcement learning (MCRL). On the one hand, we learn a value function to estimate the long-term engagement of users, together with a conservative value learning mechanism to alleviate the overestimation problem.On the other hand, we construct some positive and negative state-action pairs to model the reward function and state transition function with contrastive learning to exploit the internal structure information of MDP. Experiments demonstrate that the proposed method significantly outperforms existing offline RL and self-supervised RL methods with different representative backbone networks on two real-world datasets.
翻訳日:2023-10-26 15:15:52 公開日:2023-10-25
# 開発途上国における信頼性の高いクロスボーダー相互運用型アイデンティティシステム

Trustworthy Cross-Border Interoperable Identity System for Developing Countries ( http://arxiv.org/abs/2310.16562v1 )

ライセンス: Link先を確認
Ayei E. Ibor, Mark Hooper, Carsten Maple, and Gregory Epiphaniou(参考訳) 発展途上国におけるサービス提供と包括的経済成長の最適化に基礎的アイデンティティシステム(FIDS)が用いられている。 発展途上国は、ID保有者の識別と認証にFIDSを使用しようとしているため、信頼できる相互運用性は、E-Governmentの国境を越えた次元の開発に役立つだろう。 この可能性にもかかわらず、アフリカアイデンティティエコシステムにおけるfidの相互運用性に関する重要な研究は行われていない。 一方、複雑な内部の政治的ダイナミクスは弱い制度をもたらしており、FIDSは政治的利益のために利用される可能性があることを示唆している。 一方、市民やID保有者による政府に対する信頼は、データセキュリティやプライバシー保護に関する懸念が最重要になっているため、日常的に低い。 同じ意味で、いくつかのFIDSは技術によってロックされているため、相互運用性は主に曖昧である。 また、システム間の互換性、立法、ベンダーロックのシステム設計原則、データ共有に関する不明瞭な規制条項といった問題もある。 基本的に、インターオペラビリティはe-Governmentサービスにとって必須の要件であり、欧州連合が既に示しているように、教育、社会保障、男女平等を含む金融サービスにおける最適なサービス提供を支える。 さらに、相互運用可能なIDシステムを通じて結束したデータ交換は、効率的なデータガバナンスと国境を越えたFIDSの統合のエコシステムを生み出す。 そこで本研究では,アフリカにおける相互運用の課題,機会,要件を明らかにする。 アフリカにおけるアイデンティティエコシステムの相互運用性は、包括的経済成長のためのID保有者のシームレスな認証と検証を強化し、大陸全体のe-Governmentの次元を拡大する上で不可欠であることを示す。

Foundational identity systems (FIDS) have been used to optimise service delivery and inclusive economic growth in developing countries. As developing nations increasingly seek to use FIDS for the identification and authentication of identity (ID) holders, trustworthy interoperability will help to develop a cross-border dimension of e-Government. Despite this potential, there has not been any significant research on the interoperability of FIDS in the African identity ecosystem. There are several challenges to this; on one hand, complex internal political dynamics have resulted in weak institutions, implying that FIDS could be exploited for political gains. On the other hand, the trust in the government by the citizens or ID holders is habitually low, in which case, data security and privacy protection concerns become paramount. In the same sense, some FIDS are technology-locked, thus interoperability is primarily ambiguous. There are also issues of cross-system compatibility, legislation, vendor-locked system design principles and unclear regulatory provisions for data sharing. Fundamentally, interoperability is an essential prerequisite for e-Government services and underpins optimal service delivery in education, social security, and financial services including gender and equality as already demonstrated by the European Union. Furthermore, cohesive data exchange through an interoperable identity system will create an ecosystem of efficient data governance and the integration of cross-border FIDS. Consequently, this research identifies the challenges, opportunities, and requirements for cross-border interoperability in an African context. Our findings show that interoperability in the African identity ecosystem is vital to strengthen the seamless authentication and verification of ID holders for inclusive economic growth and widen the dimensions of e-Government across the continent.
翻訳日:2023-10-26 15:15:21 公開日:2023-10-25
# グラフラベル雑音に対するラベル伝搬

Label Propagation for Graph Label Noise ( http://arxiv.org/abs/2310.16560v1 )

ライセンス: Link先を確認
Yao Cheng, Caihua Shan, Yifei Shen, Xiang Li, Siqiang Luo, Dongsheng Li(参考訳) ラベルノイズは、ディープニューラルネットワークの一般化能力を著しく低下させるため、大規模なデータセットでは一般的な課題である。 しかし、グラフモデルにはノードの特徴とグラフトポロジの両方が入力として含まれており、メッセージパッシング機構を通じてラベルのノイズを受けやすいものになっている。 近年,グラフ上のラベルノイズに対処する研究がいくつか提案されている。 主な制限の1つは、グラフがホモフィアであり、ラベルがスムーズに分散していると仮定することである。 それでも、現実世界のグラフは異種多様度を含むり、あるいは異種支配されることもあるため、現在の方法が不十分である。 本稿では,雑音ラベルの修正とラベルの割り当てを目的とし,任意のヘテロフィリの文脈でグラフラベルノイズについて検討する。 まず、2つの経験的分析を行い、グラフのホモフィリーがグラフラベルノイズに与える影響を探索する。 そこで本研究では,LP4GLNという単純なアルゴリズムを提案する。 具体的には、lp4glnは3段階の反復アルゴリズムであり、(1)グラフを再構成してホモフィア特性を回復し、(2)ラベル伝搬を利用してノイズラベルを修正、(3)次の反復のために保持する高信頼ラベルを選択する。 これらのステップを反復することで、正しいラベルをセットし、ノード分類タスクにおいて最終的に高い精度を達成する。 理論解析は、その顕著な「効果」を示すためにも提供される。 最後に, LP4GLNの性能を7つの典型的なベースラインと比較し, グラフヘテロフィリーレベルとノイズタイプが異なる10のベンチマークデータセットを用いて実験を行った。 提案するLP4GLNの優れた性能を示す。

Label noise is a common challenge in large datasets, as it can significantly degrade the generalization ability of deep neural networks. Most existing studies focus on noisy labels in computer vision; however, graph models encompass both node features and graph topology as input, and become more susceptible to label noise through message-passing mechanisms. Recently, only a few works have been proposed to tackle the label noise on graphs. One major limitation is that they assume the graph is homophilous and the labels are smoothly distributed. Nevertheless, real-world graphs may contain varying degrees of heterophily or even be heterophily-dominated, leading to the inadequacy of current methods. In this paper, we study graph label noise in the context of arbitrary heterophily, with the aim of rectifying noisy labels and assigning labels to previously unlabeled nodes. We begin by conducting two empirical analyses to explore the impact of graph homophily on graph label noise. Following observations, we propose a simple yet efficient algorithm, denoted as LP4GLN. Specifically, LP4GLN is an iterative algorithm with three steps: (1) reconstruct the graph to recover the homophily property, (2) utilize label propagation to rectify the noisy labels, (3) select high-confidence labels to retain for the next iteration. By iterating these steps, we obtain a set of correct labels, ultimately achieving high accuracy in the node classification task. The theoretical analysis is also provided to demonstrate its remarkable denoising "effect". Finally, we conduct experiments on 10 benchmark datasets under varying graph heterophily levels and noise types, comparing the performance of LP4GLN with 7 typical baselines. Our results illustrate the superior performance of the proposed LP4GLN.
翻訳日:2023-10-26 15:14:51 公開日:2023-10-25
# 情報理論に基づく等分散の発見に向けて

Towards Information Theory-Based Discovery of Equivariances ( http://arxiv.org/abs/2310.16555v1 )

ライセンス: Link先を確認
Hippolyte Charvin, Nicola Catenacci Volpi, Daniel Polani(参考訳) 対称性の存在は、システムに厳密な制約のセットを課す。 この制約された構造により、インテリジェントなエージェントがそのようなシステムと対話し、システムの対称性を内部化して情報処理によって学習と一般化の効率を大幅に改善することができる。 並行して、複雑性に制約のある学習と行動の原則モデルが、情報理論の手法の利用を増大させる。 ここでは、これら2つの視点を統合して、情報理論レンズがシステムの対称性の効果を「見る」ことができるかどうかを理解したい。 そこで本研究では,学習と情報制約を考慮した適応行動に関する多くの原則研究において,生産的基盤として機能するインフォメーション・ボトルネック(Information Bottleneck)の新たな変種を提案する。 離散的な場合、我々の手法は対称性と情報パーシモニーのある種の双対性を定式化する:すなわち、チャネルの等価性は、チャネルの入力と出力の最適な相互情報保存共同圧縮によって特徴づけられる。 この情報理論処理は、さらに「粗さ」が対応する最適圧縮によって保存される入力出力相互情報の量によって測定される「ソフト」同値の概念を示唆する。 この新しい概念は、有界合理性の場と、神経表現における対称性の研究の間に橋渡しを与える。 このフレームワークは、自動的に(実物とソフトの)等価性を検出することもできる。

The presence of symmetries imposes a stringent set of constraints on a system. This constrained structure allows intelligent agents interacting with such a system to drastically improve the efficiency of learning and generalization, through the internalisation of the system's symmetries into their information-processing. In parallel, principled models of complexity-constrained learning and behaviour make increasing use of information-theoretic methods. Here, we wish to marry these two perspectives and understand whether and in which form the information-theoretic lens can "see" the effect of symmetries of a system. For this purpose, we propose a novel variant of the Information Bottleneck principle, which has served as a productive basis for many principled studies of learning and information-constrained adaptive behaviour. We show (in the discrete case) that our approach formalises a certain duality between symmetry and information parsimony: namely, channel equivariances can be characterised by the optimal mutual information-preserving joint compression of the channel's input and output. This information-theoretic treatment furthermore suggests a principled notion of "soft" equivariance, whose "coarseness" is measured by the amount of input-output mutual information preserved by the corresponding optimal compression. This new notion offers a bridge between the field of bounded rationality and the study of symmetries in neural representations. The framework may also allow (exact and soft) equivariances to be automatically discovered.
翻訳日:2023-10-26 15:14:21 公開日:2023-10-25
# DECWA : Wasserstein 距離を用いた密度クラスタリング

DECWA : Density-Based Clustering using Wasserstein Distance ( http://arxiv.org/abs/2310.16552v1 )

ライセンス: Link先を確認
Nabil El Malki, Robin Cugny, Olivier Teste, Franck Ravat(参考訳) クラスタリングは、クラスタと呼ばれるデータのグループを発見して知識を抽出するデータ分析手法である。 これらの手法のうち、最先端密度に基づくクラスタリング法は任意の形のクラスタに有効であることが証明されている。 奨励的な結果にもかかわらず、彼らは低密度のクラスター、同様の密度のクラスター、高次元のデータを見つけるのに苦しむ。 提案手法は,空間密度と確率的アプローチに基づくクラスタの新たな特徴付けと新しいクラスタリングアルゴリズムである。 まず、部分クラスタは、点間の対距離の確率密度関数(p.d.f$)として表される空間密度を用いて構築される。 次に、その密度(p.d.f$)と空間距離の両方を用いて、類似のサブクラスタを凝集する手法を提案する。 私たちが提案する重要なアイデアは、サブクラスタの$p.d.f$間の距離を測定する強力なツールであるwassersteinメトリックを使用することです。 提案手法は,様々なデータセット上で,最先端の密度に基づくクラスタリング手法よりも優れていることを示す。

Clustering is a data analysis method for extracting knowledge by discovering groups of data called clusters. Among these methods, state-of-the-art density-based clustering methods have proven to be effective for arbitrary-shaped clusters. Despite their encouraging results, they suffer to find low-density clusters, near clusters with similar densities, and high-dimensional data. Our proposals are a new characterization of clusters and a new clustering algorithm based on spatial density and probabilistic approach. First of all, sub-clusters are built using spatial density represented as probability density function ($p.d.f$) of pairwise distances between points. A method is then proposed to agglomerate similar sub-clusters by using both their density ($p.d.f$) and their spatial distance. The key idea we propose is to use the Wasserstein metric, a powerful tool to measure the distance between $p.d.f$ of sub-clusters. We show that our approach outperforms other state-of-the-art density-based clustering methods on a wide variety of datasets.
翻訳日:2023-10-26 15:13:57 公開日:2023-10-25
# 最適化の落とし穴:リスク基準のランダム化による分散強化学習

Pitfall of Optimism: Distributional Reinforcement Learning by Randomizing Risk Criterion ( http://arxiv.org/abs/2310.16546v1 )

ライセンス: Link先を確認
Taehyun Cho, Seungyub Han, Heesoo Lee, Kyungjae Lee, Jungwoo Lee(参考訳) 分布強化学習アルゴリズムは、不確実性に直面した楽観主義などの推定不確実性を探索に利用しようと試みている。 しかし、楽観的な探索に推定分散を使うことは、偏りのあるデータ収集と収束や性能の妨げとなる可能性がある。 本稿では,リスク基準をランダム化することにより,リスクの一方的傾向を回避する行動選択を行う分布強化学習アルゴリズムを提案する。 リスク尺度を歪ませ、より弱い収縮特性で提案手法の収束性と最適性を証明し、摂動分布のベルマン最適性演算子を提供する。 理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。 最後に,Atari 55 ゲームを含む様々な環境において,本手法が既存の分散アルゴリズムよりも優れていることを示す。

Distributional reinforcement learning algorithms have attempted to utilize estimated uncertainty for exploration, such as optimism in the face of uncertainty. However, using the estimated variance for optimistic exploration may cause biased data collection and hinder convergence or performance. In this paper, we present a novel distributional reinforcement learning algorithm that selects actions by randomizing risk criterion to avoid one-sided tendency on risk. We provide a perturbed distributional Bellman optimality operator by distorting the risk measure and prove the convergence and optimality of the proposed method with the weaker contraction property. Our theoretical results support that the proposed method does not fall into biased exploration and is guaranteed to converge to an optimal return. Finally, we empirically show that our method outperforms other existing distribution-based algorithms in various environments including Atari 55 games.
翻訳日:2023-10-26 15:13:40 公開日:2023-10-25
# ParisLuco3D:LiDAR知覚の領域一般化のための高品質なターゲットデータセット

ParisLuco3D: A high-quality target dataset for domain generalization of LiDAR perception ( http://arxiv.org/abs/2310.16542v1 )

ライセンス: Link先を確認
Jules Sanchez, Louis Soum-Fontez, Jean-Emmanuel Deschaud, Francois Goulette(参考訳) LiDARは、シーンの正確な幾何学的情報を集め、自律運転を支援するセンサーシステムである。 この情報を知覚に活用することは、利用可能なデータ量が増えるにつれて興味深い。 様々な知覚タスクの定量的性能が向上するにつれて、ソース・ソース・インセプションからドメイン適応、ドメイン一般化へと焦点が移った。 これらの新たな目標は、評価のためにさまざまなドメインへのアクセスを必要とする。 残念ながら、データプロバイダの様々なアノテーション戦略は、利用可能なデータに基づいて、クロスドメインのパフォーマンスの計算を複雑にする。この記事では、さまざまなソースデータセットのパフォーマンスを評価するのを容易にするために、クロスドメイン評価用に特別に設計された新しいデータセットを提供する。 データセットに加えて、メソッド間の公正な比較を保証するために、フレキシブルなオンラインベンチマークが提供される。

LiDAR is a sensor system that supports autonomous driving by gathering precise geometric information about the scene. Exploiting this information for perception is interesting as the amount of available data increases. As the quantitative performance of various perception tasks has improved, the focus has shifted from source-to-source perception to domain adaptation and domain generalization for perception. These new goals require access to a large variety of domains for evaluation. Unfortunately, the various annotation strategies of data providers complicate the computation of cross-domain performance based on the available data This paper provides a novel dataset, specifically designed for cross-domain evaluation to make it easier to evaluate the performance of various source datasets. Alongside the dataset, a flexible online benchmark is provided to ensure a fair comparison across methods.
翻訳日:2023-10-26 15:13:25 公開日:2023-10-25
# dual defense: 顔交換に対する敵意、追跡可能、目に見えない堅牢な透かし

Dual Defense: Adversarial, Traceable, and Invisible Robust Watermarking against Face Swapping ( http://arxiv.org/abs/2310.16540v1 )

ライセンス: Link先を確認
Yunming Zhang and Dengpan Ye and Caiyun Xie and Long Tang and Chuanxi Chen and Ziyi Liu and Jiacheng Deng(参考訳) 顔の交換によって表されるディープ偽造の悪質な応用は、誤情報の拡散やアイデンティティ詐欺といったセキュリティ上の脅威をもたらしている。 いくつかの研究は、顔画像の著作権をトレーサビリティのために追跡するために堅牢な透かし法を使うことを提案したが、これらの方法は、ソースでの偽造の発生を効果的に防ぎ、その拡散を抑制することはできない。 この問題に対処するため,我々は,トレーサビリティと逆境性を組み合わせた新しい包括的アクティブ防御機構を提案する。 デュアルディフェンスは、ターゲットフェイスに1つの堅牢なウォーターマークを埋め込み、悪意のある顔交換の突然のケースに積極的に反応する。 フェーススワッピングモデルの出力を阻害し、散布プロセス全体を通して透かし情報の整合性を維持する。 これにより、トレーサビリティのための画像追跡のどの段階でも透かし抽出が可能である。 具体的には,オリジナルドメイン機能偽装攻撃に基づく透かし埋め込みネットワークを提案する。 このネットワークは、ターゲットの顔画像の堅牢な対向特性を学習し、透かしの可視性、対向性、トレーサビリティのバランスのとれたトレードオフを求める。 広範な実験により、デュアルディフェンスは最適な防御成功率を達成し、対面交換タスクとデータセットの一般化能力において有望な普遍性を示すことが示されている。 cmua-watermark、anti-forgery、faketagger、pgdなど、これらの能力の1つしか持たない現在の偽造防衛手法を上回っている。

The malicious applications of deep forgery, represented by face swapping, have introduced security threats such as misinformation dissemination and identity fraud. While some research has proposed the use of robust watermarking methods to trace the copyright of facial images for post-event traceability, these methods cannot effectively prevent the generation of forgeries at the source and curb their dissemination. To address this problem, we propose a novel comprehensive active defense mechanism that combines traceability and adversariality, called Dual Defense. Dual Defense invisibly embeds a single robust watermark within the target face to actively respond to sudden cases of malicious face swapping. It disrupts the output of the face swapping model while maintaining the integrity of watermark information throughout the entire dissemination process. This allows for watermark extraction at any stage of image tracking for traceability. Specifically, we introduce a watermark embedding network based on original-domain feature impersonation attack. This network learns robust adversarial features of target facial images and embeds watermarks, seeking a well-balanced trade-off between watermark invisibility, adversariality, and traceability through perceptual adversarial encoding strategies. Extensive experiments demonstrate that Dual Defense achieves optimal overall defense success rates and exhibits promising universality in anti-face swapping tasks and dataset generalization ability. It maintains impressive adversariality and traceability in both original and robust settings, surpassing current forgery defense methods that possess only one of these capabilities, including CMUA-Watermark, Anti-Forgery, FakeTagger, or PGD methods.
翻訳日:2023-10-26 15:13:12 公開日:2023-10-25
# fedtherapist: フェデレート学習によるスマートフォン上での言語表現によるメンタルヘルスモニタリング

FedTherapist: Mental Health Monitoring with User-Generated Linguistic Expressions on Smartphones via Federated Learning ( http://arxiv.org/abs/2310.16538v1 )

ライセンス: Link先を確認
Jaemin Shin, Hyungjun Yoon, Seungjoo Lee, Sungjoon Park, Yunxin Liu, Jinho D. Choi, Sung-Ju Lee(参考訳) 精神科医は患者の言語的使用を通じて精神疾患を診断する。 それでもデータプライバシのため、既存のパッシブメンタルヘルス監視システムは、アクティビティ、アプリ使用、モバイルデバイス経由のロケーションといった代替機能を使用する。 我々は,フェデレーション学習によるプライバシー保護手法を用いて,連続的な音声とキーボード入力を利用するモバイルメンタルヘルスモニタリングシステムであるFedTherapistを提案する。 スマートフォン上での言語モデル学習の複雑な性質を克服するために,フェデロピストのパフォーマンスとオーバーヘッドを比較することにより,複数のモデル設計を探索する。 さらに,スマートフォンの大規模でノイズの多いテキストをメンタルヘルス信号検出に有効活用するためのコンテキスト認識言語学習(CALL)手法を提案する。 自己報告型うつ病, ストレス, 不安, 気分の予測をIRBで評価した結果, 非言語機能と比較してFedTherapistの精度が向上し, 0.15 AUROCの改善と8.21%のMAE低下が得られた。

Psychiatrists diagnose mental disorders via the linguistic use of patients. Still, due to data privacy, existing passive mental health monitoring systems use alternative features such as activity, app usage, and location via mobile devices. We propose FedTherapist, a mobile mental health monitoring system that utilizes continuous speech and keyboard input in a privacy-preserving way via federated learning. We explore multiple model designs by comparing their performance and overhead for FedTherapist to overcome the complex nature of on-device language model training on smartphones. We further propose a Context-Aware Language Learning (CALL) methodology to effectively utilize smartphones' large and noisy text for mental health signal sensing. Our IRB-approved evaluation of the prediction of self-reported depression, stress, anxiety, and mood from 46 participants shows higher accuracy of FedTherapist compared with the performance with non-language features, achieving 0.15 AUROC improvement and 8.21% MAE reduction.
翻訳日:2023-10-26 15:12:36 公開日:2023-10-25
# 汎用ゲームのためのハイブリッドミニマックスMCTSと難易度調整

Hybrid Minimax-MCTS and Difficulty Adjustment for General Game Playing ( http://arxiv.org/abs/2310.16581v1 )

ライセンス: Link先を確認
Marco Ant\^onio Athayde de Aguiar Vieira, Anderson Rocha Tavares, Renato Perez Ribas(参考訳) ボードゲームはあらゆる年齢層にとって大きなエンターテイメント源であり、競争的で魅力的な環境を作り、学習と戦略的思考を刺激する。 ボードゲームのデジタル版では、他の種類のデジタルゲームと同様に、ゲームの難易度を選択するオプションを提供するのが一般的である。 これは通常、AIアルゴリズムの検索パラメータをカスタマイズすることで行われる。 しかし、異なるゲームは難易度ごとに異なるパラメトリゼーションを必要とするため、このアプローチを一般ゲームプレイティングエージェントに拡張することはできない。 本稿では,ゼロサムゲームにおいて難易度の高い人工知能に対して,ミニマックス-MCTSハイブリッドアルゴリズムを提案するとともに,ミニマックス探索プロセスとMCTSのGGPアスペクトを組み合わせた汎用的手法を提案する。 このアプローチは、拡張可能なボードゲームプラットフォームであるモバイルアプリケーションlobogamesでテストされ、アクセシビリティを重視した幅広いゲームカタログを持つことを目的としています。 本研究の成果は,ハイブリッドのMinimax-MCTSと新しい困難調整システムの両方が,今後の作業で拡張可能なGPアプローチを約束していることを示している。

Board games are a great source of entertainment for all ages, as they create a competitive and engaging environment, as well as stimulating learning and strategic thinking. It is common for digital versions of board games, as any other type of digital games, to offer the option to select the difficulty of the game. This is usually done by customizing the search parameters of the AI algorithm. However, this approach cannot be extended to General Game Playing agents, as different games might require different parametrization for each difficulty level. In this paper, we present a general approach to implement an artificial intelligence opponent with difficulty levels for zero-sum games, together with a propose of a Minimax-MCTS hybrid algorithm, which combines the minimax search process with GGP aspects of MCTS. This approach was tested in our mobile application LoBoGames, an extensible board games platform, that is intended to have an broad catalog of games, with an emphasis on accessibility: the platform is friendly to visually-impaired users, and is compatible with more than 92\% of Android devices. The tests in this work indicate that both the hybrid Minimax-MCTS and the new difficulty adjustment system are promising GGP approaches that could be expanded in future work.
翻訳日:2023-10-26 15:04:06 公開日:2023-10-25
# wsdms: コンテキスト化された社会的知恵による誤った文の検出を弱監督することで、偽ニュースを非難する

WSDMS: Debunk Fake News via Weakly Supervised Detection of Misinforming Sentences with Contextualized Social Wisdom ( http://arxiv.org/abs/2310.16579v1 )

ライセンス: Link先を確認
Ruichao Yang, Wei Gao, Jing Ma, Hongzhan Lin, Zhiwei Yang(参考訳) 近年では、ソーシャルメディア上でバイラルに広まり、大衆に衝撃を与えた偽情報や未確認情報(うわさ)の爆発を目撃している。 噂は、ソーシャルメディアユーザーの間で多目的で議論を呼んでいるスタンス表現を引き起こす可能性がある。 噂の検証と姿勢検出は、異なるが関連するタスクである。 フェイクニュースは、主にニュース記事の真実性を決定することに焦点を当て、フェイクニュースは真実と虚偽の両方の要素を組み合わせることが多いため、問題を単純化する。 したがって、記事中の特定の誤情報のインスタンスを特定することが重要となる。 本研究では,文章レベルの誤報を検出する偽ニュース拡散の分野における新たな課題について検討する。 このタスクの大きな課題の1つは、正確性に関する文レベルのアノテーションを備えたトレーニングデータセットがないことである。 本稿では,mil(multiple instance learning)アプローチに触発されて,wsdms(weakly supervised detection of misinforming sentences)と呼ばれるモデルを提案する。 このモデルは、トレーニングのためにバッグレベルのラベルのみを必要とするが、文レベルの誤情報と記事レベルの検証の両方を推論できる。 実世界の3つのベンチマークでWSDMSを評価し、文レベルと記事レベルの両方でフェイクニュースをデバッキングすることで、既存の最先端のベースラインを上回っていることを示す。

In recent years, we witness the explosion of false and unconfirmed information (i.e., rumors) that went viral on social media and shocked the public. Rumors can trigger versatile, mostly controversial stance expressions among social media users. Rumor verification and stance detection are different yet relevant tasks. Fake news debunking primarily focuses on determining the truthfulness of news articles, which oversimplifies the issue as fake news often combines elements of both truth and falsehood. Thus, it becomes crucial to identify specific instances of misinformation within the articles. In this research, we investigate a novel task in the field of fake news debunking, which involves detecting sentence-level misinformation. One of the major challenges in this task is the absence of a training dataset with sentence-level annotations regarding veracity. Inspired by the Multiple Instance Learning (MIL) approach, we propose a model called Weakly Supervised Detection of Misinforming Sentences (WSDMS). This model only requires bag-level labels for training but is capable of inferring both sentence-level misinformation and article-level veracity, aided by relevant social media conversations that are attentively contextualized with news sentences. We evaluate WSDMS on three real-world benchmarks and demonstrate that it outperforms existing state-of-the-art baselines in debunking fake news at both the sentence and article levels.
翻訳日:2023-10-26 15:03:46 公開日:2023-10-25
# クープマン作用素を用いた光量子系解析の高速化

Accelerating the analysis of optical quantum systems using the Koopman operator ( http://arxiv.org/abs/2310.16578v1 )

ライセンス: Link先を確認
Anna Hunstig and Sebastian Peitz and Hendrik Rose and Torsten Meier(参考訳) フォトンエコーの予測は、光量子系の理解を得るために重要な技術である。 しかし、これはパラメータや入力パルスの異なる多数のシミュレーションを必要とするため、数値研究は高価である。 本稿では、Koopman演算子に基づくデータ駆動サロゲートモデルを用いて、このプロセスを高速化する方法を検討する。 成功するためには、多数の時間ステップで正確であるモデルが必要です。 この目的のために、拡張動的モード分解を用いた双線型クープマンモデルを用いて、不均一に拡張された2レベル系のアンサンブルに対する光学ブロッホ方程式をシミュレートする。 このようなシステムは、例えば半導体量子ドットのアンサンブルのような半導体ナノ構造における励起子共鳴の励起を記述するのに適している。 我々は,データ駆動型クープマンモデルが幅広いパラメータ設定に対して十分正確であるようなシステムシミュレーションの必要回数について,詳細な研究を行う。 我々は、光子エコーピークのL2誤差と相対誤差を分析し、制御位置が安定化とどのように関係するかを調べる。 適切なトレーニングの後、量子アンサンブルのダイナミクスを精度良く数値的に予測することができる。

The prediction of photon echoes is an important technique for gaining an understanding of optical quantum systems. However, this requires a large number of simulations with varying parameters and/or input pulses, which renders numerical studies expensive. This article investigates how we can use data-driven surrogate models based on the Koopman operator to accelerate this process. In order to be successful, we require a model that is accurate over a large number of time steps. To this end, we employ a bilinear Koopman model using extended dynamic mode decomposition and simulate the optical Bloch equations for an ensemble of inhomogeneously broadened two-level systems. Such systems are well suited to describe the excitation of excitonic resonances in semiconductor nanostructures, for example, ensembles of semiconductor quantum dots. We perform a detailed study on the required number of system simulations such that the resulting data-driven Koopman model is sufficiently accurate for a wide range of parameter settings. We analyze the L2 error and the relative error of the photon echo peak and investigate how the control positions relate to the stabilization. After proper training, the dynamics of the quantum ensemble can be predicted accurately and numerically very efficiently by our methods.
翻訳日:2023-10-26 15:03:20 公開日:2023-10-25
# ノイズ入力ガウス過程回帰を用いた磁力計アレイによる磁場マッピング

Mapping the magnetic field using a magnetometer array with noisy input Gaussian process regression ( http://arxiv.org/abs/2310.16577v1 )

ライセンス: Link先を確認
Thomas Edridge and Manon Kok(参考訳) 屋内環境における強磁性材料は、周囲磁場の乱れを引き起こす。 これらの磁気外乱の地図は屋内の局所化に使用できる。 ガウス過程を用いて、磁力計の測定と磁力計の位置に関する情報を用いて、空間的に変化する磁場の大きさを学習することができる。 しかし、磁力計の位置は、ほとんど知られていないことが多い。 これは磁場マップの品質に悪影響を及ぼす。 本稿では,磁界マップの品質向上のために,磁力計のアレイをどのように利用できるかを検討する。 アレイの位置は概ね知られているが、アレイ上の磁力計の相対位置は知られている。 我々は、この情報を環境磁場の地図を作成するための新しい手法に含めている。 シミュレーションにおける本手法の特性について検討し,本手法が地図の品質を向上させることを示す。 また,30個の磁気センサアレイを用いた磁場マッピングのための実験データを用いて,本手法の有効性を実証した。

Ferromagnetic materials in indoor environments give rise to disturbances in the ambient magnetic field. Maps of these magnetic disturbances can be used for indoor localisation. A Gaussian process can be used to learn the spatially varying magnitude of the magnetic field using magnetometer measurements and information about the position of the magnetometer. The position of the magnetometer, however, is frequently only approximately known. This negatively affects the quality of the magnetic field map. In this paper, we investigate how an array of magnetometers can be used to improve the quality of the magnetic field map. The position of the array is approximately known, but the relative locations of the magnetometers on the array are known. We include this information in a novel method to make a map of the ambient magnetic field. We study the properties of our method in simulation and show that our method improves the map quality. We also demonstrate the efficacy of our method with experimental data for the mapping of the magnetic field using an array of 30 magnetometers.
翻訳日:2023-10-26 15:03:01 公開日:2023-10-25
# 1次元における位相的非自明な3体接触相互作用

Topologically Nontrivial Three-Body Contact Interaction in One Dimension ( http://arxiv.org/abs/2310.16576v1 )

ライセンス: Link先を確認
Satoshi Ohya(参考訳) 非同一粒子の1次元 $n(\geq3) における三次元接触相互作用は位相的に非自明であり、それらはすべて純双対群 $pt_{n}$ のユニタリ既約表現によって分類される。 しかし、そのような相互作用がハミルトニアン形式主義でどのように記述されているかは不明である。 本稿では,経路積分の観点からトポロジカルに非自明な3体接触相互作用を考察する。 スピンレス粒子に着目して、$n(n-1)(n-2)/3! 1 次元ユニタリ表現 $pt_{n}$ に対応する n 体のハミルトニアンの $パラメータ族。 これらのハミルトニアンは、n$-ボディー構成空間における無限に薄い磁束を記述する背景アーベルゲージ場によって記述される。

It is known that three-body contact interactions in one-dimensional $n(\geq3)$-body problems of nonidentical particles can be topologically nontrivial: they are all classified by unitary irreducible representations of the pure twin group $PT_{n}$. It was, however, unknown how such interactions are described in the Hamiltonian formalism. In this paper, we study topologically nontrivial three-body contact interactions from the viewpoint of path integral. Focusing on spinless particles, we construct an $n(n-1)(n-2)/3!$-parameter family of $n$-body Hamiltonians that corresponds to one particular one-dimensional unitary representation of $PT_{n}$. These Hamiltonians are written in terms of background Abelian gauge fields that describe infinitely-thin magnetic fluxes in the $n$-body configuration space.
翻訳日:2023-10-26 15:02:48 公開日:2023-10-25
# ガウス過程回帰のための構造化カーネル補間を用いた大規模磁場マップ

Large-scale magnetic field maps using structured kernel interpolation for Gaussian process regression ( http://arxiv.org/abs/2310.16574v1 )

ライセンス: Link先を確認
Clara Menzen and Marnix Fetter and Manon Kok(参考訳) 近似ガウス過程(gp)回帰を用いた屋内環境における大規模磁場マップ計算のためのマッピングアルゴリズムを提案する。 環境磁場の空間変化のマッピングは、屋内領域における局所化アルゴリズムに使用できる。 そのような写像を計算するために、GP回帰は不確実な定量化とともに新しい場所での磁場の予測を提供するため、適切なツールである。 完全なGP回帰は、データポイントの数とともに立方的に増加する複雑さを持つため、GPの近似は広く研究されている。 本稿では,効率的なKrylov部分空間法を用いた推論を高速化する,構造化カーネル補間(SKI)フレームワークを構築した。 具体的には、SKIと導関数(D-SKI)を磁場モデリングのためのスカラーポテンシャルモデルに組み込み、データポイントに線形な複雑性を伴う予測平均と共分散を計算する。 シミュレーションでは, 拡大するマッピング領域を持つ磁場マップにおいて, 最先端の手法よりも精度が向上することを示す。 大規模な実験では、標準のラップトップ上で2分以内で最大40000個の3次元磁界計測から磁場マップを構築した。

We present a mapping algorithm to compute large-scale magnetic field maps in indoor environments with approximate Gaussian process (GP) regression. Mapping the spatial variations in the ambient magnetic field can be used for localization algorithms in indoor areas. To compute such a map, GP regression is a suitable tool because it provides predictions of the magnetic field at new locations along with uncertainty quantification. Because full GP regression has a complexity that grows cubically with the number of data points, approximations for GPs have been extensively studied. In this paper, we build on the structured kernel interpolation (SKI) framework, speeding up inference by exploiting efficient Krylov subspace methods. More specifically, we incorporate SKI with derivatives (D-SKI) into the scalar potential model for magnetic field modeling and compute both predictive mean and covariance with a complexity that is linear in the data points. In our simulations, we show that our method achieves better accuracy than current state-of-the-art methods on magnetic field maps with a growing mapping area. In our large-scale experiments, we construct magnetic field maps from up to 40000 three-dimensional magnetic field measurements in less than two minutes on a standard laptop.
翻訳日:2023-10-26 15:02:34 公開日:2023-10-25
# Adapt Anything:テキストと画像の拡散モデルを用いて、ドメインとカテゴリをまたいだ任意の画像分類を行う

Adapt Anything: Tailor Any Image Classifiers across Domains And Categories Using Text-to-Image Diffusion Models ( http://arxiv.org/abs/2310.16573v1 )

ライセンス: Link先を確認
Weijie Chen, Haoyu Wang, Shicai Yang, Lei Zhang, Wei Wei, Yanning Zhang, Luojun Lin, Di Xie, Yueting Zhuang(参考訳) 本論文は,新しい手法を追求するものではないが,現代のテキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的としている。 既存のドメイン適応画像分類は、ラベル付きソースデータから学んだ知識をラベルなしのターゲットデータに転送するために、ソースデータとターゲットデータの両方を利用する。 しかし,テキストから画像への拡散モデルが発達するにつれて,テキストから画像への高忠実度合成データが実世界のソースデータのサロゲートとして機能するか疑問である。 このようにして、各ドメイン適応タスクのソースデータを1対1で収集してアノテートする必要はありません。 その代わりに、1つのオフ・ザ・シェルフテキスト・トゥ・イメージモデルのみを使用して、対応するテキストプロンプトから派生したカテゴリラベルで画像を合成し、サロゲートデータをブリッジとして利用し、タスクに依存しないテキスト・トゥ・イメージジェネレータに埋め込まれた知識をドメイン適応を介してタスク指向画像分類器に転送する。 このような1対1の適応パラダイムによって、1つのテキストから画像へのジェネレータと対応するラベルなしのターゲットデータを使って、世界中のあらゆるものに適応することができます。 実世界で収集・注釈付けされたソースデータを用いて、最先端のドメイン適応作業を超越した提案されたアイデアの実現可能性を検証する。

We do not pursue a novel method in this paper, but aim to study if a modern text-to-image diffusion model can tailor any task-adaptive image classifier across domains and categories. Existing domain adaptive image classification works exploit both source and target data for domain alignment so as to transfer the knowledge learned from the labeled source data to the unlabeled target data. However, as the development of the text-to-image diffusion model, we wonder if the high-fidelity synthetic data from the text-to-image generator can serve as a surrogate of the source data in real world. In this way, we do not need to collect and annotate the source data for each domain adaptation task in a one-for-one manner. Instead, we utilize only one off-the-shelf text-to-image model to synthesize images with category labels derived from the corresponding text prompts, and then leverage the surrogate data as a bridge to transfer the knowledge embedded in the task-agnostic text-to-image generator to the task-oriented image classifier via domain adaptation. Such a one-for-all adaptation paradigm allows us to adapt anything in the world using only one text-to-image generator as well as the corresponding unlabeled target data. Extensive experiments validate the feasibility of the proposed idea, which even surpasses the state-of-the-art domain adaptation works using the source data collected and annotated in real world.
翻訳日:2023-10-26 15:02:15 公開日:2023-10-25
# 事実を教えてくれ! 事前学習型言語モデルにおけるFactual Knowledge Probingの検討

Give Me the Facts! A Survey on Factual Knowledge Probing in Pre-trained Language Models ( http://arxiv.org/abs/2310.16570v1 )

ライセンス: Link先を確認
Paul Youssef, Osman Alperen Kora\c{s}, Meijie Li, J\"org Schl\"otterer, Christin Seifert(参考訳) 事前訓練された言語モデル(PLM)は、世界知識に富んだ膨大なラベルのないデータに基づいて訓練されている。 この事実は、下流のタスクにおけるパフォーマンスを説明し、知識ベースとしての使用を正当化するため、PLMに存在する事実知識の量を定量化するコミュニティの関心を喚起した。 本研究では,事実知識のためのplmを探索する手法とデータセットを調査した。 本研究は,(1) 事実探索手法の分類手法を提案し,その入力,出力,探索されたPLMの適応方法,(2) 事実探索に使用されるデータセットの概要,(3) 知識保持とPLMの迅速な最適化に関する知見を整理し, PLMを知識ベースとして採用するための障害を分析し,今後の作業の方向性を概説する。

Pre-trained Language Models (PLMs) are trained on vast unlabeled data, rich in world knowledge. This fact has sparked the interest of the community in quantifying the amount of factual knowledge present in PLMs, as this explains their performance on downstream tasks, and potentially justifies their use as knowledge bases. In this work, we survey methods and datasets that are used to probe PLMs for factual knowledge. Our contributions are: (1) We propose a categorization scheme for factual probing methods that is based on how their inputs, outputs and the probed PLMs are adapted; (2) We provide an overview of the datasets used for factual probing; (3) We synthesize insights about knowledge retention and prompt optimization in PLMs, analyze obstacles to adopting PLMs as knowledge bases and outline directions for future work.
翻訳日:2023-10-26 15:01:46 公開日:2023-10-25
# フローアテンションに基づく3次元マスク検出のための時空間アグリゲーションネットワーク

Flow-Attention-based Spatio-Temporal Aggregation Network for 3D Mask Detection ( http://arxiv.org/abs/2310.16569v1 )

ライセンス: Link先を確認
Yuxin Cao, Yian Li, Yumeng Zhu, Derui Wang, Minhui Xue(参考訳) スプーフィング検出は、スプーフィング攻撃によるセキュリティ上の脅威のために、顔認識システムにとって必須となっている。 従来の攻撃では大きな成功を収めたものの、ほとんどのディープラーニングベースの手法は3dマスクではパフォーマンスが悪く、外観や構造の実際の顔を高度にシミュレートでき、単一のフレーム入力で空間領域のみに焦点を合わせながら、汎用性に欠ける。 これは最近のrppg(remote photoplethysmography)と呼ばれるバイオメディカル技術の導入によって緩和された。 しかし、rPPGに基づく手法はノイズの多い干渉に敏感であり、観測時間の少なくとも1秒 (>25 フレーム) を必要とするため、高い計算オーバーヘッドが生じる。 これらの課題に対処するため,FASTEN(Flow-Atttention-based Spatio-Temporal aggrEgation Network)と呼ばれる新しい3次元マスク検出フレームワークを提案する。 これにより、余分な時空間的特徴干渉を排除し、3Dマスクのスプライシングトレースを少ないフレームで素早く捕捉することができる。 提案するネットワークには3つの重要なモジュールがある。 1) 非rgbフレーム間フロー情報を取得するための顔光フローネットワーク 2) 各フレームに異なる意味を付与する流れの注意 3) 高次空間特徴と時間遷移特徴を集約する時空間アグリゲーション。 広範な実験を通じて、FASTENは入力の5フレームしか必要とせず、複数の検出基準でデータセット内およびデータセット間の評価において8つの競合よりも優れている。 さらに、FASTENは実際の3Dマスク検出のために現実世界のモバイルデバイスにデプロイされている。

Anti-spoofing detection has become a necessity for face recognition systems due to the security threat posed by spoofing attacks. Despite great success in traditional attacks, most deep-learning-based methods perform poorly in 3D masks, which can highly simulate real faces in appearance and structure, suffering generalizability insufficiency while focusing only on the spatial domain with single frame input. This has been mitigated by the recent introduction of a biomedical technology called rPPG (remote photoplethysmography). However, rPPG-based methods are sensitive to noisy interference and require at least one second (> 25 frames) of observation time, which induces high computational overhead. To address these challenges, we propose a novel 3D mask detection framework, called FASTEN (Flow-Attention-based Spatio-Temporal aggrEgation Network). We tailor the network for focusing more on fine-grained details in large movements, which can eliminate redundant spatio-temporal feature interference and quickly capture splicing traces of 3D masks in fewer frames. Our proposed network contains three key modules: 1) a facial optical flow network to obtain non-RGB inter-frame flow information; 2) flow attention to assign different significance to each frame; 3) spatio-temporal aggregation to aggregate high-level spatial features and temporal transition features. Through extensive experiments, FASTEN only requires five frames of input and outperforms eight competitors for both intra-dataset and cross-dataset evaluations in terms of multiple detection metrics. Moreover, FASTEN has been deployed in real-world mobile devices for practical 3D mask detection.
翻訳日:2023-10-26 15:01:30 公開日:2023-10-25
# 1-PAGER:1パスアンサー生成とエビデンス検索

1-PAGER: One Pass Answer Generation and Evidence Retrieval ( http://arxiv.org/abs/2310.16568v1 )

ライセンス: Link先を確認
Palak Jain, Livio Baldini Soares, Tom Kwiatkowski(参考訳) 1-Pagerは,1つのトランスフォーマーモデルとデコードプロセスを用いて,質問に答え,証拠を検索する最初のシステムである。 1-Pagerは文書と回答文字列を選択するために制約付き復号法を用いて検索コーパスを段階的に分割する。 1-pagerはまた、エビデンスコーパスで予測をグルーピングすることで、同等のクローズドブック質問応答モデルを上回る。 1-Pagerはまだ、回答を生成する前にもっと多くの文書を読み込むような高価なシステムには適していないが、現在NLPで支配的なシーケンス・ツー・シーケンス・パラダイムに検索を折り畳み込むことによって、属性生成への重要な一歩であると主張している。 また,コーパスの分割に使用する探索経路は読みやすく,理解しやすく,解釈可能なニューラル検索の道を開くことも示している。

We present 1-Pager the first system that answers a question and retrieves evidence using a single Transformer-based model and decoding process. 1-Pager incrementally partitions the retrieval corpus using constrained decoding to select a document and answer string, and we show that this is competitive with comparable retrieve-and-read alternatives according to both retrieval and answer accuracy metrics. 1-Pager also outperforms the equivalent closed-book question answering model, by grounding predictions in an evidence corpus. While 1-Pager is not yet on-par with more expensive systems that read many more documents before generating an answer, we argue that it provides an important step toward attributed generation by folding retrieval into the sequence-to-sequence paradigm that is currently dominant in NLP. We also show that the search paths used to partition the corpus are easy to read and understand, paving a way forward for interpretable neural retrieval.
翻訳日:2023-10-26 15:01:01 公開日:2023-10-25
# 独立意味試験の併用による中心的及び辺縁的拒絶のバランス

Balancing central and marginal rejection when combining independent significance tests ( http://arxiv.org/abs/2310.16600v1 )

ライセンス: Link先を確認
Chris Salahub and R. Wayne Oldford(参考訳) p$-valuesのコレクションの重要性を評価する一般的なアプローチは、プール関数、特に元のデータが利用できない場合にそれらを組み合わせる。 これらのプールされた$p$-valuesは、$p$-valueのサンプルを1つの数値に変換し、不必要な$p$-valueのように振る舞う。 これらの関数の議論を明らかにするために、一般のプーリング式に先立つ$p$-values における非null証拠の強さと頻度を伝達するテレスコップ系列の代替仮説が導入された。 特定の代替品に対する$p$-valueをプールしたUMPのパターンは、中央および辺縁の拒絶レベルの定義と議論を$\alpha$で動機付けている。 中心的拒絶は常に限界的拒絶よりも大きいか等しいことが証明され、プールされた$p$-valuesの2つのバランスを測定するための商を動機付ける。 この商を制御するために$\chi^2_{\kappa}$ Quantile変換に基づく合成関数が提案され、UMPに対して不特定パラメータに対して堅牢であることが示されている。 異なるパラメータ設定の異なるパワーは、このプールされた$p$-valueが最小化された場所に基づいて、妥当な代替のマップを動機付ける。

A common approach to evaluating the significance of a collection of $p$-values combines them with a pooling function, in particular when the original data are not available. These pooled $p$-values convert a sample of $p$-values into a single number which behaves like a univariate $p$-value. To clarify discussion of these functions, a telescoping series of alternative hypotheses are introduced that communicate the strength and prevalence of non-null evidence in the $p$-values before general pooling formulae are discussed. A pattern noticed in the UMP pooled $p$-value for a particular alternative motivates the definition and discussion of central and marginal rejection levels at $\alpha$. It is proven that central rejection is always greater than or equal to marginal rejection, motivating a quotient to measure the balance between the two for pooled $p$-values. A combining function based on the $\chi^2_{\kappa}$ quantile transformation is proposed to control this quotient and shown to be robust to mis-specified parameters relative to the UMP. Different powers for different parameter settings motivate a map of plausible alternatives based on where this pooled $p$-value is minimized.
翻訳日:2023-10-26 14:55:42 公開日:2023-10-25
# 光子凝縮体における時間的コヒーレンスの破壊

Breakdown of Temporal Coherence in Photon Condensates ( http://arxiv.org/abs/2310.16598v1 )

ライセンス: Link先を確認
Yijun Tang, Himadri Shekhar Dhar, Rupert F. Oulton, Robert A. Nyman, Florian Mintert(参考訳) 理想的なボース気体の時間的コヒーレンスは、システムがボース・アインシュタイン凝縮しきい値に近づくにつれて増加し、臨界点においてコヒーレンス時間が変化する。 しかし, 粒子数がしきい値を超えるとコヒーレンス時間が急速に減少する外部励起染料充填マイクロキャビティ中の光子の凝縮について, 逆例が観察されている。 本稿では, 臨界ポンプパワーを超えるコヒーレンス時間の劇的減少を実験的に観察する中心的な説明として, 中間相関性を確立する。

The temporal coherence of an ideal Bose gas increases as the system approaches the Bose-Einstein condensation threshold from below, with coherence time diverging at the critical point. However, counter-examples have been observed for condensates of photons formed in an externally pumped, dye-filled microcavity, wherein the coherence time decreases rapidly for increasing particle number above threshold. This paper establishes intermode correlations as the central explanation for the experimentally observed dramatic decrease in the coherence time beyond critical pump power.
翻訳日:2023-10-26 14:55:20 公開日:2023-10-25
# IIDウェイトを超えて:スパースと低ランクのディープニューラルネットワークもガウス的プロセスである

Beyond IID weights: sparse and low-rank deep Neural Networks are also Gaussian Processes ( http://arxiv.org/abs/2310.16597v1 )

ライセンス: Link先を確認
Thiziri Nait-Saada, Alireza Naderi, Jared Tanner(参考訳) 無限に広いニューラルネットワークは、ディープラーニングに現れる多くの現象の理解を可能にする、有用で管理可能な数学的モデルであることが証明されている。 例えば、ランダムディープネットワークをガウス過程に収束させることで、活性化関数とネットワークウェイトの選択がトレーニング力学に与える影響を厳密に分析することができる。 本稿では, Matthews et al. (2018) の初歩的な証明を, IID や直交重みの確立した事例を含むより大規模な初期重量分布(PSEUDO-IID と呼ぶ)に拡張するとともに, 計算速度の向上をめざす低ランクで構造化されたスパース設定を新たに導入する。 また,PSEUDO-IID分布に初期化される完全連結・畳み込みネットワークは,その分散にほぼ等価であることを示す。 この結果を用いて,より広い階層のニューラルネットワークのエッジ・オブ・カオスを識別し,そのトレーニングを強化するために臨界度でチューニングすることができる。

The infinitely wide neural network has been proven a useful and manageable mathematical model that enables the understanding of many phenomena appearing in deep learning. One example is the convergence of random deep networks to Gaussian processes that allows a rigorous analysis of the way the choice of activation function and network weights impacts the training dynamics. In this paper, we extend the seminal proof of Matthews et al. (2018) to a larger class of initial weight distributions (which we call PSEUDO-IID), including the established cases of IID and orthogonal weights, as well as the emerging low-rank and structured sparse settings celebrated for their computational speed-up benefits. We show that fully-connected and convolutional networks initialized with PSEUDO-IID distributions are all effectively equivalent up to their variance. Using our results, one can identify the Edge-of-Chaos for a broader class of neural networks and tune them at criticality in order to enhance their training.
翻訳日:2023-10-26 14:55:10 公開日:2023-10-25
# オーバーエアフェデレーション政策のグラディエント

Over-the-air Federated Policy Gradient ( http://arxiv.org/abs/2310.16592v1 )

ライセンス: Link先を確認
Huiwen Yang, Lingying Huang, Subhrakanti Dey, Ling Shi(参考訳) 近年,大規模分散学習,最適化,センシングにおいて,空中アグリゲーションが広く検討されている。 本稿では,ローカル情報を含むアナログ信号を共通無線チャネルに同時に送信するオーバー・ザ・エア・フェデレーション・ポリシー勾配アルゴリズムを提案し,中央制御器は受信した集約波形を用いてポリシーパラメータを更新する。 本研究では,提案アルゴリズムの収束に及ぼす雑音とチャネル歪みの影響について検討し,$\epsilon$-approximate stationary pointを求めるための通信とサンプリングの複雑さを確立する。 最後に,本アルゴリズムの有効性を示すシミュレーション結果を示す。

In recent years, over-the-air aggregation has been widely considered in large-scale distributed learning, optimization, and sensing. In this paper, we propose the over-the-air federated policy gradient algorithm, where all agents simultaneously broadcast an analog signal carrying local information to a common wireless channel, and a central controller uses the received aggregated waveform to update the policy parameters. We investigate the effect of noise and channel distortion on the convergence of the proposed algorithm, and establish the complexities of communication and sampling for finding an $\epsilon$-approximate stationary point. Finally, we present some simulation results to show the effectiveness of the algorithm.
翻訳日:2023-10-26 14:54:49 公開日:2023-10-25
# $\mathbb{vd}$-$\mathbb{gr}$:$\mathbb{v}$isual$\mathbb{d}$ialogをカスケードした空間-時空間マルチモーダル$\mathbb{gr}$aphs

$\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual $\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$aphs ( http://arxiv.org/abs/2310.16590v1 )

ライセンス: Link先を確認
Adnen Abdessaied, Lei Shi, Andreas Bulling(参考訳) 本稿では,事前学習言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせた新しい視覚対話モデルである$\mathbb{VD}$-$\mathbb{GR}$を提案する。 以前の作品は、主に他のモデルの犠牲にしながら、あるクラスのモデルに焦点を当てていたため、それぞれの利点を組み合わせる機会を欠いていた。 in the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that alternates between spatial-temporal multi-modal GNNs and BERT which cover that includes three different contributions: first, we use multi-modal GNNs to process the features of each modality (image, question, and dialog history) and exploit their local structure before performing BERT global attention。 第2に、1つのモダリティグラフ内の他のすべてのノードにリンクするハブノードを提案し、モデルが1つのGNN(モダリティ)から他のノードにケースド方式で情報を伝達できるようにする。 第3に、BERTの隠された状態を細粒度のマルチモーダルGNN機能で拡張し、次に$\mathbb{VD}$-$\mathbb{GR}$レイヤに渡す。 VisDial v1.0, VisDial v0.9, VisDialConv, VisPro の評価によれば、$\mathbb{VD}$-$\mathbb{GR}$ は4つのデータセットにまたがって新しい最先端の結果を達成する。

We propose $\mathbb{VD}$-$\mathbb{GR}$ - a novel visual dialog model that combines pre-trained language models (LMs) with graph neural networks (GNNs). Prior works mainly focused on one class of models at the expense of the other, thus missing out on the opportunity of combining their respective benefits. At the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that alternates between spatial-temporal multi-modal GNNs and BERT layers, and that covers three distinct contributions: First, we use multi-modal GNNs to process the features of each modality (image, question, and dialog history) and exploit their local structures before performing BERT global attention. Second, we propose hub-nodes that link to all other nodes within one modality graph, allowing the model to propagate information from one GNN (modality) to the other in a cascaded manner. Third, we augment the BERT hidden states with fine-grained multi-modal GNN features before passing them to the next $\mathbb{VD}$-$\mathbb{GR}$ layer. Evaluations on VisDial v1.0, VisDial v0.9, VisDialConv, and VisPro show that $\mathbb{VD}$-$\mathbb{GR}$ achieves new state-of-the-art results across all four datasets.
翻訳日:2023-10-26 14:54:35 公開日:2023-10-25
# ささやきギャラリー共振器からの偏光エンタングル光子

Polarization-entangled photons from a whispering gallery resonator ( http://arxiv.org/abs/2310.16589v1 )

ライセンス: Link先を確認
Sheng-Hsuan Huang, Thomas Dirmeier, Golnoush Shafiee, Kaisa Laiho, Dmitry V. Strekalov, Gerd Leuchs, and Christoph Marquardt(参考訳) WGMR(Crystalline Whispering Gallery Mode Resonators)は、原子系と効率的に相互作用できる量子状態の汎用的な源となることが示されている。 これらの機能は、WGMRを量子情報処理の効率的なプラットフォームにする。 本稿では, 干渉法を用いてWGMRから偏光絡みを発生できることを実験的に示す。 本手法は,干渉計の相対位相を変化させることで生成した絡み合い状態の位相を制御する柔軟性を与える。 Clauser-Horne-Shimony-Holtの不等式(英語版)のS値は$2.45 \pm 0.07$であり、6以上の標準偏差で不等式に反する。

Crystalline Whispering Gallery Mode Resonators (WGMRs) have been shown to facilitate versatile sources of quantum states that can efficiently interact with atomic systems. These features make WGMRs an efficient platform for quantum information processing. Here, we experimentally show that it is possible to generate polarization entanglement from WGMRs by using an interferometric scheme. Our scheme gives us the flexibility to control the phase of the generated entangled state by changing the relative phase of the interferometer. The S value of the Clauser-Horne-Shimony-Holt's inequality in the system is $2.45 \pm 0.07$, which violates the inequality by more than 6 standard deviations.
翻訳日:2023-10-26 14:53:58 公開日:2023-10-25
# シリコンマイクロリングとWDMを組み合わせたマルチ並列タスク時遅延貯留層計算

Multi-parallel-task Time-delay Reservoir Computing combining a Silicon Microring with WDM ( http://arxiv.org/abs/2310.16588v1 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar and Francesco Da Ros(参考訳) 時系列予測,分類,無線チャネル等化を含む3つのタスクを同時に解決するマイクロリングベースの時間遅延貯水池計算方式を数値的に示す。 波長多重チャネル上で実行される各タスクは、最適化されたパワーと周波数デチューニングで最先端の性能を達成する。

We numerically demonstrate a microring-based time-delay reservoir computing scheme that simultaneously solves three tasks involving time-series prediction, classification, and wireless channel equalization. Each task performed on a wavelength-multiplexed channel achieves state-of-the-art performance with optimized power and frequency detuning.
翻訳日:2023-10-26 14:53:43 公開日:2023-10-25
# 潜在表現の高次元テストによる適応不確かさ推定

Adaptive Uncertainty Estimation via High-Dimensional Testing on Latent Representations ( http://arxiv.org/abs/2310.16587v1 )

ライセンス: Link先を確認
Tsai Hor Chan, Kin Wai Lau, Jiajun Shen, Guosheng Yin, Lequan Yu(参考訳) 不確実性推定は、訓練されたディープニューラルネットワークの信頼性を評価することを目的としている。 しかし、既存の不確実性推定手法は低次元分布仮定に依存しており、従って潜在特徴の高次元性に悩まされる。 既存のアプローチでは、離散的な分類確率に対する不確実性に焦点をあてる傾向があるため、他のタスクに対する不確実性推定の一般化性が低くなる。 さらに、ほとんどの文献では、OODデータが通常見えないため、不確実性の推定性能を抑えるため、トレーニング中のアウト・オブ・ディストリビューション(OOD)データを見る必要がある。 これらの限界を克服するために,不確実性推定のためのデータ適応型高次元仮説検定を用いた新しい枠組みを提案する。 提案手法は遅延表現を直接操作するので,修正された目的の下で特徴エンコーダを再訓練する必要がなくなる。 テスト統計学は特徴分布の仮定を高次元に緩和し、潜在表現における不確かさをより識別する。 我々は,ベイズ型ニューラルネットワークを用いた符号化機能がテスト性能を向上し,より正確な不確実性推定につながることを実証する。 さらに,誤検出率(FDR)を最小化するOOD検出の最適しきい値を決定するために,家族的な検査手順を導入する。 各種競争相手に対する不確実性推定とタスク固有予測におけるフレームワークの良好な性能を検証する。 OOD検出タスクの実験は、OODデータがトレーニング中に見えない場合にも、本手法の良好な性能を示す。 コードはhttps://github.com/HKU-MedAI/bnn_uncertaintyで公開されている。

Uncertainty estimation aims to evaluate the confidence of a trained deep neural network. However, existing uncertainty estimation approaches rely on low-dimensional distributional assumptions and thus suffer from the high dimensionality of latent features. Existing approaches tend to focus on uncertainty on discrete classification probabilities, which leads to poor generalizability to uncertainty estimation for other tasks. Moreover, most of the literature requires seeing the out-of-distribution (OOD) data in the training for better estimation of uncertainty, which limits the uncertainty estimation performance in practice because the OOD data are typically unseen. To overcome these limitations, we propose a new framework using data-adaptive high-dimensional hypothesis testing for uncertainty estimation, which leverages the statistical properties of the feature representations. Our method directly operates on latent representations and thus does not require retraining the feature encoder under a modified objective. The test statistic relaxes the feature distribution assumptions to high dimensionality, and it is more discriminative to uncertainties in the latent representations. We demonstrate that encoding features with Bayesian neural networks can enhance testing performance and lead to more accurate uncertainty estimation. We further introduce a family-wise testing procedure to determine the optimal threshold of OOD detection, which minimizes the false discovery rate (FDR). Extensive experiments validate the satisfactory performance of our framework on uncertainty estimation and task-specific prediction over a variety of competitors. The experiments on the OOD detection task also show satisfactory performance of our method when the OOD data are unseen in the training. Codes are available at https://github.com/HKU-MedAI/bnn_uncertainty.
翻訳日:2023-10-26 14:53:32 公開日:2023-10-25
# 説明を学ぶ:ブラックボックスモデルを説明するモデル非依存フレームワーク

Learning to Explain: A Model-Agnostic Framework for Explaining Black Box Models ( http://arxiv.org/abs/2310.16584v1 )

ライセンス: Link先を確認
Oren Barkan, Yuval Asher, Amit Eshel, Yehonatan Elisha, Noam Koenigstein(参考訳) 本稿では、視覚モデルに対するポストホックな説明を提供するために設計されたモデルに依存しないフレームワークであるLearning to Explain(LTX)を紹介する。 LTXフレームワークは、説明マップを生成する"説明者"モデルを導入し、説明されているモデルの予測を正当化する重要な領域を強調している。 説明者の訓練には,初期事前学習とインテンス毎の微調整からなる2段階のプロセスを用いる。 学習の両段階において,マスキング入力に対するモデルの予測と,マスクされていない入力に対する元の予測を比較したユニークな構成を用いる。 このアプローチは,入力画像のマスクバージョンを用いたモデル出力の予測を目的とした,新たな対物目的の利用を可能にする。 重要なことに、ltxフレームワークは特定のモデルアーキテクチャに限定されず、トランスフォーマベースと畳み込みモデルの両方に説明を提供することができる。 評価の結果、LTXは様々な指標において、現在の最先端の説明可能性を大幅に上回っていることがわかった。

We present Learning to Explain (LTX), a model-agnostic framework designed for providing post-hoc explanations for vision models. The LTX framework introduces an "explainer" model that generates explanation maps, highlighting the crucial regions that justify the predictions made by the model being explained. To train the explainer, we employ a two-stage process consisting of initial pretraining followed by per-instance finetuning. During both stages of training, we utilize a unique configuration where we compare the explained model's prediction for a masked input with its original prediction for the unmasked input. This approach enables the use of a novel counterfactual objective, which aims to anticipate the model's output using masked versions of the input image. Importantly, the LTX framework is not restricted to a specific model architecture and can provide explanations for both Transformer-based and convolutional models. Through our evaluations, we demonstrate that LTX significantly outperforms the current state-of-the-art in explainability across various metrics.
翻訳日:2023-10-26 14:52:48 公開日:2023-10-25
# 教師なしパーソナライズドレキシコンによる大規模言語モデルにおけるパーソナリティ特性の評価

Tailoring Personality Traits in Large Language Models via Unsupervisedly-Built Personalized Lexicons ( http://arxiv.org/abs/2310.16582v1 )

ライセンス: Link先を確認
Tianlong Li, Xiaoqing Zheng and Xuanjing Huang(参考訳) パーソナリティは、人間の表現パターンを形成する上で重要な役割を担い、大きな言語モデル(LLM)にパーソナリティ特性を付与し、操作することは、LLMのユーザエクスペリエンスを高める上で大きな可能性を秘めている。 しかし、従来のアプローチでは、パーソナライズされた表現に富んだコーパスの微調整 LLM に依存するか、パーソナライズされた応答を生成するために LLM を誘導するプロンプトの手作業が必要であった。 前者のアプローチでは十分なトレーニングサンプルの収集に十分な時間とリソースを必要とする一方で、後者では、パーソナリティ特性をきめ細かいレベルで正確に操作できない可能性がある(例えば、オープンネスを減らしながら高い満足度を達成するなど)。 本研究では,LLM内の人格特性を調整するための新しいアプローチを導入し,開放性,良心性,外向性,同意性,神経症などの5つの要素の組み合わせをプラガブルな方法で組み込むことを可能にした。 これは、復号フェーズ中に元のLLMによって予測される次のトークンの確率を調整するために使用されるUnsupervisedly-Built Personalized Lexicons (UBPL) を用いて達成される。 この調整は、生成したテキストの自然性を保ちながら、パーソナライズされた語彙に存在する単語を生成することをモデルに促す。 広汎な実験により, LLMの性格特性を微調整する手法の有効性が示された。 さらに,パラメータの更新を必要とせずに,他のLSMにシームレスに統合することができる。

Personality plays a pivotal role in shaping human expression patterns, and empowering and manipulating large language models (LLMs) with personality traits holds significant promise in enhancing the user experience of LLMs. However, prior approaches either rely on fine-tuning LLMs on a corpus enriched with personalized expressions or necessitate the manual crafting of prompts to induce LLMs to produce personalized responses. The former approaches demand substantial time and resources for collecting sufficient training examples while the latter might fail in enabling the precise manipulation of the personality traits at a fine-grained level (e.g., achieving high agreeableness while reducing openness). In this study, we introduce a novel approach for tailoring personality traits within LLMs, allowing for the incorporation of any combination of the Big Five factors (i.e., openness, conscientiousness, extraversion, agreeableness, and neuroticism) in a pluggable manner. This is achieved by employing a set of Unsupervisedly-Built Personalized Lexicons (UBPL) that are utilized to adjust the probability of the next token predicted by the original LLMs during the decoding phase. This adjustment encourages the models to generate words present in the personalized lexicons while preserving the naturalness of the generated texts. Extensive experimentation demonstrates the effectiveness of our approach in finely manipulating LLMs' personality traits. Furthermore, our method can be seamlessly integrated into other LLMs without necessitating updates to their parameters.
翻訳日:2023-10-26 14:52:24 公開日:2023-10-25
# SpikingJelly:スパイクベースのインテリジェンスのためのオープンソースの機械学習基盤

SpikingJelly: An open-source machine learning infrastructure platform for spike-based intelligence ( http://arxiv.org/abs/2310.16620v1 )

ライセンス: Link先を確認
Wei Fang, Yanqi Chen, Jianhao Ding, Zhaofei Yu, Timoth\'ee Masquelier, Ding Chen, Liwei Huang, Huihui Zhou, Guoqi Li, Yonghong Tian(参考訳) spiking neural networks (snns) は、神経動力学とスパイク特性を導入することで、高エネルギー効率のニューロモルフィックチップの脳にインスパイアされた知性を実現することを目的としている。 新興のスパイク深層学習パラダイムへの関心が高まる中、従来のプログラミングフレームワークは、自動微分、並列計算の高速化、ニューロモルフィックデータセットの処理とデプロイメントの高度な統合といった要求を満たすことができない。 本稿では、前述のジレンマに対処するためのSpkingJellyフレームワークを提案する。 我々は、ニューロモルフィックデータセットの事前処理、深層SNNの構築、パラメータの最適化、ニューロモルフィックチップへのSNNのデプロイのためのフルスタックツールキットに貢献する。 既存の方法と比較して、ディープSNNのトレーニングは11\times$で加速でき、SpykingJellyの優れた拡張性と柔軟性により、ユーザはマルチレベルの継承と半自動コード生成を通じて、低コストでカスタムモデルをアクセラレーションできる。 SpikingJellyは、真にエネルギー効率の良いSNNベースのマシンインテリジェンスシステムを合成する方法を開拓し、ニューロモルフィックコンピューティングのエコロジーを豊かにする。

Spiking neural networks (SNNs) aim to realize brain-inspired intelligence on neuromorphic chips with high energy efficiency by introducing neural dynamics and spike properties. As the emerging spiking deep learning paradigm attracts increasing interest, traditional programming frameworks cannot meet the demands of the automatic differentiation, parallel computation acceleration, and high integration of processing neuromorphic datasets and deployment. In this work, we present the SpikingJelly framework to address the aforementioned dilemma. We contribute a full-stack toolkit for pre-processing neuromorphic datasets, building deep SNNs, optimizing their parameters, and deploying SNNs on neuromorphic chips. Compared to existing methods, the training of deep SNNs can be accelerated $11\times$, and the superior extensibility and flexibility of SpikingJelly enable users to accelerate custom models at low costs through multilevel inheritance and semiautomatic code generation. SpikingJelly paves the way for synthesizing truly energy-efficient SNN-based machine intelligence systems, which will enrich the ecology of neuromorphic computing.
翻訳日:2023-10-26 14:43:25 公開日:2023-10-25
# アクティブLEDマーカーを用いたイベントベースカメラによるリアルタイム6-DoF計測

Real-time 6-DoF Pose Estimation by an Event-based Camera using Active LED Markers ( http://arxiv.org/abs/2310.16618v1 )

ライセンス: Link先を確認
Gerald Ebmer, Adam Loch, Minh Nhat Vu, Germain Haessig, Roberto Mecca, Markus Vincze, Christian Hartl-Nesic, and Andreas Kugi(参考訳) 自律運用のためのリアルタイムアプリケーションは、主に高速で堅牢なビジョンベースのローカライズシステムに依存している。 画像処理タスクは大量のデータを処理する必要があるため、計算資源は他のプロセスの性能を制限することが多い。 この制限を克服するために、従来のマーカーベースのローカライズシステムは、統合が容易で信頼性の高いため、広く使われている。 しかし、従来のマーカーベースのローカライズシステムは、フレームレートの低い標準カメラに大きく依存しており、動きのぼやけによる精度が欠落することが多い。 対照的に、イベントベースのカメラは高時間分解能と高ダイナミックレンジを提供し、困難な視覚条件下であっても高速なローカライゼーションタスクに使用できる。 本稿では,能動LEDマーカー(ALM)を用いた簡易かつ効果的なポーズ推定システムを提案する。 提案アルゴリズムは,SI{3}{\kilo \hertz} の出力率を維持しながら,SI{0.5}{\milli\second} 以下のレイテンシでリアルタイムに動作可能である。 静的および動的シナリオにおける実験結果は, OptiTrackシステムを用いて, 計算速度と絶対精度の観点から, 提案手法の性能を実証するために提示される。

Real-time applications for autonomous operations depend largely on fast and robust vision-based localization systems. Since image processing tasks require processing large amounts of data, the computational resources often limit the performance of other processes. To overcome this limitation, traditional marker-based localization systems are widely used since they are easy to integrate and achieve reliable accuracy. However, classical marker-based localization systems significantly depend on standard cameras with low frame rates, which often lack accuracy due to motion blur. In contrast, event-based cameras provide high temporal resolution and a high dynamic range, which can be utilized for fast localization tasks, even under challenging visual conditions. This paper proposes a simple but effective event-based pose estimation system using active LED markers (ALM) for fast and accurate pose estimation. The proposed algorithm is able to operate in real time with a latency below \SI{0.5}{\milli\second} while maintaining output rates of \SI{3}{\kilo \hertz}. Experimental results in static and dynamic scenarios are presented to demonstrate the performance of the proposed approach in terms of computational speed and absolute accuracy, using the OptiTrack system as the basis for measurement.
翻訳日:2023-10-26 14:43:04 公開日:2023-10-25
# 量子時間: 量子情報のための新しい資源

Quantum Time: a novel resource for quantum information ( http://arxiv.org/abs/2310.16617v1 )

ライセンス: Link先を確認
M. Basil Altaie(参考訳) 相対性理論における時間は、標準量子力学で採用されているものと異なる状態を持ち、時間は外部絶対ニュートンフレームを参照して測定されたパラメータと見なされる。 この状態は系の力学におけるその役割を強く制限し、あらゆる定式化を妨げて一般相対性理論と量子力学を融合させるのか? 量子重力を考えるとき これらの制限を克服するために、いくつかの著者は相対論的時間の本質的な特徴を実装する量子系のハミルトニアンに共役する作用素を構築しようとした。 これらの定式化は教科書で使われる普遍座標時間の代わりに内的または内在的時間の概念を用いる。 さらに,相対論的特徴を持つ時間を考慮することで,量子情報処理における解析技術が向上し,因果順序や量子情報の因果構造に影響を及ぼすことも指摘されている。 時計の役割、正確性と安定性は、量子情報処理において重要な問題となっている。 本稿では,ページウォッター方式で考案された量子時計による量子時間の利用可能性を反映した最近の研究を,量子情報処理の資源として位置づけた。

Time in relativity theory has a status different from that adopted by standard quantum mechanics, where time is considered as a parameter measured with reference to an external absolute Newtonian frame. This status strongly restricts its role in the dynamics of systems and hinders any formulation to merge quantum mechanics with general relativity, speci?fically when considering quantum gravity. To overcome those limitations, several authors tried to construct an operator which is conjugate to the Hamiltonian of quantum systems implementing some essential features of the relativistic time. These formulations use the concept of internal or intrinsic time instead of the universal coordinate time used in textbooks. Furthermore, recently it is remarked that the consideration of time with relativistic features could enhance the analysis techniques in quantum information processing and have an impact on its status in causal orders and causal structures of quantum information. The role of clocks, their accuracy and stability has become an important issue in quantum information processing. This article present a substantiative review of recent works which reflect the possibility of utilizing quantum time, measured by quantum clock devised according to Page-Wootters scheme, to stand as a resource for quantum information processing.
翻訳日:2023-10-26 14:42:44 公開日:2023-10-25
# コンテキストが重要である: 変形性アテンション補充型マッチングネットワークによるエンドツーエンドのパノラティブグラウンド

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network ( http://arxiv.org/abs/2310.16616v1 )

ライセンス: Link先を確認
Yiming Lin, Xiao-Bo Jin, Qiufeng Wang, Kaizhu Huang(参考訳) パノラマナラティブグラウンド(png、panoramic narrative grounding)は、ビジュアルオブジェクトを画像に分割することを目的とした、新しいビジュアルグラウンドタスクである。 現在の最先端の手法は、まず最もよく似た$k$の画像ピクセルを集約してフレーズの表現を洗練させ、次に精細化されたテキスト表現と画像特徴マップのピクセルをマッチングしてセグメンテーション結果を生成する。 しかし、サンプル画像の機能を集約するだけでコンテキスト情報を無視し、フレーズからピクセルへのミスマッチにつながる可能性がある。 本稿では,特徴学習の反復過程において変形可能な注意を惹きつけることを主目的とする,deformable attention refined matching network(drmn)と呼ばれる新しい学習フレームワークを提案する。 drmnは、最上位$k$の類似画素の特徴表現を更新後、変形可能なアテンションネットワークで反復的にピクセルをエンコードする。 このようにして、drmnは正確かつ識別可能な画素表現につながり、最も高い$k$の類似画素を純化し、結果として句と画素のミスマッチを実質的に軽減することができる。 具体的には、DRMNはPNGベンチマークで最新のパフォーマンスを実現し、平均リコール改善は3.5%である。 コードは、https://github.com/JaMesLiMers/DRMN.comで入手できる。

Panoramic Narrative Grounding (PNG) is an emerging visual grounding task that aims to segment visual objects in images based on dense narrative captions. The current state-of-the-art methods first refine the representation of phrase by aggregating the most similar $k$ image pixels, and then match the refined text representations with the pixels of the image feature map to generate segmentation results. However, simply aggregating sampled image features ignores the contextual information, which can lead to phrase-to-pixel mis-match. In this paper, we propose a novel learning framework called Deformable Attention Refined Matching Network (DRMN), whose main idea is to bring deformable attention in the iterative process of feature learning to incorporate essential context information of different scales of pixels. DRMN iteratively re-encodes pixels with the deformable attention network after updating the feature representation of the top-$k$ most similar pixels. As such, DRMN can lead to accurate yet discriminative pixel representations, purify the top-$k$ most similar pixels, and consequently alleviate the phrase-to-pixel mis-match substantially.Experimental results show that our novel design significantly improves the matching results between text phrases and image pixels. Concretely, DRMN achieves new state-of-the-art performance on the PNG benchmark with an average recall improvement 3.5%. The codes are available in: https://github.com/JaMesLiMers/DRMN.
翻訳日:2023-10-26 14:42:24 公開日:2023-10-25
# 音声認識誤りに対する自然言語理解モデルのロバスト性評価手法としてのバック転写

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors ( http://arxiv.org/abs/2310.16609v1 )

ライセンス: Link先を確認
Marek Kubis, Pawe{\l} Sk\'orzewski, Marcin Sowa\'nski, Tomasz Zi\k{e}tkiewicz(参考訳) 音声対話システムにおいて、自然言語理解の性能を劣化させることができる音声認識システムにより、NLUモデルが先行する。 本稿では,音声認識誤りが自然言語理解モデルの性能に与える影響を調査する手法を提案する。 提案手法は,NLUモデルの性能に影響を及ぼす誤差を分類するための微細な手法と後方転写法を組み合わせたものである。 本手法は,NLU評価における合成音声の利用に依存する。 音声録音の代わりに合成音声を用いることは,提案手法の結果を大きく変えるものではないことを示す。

In a spoken dialogue system, an NLU model is preceded by a speech recognition system that can deteriorate the performance of natural language understanding. This paper proposes a method for investigating the impact of speech recognition errors on the performance of natural language understanding models. The proposed method combines the back transcription procedure with a fine-grained technique for categorizing the errors that affect the performance of NLU models. The method relies on the usage of synthesized speech for NLU evaluation. We show that the use of synthesized speech in place of audio recording does not change the outcomes of the presented technique in a significant way.
翻訳日:2023-10-26 14:41:57 公開日:2023-10-25
# 実効予測:過去と未来

Performative Prediction: Past and Future ( http://arxiv.org/abs/2310.16608v1 )

ライセンス: Link先を確認
Moritz Hardt and Celestine Mendler-D\"unner(参考訳) 社会世界での予測は一般的に、パフォーマンス性として知られる予測のターゲットに影響を与える。 自己充足と自己負の予測はパフォーマンス性の例である。 経済学、金融学、社会科学に基本的な重要性があるが、機械学習の発展には欠落している。 機械学習の応用において、性能は分散シフトとして表されることが多い。 例えば、デジタルプラットフォームにデプロイされた予測モデルは、消費に影響し、データ生成分布を変化させる。 我々は、機械学習におけるパフォーマンス性を研究するための定義と概念的枠組みを提供する、最近設立されたパフォーマンス予測の領域を調査する。 性能予測の結果は、新しい最適化課題を引き起こす自然な平衡概念である。 もう1つの結果は学習と操舵の区別であり、実行的予測の2つのメカニズムである。 ステアリングの概念は、デジタル市場における権力の問題と密接に関連している。 我々は、プラットフォームがその予測を通じてどの程度参加者を操れるかという質問に対して、パフォーマンスパワーの概念をレビューする。 アルゴリズムシステムにおけるパフォーマンスが果たす役割など,今後の方向性に関する議論に終止符を打つ。

Predictions in the social world generally influence the target of prediction, a phenomenon known as performativity. Self-fulfilling and self-negating predictions are examples of performativity. Of fundamental importance to economics, finance, and the social sciences, the notion has been absent from the development of machine learning. In machine learning applications, performativity often surfaces as distribution shift. A predictive model deployed on a digital platform, for example, influences consumption and thereby changes the data-generating distribution. We survey the recently founded area of performative prediction that provides a definition and conceptual framework to study performativity in machine learning. A consequence of performative prediction is a natural equilibrium notion that gives rise to new optimization challenges. Another consequence is a distinction between learning and steering, two mechanisms at play in performative prediction. The notion of steering is in turn intimately related to questions of power in digital markets. We review the notion of performative power that gives an answer to the question how much a platform can steer participants through its predictions. We end on a discussion of future directions, such as the role that performativity plays in contesting algorithmic systems.
翻訳日:2023-10-26 14:41:49 公開日:2023-10-25
# フェアネスと説明可能性の相互作用について

On the Interplay between Fairness and Explainability ( http://arxiv.org/abs/2310.16607v1 )

ライセンス: Link先を確認
Stephanie Brandl, Emanuele Bugliarello, Ilias Chalkidis(参考訳) 信頼性が高く信頼性の高いNLPアプリケーションを構築するためには、モデルをさまざまな層で公平かつ説明可能なものにする必要がある。 通常、これら2つの目的(公平性と説明可能性)は、相互に最適化され/または独立して検討される。 代わりに、我々は、今後の信頼できるNLPシステムは両方を考えるべきだと論じている。 本研究では,それらが相互にどのように影響するかを理解するための最初の研究を行う。 その逆も。 そこで本研究では,英語の多クラステキスト分類データセットであるbiosとecthrについて,それぞれ性別と国籍の情報を提供する実験を行った。 いくつかの方法を用いた事前学習言語モデルを微調整する。 (i)公平性を改善することを目的としたバイアス緩和 (ii)合理的な説明をすることを目的とした合理性抽出。 バイアス緩和アルゴリズムは必ずしもより公平なモデルにつながるとは限らない。 さらに,経験的公平性と説明可能性の直交性を見いだす。

In order to build reliable and trustworthy NLP applications, models need to be both fair across different demographics and explainable. Usually these two objectives, fairness and explainability, are optimized and/or examined independently of each other. Instead, we argue that forthcoming, trustworthy NLP systems should consider both. In this work, we perform a first study to understand how they influence each other: do fair(er) models rely on more plausible rationales? and vice versa. To this end, we conduct experiments on two English multi-class text classification datasets, BIOS and ECtHR, that provide information on gender and nationality, respectively, as well as human-annotated rationales. We fine-tune pre-trained language models with several methods for (i) bias mitigation, which aims to improve fairness; (ii) rationale extraction, which aims to produce plausible explanations. We find that bias mitigation algorithms do not always lead to fairer models. Moreover, we discover that empirical fairness and explainability are orthogonal.
翻訳日:2023-10-26 14:41:34 公開日:2023-10-25
# AirFL-Mem:長期記憶によるコミュニケーション学習トレードオフの改善

AirFL-Mem: Improving Communication-Learning Trade-Off by Long-Term Memory ( http://arxiv.org/abs/2310.16606v1 )

ライセンス: Link先を確認
Haifeng Wen, Hong Xing, Osvaldo Simeone(参考訳) フェデレーション学習(fl)に固有のコミュニケーションボトルネックに対処するために、airfl(over-the-air fl)が有望なソリューションとして浮上した。 本稿では,emph{long-term}メモリ機構を実装して,ディープフェージングの影響を軽減する新しいスキームであるairfl-memを提案する。 コンバージェンス境界は、長期記憶、および短期記憶を持つ既存のairfl変種、一般の非凸目的のために提供される。 この理論は、AirFL-Memが理想的なコミュニケーションを伴うフェデレーション平均化(FedAvg)と同じ収束率を示し、既存のスキームの性能は一般的にエラーフロアによって制限されていることを示している。 理論的な結果は、レイリーフェージングチャネルの存在下での電力制御に用いられる遮断しきい値に対する新しい凸最適化戦略を提案するためにも活用されている。 実験結果は,深部フェージングの軽減に長期記憶機構の利点を確認し,解析の妥当性を検証した。

Addressing the communication bottleneck inherent in federated learning (FL), over-the-air FL (AirFL) has emerged as a promising solution, which is, however, hampered by deep fading conditions. In this paper, we propose AirFL-Mem, a novel scheme designed to mitigate the impact of deep fading by implementing a \emph{long-term} memory mechanism. Convergence bounds are provided that account for long-term memory, as well as for existing AirFL variants with short-term memory, for general non-convex objectives. The theory demonstrates that AirFL-Mem exhibits the same convergence rate of federated averaging (FedAvg) with ideal communication, while the performance of existing schemes is generally limited by error floors. The theoretical results are also leveraged to propose a novel convex optimization strategy for the truncation threshold used for power control in the presence of Rayleigh fading channels. Experimental results validate the analysis, confirming the advantages of a long-term memory mechanism for the mitigation of deep fading.
翻訳日:2023-10-26 14:41:22 公開日:2023-10-25
# マイクロキャビティにおける凝縮光の光子-光子相関

Photon-photon correlation of condensed light in a microcavity ( http://arxiv.org/abs/2310.16604v1 )

ライセンス: Link先を確認
Yijun Tang, Himadri Shekhar Dhar, Rupert F. Oulton, Robert A. Nyman and Florian Mintert(参考訳) 光子のボース・アインシュタイン凝縮体における時間的コヒーレンスの研究は、特にフォトニックモード間の相関の存在において困難である。 本研究では,光子相関関数の運動方程式に対する解析式を導出するために,染料充填マイクロキャビティ内の光子凝縮の顕微鏡的多モードモデルと量子回帰定理を用いる。 これにより、フォトニックモードのコヒーレンス時間を導出し、凝縮光の時間的コヒーレンスとマイクロキャビティのカットオフ周波数の非単調な依存性を識別することができる。

The study of temporal coherence in a Bose-Einstein condensate of photons can be challenging, especially in the presence of correlations between the photonic modes. In this work, we use a microscopic, multimode model of photonic condensation inside a dye-filled microcavity and the quantum regression theorem, to derive an analytical expression for the equation of motion of the photon-photon correlation function. This allows us to derive the coherence time of the photonic modes and identify a nonmonotonic dependence of the temporal coherence of the condensed light with the cutoff frequency of the microcavity.
翻訳日:2023-10-26 14:41:03 公開日:2023-10-25
# ラストマイル配送における損失予測 - 説明可能なaiからの洞察による深層および非深層アプローチ

Parcel loss prediction in last-mile delivery: deep and non-deep approaches with insights from Explainable AI ( http://arxiv.org/abs/2310.16602v1 )

ライセンス: Link先を確認
Jan de Leeuw, Zaharah Bukhsh, Yingqian Zhang(参考訳) eコマース小売の領域内で重要な目的は、ラストマイル配送フェーズにおける小包損失の削減である。 製品、顧客、注文情報を含むデータが継続的に利用できるようになることで、パーセル損失予測における機械学習の適用が可能になった。 しかし、データに固有の不均衡、すなわち非常に低いパーセンタイルが失われることから、大きな課題が発生する。 本稿では,Data Balance with Supervised Learning (DBSL)とDeep Hybrid Ensemble Learning (DHEL)の2つの機械学習手法を提案する。 このような予測の実際的な含意は、保険関連意思決定ポリシーの最適化において、eコマース小売業者を支援する価値である。 提案する機械学習モデルの包括的評価を,ベルギーの出荷から1年間のデータを用いて実施する。 その結果,フィードフォワードオートエンコーダとランダムフォレストを組み合わせたdhelモデルが最も高い分類性能が得られることがわかった。 さらに、Explainable AI(XAI)のテクニックを使用して、ビジネスプロセスの強化や、最後の1マイルの配送におけるEコマース小売業者の全体的な価値提案の強化に予測モデルをどのように使用できるかを説明します。

Within the domain of e-commerce retail, an important objective is the reduction of parcel loss during the last-mile delivery phase. The ever-increasing availability of data, including product, customer, and order information, has made it possible for the application of machine learning in parcel loss prediction. However, a significant challenge arises from the inherent imbalance in the data, i.e., only a very low percentage of parcels are lost. In this paper, we propose two machine learning approaches, namely, Data Balance with Supervised Learning (DBSL) and Deep Hybrid Ensemble Learning (DHEL), to accurately predict parcel loss. The practical implication of such predictions is their value in aiding e-commerce retailers in optimizing insurance-related decision-making policies. We conduct a comprehensive evaluation of the proposed machine learning models using one year data from Belgian shipments. The findings show that the DHEL model, which combines a feed-forward autoencoder with a random forest, achieves the highest classification performance. Furthermore, we use the techniques from Explainable AI (XAI) to illustrate how prediction models can be used in enhancing business processes and augmenting the overall value proposition for e-commerce retailers in the last mile delivery.
翻訳日:2023-10-26 14:40:50 公開日:2023-10-25
# 変分オートエンコーダにおけるデータの後方整合性

Posterior Consistency for Missing Data in Variational Autoencoders ( http://arxiv.org/abs/2310.16648v1 )

ライセンス: Link先を確認
Timur Sudak, Sebastian Tschiatschek(参考訳) 我々は,可変オートエンコーダ(vaes)の学習,すなわち,値の欠如したデータから深い生成モデルの一種を学ぶ問題を考える。 このようなデータは、完全なデータが入手できない、あるいはコストがかかる場合が多いため、機械学習の現実世界のアプリケーションで広く使われている。 特にvaeの償却後後方推定(すなわち、欠落データの場合、欠落に関する不整合後後方分布の学習に影響を受けやすいエンコーダ)の改善に焦点をあてる。 この目的のために、後続一貫性の形式的定義を提供し、この整合性を促進するエンコーダの後続分布を正規化するためのアプローチを提案する。 提案する正規化は,欠落する値に直面する文献で一般的に検討されているものとは異なる学習目標を示唆する。 さらに,我々の正規化が,潜在空間における不確実性を利用した復元品質と下流タスクの観点から,価値設定の欠如によるパフォーマンス向上につながることを実証的に証明した。 この改良された性能は、正規化フローを備えたVAEを含む多くのVAEのクラスで観測できる。

We consider the problem of learning Variational Autoencoders (VAEs), i.e., a type of deep generative model, from data with missing values. Such data is omnipresent in real-world applications of machine learning because complete data is often impossible or too costly to obtain. We particularly focus on improving a VAE's amortized posterior inference, i.e., the encoder, which in the case of missing data can be susceptible to learning inconsistent posterior distributions regarding the missingness. To this end, we provide a formal definition of posterior consistency and propose an approach for regularizing an encoder's posterior distribution which promotes this consistency. We observe that the proposed regularization suggests a different training objective than that typically considered in the literature when facing missing values. Furthermore, we empirically demonstrate that our regularization leads to improved performance in missing value settings in terms of reconstruction quality and downstream tasks utilizing uncertainty in the latent space. This improved performance can be observed for many classes of VAEs including VAEs equipped with normalizing flows.
翻訳日:2023-10-26 14:34:23 公開日:2023-10-25
# ニューラルネットワークにおける制約の達成:確率的拡張ラグランジアンアプローチ

Achieving Constraints in Neural Networks: A Stochastic Augmented Lagrangian Approach ( http://arxiv.org/abs/2310.16647v1 )

ライセンス: Link先を確認
Diogo Lavado, Cl\'audia Soares and Alessandra Micheletti(参考訳) DNN(Deep Neural Networks)の正規化は、一般化性とオーバーフィッティングの防止に不可欠である。 固定ペナルティメソッドは一般的ではあるが、適応性がなく、ハイパーパラメータの感度に苦しむ。 本稿では,制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化の新たなアプローチを提案する。 データ忠実度項が最小化目標であり、正規化項が制約となる場合。 次に,確率的拡張ラグランジアン(sal)法を用いて,より柔軟で効率的な正則化機構を実現する。 我々のアプローチはブラックボックスの正規化を超えて、重み付けがしばしば解釈可能性を確保するために厳しい制約を受けるホワイトボックスモデルの大幅な改善を示す。 MNIST, CIFAR10, CIFAR100データセットのイメージベース分類実験により, 本手法の有効性が検証された。 salは一貫して高い精度を達成し、制約満足度も向上し、制約条件下でdnnを最適化する可能性を示した。

Regularizing Deep Neural Networks (DNNs) is essential for improving generalizability and preventing overfitting. Fixed penalty methods, though common, lack adaptability and suffer from hyperparameter sensitivity. In this paper, we propose a novel approach to DNN regularization by framing the training process as a constrained optimization problem. Where the data fidelity term is the minimization objective and the regularization terms serve as constraints. Then, we employ the Stochastic Augmented Lagrangian (SAL) method to achieve a more flexible and efficient regularization mechanism. Our approach extends beyond black-box regularization, demonstrating significant improvements in white-box models, where weights are often subject to hard constraints to ensure interpretability. Experimental results on image-based classification on MNIST, CIFAR10, and CIFAR100 datasets validate the effectiveness of our approach. SAL consistently achieves higher Accuracy while also achieving better constraint satisfaction, thus showcasing its potential for optimizing DNNs under constrained settings.
翻訳日:2023-10-26 14:34:06 公開日:2023-10-25
# 効率的な強化学習のためのモデル予測制御に基づく値推定

Model predictive control-based value estimation for efficient reinforcement learning ( http://arxiv.org/abs/2310.16646v1 )

ライセンス: Link先を確認
Qizhen Wu and Kexin Liu and Lei Chen(参考訳) 強化学習は、主に仮想環境との必要な相互作用の数によって、実際のプラクティスの制限に悩まされる。 その結果,多くの学習手法を試行すれば,最適な戦略を得ることができないという難題が生じた。 本研究では,データ駆動アプローチによって環境をモデル化するモデル予測制御に基づく強化学習法を考案する。 学習環境モデルに基づき、価値関数を推定し、ポリシーを最適化するために多段階予測を行う。 本手法は, 学習効率の向上, 最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。 実験結果は,従来のデータベースと無人航空機の動的障害物回避シナリオの両方において,提案手法の有効性を検証した。

Reinforcement learning suffers from limitations in real practices primarily due to the numbers of required interactions with virtual environments. It results in a challenging problem that we are implausible to obtain an optimal strategy only with a few attempts for many learning method. Hereby, we design an improved reinforcement learning method based on model predictive control that models the environment through a data-driven approach. Based on learned environmental model, it performs multi-step prediction to estimate the value function and optimize the policy. The method demonstrates higher learning efficiency, faster convergent speed of strategies tending to the optimal value, and fewer sample capacity space required by experience replay buffers. Experimental results, both in classic databases and in a dynamic obstacle avoidance scenario for unmanned aerial vehicle, validate the proposed approaches.
翻訳日:2023-10-26 14:33:51 公開日:2023-10-25
# EmoCLIP:ゼロショット映像表情認識のための視覚言語法

EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition ( http://arxiv.org/abs/2310.16640v1 )

ライセンス: Link先を確認
Niki Maria Foteinopoulou, Ioannis Patras(参考訳) 表情認識(FER)は感情コンピューティングにおいて重要な課題であるが、従来の7つの基本的な感情に焦点をあてることで、複雑な感情スペクトルへの適応性が制限される。 そこで本稿では,自然言語指導としてサンプルレベルのテキスト記述(文脈,表情,感情的手がかりのキャプション)を活用し,ゼロショット分類のための豊かな潜在表現の学習を促進することを目的とした,新しい視覚言語モデルを提案する。 これをテストするために,4つの一般的な動的ferデータセットのサンプルレベル記述に基づいてトレーニングされたモデルのゼロショット分類を用いて評価する。 その結果,本手法はベースライン法と比較して有意に改善した。 具体的には、ゼロショットビデオferでは、重み付き平均リコールで10\%、非重み付き平均リコールで5\%のクリップを上回っています。 さらに,メンタルヘルス症状推定の下流課題についてサンプルレベル記述を用いて訓練したネットワークから得られた表現を評価し,最新手法に匹敵する性能を達成し,人間専門家との強い合意を得る。 すなわち、ピアソンの相関係数は、人間の専門家の合意に匹敵する統合失調症症状の重症度推定において最大 0.85 である。 コードはhttps://github.com/NickyFot/EmoCLIPで公開されている。

Facial Expression Recognition (FER) is a crucial task in affective computing, but its conventional focus on the seven basic emotions limits its applicability to the complex and expanding emotional spectrum. To address the issue of new and unseen emotions present in dynamic in-the-wild FER, we propose a novel vision-language model that utilises sample-level text descriptions (i.e. captions of the context, expressions or emotional cues) as natural language supervision, aiming to enhance the learning of rich latent representations, for zero-shot classification. To test this, we evaluate using zero-shot classification of the model trained on sample-level descriptions on four popular dynamic FER datasets. Our findings show that this approach yields significant improvements when compared to baseline methods. Specifically, for zero-shot video FER, we outperform CLIP by over 10\% in terms of Weighted Average Recall and 5\% in terms of Unweighted Average Recall on several datasets. Furthermore, we evaluate the representations obtained from the network trained using sample-level descriptions on the downstream task of mental health symptom estimation, achieving performance comparable or superior to state-of-the-art methods and strong agreement with human experts. Namely, we achieve a Pearson's Correlation Coefficient of up to 0.85 on schizophrenia symptom severity estimation, which is comparable to human experts' agreement. The code is publicly available at: https://github.com/NickyFot/EmoCLIP.
翻訳日:2023-10-26 14:33:38 公開日:2023-10-25
# コンセプト・グリッドロックを乗り越える - 説明責任を解き明かす

Driving through the Concept Gridlock: Unraveling Explainability Bottlenecks ( http://arxiv.org/abs/2310.16639v1 )

ライセンス: Link先を確認
Jessica Echterhoff, An Yan, Kyungtae Han, Amr Abdelraouf, Rohit Gupta, Julian McAuley(参考訳) 概念ボトルネックモデルは、人間の定義した概念のセットでモデル内の情報を符号化することで、説明可能な機械学習に成功している。 人力または自律運転の文脈では、説明可能性モデルは、ドライバーまたは車両の行動の合理化と説明に使用できる自動運転車によってなされる決定の、ユーザの受け入れと理解に役立つ。 そこで本研究では,視覚特徴として概念ボトルネックを用いたユーザと車両の行動の予測と説明を行う新しい手法を提案する。 車両制御コマンドを学習しながら、逐次運転シーンを説明するために使用する、人間理解可能なコンセプトレイヤを学習する。 このアプローチは、人間の(または自動運転車)からの指示が外部からの刺激や好みの変化によって導かれるかどうかを判断するために使用することができる。 モデル設定内で解釈可能性を得ながら、潜伏した視覚的特徴に対する競合性能を達成する。

Concept bottleneck models have been successfully used for explainable machine learning by encoding information within the model with a set of human-defined concepts. In the context of human-assisted or autonomous driving, explainability models can help user acceptance and understanding of decisions made by the autonomous vehicle, which can be used to rationalize and explain driver or vehicle behavior. We propose a new approach using concept bottlenecks as visual features for control command predictions and explanations of user and vehicle behavior. We learn a human-understandable concept layer that we use to explain sequential driving scenes while learning vehicle control commands. This approach can then be used to determine whether a change in a preferred gap or steering commands from a human (or autonomous vehicle) is led by an external stimulus or change in preferences. We achieve competitive performance to latent visual features while gaining interpretability within our model setup.
翻訳日:2023-10-26 14:33:11 公開日:2023-10-25
# 密度比推定にロバストな共変量シフト適応

Covariate Shift Adaptation Robust to Density-Ratio Estimation ( http://arxiv.org/abs/2310.16638v1 )

ライセンス: Link先を確認
Masahiro Kato(参考訳) テストデータは共変量のみを含むが、共変量と結果の両方でトレーニングデータにアクセスできるシナリオを考えてみましょう。 このシナリオでは、テストデータの欠落結果を予測することが第一目的です。 この目的を念頭において、共変量分布が異なる共変量シフトの下でパラメトリック回帰モデルを訓練する。 そこで本研究では,密度比を用いた重み付けによる共変量変化適応法を提案する。 このアプローチは、列車データ損失を平均し、列車と試験データの間の共変量密度の推定比率で重み付けし、テストデータリスクを近似する。 テストデータのリスクを最小化できるが、その性能は密度比推定の精度に大きく依存している。 さらに, 密度比を一定に推定できるとしても, 密度比の推定誤差は, 回帰モデルの興味パラメータの推定値に偏りを生じさせる。 これらの課題を緩和するため,重み付けによる共変量シフト適応のための二重ロバスト推定器を導入し,回帰関数に付加的な推定器を組み込む。 この2重機械学習手法を活用し,密度比推定誤差から生じるバイアスを低減した。 回帰パラメータ推定器の漸近分布を示す。 特に、密度比推定器または回帰関数が整合である場合、我々の推定器は、密度比推定における潜在的な誤差に対する頑健性を示す。 最後に,提案手法の音質をシミュレーション研究により確認する。

Consider a scenario where we have access to train data with both covariates and outcomes while test data only contains covariates. In this scenario, our primary aim is to predict the missing outcomes of the test data. With this objective in mind, we train parametric regression models under a covariate shift, where covariate distributions are different between the train and test data. For this problem, existing studies have proposed covariate shift adaptation via importance weighting using the density ratio. This approach averages the train data losses, each weighted by an estimated ratio of the covariate densities between the train and test data, to approximate the test-data risk. Although it allows us to obtain a test-data risk minimizer, its performance heavily relies on the accuracy of the density ratio estimation. Moreover, even if the density ratio can be consistently estimated, the estimation errors of the density ratio also yield bias in the estimators of the regression model's parameters of interest. To mitigate these challenges, we introduce a doubly robust estimator for covariate shift adaptation via importance weighting, which incorporates an additional estimator for the regression function. Leveraging double machine learning techniques, our estimator reduces the bias arising from the density ratio estimation errors. We demonstrate the asymptotic distribution of the regression parameter estimator. Notably, our estimator remains consistent if either the density ratio estimator or the regression function is consistent, showcasing its robustness against potential errors in density ratio estimation. Finally, we confirm the soundness of our proposed method via simulation studies.
翻訳日:2023-10-26 14:32:55 公開日:2023-10-25
# コプラエントロピーによる光赤方偏移

Photometric Redshifts with Copula Entropy ( http://arxiv.org/abs/2310.16633v1 )

ライセンス: Link先を確認
Jian Ma(参考訳) 本稿では,光度赤方偏移にcopula entropy (ce) を適用することを提案する。 CEは測光測定と赤方偏移の相関を測るために使用され、高CEに関連する測定は赤方偏移を予測するために選択される。 提案手法をSDSSクエーサーデータ上で検証した。 実験結果から, 高赤方偏移検体では, 光度赤方偏移の精度が, 実験で使用したすべての測定値と比較して向上することが示唆された。 ceで選択された測定には、輝度等級、標準偏差の紫外帯の明るさ、その他の4つのバンドの明るさが含まれる。 ce は厳密に定義された数学的概念であるため、導かれるモデルは解釈可能である。

In this paper we propose to apply copula entropy (CE) to photometric redshifts. CE is used to measure the correlations between photometric measurements and redshifts and then the measurements associated with high CEs are selected for predicting redshifts. We verified the proposed method on the SDSS quasar data. Experimental results show that the accuracy of photometric redshifts is improved with the selected measurements compared to the results with all the measurements used in the experiments, especially for the samples with high redshifts. The measurements selected with CE include luminosity magnitude, the brightness in ultraviolet band with standard deviation, and the brightness of the other four bands. Since CE is a rigorously defined mathematical concept, the models such derived is interpretable.
翻訳日:2023-10-26 14:32:28 公開日:2023-10-25
# EdgeCalib: 自動ターゲットレスLiDARカメラキャリブレーションのためのマルチフレーム重み付きエッジ機能

EdgeCalib: Multi-Frame Weighted Edge Features for Automatic Targetless LiDAR-Camera Calibration ( http://arxiv.org/abs/2310.16629v1 )

ライセンス: Link先を確認
Xingchen Li, Yifan Duan, Beibei Wang, Haojie Ren, Guoliang You, Yu Sheng, Jianmin Ji, Yanyong Zhang(参考訳) マルチモーダル認識システムでは,LiDARとカメラの正確な外部校正が重要である。 以前の校正法はしばしば特定の目標や手動の調整が必要であり、労働集約的かつ費用がかかる。 特徴量に基づくオンラインキャリブレーション手法が提案されているが,これらの手法は不正確特徴抽出,信頼できない相互モダリティ関連,シーン固有の要求量などの課題に直面している。 そこで本研究では,lidarとカメラの自動オンラインキャリブレーションのためのエッジベース手法を提案する。 エッジ機能は、様々な環境で広く使われているが、画像と点雲の両方に並び、外在パラメータを決定する。 具体的には、SAM法を用いて安定かつ堅牢な画像エッジ特徴を抽出し、特徴フィルタリングのための多フレーム重み付け戦略により点雲から抽出したエッジ特徴を重み付けする。 最後に、エッジ対応制約に基づいて、精度の高い極値パラメータを最適化する。 KITTIデータセットと我々のデータセットの両方で評価を行った。 以上の結果から, 従来のエッジベースキャリブレーション法よりも精度とロバスト性に優れる0.086{\degの回転精度と0.977cmの翻訳精度を示した。

In multimodal perception systems, achieving precise extrinsic calibration between LiDAR and camera is of critical importance. Previous calibration methods often required specific targets or manual adjustments, making them both labor-intensive and costly. Online calibration methods based on features have been proposed, but these methods encounter challenges such as imprecise feature extraction, unreliable cross-modality associations, and high scene-specific requirements. To address this, we introduce an edge-based approach for automatic online calibration of LiDAR and cameras in real-world scenarios. The edge features, which are prevalent in various environments, are aligned in both images and point clouds to determine the extrinsic parameters. Specifically, stable and robust image edge features are extracted using a SAM-based method and the edge features extracted from the point cloud are weighted through a multi-frame weighting strategy for feature filtering. Finally, accurate extrinsic parameters are optimized based on edge correspondence constraints. We conducted evaluations on both the KITTI dataset and our dataset. The results show a state-of-the-art rotation accuracy of 0.086{\deg} and a translation accuracy of 0.977 cm, outperforming existing edge-based calibration methods in both precision and robustness.
翻訳日:2023-10-26 14:32:16 公開日:2023-10-25
# フリーフォームフロー:任意のアーキテクチャを正規化フローにする

Free-form Flows: Make Any Architecture a Normalizing Flow ( http://arxiv.org/abs/2310.16624v1 )

ライセンス: Link先を確認
Felix Draxler, Peter Sorrenson, Lea Zimmermann, Armand Rousselot, Ullrich K\"othe(参考訳) 正規化フローは、可能性を直接最大化する生成モデルである。 従来, 正規化フローの設計は解析的可逆性の必要性に大きく制約されていた。 この制約を、変数式の変化の勾配に効率的な推定器を使用するトレーニング手順によって克服する。 これにより、任意の次元保存ニューラルネットワークが最大確率トレーニングを通じて生成モデルとして機能することができる。 提案手法は,インダクティブバイアスを手元のタスクに正確に調整することを重視している。 具体的には、$E(n)$-equivariantネットワークを用いた分子生成ベンチマークにおいて優れた結果を得る。 さらに本手法は,市販のResNetアーキテクチャを採用しながら,逆問題ベンチマークにおいて競合する。

Normalizing Flows are generative models that directly maximize the likelihood. Previously, the design of normalizing flows was largely constrained by the need for analytical invertibility. We overcome this constraint by a training procedure that uses an efficient estimator for the gradient of the change of variables formula. This enables any dimension-preserving neural network to serve as a generative model through maximum likelihood training. Our approach allows placing the emphasis on tailoring inductive biases precisely to the task at hand. Specifically, we achieve excellent results in molecule generation benchmarks utilizing $E(n)$-equivariant networks. Moreover, our method is competitive in an inverse problem benchmark, while employing off-the-shelf ResNet architectures.
翻訳日:2023-10-26 14:31:51 公開日:2023-10-25
# ArTST:アラビア文字と音声変換器

ArTST: Arabic Text and Speech Transformer ( http://arxiv.org/abs/2310.16621v1 )

ライセンス: Link先を確認
Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki(参考訳) アラビア語のオープンソースの音声技術をサポートするための,事前学習されたアラビア語テキストと音声トランスフォーマであるartstを提案する。 モデルアーキテクチャは、最近英語向けにリリースされたunified-modal framework、speecht5に従い、現代標準アラビア語(msa)にフォーカスしており、将来の版では方言とコード切り換えアラビア語のモデルを拡張する予定だ。 MSA音声とテキストデータをスクラッチから事前学習し、自動音声認識(ASR)、テキスト音声合成(TTS)、音声方言識別といったタスクに対して微調整を行った。 artt と speecht5 を比較した実験では,前回報告したタスクの結果と同様,artt は現在の3つのタスクの最先端と同等かそれ以上のパフォーマンスを示す。 さらに,我々の事前学習は一般化に寄与しており,低リソースttsタスクでは特に顕著である。 事前訓練されたモデルと微調整されたASRおよびTSモデルが研究用にリリースされている。

We present ArTST, a pre-trained Arabic text and speech transformer for supporting open-source speech technologies for the Arabic language. The model architecture follows the unified-modal framework, SpeechT5, that was recently released for English, and is focused on Modern Standard Arabic (MSA), with plans to extend the model for dialectal and code-switched Arabic in future editions. We pre-trained the model from scratch on MSA speech and text data, and fine-tuned it for the following tasks: Automatic Speech Recognition (ASR), Text-To-Speech synthesis (TTS), and spoken dialect identification. In our experiments comparing ArTST with SpeechT5, as well as with previously reported results in these tasks, ArTST performs on a par with or exceeding the current state-of-the-art in all three tasks. Moreover, we find that our pre-training is conducive for generalization, which is particularly evident in the low-resource TTS task. The pre-trained model as well as the fine-tuned ASR and TTS models are released for research use.
翻訳日:2023-10-26 14:31:41 公開日:2023-10-25
# CoDet: オープン語彙オブジェクト検出のための領域単語アライメント

CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2310.16667v1 )

ライセンス: Link先を確認
Chuofan Ma, Yi Jiang, Xin Wen, Zehuan Yuan, Xiaojuan Qi(参考訳) 画像とテキストのペアから信頼できる領域単語のアライメントを導出することは、オープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学ぶために重要である。 既存の手法は通常、アライメントのための事前訓練または自己訓練された視覚言語モデルに依存しており、これはローカライゼーションの精度や一般化の能力に制限がある。 本稿では,領域単語のアライメントを共起オブジェクト発見問題として再構成することで,事前に整列された視覚言語空間への依存を克服する新しいアプローチであるCoDetを提案する。 直感的には,そのキャプションで共有概念を言及する画像をグループ化することにより,共有概念に対応するオブジェクトは,グループ間で高い共起性を示す。 CoDetは視覚的類似性を活用して、共起オブジェクトを発見し、共有コンセプトと整合させる。 大規模な実験では、CoDetは視覚的バックボーンをスケールアップすることで37.0$\text{AP}^m_{novel}$と44.7$\text{AP}^m_{all}$をOV-LVIS上で達成し、以前のSoTAを4.2$\text{AP}^m_{novel}$と9.8$\text{AP}^m_{all}$に上回った。 コードはhttps://github.com/CVMI-Lab/CoDet.comで入手できる。

Deriving reliable region-word alignment from image-text pairs is critical to learn object-level vision-language representations for open-vocabulary object detection. Existing methods typically rely on pre-trained or self-trained vision-language models for alignment, which are prone to limitations in localization accuracy or generalization capabilities. In this paper, we propose CoDet, a novel approach that overcomes the reliance on pre-aligned vision-language space by reformulating region-word alignment as a co-occurring object discovery problem. Intuitively, by grouping images that mention a shared concept in their captions, objects corresponding to the shared concept shall exhibit high co-occurrence among the group. CoDet then leverages visual similarities to discover the co-occurring objects and align them with the shared concept. Extensive experiments demonstrate that CoDet has superior performances and compelling scalability in open-vocabulary detection, e.g., by scaling up the visual backbone, CoDet achieves 37.0 $\text{AP}^m_{novel}$ and 44.7 $\text{AP}^m_{all}$ on OV-LVIS, surpassing the previous SoTA by 4.2 $\text{AP}^m_{novel}$ and 9.8 $\text{AP}^m_{all}$. Code is available at https://github.com/CVMI-Lab/CoDet.
翻訳日:2023-10-26 14:23:13 公開日:2023-10-25
# ファウンダス画像分割のためのロバストなソースフリードメイン適応

Robust Source-Free Domain Adaptation for Fundus Image Segmentation ( http://arxiv.org/abs/2310.16665v1 )

ライセンス: Link先を確認
Lingrui Li, Yanfeng Zhou, Ge Yang(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きトレーニングデータから学習した知識を、未学習のデータのみを用いてターゲットドメインに転送する学習技術である。 ラベル付きトレーニングデータの欠如により,医用画像のセグメンテーションにおいて重要な意味を持つ。 UDAテクニックを最適化してACを改善するために、広範囲な努力がなされている。 対象領域におけるセグメンテーションモデルのキュレーション udaの下でこれらのモデルのロバスト性に対処した研究はほとんどない。 本研究では,二段階トレーニングストラトを提案する。 堅牢なドメイン適応のためのegy。 ソーストレーニングの段階では、敵のサンプル増強をen?に活用する。 ソースモデルの堅牢性と一般化能力の維持。 また,目標訓練段階では,ラベルのない目標データを用いて擬似ラベルと擬似境界を生成し,ソースデータを必要としない自己適応モデルを実現する,新しいロバストな擬似ラベルおよび擬似境界法を提案する。 エクス? クロスドメイン・ファンドス・イメージセグメンテーションにおけるテンシブな実験結果から,本手法の有効性と汎用性を確認した。 この研究のソースコードはhttps://github.com/LinGrayy/PLPB.comで公開されている。

Unsupervised Domain Adaptation (UDA) is a learning technique that transfers knowledge learned in the source domain from labelled training data to the target domain with only unlabelled data. It is of significant importance to medical image segmentation because of the usual lack of labelled training data. Although extensive efforts have been made to optimize UDA techniques to improve the ac?curacy of segmentation models in the target domain, few studies have addressed the robustness of these models under UDA. In this study, we propose a two-stage training strat?egy for robust domain adaptation. In the source training stage, we utilize adversarial sample augmentation to en?hance the robustness and generalization capability of the source model. And in the target training stage, we propose a novel robust pseudo-label and pseudo-boundary (PLPB) method, which effectively utilizes unlabeled target data to generate pseudo labels and pseudo boundaries that enable model self-adaptation without requiring source data. Ex?tensive experimental results on cross-domain fundus image segmentation confirm the effectiveness and versatility of our method. Source code of this study is openly accessible at https://github.com/LinGrayy/PLPB.
翻訳日:2023-10-26 14:22:38 公開日:2023-10-25
# Aubry-Andr\'{e}-Fibonacci鎖を補間するモザイクのカスケード様転移による多フラクタル性の創出

Emergence of multifractality through cascade-like transitions in a mosaic interpolating Aubry-Andr\'{e}-Fibonacci chain ( http://arxiv.org/abs/2310.16663v1 )

ライセンス: Link先を確認
Qi Dai, Zhanpeng Lu, and Zhihao Xu(参考訳) In this paper, we explore the localization features of wave functions in a family of mosaic quasiperiodic chains obtained by continuously interpolating between two limits: the mosaic Aubry-Andr\'{e} (AA) model, known for its exact mobility edges with extended states in the band-center region, and localized ones in the band-edge regions for a large enough modulation amplitude, and the mosaic Fibonacci chain, which exhibits its multifractal nature for all the states except for the extended one with $E=0$ for an arbitrary finite modulation amplitude. バンドエッジ領域における状態に対するモザイクAA制限は、非局在化遷移のカスケードを介して多フラクタル領域へと進化する。 このカスケードはフラクタル次元の最大値で区切られた下部フラクタル次元のローブを示す。 対照的に、バンド中心領域の状態($e=0$状態を除く)は異常なカスケード過程を示し、より高いフラクタル次元の値のローブが、より低いフラクタル次元の領域によって分離される。 本研究は準周期鎖の多重性を理解するための知見を提供する。

In this paper, we explore the localization features of wave functions in a family of mosaic quasiperiodic chains obtained by continuously interpolating between two limits: the mosaic Aubry-Andr\'{e} (AA) model, known for its exact mobility edges with extended states in the band-center region, and localized ones in the band-edge regions for a large enough modulation amplitude, and the mosaic Fibonacci chain, which exhibits its multifractal nature for all the states except for the extended one with $E=0$ for an arbitrary finite modulation amplitude. We discover that the mosaic AA limit for the states in the band-edge regions evolves into multifractal ones through a cascade of delocalization transitions. This cascade shows lobes of lower fractal dimension values separated by maxima of fractal dimension. In contrast, the states in the band-center region (except for the $E=0$ state) display an anomalous cascading process, where it emerges lobes of higher fractal dimension values are separated by the regions with lower fractal dimensions. Our findings offer insight into understanding the multifractality of quasiperiodic chains.
翻訳日:2023-10-26 14:22:20 公開日:2023-10-25
# 病理と大腸内視鏡画像を用いた子宮頸癌診断のための深部学習技術

Deep Learning Techniques for Cervical Cancer Diagnosis based on Pathology and Colposcopy Images ( http://arxiv.org/abs/2310.16662v1 )

ライセンス: Link先を確認
Hana Ahmadzadeh Sarhangi, Dorsa Beigifard, Elahe Farmani, Hamidreza Bolhasani(参考訳) 頸部がんは毎年何百万人もの女性に感染する病気である。 早産期の早期発見は治療の機会を提供するため、かなりの注意が必要である。 子宮頸癌のスクリーニングと診断は細胞診および大腸内視鏡法に依存している。 コンピュータビジョンにおける有望な技術であるDeep Learningは、従来の臨床検査法に比べて、頸がん検診の精度と効率を改善するための潜在的なソリューションとして登場した。 本稿では, 子宮頸癌とそのスクリーニングプロセスについて論じるとともに, 深層学習訓練プロセスと頸部癌診断のための分類, 分節化, 検出タスクについて述べる。 さらに、細胞診と大腸内視鏡の両方で使用される最も一般的な公開データセットを探索し、研究者が細胞診と大腸内視鏡の両方に応用した人気かつ最も利用されているアーキテクチャを強調した。 本研究は,24種類の実践論文を概説し,要約した。 本稿では,Deep Learningによる頚部癌解析の精度と速度の向上に際し,早期診断に近づき,生命を救えることを示す。

Cervical cancer is a prevalent disease affecting millions of women worldwide every year. It requires significant attention, as early detection during the precancerous stage provides an opportunity for a cure. The screening and diagnosis of cervical cancer rely on cytology and colposcopy methods. Deep learning, a promising technology in computer vision, has emerged as a potential solution to improve the accuracy and efficiency of cervical cancer screening compared to traditional clinical inspection methods that are prone to human error. This review article discusses cervical cancer and its screening processes, followed by the Deep Learning training process and the classification, segmentation, and detection tasks for cervical cancer diagnosis. Additionally, we explored the most common public datasets used in both cytology and colposcopy and highlighted the popular and most utilized architectures that researchers have applied to both cytology and colposcopy. We reviewed 24 selected practical papers in this study and summarized them. This article highlights the remarkable efficiency in enhancing the precision and speed of cervical cancer analysis by Deep Learning, bringing us closer to early diagnosis and saving lives.
翻訳日:2023-10-26 14:22:01 公開日:2023-10-25
# マルチエージェント強化学習による動的障害物回避におけるUAVパスフィンディング

UAV Pathfinding in Dynamic Obstacle Avoidance with Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2310.16659v1 )

ライセンス: Link先を確認
Qizhen Wu and Lei Chen and Kexin Liu and Jinhu Lv(参考訳) マルチエージェント強化学習に基づく手法は,動的かつ不確定なシナリオにおけるエージェントの実現可能かつ安全な経路のオンライン計画において重要である。 完全集中型手法や完全分散型手法のようないくつかの手法は一定の成功率を達成するが、次元の爆発や収束不良といった問題にも遭遇する。 本稿では,マルチエージェント強化学習に基づく分散実行方式による集中型学習を提案し,オンライン上での動的障害回避問題を解く。 このアプローチでは、各エージェントは中央のプランナーまたは近隣のプランナーとのみ通信し、オンライン上で実現可能かつ安全なパスを計画する。 モデル予測制御の考え方に基づく手法の改善により,エージェントのトレーニング効率とサンプル利用率の向上を図る。 シミュレーション,室内環境,屋外環境における実験結果から,本手法の有効性が検証された。 ビデオはhttps://www.bilibili.com/video/BV1gw41197hV/? vd_source=9de61aecdd9fb684e546d032ef7fe7bf

Multi-agent reinforcement learning based methods are significant for online planning of feasible and safe paths for agents in dynamic and uncertain scenarios. Although some methods like fully centralized and fully decentralized methods achieve a certain measure of success, they also encounter problems such as dimension explosion and poor convergence, respectively. In this paper, we propose a novel centralized training with decentralized execution method based on multi-agent reinforcement learning to solve the dynamic obstacle avoidance problem online. In this approach, each agent communicates only with the central planner or only with its neighbors, respectively, to plan feasible and safe paths online. We improve our methods based on the idea of model predictive control to increase the training efficiency and sample utilization of agents. The experimental results in both simulation, indoor, and outdoor environments validate the effectiveness of our method. The video is available at https://www.bilibili.com/video/BV1gw41197hV/?vd_source=9de61aecdd9fb684e546d032ef7fe7bf
翻訳日:2023-10-26 14:21:45 公開日:2023-10-25
# 画像は数千ワードの価値:原則的再カプセル化は画像生成を改善する

A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation ( http://arxiv.org/abs/2310.16656v1 )

ライセンス: Link先を確認
Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan(参考訳) テキストから画像への拡散モデルはここ数年で飛躍的な進歩を遂げ、テキストプロンプトから画像の高品質で多様な合成を可能にした。 しかし、最も先進的なモデルでさえ、プロンプトですべての方向を正確に追うのに苦労することが多い。 これらのモデルの大部分は、画像がWebからしばしば来る(イメージ、キャプション)ペアと、キャプションがHTML代替テキストであるデータセットに基づいてトレーニングされている。 注目すべき例として、安定拡散やその他のモデルで使用されるLAIONデータセットがある。 本研究は,これらのキャプションが品質の低い場合が多いことを観察し,テキストプロンプトにおけるニュアンスド・セマンティクスを理解する能力に大きな影響を与えることを論じる。 コーパスを特殊自動キャプションモデルにリラベリングし,再コンパイルされたデータセット上でテキストから画像へのモデルをトレーニングすることにより,そのモデルがボード全体に実質的に有益であることを示す。 例えば、FID 14.84対17.87のベースライン、そして、人間の評価による忠実な画像生成の64.3%の改善である。 次に意味的アライメント(意味対象の精度84.34対78.90)、アライメントエラー 1.32対1.44、位置アライメント 62.42対57.60。 コーパスをリラベルする様々な方法を分析し、この手法がリカプションと呼ばれるもので、列車参照の不一致を低減し、1例あたりのより多くの情報を提供し、サンプル効率を高め、モデルがキャプションと画像の関係をよりよく理解できるようにするという証拠を提供する。

Text-to-image diffusion models achieved a remarkable leap in capabilities over the last few years, enabling high-quality and diverse synthesis of images from a textual prompt. However, even the most advanced models often struggle to precisely follow all of the directions in their prompts. The vast majority of these models are trained on datasets consisting of (image, caption) pairs where the images often come from the web, and the captions are their HTML alternate text. A notable example is the LAION dataset, used by Stable Diffusion and other models. In this work we observe that these captions are often of low quality, and argue that this significantly affects the model's capability to understand nuanced semantics in the textual prompts. We show that by relabeling the corpus with a specialized automatic captioning model and training a text-to-image model on the recaptioned dataset, the model benefits substantially across the board. First, in overall image quality: e.g. FID 14.84 vs. the baseline of 17.87, and 64.3% improvement in faithful image generation according to human evaluation. Second, in semantic alignment, e.g. semantic object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the corpus and provide evidence that this technique, which we call RECAP, both reduces the train-inference discrepancy and provides the model with more information per example, increasing sample efficiency and allowing the model to better understand the relations between captions and images.
翻訳日:2023-10-26 14:21:31 公開日:2023-10-25
# 画像からの強化学習における制御中心表現に向けて

Towards Control-Centric Representations in Reinforcement Learning from Images ( http://arxiv.org/abs/2310.16655v1 )

ライセンス: Link先を確認
Chen Liu, Hongyu Zang, Xin Li, Yong Heng, Yifei Wang, Zhen Fang, Yisen Wang, Mingzhong Wang(参考訳) イメージベースの強化学習は実践的だが難しい課題である。 主なハードルは、無関係な情報を無視しながら制御中心の表現を抽出することである。 バイシミュレーション原理に従うアプローチは、この問題に対処するために状態表現を学習する可能性を示す一方で、潜在力学の表現能力の制限と報酬環境のスパースに対する適応性の欠如にはまだ不満を呈している。 この制限に対処するため,報奨不要の制御情報と報奨特化知識を統合することで,制御中心の情報をキャプチャすることを目的としたReBisを導入する。 ReBisはトランスフォーマーアーキテクチャを使用して、動的を暗黙的にモデル化し、時空間冗長性を排除するブロックワイドマスキングを取り入れている。 さらにrebisは、バイシミュレーションに基づく損失と非対称なレコンストラクション損失を組み合わせることで、少ない報酬で機能崩壊を防止する。 AtariゲームとDeepMind Control Suitを含む2つの大きなベンチマークに関する実証研究は、ReBisが既存の方法よりも優れた性能を示し、その有効性を証明している。

Image-based Reinforcement Learning is a practical yet challenging task. A major hurdle lies in extracting control-centric representations while disregarding irrelevant information. While approaches that follow the bisimulation principle exhibit the potential in learning state representations to address this issue, they still grapple with the limited expressive capacity of latent dynamics and the inadaptability to sparse reward environments. To address these limitations, we introduce ReBis, which aims to capture control-centric information by integrating reward-free control information alongside reward-specific knowledge. ReBis utilizes a transformer architecture to implicitly model the dynamics and incorporates block-wise masking to eliminate spatiotemporal redundancy. Moreover, ReBis combines bisimulation-based loss with asymmetric reconstruction loss to prevent feature collapse in environments with sparse rewards. Empirical studies on two large benchmarks, including Atari games and DeepMind Control Suit, demonstrate that ReBis has superior performance compared to existing methods, proving its effectiveness.
翻訳日:2023-10-26 14:21:01 公開日:2023-10-25
# ChatGPTはゼロショット依存パーサである

ChatGPT is a Potential Zero-Shot Dependency Parser ( http://arxiv.org/abs/2310.16654v1 )

ライセンス: Link先を確認
Boda Lin, Xinyi Zhou, Binghao Tang, Xiaocheng Gong, Si Li(参考訳) 事前訓練された言語モデルは依存性解析タスクで広く使われており、パーサのパフォーマンスが大幅に改善されている。 しかし、事前学習された言語モデルがゼロショットシナリオで追加のパーサ構造を導入することなく、依存性解析の能力を自発的に発揮できるかどうかについては、まだ未熟な疑問である。 本稿では,ChatGPTなどの大規模言語モデルの依存性解析能力について検討し,言語解析を行う。 実験の結果,chatgptはゼロショット依存パーサの可能性を示し,言語解析では出力解析において独自の好みを示す。

Pre-trained language models have been widely used in dependency parsing task and have achieved significant improvements in parser performance. However, it remains an understudied question whether pre-trained language models can spontaneously exhibit the ability of dependency parsing without introducing additional parser structure in the zero-shot scenario. In this paper, we propose to explore the dependency parsing ability of large language models such as ChatGPT and conduct linguistic analysis. The experimental results demonstrate that ChatGPT is a potential zero-shot dependency parser, and the linguistic analysis also shows some unique preferences in parsing outputs.
翻訳日:2023-10-26 14:20:42 公開日:2023-10-25
# $\alpha$-divergence最小化による重み付き分布の適応的重要サンプリング

Adaptive importance sampling for heavy-tailed distributions via $\alpha$-divergence minimization ( http://arxiv.org/abs/2310.16653v1 )

ライセンス: Link先を確認
Thomas Guilmeau and Nicola Branchini and Emilie Chouzenoux and V\'ictor Elvira(参考訳) adaptive importance sampling (ais) アルゴリズムは複雑な目標確率分布に対する期待を近似するために広く使われている。 ターゲットが重いテールを持つ場合、既存のaisアルゴリズムは一貫性のない推定器を提供したり、ターゲットのテール動作を無視することが多いため、収束が遅い。 この落とし穴を避けるために,学生t提案分布によって目標を近似するaisアルゴリズムを提案する。 我々は、ターゲットと提案の重み付けされた分布に対しても定義されたエスコートモーメントをマッチングすることで、位置とスケールパラメータを適応する。 これらの更新はターゲットと提案の間の$\alpha$-divergenceを最小化し、変分推論と接続する。 すると、$\alpha$-divergence は有効サンプルサイズという一般化された概念で近似でき、この新しい視点を利用して末尾パラメータをベイズ最適化に適応させることができる。 臨床実験データを用いた実例において, 人工目標へのアプローチの有効性とベイズ学生t回帰課題を実例に示す。

Adaptive importance sampling (AIS) algorithms are widely used to approximate expectations with respect to complicated target probability distributions. When the target has heavy tails, existing AIS algorithms can provide inconsistent estimators or exhibit slow convergence, as they often neglect the target's tail behaviour. To avoid this pitfall, we propose an AIS algorithm that approximates the target by Student-t proposal distributions. We adapt location and scale parameters by matching the escort moments - which are defined even for heavy-tailed distributions - of the target and the proposal. These updates minimize the $\alpha$-divergence between the target and the proposal, thereby connecting with variational inference. We then show that the $\alpha$-divergence can be approximated by a generalized notion of effective sample size and leverage this new perspective to adapt the tail parameter with Bayesian optimization. We demonstrate the efficacy of our approach through applications to synthetic targets and a Bayesian Student-t regression task on a real example with clinical trial data.
翻訳日:2023-10-26 14:20:30 公開日:2023-10-25
# コミュニケーションエラーに対するフェデレーション学習はいかにロバストか? アップリンクチャンネルとダウンリンクチャンネルの比較検討

How Robust is Federated Learning to Communication Error? A Comparison Study Between Uplink and Downlink Channels ( http://arxiv.org/abs/2310.16652v1 )

ライセンス: Link先を確認
Linping Qu, Shenghui Song, Chi-Ying Tsui, and Yuyi Mao(参考訳) プライバシー保護機能のため、フェデレーション学習(fl)は学界と産業界の両方から注目を集めている。 しかし,無線ネットワーク上で実装されている場合,FLによる通信エラーの許容範囲は明らかになっていない。 本稿では,FLのアップリンクおよびダウンリンク通信誤りに対する堅牢性について検討する。 理論解析の結果,ロバスト性はクライアント数とモデルパラメータの数値範囲という2つの重要なパラメータに依存することが明らかとなった。 また、FLにおけるアップリンク通信は、ダウンリンク通信よりも高いビット誤り率(BER)を許容できることを示し、この差を提案式で定量化する。 この発見と理論的解析は広範な実験によってさらに検証される。

Because of its privacy-preserving capability, federated learning (FL) has attracted significant attention from both academia and industry. However, when being implemented over wireless networks, it is not clear how much communication error can be tolerated by FL. This paper investigates the robustness of FL to the uplink and downlink communication error. Our theoretical analysis reveals that the robustness depends on two critical parameters, namely the number of clients and the numerical range of model parameters. It is also shown that the uplink communication in FL can tolerate a higher bit error rate (BER) than downlink communication, and this difference is quantified by a proposed formula. The findings and theoretical analyses are further validated by extensive experiments.
翻訳日:2023-10-26 14:20:09 公開日:2023-10-25
# ディラック鎖上の旋回真空の長期挙動:幾何学的曖昧さとランダムスレーターアンサンブル

Long term behavior of the stirred vacuum on a Dirac chain: geometry blur and the random Slater ensemble ( http://arxiv.org/abs/2310.16693v1 )

ライセンス: Link先を確認
Jos\'e Vinaixa, Bego\~na Mula, Alfredo Dea\~no, Silvia N. Santalla, Javier Rodr\'iguez-Laguna(参考訳) 局所ホッピング振幅を抑制する移動古典障害物により動的に摂動する有限自由フェルミオン鎖の基底状態としてモデル化された、既約物体によりかき混ぜられた1次元ディラック真空の長期状態を特徴付ける。 障害物の速度によって、2つの異なる状態が見つかる。 スローモーションでは、実効的なフロケ・ハミルトニアンがガウス直交アンサンブルの典型的な特徴を示し、フロケモードの占有は概して同質となる。 さらに、連続するブロックの長時間の絡み合いエントロピーは、ページの法則のガウス的類似、すなわち体積的挙動に従う。 実際、還元密度行列の統計的性質はランダムなスレーター行列式に対応しており、これはランダム行列論のジャコビアンサンブルを用いて記述することができる。 一方、障害物が十分に速く動くと、実効的なフロケ・ハミルトン群はポアソン的振舞いを示す。 エンタングルメント構造の基礎となる有効形状を決定するエンタングルメントリンクによって遷移の性質が明らかにされ、物理的ハミルトニアンの一次元性は障害物運動を遅くするにつれてランダムな隣接行列に溶ける。

We characterize the long-term state of the 1D Dirac vacuum stirred by an impenetrable object, modeled as the ground state of a finite free-fermionic chain dynamically perturbed by a moving classical obstacle which suppresses the local hopping amplitudes. We find two different regimes, depending on the velocity of the obstacle. For a slow motion, the effective Floquet Hamiltonian presents features which are typical of the Gaussian orthogonal ensemble, and the occupation of the Floquet modes becomes roughly homogeneous. Moreover, the long term entanglement entropy of a contiguous block follows a Gaussian analogue of Page's law, i.e. a volumetric behavior. Indeed, the statistical properties of the reduced density matrices correspond to those of a random Slater determinant, which can be described using the Jacobi ensemble from random matrix theory. On the other hand, if the obstacle moves fast enough, the effective Floquet Hamiltonian presents a Poissonian behavior. The nature of the transition is clarified by the entanglement links, which determine the effective geometry underlying the entanglement structure, showing that the one-dimensionality of the physical Hamiltonian dissolves into a random adjacency matrix as we slow down the obstacle motion.
翻訳日:2023-10-26 14:14:14 公開日:2023-10-25
# ロボット摩擦モデルの学習に基づく適応

Learning-based adaption of robotic friction models ( http://arxiv.org/abs/2310.16688v1 )

ライセンス: Link先を確認
Philipp Scholl, Maged Iskandar, Sebastian Wolf, Jinoh Lee, Aras Bacho, Alexander Dietrich, Alin Albu-Sch\"affer and Gitta Kutyniok(参考訳) 人工知能と機械の自動化が中心的な役割を果たす第四次産業革命では、ロボットの展開が不可欠である。 しかし、ロボット、特に人間とのコラボレーションによる製造プロセスは非常に複雑である。 特に、ロボット関節の摩擦トルクのモデル化は、優れた数学的記述が欠如しているため、長年の課題である。 これは最近の研究でデータ駆動メソッドの使用を動機付けている。 しかし、モデルに基づくモデルとデータ駆動モデルはしばしば、訓練された特定のダイナミクスを超えて一般化する能力の限界を示す。 この課題に対処するために,既存の摩擦モデルを可能な限り少ないデータで新しいダイナミクスに適応することを目的とした,残差学習に基づく新しいアプローチを提案する。 我々は, ベースニューラルネットワークを対称摩擦データセット上でトレーニングし, 速度と摩擦トルクの正確な関係を学習することによって, アプローチを検証する。 その後、より複雑な非対称な設定に適応するために、小さなデータセット上で第2のネットワークをトレーニングし、初期ネットワークの出力の残量を予測することに焦点を当てます。 両ネットワークの出力を適切な方法で組み合わせることで,提案する推定器は,従来のモデルベースアプローチとベースニューラルネットワークよりも大幅に優れる。 さらに, 外部負荷を含む軌道について評価し, 従来手法に比べて約60~70倍の大幅な改善がみられた。 本手法はトレーニング中に外部負荷を伴うデータに依存しないため,外部トルクセンサの必要がなくなる。 これは,摩擦に関する事前知識に基づく多様なシナリオへのロボット移動の43秒のごくわずかなデータのみの適応であっても,このアプローチの一般化能力を示す。

In the Fourth Industrial Revolution, wherein artificial intelligence and the automation of machines occupy a central role, the deployment of robots is indispensable. However, the manufacturing process using robots, especially in collaboration with humans, is highly intricate. In particular, modeling the friction torque in robotic joints is a longstanding problem due to the lack of a good mathematical description. This motivates the usage of data-driven methods in recent works. However, model-based and data-driven models often exhibit limitations in their ability to generalize beyond the specific dynamics they were trained on, as we demonstrate in this paper. To address this challenge, we introduce a novel approach based on residual learning, which aims to adapt an existing friction model to new dynamics using as little data as possible. We validate our approach by training a base neural network on a symmetric friction data set to learn an accurate relation between the velocity and the friction torque. Subsequently, to adapt to more complex asymmetric settings, we train a second network on a small dataset, focusing on predicting the residual of the initial network's output. By combining the output of both networks in a suitable manner, our proposed estimator outperforms the conventional model-based approach and the base neural network significantly. Furthermore, we evaluate our method on trajectories involving external loads and still observe a substantial improvement, approximately 60-70\%, over the conventional approach. Our method does not rely on data with external load during training, eliminating the need for external torque sensors. This demonstrates the generalization capability of our approach, even with a small amount of data-only 43 seconds of a robot movement-enabling adaptation to diverse scenarios based on prior knowledge about friction in different settings.
翻訳日:2023-10-26 14:13:51 公開日:2023-10-25
# 適応文脈対応政策による強化学習におけるダイナミクスの一般化

Dynamics Generalisation in Reinforcement Learning via Adaptive Context-Aware Policies ( http://arxiv.org/abs/2310.16686v1 )

ライセンス: Link先を確認
Michael Beukman, Devon Jarvis, Richard Klein, Steven James, Benjamin Rosman(参考訳) 強化学習はいくつかの分野で目覚ましい成功を収めてきたが、多くの方法が未知の条件に一般化できないため、実世界の応用は限られている。 本研究では,エージェントの行動に対する環境の応答が異なる場合に対応する新しい遷移ダイナミクスへの一般化の問題を考える。 例えば、ロボットに作用する重力は、その質量に依存し、ロボットの移動性を変化させる。 したがって、そのような場合、エージェントの動作を外部状態情報と環境の反応を反映した関連するコンテキスト情報に条件付ける必要がある。 コンテキストに敏感なポリシーの必要性が確立されている一方で、アーキテクチャ的にコンテキストを組み込む方法の注目度は低下している。 そこで本研究では,文脈情報を行動学習に組み込むことにより一般化を改善する方法について検討する。 そこで本研究では,ニューラルネットワークアーキテクチャであるdecision adapterを紹介し,アダプタモジュールの重みを生成し,コンテキスト情報に対するエージェントの振る舞いを条件とする。 決定適応器は以前に提案したアーキテクチャの有用な一般化であり,いくつかの環境における従来の手法に比べて優れた一般化性能を示す。 さらに、決定アダプタはいくつかの代替手法よりも無関係な散逸変数に対して堅牢である。

While reinforcement learning has achieved remarkable successes in several domains, its real-world application is limited due to many methods failing to generalise to unfamiliar conditions. In this work, we consider the problem of generalising to new transition dynamics, corresponding to cases in which the environment's response to the agent's actions differs. For example, the gravitational force exerted on a robot depends on its mass and changes the robot's mobility. Consequently, in such cases, it is necessary to condition an agent's actions on extrinsic state information and pertinent contextual information reflecting how the environment responds. While the need for context-sensitive policies has been established, the manner in which context is incorporated architecturally has received less attention. Thus, in this work, we present an investigation into how context information should be incorporated into behaviour learning to improve generalisation. To this end, we introduce a neural network architecture, the Decision Adapter, which generates the weights of an adapter module and conditions the behaviour of an agent on the context information. We show that the Decision Adapter is a useful generalisation of a previously proposed architecture and empirically demonstrate that it results in superior generalisation performance compared to previous approaches in several environments. Beyond this, the Decision Adapter is more robust to irrelevant distractor variables than several alternative methods.
翻訳日:2023-10-26 14:13:24 公開日:2023-10-25
# 双方向LSTMモデルによる著者属性によるChatGPTによるニュースの検出

Detection of news written by the ChatGPT through authorship attribution performed by a Bidirectional LSTM model ( http://arxiv.org/abs/2310.16685v1 )

ライセンス: Link先を確認
Amanda Ferrari Iaquinta, Gustavo Voltani von Atzingen(参考訳) 大規模な言語ベースのモデルチャットボットChatGPTは、ローンチ以来多くの人気を集め、幅広い状況で使われている。 この研究は、chatgptが人口が消費するニュースを生み出すのに使われ、偽ニュースの生成の促進、誤情報の拡散、ニュースソースへの信頼の欠如の原因となっている特定の状況に焦点を当てている。 本研究は,これらの問題に対処して,ChatGPTによって書かれたものを識別し,ニュース記事の著者帰属を行う人工知能モデルの構築を目的とする。 この目的を達成するために、同じ量の人間とチャットgptの書かれたニュースを含むデータセットを組み立て、異なる自然処理言語技術を使用して、異なるテクニックで構築された3つのモデルの訓練、検証、テストに使用された特徴を抽出する。 最高の性能は双方向長短期記憶(LSTM)ニューラルネットワークモデルによって生成され、テストセットのデータに対して91.57\%の精度でテストされた。

The large language based-model chatbot ChatGPT gained a lot of popularity since its launch and has been used in a wide range of situations. This research centers around a particular situation, when the ChatGPT is used to produce news that will be consumed by the population, causing the facilitation in the production of fake news, spread of misinformation and lack of trust in news sources. Aware of these problems, this research aims to build an artificial intelligence model capable of performing authorship attribution on news articles, identifying the ones written by the ChatGPT. To achieve this goal, a dataset containing equal amounts of human and ChatGPT written news was assembled and different natural processing language techniques were used to extract features from it that were used to train, validate and test three models built with different techniques. The best performance was produced by the Bidirectional Long Short Term Memory (LSTM) Neural Network model, achiving 91.57\% accuracy when tested against the data from the testing set.
翻訳日:2023-10-26 14:13:04 公開日:2023-10-25
# 生成画像検出のための局所統計

Local Statistics for Generative Image Detection ( http://arxiv.org/abs/2310.16684v1 )

ライセンス: Link先を確認
Yung Jer Wong, Teck Khim Ng(参考訳) 拡散モデル (DM) はガウスノイズから画像の合成を学ぶ生成モデルである。 DMは、画像生成や画像超解像などの様々なタスクを訓練することができる。 研究者たちは、ここ数年でフォトリアリスティック画像を合成する能力を大幅に改善した。 これらの成功は、合成画像の潜在的な誤用に対処する必要性も高まる。 本稿では,dm生成画像とデジタルカメラ画像の区別において,グローバル統計とは対照的に,局所統計計算の有効性を強調する。 局所統計は画像の空間的非定常問題に対処するために使われるべきだと仮定した。 我々は,提案手法が有望な結果をもたらし,画像の縮小やJPEG圧縮といった様々な摂動にも頑健であることを示す。

Diffusion models (DMs) are generative models that learn to synthesize images from Gaussian noise. DMs can be trained to do a variety of tasks such as image generation and image super-resolution. Researchers have made significant improvement in the capability of synthesizing photorealistic images in the past few years. These successes also hasten the need to address the potential misuse of synthesized images. In this paper, we highlight the effectiveness of computing local statistics, as opposed to global statistics, in distinguishing digital camera images from DM-generated images. We hypothesized that local statistics should be used to address the spatial non-stationarity problem in images. We show that our approach produced promising results and it is also robust to various perturbations such as image resizing and JPEG compression.
翻訳日:2023-10-26 14:12:44 公開日:2023-10-25
# BabyStories: より優れたストーリーを書くために、Teach Baby Language Modelを学習できるか?

BabyStories: Can Reinforcement Learning Teach Baby Language Models to Write Better Stories? ( http://arxiv.org/abs/2310.16681v1 )

ライセンス: Link先を確認
Xingmeng Zhao, Tongnian Wang, Sheri Osborn, Anthony Rios(参考訳) 言語モデルは、コーパスのサイズが大幅に増加し、顕著なパフォーマンス改善につながった。 しかし、より小さく、より人間的なデータセットを扱うモデルの開発には、限られた進歩があった。 BabyLM共有タスクの一環として,人間からのフィードバック(RLHF)からの強化学習が,限定的な学習コーパスを用いてゼロから事前学習した言語モデルに与える影響について検討した。 GPT-2の2種類のモデルと比較すると、RLHF微調整後のストーリーテリング作業においてより優れた性能を発揮する。 これらの結果から,RLHF法は学習能力や適応能力が高いため,より大きなモデルに有利である可能性が示唆された。 これらの洞察は、限定されたデータ内の言語モデルのためのRLHF微調整の潜在的な利点を強調し、物語の焦点と一貫性を維持しながら、ストーリーテリングタスクにおける最初の指示に順応する能力を高める。 この作業のコードはhttps://github.com/Zephyr1022/BabyStories-UTSA.comで公開されている。

Language models have seen significant growth in the size of their corpus, leading to notable performance improvements. Yet, there has been limited progress in developing models that handle smaller, more human-like datasets. As part of the BabyLM shared task, this study explores the impact of reinforcement learning from human feedback (RLHF) on language models pretrained from scratch with a limited training corpus. Comparing two GPT-2 variants, the larger model performs better in storytelling tasks after RLHF fine-tuning. These findings suggest that RLHF techniques may be more advantageous for larger models due to their higher learning and adaptation capacity, though more experiments are needed to confirm this finding. These insights highlight the potential benefits of RLHF fine-tuning for language models within limited data, enhancing their ability to maintain narrative focus and coherence while adhering better to initial instructions in storytelling tasks. The code for this work is publicly at https://github.com/Zephyr1022/BabyStories-UTSA.
翻訳日:2023-10-26 14:12:34 公開日:2023-10-25
# 堅牢でセキュアなサーバレスコラボレーション学習

Robust and Actively Secure Serverless Collaborative Learning ( http://arxiv.org/abs/2310.16678v1 )

ライセンス: Link先を確認
Olive Franzese, Adam Dziedzic, Christopher A. Choquette-Choo, Mark R. Thomas, Muhammad Ahmad Kaleem, Stephan Rabanser, Congyu Fang, Somesh Jha, Nicolas Papernot, Xiao Wang(参考訳) コラボレーティブ機械学習(ML)は、分散データからより良いモデルを学ぶために広く利用されている。 ユーザデータを直感的に保護するためのコラボレーティブなアプローチは、サーバ、クライアント、あるいはその両方に対して脆弱であり、プロトコルから切り離されている。 実際、プロトコルは非対称であるため、悪意のあるサーバはクライアントデータポイントを再構築するためにそのパワーを乱用することができる。 逆に悪意のあるクライアントは、悪意のあるアップデートで学習を損なう可能性がある。 したがって、クライアントとサーバの両方が、もう一方が完全に協力できない場合に保証を必要とする。 本稿では,悪意のあるサーバに対して安全で,悪意のあるクライアントに対して堅牢なp2p学習方式を提案する。 私たちの中心となる貢献は、モデル更新の堅牢な集約のために(互換性のある)アルゴリズムをサーバとクライアントが悪意を持って行動できる設定に変換する汎用フレームワークです。 最後に、100万のピアが標準データセットでトレーニングした100万のパラメータモデルにおいても、このアプローチの計算効率を示す。

Collaborative machine learning (ML) is widely used to enable institutions to learn better models from distributed data. While collaborative approaches to learning intuitively protect user data, they remain vulnerable to either the server, the clients, or both, deviating from the protocol. Indeed, because the protocol is asymmetric, a malicious server can abuse its power to reconstruct client data points. Conversely, malicious clients can corrupt learning with malicious updates. Thus, both clients and servers require a guarantee when the other cannot be trusted to fully cooperate. In this work, we propose a peer-to-peer (P2P) learning scheme that is secure against malicious servers and robust to malicious clients. Our core contribution is a generic framework that transforms any (compatible) algorithm for robust aggregation of model updates to the setting where servers and clients can act maliciously. Finally, we demonstrate the computational efficiency of our approach even with 1-million parameter models trained by 100s of peers on standard datasets.
翻訳日:2023-10-26 14:12:15 公開日:2023-10-25
# 会話における感情認識のための効率的なモデル非依存教師付きコントラスト学習フレームワークsslcl

SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning Framework for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.16676v1 )

ライセンス: Link先を確認
Tao Shi, Xiao Liang, Yaoyuan Liang, Xinyi Tong, Shao-Lun Huang(参考訳) 会話における感情認識(Emotion Recognition in conversation,ERC)は、会話中に話者が表現する感情を検出することを目的として、自然言語処理コミュニティ内で急速に進化しているタスクである。 近年,教師付きコントラスト学習(SCL)を活用した学習機能の堅牢性と一般化性の向上に重点を置いているERC手法が増えている。 しかし、現在のERCにおけるSCLベースのアプローチは、大きなバッチサイズの制約と既存のERCモデルとの互換性の欠如によって妨げられている。 これらの課題に対処するため,SCLフレームワークであるSupervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)を提案する。 具体的には, 個別のラベルを浅い多層パーセプトロンを介して密な埋め込みに投影し, サンプル特徴と対応する接地トラスラベルの埋め込みとの類似性を最大化し, 異なるクラスのラベル埋め込みとの類似性を最小限に抑えながら, ラベル表現を利用した新しい視点を導入する。 さらに,サンプル特徴量とラベル埋め込み量との類似性の尺度として,Soft-HGRの最大相関を革新的に採用し,従来の類似度尺度よりも優れた性能向上を実現した。 さらに、マルチモーダルな発話キューはSSLCLによってデータ拡張として効果的に活用され、モデル性能が向上する。 ERCベンチマークデータセットであるIEMOCAPとMELDの大規模な実験は、既存の最先端SCL手法と比較して、提案したSSLCLフレームワークの互換性と優位性を実証している。 私たちのコードは \url{https://github.com/TaoShi1998/SSLCL} で利用可能です。

Emotion recognition in conversations (ERC) is a rapidly evolving task within the natural language processing community, which aims to detect the emotions expressed by speakers during a conversation. Recently, a growing number of ERC methods have focused on leveraging supervised contrastive learning (SCL) to enhance the robustness and generalizability of learned features. However, current SCL-based approaches in ERC are impeded by the constraint of large batch sizes and the lack of compatibility with most existing ERC models. To address these challenges, we propose an efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal Correlation (SSLCL), which eliminates the need for a large batch size and can be seamlessly integrated with existing ERC models without introducing any model-specific assumptions. Specifically, we introduce a novel perspective on utilizing label representations by projecting discrete labels into dense embeddings through a shallow multilayer perceptron, and formulate the training objective to maximize the similarity between sample features and their corresponding ground-truth label embeddings, while minimizing the similarity between sample features and label embeddings of disparate classes. Moreover, we innovatively adopt the Soft-HGR maximal correlation as a measure of similarity between sample features and label embeddings, leading to significant performance improvements over conventional similarity measures. Additionally, multimodal cues of utterances are effectively leveraged by SSLCL as data augmentations to boost model performances. Extensive experiments on two ERC benchmark datasets, IEMOCAP and MELD, demonstrate the compatibility and superiority of our proposed SSLCL framework compared to existing state-of-the-art SCL methods. Our code is available at \url{https://github.com/TaoShi1998/SSLCL}.
翻訳日:2023-10-26 14:12:01 公開日:2023-10-25
# 停止に同意する: スパイクニューラルネットワークのアンサンブルによる信頼性の高いレイテンシ適応的意思決定

Agreeing to Stop: Reliable Latency-Adaptive Decision Making via Ensembles of Spiking Neural Networks ( http://arxiv.org/abs/2310.16675v1 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, and Osvaldo Simeone(参考訳) スパイキングニューラルネットワーク(SNN)は、入力時系列の間隔を利用して分類などのタスクを効率的に実行できる反復モデルである。 入力時系列の複雑さの関数としてできるだけ早く決定が取られれば、さらなる効率向上が得られる。 推論を中止して意思決定を行う際の決定は、その決定の現在の正確さの見積に依存する必要がある。 先行研究は、不確実性を定量化し、SNNにおける適応レイテンシ決定をサポートするための原則的な方法として、共形予測(CP)の使用を実証した。 本稿では,停止決定の信頼性向上を目的としたアンサンブルモデルを実装することにより,SNNの不確実性定量化能力の向上を提案する。 直感的には、複数のモデルのアンサンブルは、現在の精度レベルが十分であることをほとんどのモデルが合意する時間を選択することで、いつより確実に停止するかを決定することができる。 提案手法は,アンサンブルモデルと異なる形式の情報プールに依存し,理論的信頼性を保証する。 特に,p変数プーリングによる変分推論に基づくアンサンブルは,信頼性を確保しつつ,最先端手法の平均遅延を著しく低減することを示す。

Spiking neural networks (SNNs) are recurrent models that can leverage sparsity in input time series to efficiently carry out tasks such as classification. Additional efficiency gains can be obtained if decisions are taken as early as possible as a function of the complexity of the input time series. The decision on when to stop inference and produce a decision must rely on an estimate of the current accuracy of the decision. Prior work demonstrated the use of conformal prediction (CP) as a principled way to quantify uncertainty and support adaptive-latency decisions in SNNs. In this paper, we propose to enhance the uncertainty quantification capabilities of SNNs by implementing ensemble models for the purpose of improving the reliability of stopping decisions. Intuitively, an ensemble of multiple models can decide when to stop more reliably by selecting times at which most models agree that the current accuracy level is sufficient. The proposed method relies on different forms of information pooling from ensemble models, and offers theoretical reliability guarantees. We specifically show that variational inference-based ensembles with p-variable pooling significantly reduce the average latency of state-of-the-art methods, while maintaining reliability guarantees.
翻訳日:2023-10-26 14:11:30 公開日:2023-10-25
# コード記述のための大規模言語モデルの探索

Exploring Large Language Models for Code Explanation ( http://arxiv.org/abs/2310.16673v1 )

ライセンス: Link先を確認
Paheli Bhattacharya, Manojit Chakraborty, Kartheek N S N Palepu, Vikas Pandey, Ishan Dindorkar, Rakesh Rajpurohit, Rishabh Gupta(参考訳) 説明テキストによるコードドキュメントの自動化は、コード理解において非常に有益である。 大規模言語モデル(LLM)は自然言語処理、特にコード生成やコード要約といったソフトウェア工学のタスクにおいて顕著な進歩を遂げています。 本研究は、様々なllmを用いて、コードスニペットの自然言語サマリーを生成するタスクに特化している。 これらの結果から,Code LLMは汎用的手法よりも優れており,ゼロショット法ではトレーニングセットとテストセットの異なる分布を持つデータセットを扱う場合,優れた結果が得られることがわかった。

Automating code documentation through explanatory text can prove highly beneficial in code understanding. Large Language Models (LLMs) have made remarkable strides in Natural Language Processing, especially within software engineering tasks such as code generation and code summarization. This study specifically delves into the task of generating natural-language summaries for code snippets, using various LLMs. The findings indicate that Code LLMs outperform their generic counterparts, and zero-shot methods yield superior results when dealing with datasets with dissimilar distributions between training and testing sets.
翻訳日:2023-10-26 14:11:09 公開日:2023-10-25
# エンタングルメントスペクトルの微細なレベルを抽出するためのサンプリング低減密度行列

Sampling reduced density matrix to extract fine levels of entanglement spectrum ( http://arxiv.org/abs/2310.16709v1 )

ライセンス: Link先を確認
Bin-Bin Mao and Yi-Ming Ding and Zheng Yan(参考訳) 低いエンタングルメントスペクトルは、高エンタングルド量子物質を位相的および共形場理論的性質で同定するためのクインテシデント指紋を与える。 しかし、エンタングリング領域が、長い結合鎖間や2次元以上の次元におけるような環境との長い境界を獲得するとき、残念ながら、手頃な計算コストでエンタングメントスペクトルを計算するための普遍的かつ実用的な方法は存在しない。 本稿では,このような困難を克服し,低層微細絡み合いスペクトル(ES)の抽出に成功した新しい手法を提案する。 我々は,量子モンテカルロシミュレーションによって環境を追跡し,還元密度行列を対角化し,esを得る。 本手法の長鎖結合による強度と信頼性を実証し,長期にわたる議論に答える。 シミュレーション結果は,前例のない規模のシステム規模で,非常に自由度の高いエンタングルメントスペクトルの実用的計算手法を確立した。

Low-lying entanglement spectrum provides the quintessential fingerprint to identify the highly entangled quantum matter with topological and conformal field-theoretical properties. However, when the entangling region acquires long boundary with the environment, such as that between long coupled chains or in two or higher dimensions, there unfortunately exists no universal yet practical method to compute the entanglement spectra with affordable computational cost. Here we propose a new scheme to overcome such difficulty and successfully extract the low-lying fine entanglement spectrum (ES). We trace out the environment via quantum Monte Carlo simulation and diagonalize the reduced density matrix to gain the ES. We demonstrate the strength and reliability of our method through long coupled spin chains and answer its long-standing controversy. Our simulation results, with unprecedentedly large system sizes, establish the practical computation scheme of the entanglement spectrum with a huge freedom degree of environment.
翻訳日:2023-10-26 14:02:32 公開日:2023-10-25
# CNN-SVM分類器を用いたタイルライト信号認識による夜間運転行動予測

Nighttime Driver Behavior Prediction Using Taillight Signal Recognition via CNN-SVM Classifier ( http://arxiv.org/abs/2310.16706v1 )

ライセンス: Link先を確認
Amir Hossein Barshooi and Elmira Bagheri(参考訳) 本研究の目的は、人間駆動車と自律車の両方のテールライトを特定し、夜間運転行動を予測する能力を高めることである。 提案モデルでは、道路の前方のテールライトを正確に検出するカスタム検出器が組み込まれている。 検出器の開始時に学習可能な前処理ブロックが実装され、入力画像から深い特徴を抽出し、各特徴に対するデータラミリティを算出する。 次のステップでは、ソフトアテンションからインスピレーションを得て、重み付きバイナリマスクをデザインし、モデルを所定の領域に集中させる。 本研究では,CNNを用いてこれらの領域から特徴を抽出し,主成分分析(PCA)を用いて次元を縮小する。 最後に、車両の挙動を予測するためにSVM(Support Vector Machine)が使用される。 モデルを訓練し評価するために、フォード・モーター社の車両の後方から2種類のダッシュカメラとinsta360カメラから大規模データセットを収集する。 このデータセットには、昼間と夜間の両方でキャプチャされた12Kフレームが含まれている。 夜間の限られたデータに対処するため、昼間の画像をリアルな夜間画像に変換するために、ユニークな画素ワイズ画像処理技術を実装した。 実験の結果,提案手法は92.14%の精度,97.38%の特異性,92.09%の感度,92.10%のf1測定値,0.895のコーエンのkappa統計値で車両挙動を正確に分類できることがわかった。 詳細はhttps://github.com/DeepCar/Taillight_Recognition.comで確認できる。

This paper aims to enhance the ability to predict nighttime driving behavior by identifying taillights of both human-driven and autonomous vehicles. The proposed model incorporates a customized detector designed to accurately detect front-vehicle taillights on the road. At the beginning of the detector, a learnable pre-processing block is implemented, which extracts deep features from input images and calculates the data rarity for each feature. In the next step, drawing inspiration from soft attention, a weighted binary mask is designed that guides the model to focus more on predetermined regions. This research utilizes Convolutional Neural Networks (CNNs) to extract distinguishing characteristics from these areas, then reduces dimensions using Principal Component Analysis (PCA). Finally, the Support Vector Machine (SVM) is used to predict the behavior of the vehicles. To train and evaluate the model, a large-scale dataset is collected from two types of dash-cams and Insta360 cameras from the rear view of Ford Motor Company vehicles. This dataset includes over 12k frames captured during both daytime and nighttime hours. To address the limited nighttime data, a unique pixel-wise image processing technique is implemented to convert daytime images into realistic night images. The findings from the experiments demonstrate that the proposed methodology can accurately categorize vehicle behavior with 92.14% accuracy, 97.38% specificity, 92.09% sensitivity, 92.10% F1-measure, and 0.895 Cohen's Kappa Statistic. Further details are available at https://github.com/DeepCar/Taillight_Recognition.
翻訳日:2023-10-26 14:02:17 公開日:2023-10-25
# 変分推定のための変分パラメータ空間上のワッサースタイン勾配流れ

Wasserstein Gradient Flow over Variational Parameter Space for Variational Inference ( http://arxiv.org/abs/2310.16705v1 )

ライセンス: Link先を確認
Dai Hai Nguyen, Tetsuya Sakurai, Hiroshi Mamitsuka(参考訳) 変分推論(vi)は、変分パラメータを調整して変分分布と真の後続分布を密に調整する最適化問題としてキャストすることができる。 最適化タスクは、ブラックボックスviのバニラ勾配降下または自然勾配viの自然勾配降下を通じてアプローチできる。 本研究では, 確率分布を \textit{variational parameter space} 上で定義する目的の最適化としてviを再構成する。 次に,この最適化問題に取り組むため,wasserstein勾配降下法を提案する。 特に、ブラックボックス VI と自然勾配 VI の最適化手法は、提案されたワッサーシュタイン勾配勾配の特定の例として解釈することができる。 最適化の効率を向上させるため,離散勾配流の数値解法を開発した。 理論解析により補足した合成データセットを用いた実験により,提案手法の有効性を検証する。

Variational inference (VI) can be cast as an optimization problem in which the variational parameters are tuned to closely align a variational distribution with the true posterior. The optimization task can be approached through vanilla gradient descent in black-box VI or natural-gradient descent in natural-gradient VI. In this work, we reframe VI as the optimization of an objective that concerns probability distributions defined over a \textit{variational parameter space}. Subsequently, we propose Wasserstein gradient descent for tackling this optimization problem. Notably, the optimization techniques, namely black-box VI and natural-gradient VI, can be reinterpreted as specific instances of the proposed Wasserstein gradient descent. To enhance the efficiency of optimization, we develop practical methods for numerically solving the discrete gradient flows. We validate the effectiveness of the proposed methods through empirical experiments on a synthetic dataset, supplemented by theoretical analyses.
翻訳日:2023-10-26 14:01:48 公開日:2023-10-25
# 法域におけるルールに基づく意思決定システムの人間中心的説明

Human-centred explanation of rule-based decision-making systems in the legal domain ( http://arxiv.org/abs/2310.16704v1 )

ライセンス: Link先を確認
Suzan Zuurmond, AnneMarie Borg, Matthijs van Kempen and Remi Wieten(参考訳) 法域におけるルールに基づく自動意思決定システムの人間中心的説明法を提案する。 まず,内的要素(コンテンツ,コミュニケーション,適応)と外部依存性(意思決定システム,人間受取,ドメイン)を表現する,説明手法を開発するための概念的枠組みを確立する。 次に,質問駆動型説明とマルチメディア表示を実現するために,グラフデータベースを用いた説明手法を提案する。 このようにして、ユーザへの説明を調整できます。 最後に、オランダ税関の現実シナリオに我々の概念的枠組みがどのように適用されているかを示し、このシナリオの説明手法を実装した。

We propose a human-centred explanation method for rule-based automated decision-making systems in the legal domain. Firstly, we establish a conceptual framework for developing explanation methods, representing its key internal components (content, communication and adaptation) and external dependencies (decision-making system, human recipient and domain). Secondly, we propose an explanation method that uses a graph database to enable question-driven explanations and multimedia display. This way, we can tailor the explanation to the user. Finally, we show how our conceptual framework is applicable to a real-world scenario at the Dutch Tax and Customs Administration and implement our explanation method for this scenario.
翻訳日:2023-10-26 14:01:32 公開日:2023-10-25
# 集積フォトニック受信機を用いた量子鍵分布

Quantum Key Distribution With an Integrated Photonic Receiver ( http://arxiv.org/abs/2310.16702v1 )

ライセンス: Link先を確認
Giulia Guarda, Domenico Ribezzo, Tommaso Occhipinti, Alessandro Zavatta, Davide Bacco(参考訳) フォトニック集積回路(PIC)はセキュア通信のための量子技術の進歩の鍵である。 それらは、通常のファイバーベースおよびフリースペースシステムと比較して、固有の安定性、低損失、コンパクト性を提供する。 本研究は,3状態BB84プロトコルをデコイ状態法で実装し,量子通信の強化におけるPICの有効性を示す。 我々は、技術進歩を達成するために、集積受信機と超伝導ナノワイヤ単一光子検出器(snspds)を用いる。 最も顕著な結果の1つは、記録破りの45dBチャネル減衰に対する秘密鍵の抽出である。 その結果,10dBチャネル減衰に対する試作繊維ベースの受信機と比較して220%のキーレート向上が認められた。 この秘密鍵レート(SKR)の改善は、量子通信の分野を前進させる統合フォトニクスの可能性を示している。

Photonic integrated circuits (PICs) are key in advancing quantum technologies for secure communications. They offer inherent stability, low losses and compactness compared to standard fiber-based and free-space systems. Our reasearch demonstrates PIC's effectivness in enhancing quantum communications, implementing a three-state BB84 protocol with decoy-state method. We employ an integrated receiver and superconducting nanowire single photon detectors (SNSPDs) to achieve technological advancements. One of the most notable results is the extraction of a secret key over a record-breaking 45 dB channel attenuation. Our results demonstrate a remarkable 220% boost in key rate compared to our prototype fiber-based receiver over a 10 dB channel attenuation. This improvement in the secret key rate (SKR) signifies the potential of integrated photonics to advance the field of quantum communication.
翻訳日:2023-10-26 14:01:21 公開日:2023-10-25
# 非エルミートフォトニクスにおける例外点:応用と最近の展開

Exceptional points in non-Hermitian Photonics: Applications and Recent Developments ( http://arxiv.org/abs/2310.16699v1 )

ライセンス: Link先を確認
Haiyu Meng, Yee Sin Ang, Ching Hua Lee(参考訳) 例外点は、特に非エルミートフォトニクスにおいて、最近かなりの関心を集めている非エルミート帯域の複素分岐特異点である。 本稿では, 導波路, フォトニック結晶, ファブリペロ共振器, プラズモニック系などの非ヘルミティアンフォトニックプラットフォームにおける最近の進展を概観し, 近未来における非ヘルミティアンフォトニクスの発展に光非線形性と例外境界状態が与える影響について考察する。

Exceptional points are complex branching singularities of non-Hermitian bands that have lately attracted considerable interest, particularly in non-Hermitian photonics. In this article, we review some recent developments in non-Hermitian photonic platforms such as waveguides, photonic crystals, Fabry-Perot resonators and plasmonic systems, and suggest how optical non-linearities and exceptional bound states can significantly impact the development of non-Hermitian photonics in the near future.
翻訳日:2023-10-26 14:01:10 公開日:2023-10-25
# ピーリングアルゴリズムによる一般化線形モデルによる因果発見

Causal Discovery with Generalized Linear Models through Peeling Algorithms ( http://arxiv.org/abs/2310.16698v1 )

ライセンス: Link先を確認
Minjie Wang, Xiaotong Shen, Wei Pan(参考訳) 本稿では, 離散データ, 連続データ, 混合データを含む多種多様な結果分析に適した一般化構造方程式モデルを用いた因果発見法を提案する。 因果発見はしばしば、因果関係の特定を妨げる未測定の共同設立者による課題に直面している。 提案手法は,因果関係と有効な機器を識別する2つの剥離アルゴリズム(ボトムアップとトップダウン)を開発することでこの問題に対処する。 このアプローチは、まず、プライマリ変数とインストゥルメンタル変数の関係を利用するノードワイズglm回帰に基づくピーリングアルゴリズムを使用して、変数間の祖先関係を表すスーパーグラフを再構成する。 そして,親のモデルから借りた情報で子どものモデルを分解しながら,別の剥離アルゴリズムを用いて親子関係から親子効果を推定する。 本論文では,モデル識別可能性の条件を確立し,剥離アルゴリズムを用いて親子関係を正確に発見するための統計的保証を提供する。 さらに, 共同ファウンダーのいない最先端構造学習手法と比較して, 提案手法の有効性を示す数値実験を行った。 最後に、アルツハイマー病(AD)への応用を実証し、健常者およびAD患者に単一核酸多型(SNP)を含む遺伝子間および遺伝子間制御ネットワークの構築における方法の有用性を強調した。

This article presents a novel method for causal discovery with generalized structural equation models suited for analyzing diverse types of outcomes, including discrete, continuous, and mixed data. Causal discovery often faces challenges due to unmeasured confounders that hinder the identification of causal relationships. The proposed approach addresses this issue by developing two peeling algorithms (bottom-up and top-down) to ascertain causal relationships and valid instruments. This approach first reconstructs a super-graph to represent ancestral relationships between variables, using a peeling algorithm based on nodewise GLM regressions that exploit relationships between primary and instrumental variables. Then, it estimates parent-child effects from the ancestral relationships using another peeling algorithm while deconfounding a child's model with information borrowed from its parents' models. The article offers a theoretical analysis of the proposed approach, which establishes conditions for model identifiability and provides statistical guarantees for accurately discovering parent-child relationships via the peeling algorithms. Furthermore, the article presents numerical experiments showcasing the effectiveness of our approach in comparison to state-of-the-art structure learning methods without confounders. Lastly, it demonstrates an application to Alzheimer's disease (AD), highlighting the utility of the method in constructing gene-to-gene and gene-to-disease regulatory networks involving Single Nucleotide Polymorphisms (SNPs) for healthy and AD subjects.
翻訳日:2023-10-26 14:00:57 公開日:2023-10-25
# 分類のための解釈可能な時系列ニューラル表現

Interpretable time series neural representation for classification purposes ( http://arxiv.org/abs/2310.16696v1 )

ライセンス: Link先を確認
Etienne Le Naour, Ghislain Agoua, Nicolas Baskiotis, Vincent Guigue(参考訳) ディープラーニングは、複雑なパターンを自動的に識別することで、時系列データの効率的な表現を作成する上で大きな進歩を遂げた。 しかし、これらのアプローチは解釈可能性に欠けており、時系列は容易に解釈できない潜在ベクトルに変換される。 一方、シンボリックアグリゲート近似(SAX)法は、解釈できるが複雑なパターンを効果的に捉えないシンボリック表現の作成を可能にする。 本研究では,一変量時系列のニューラル表現を解釈可能な要求セットを提案する。 これらの要件を満たす新しい教師なしニューラルアーキテクチャを提案する。 提案モデルは、一貫した、離散的で、解釈可能で、可視化可能な表現を生成する。 モデルは、ロバスト性を確保するために教師なしの設定で下流のタスクとは独立して学習される。 提案手法の有効性の実証として,UCRアーカイブデータセットを用いた分類課題の実験を行った。 得られた結果は、他の解釈可能なモデルや最先端のニューラル表現学習モデルと比較される。 実験の結果,提案したモデルでは,複数のデータセットに対する他の解釈可能なアプローチよりも平均的に優れた結果が得られることがわかった。 また,本手法の解釈可能性を評価するための定性的な実験を行う。

Deep learning has made significant advances in creating efficient representations of time series data by automatically identifying complex patterns. However, these approaches lack interpretability, as the time series is transformed into a latent vector that is not easily interpretable. On the other hand, Symbolic Aggregate approximation (SAX) methods allow the creation of symbolic representations that can be interpreted but do not capture complex patterns effectively. In this work, we propose a set of requirements for a neural representation of univariate time series to be interpretable. We propose a new unsupervised neural architecture that meets these requirements. The proposed model produces consistent, discrete, interpretable, and visualizable representations. The model is learned independently of any downstream tasks in an unsupervised setting to ensure robustness. As a demonstration of the effectiveness of the proposed model, we propose experiments on classification tasks using UCR archive datasets. The obtained results are extensively compared to other interpretable models and state-of-the-art neural representation learning models. The experiments show that the proposed model yields, on average better results than other interpretable approaches on multiple datasets. We also present qualitative experiments to asses the interpretability of the approach.
翻訳日:2023-10-26 14:00:33 公開日:2023-10-25
# pointwiseからpowerhouseへ:生成モデルによるニューラルネットワークの初期化

From Pointwise to Powerhouse: Initialising Neural Networks with Generative Models ( http://arxiv.org/abs/2310.16695v1 )

ライセンス: Link先を確認
Christian Harder, Moritz Fuchs, Yuri Tolkach, Anirban Mukhopadhyay(参考訳) HeやXavierといった従来の初期化手法は、ニューラルネットワークにおける勾配の消滅や爆発の問題を回避している。 しかし、それらは1次元変数をモデル化する単純な点分布のみを使用する。 さらに、アーキテクチャに関するほとんどの情報を無視し、過去のトレーニング経験を無視します。 これらの制限は初期化に生成モデルを用いることで克服できる。 本稿では,新しい初期化手法の2つのグループを紹介する。 まず,変分オートエンコーダを用いて重み群を局所的に初期化する。 次に,グラフハイパーネットワークを用いて全重量集合をグローバルに初期化する。 我々は,採用した生成モデルが最先端ニューラルネットワークに与える影響を,精度,収束速度,アンサンブルの観点から徹底的に評価した。 その結果,グローバル初期化は高い精度と高速な初期収束速度をもたらすことがわかった。 しかしながら、グラフハイパーネットワークによる実装は、分散データ外におけるアンサンブル性能を低下させる。 そこで,提案するノイズグラフハイパーネットワークは,生成したアンサンブル部材の多様性を促進するものである。 さらに,学習した知識を異なる画像分布に伝達する手法を提案する。 我々の研究は、これらの新しい初期化手法の可能性、トレードオフ、および変更の可能性に関する洞察を提供する。

Traditional initialisation methods, e.g. He and Xavier, have been effective in avoiding the problem of vanishing or exploding gradients in neural networks. However, they only use simple pointwise distributions, which model one-dimensional variables. Moreover, they ignore most information about the architecture and disregard past training experiences. These limitations can be overcome by employing generative models for initialisation. In this paper, we introduce two groups of new initialisation methods. First, we locally initialise weight groups by employing variational autoencoders. Secondly, we globally initialise full weight sets by employing graph hypernetworks. We thoroughly evaluate the impact of the employed generative models on state-of-the-art neural networks in terms of accuracy, convergence speed and ensembling. Our results show that global initialisations result in higher accuracy and faster initial convergence speed. However, the implementation through graph hypernetworks leads to diminished ensemble performance on out of distribution data. To counteract, we propose a modification called noise graph hypernetwork, which encourages diversity in the produced ensemble members. Furthermore, our approach might be able to transfer learned knowledge to different image distributions. Our work provides insights into the potential, the trade-offs and possible modifications of these new initialisation methods.
翻訳日:2023-10-26 14:00:17 公開日:2023-10-25
# DSAM-GN:Graph Network を用いた車両再識別のための動的類似性隣接行列

DSAM-GN:Graph Network based on Dynamic Similarity Adjacency Matrices for Vehicle Re-identification ( http://arxiv.org/abs/2310.16694v1 )

ライセンス: Link先を確認
Yuejun Jiao and Song Qiu and Mingsong Chen and Dingding Han and Qingli Li and Yue Lu(参考訳) 近年,自動車再識別(Re-ID)は,運転支援システム,交通フロー管理,車両追跡など,インテリジェント交通システムの成長により,様々な応用において重要性が高まっている。 しかし、外在する背景情報や排他物の存在は差別的特徴の学習を妨げる可能性があるため、異なるシナリオで同じ車両画像に顕著な変化をもたらす。 本稿では,動的類似性隣接行列(DSAM-GN)に基づくグラフネットワークを提案する。これは,局所特徴の空間的関係を捉え,背景雑音を低減するために,隣接行列を構成する新しいアプローチを取り入れたものである。 具体的には,抽出した車両特徴をグラフネットワーク内のノードとして異なるパッチに分割する。 ノードの類似度行列を計算するために空間的注意に基づく類似度隣接行列生成(SASAMG)モジュールを用い、類似度が低いノードに動的消去操作を適用し、類似度隣接行列を生成する。 最後に、ノードと類似性隣接行列をグラフネットワークに入力し、車載Re-IDのより識別性の高い特徴を抽出する。 パブリックデータセットのVeRi-776とVabyIDによる実験結果から,提案手法の有効性が示された。

In recent years, vehicle re-identification (Re-ID) has gained increasing importance in various applications such as assisted driving systems, traffic flow management, and vehicle tracking, due to the growth of intelligent transportation systems. However, the presence of extraneous background information and occlusions can interfere with the learning of discriminative features, leading to significant variations in the same vehicle image across different scenarios. This paper proposes a method, named graph network based on dynamic similarity adjacency matrices (DSAM-GN), which incorporates a novel approach for constructing adjacency matrices to capture spatial relationships of local features and reduce background noise. Specifically, the proposed method divides the extracted vehicle features into different patches as nodes within the graph network. A spatial attention-based similarity adjacency matrix generation (SASAMG) module is employed to compute similarity matrices of nodes, and a dynamic erasure operation is applied to disconnect nodes with low similarity, resulting in similarity adjacency matrices. Finally, the nodes and similarity adjacency matrices are fed into graph networks to extract more discriminative features for vehicle Re-ID. Experimental results on public datasets VeRi-776 and VehicleID demonstrate the effectiveness of the proposed method compared with recent works.
翻訳日:2023-10-26 14:00:00 公開日:2023-10-25
# ロボット環境のための知識グラフへのユニバーサルシーン記述の翻訳

Translating Universal Scene Descriptions into Knowledge Graphs for Robotic Environment ( http://arxiv.org/abs/2310.16737v1 )

ライセンス: Link先を確認
Giang Hoang Nguyen, Daniel Bessler, Simon Stelter, Mihai Pomarlan, Michael Beetz(参考訳) 人間サイズの操作タスクを実行するロボットは、その動作を有能かつ人間らしく行うために、周囲に関する膨大な知識を必要とします。 本研究では,ロボット環境モデリングの実装としての仮想現実技術の利用について検討し,シーングラフを知識ベースに変換する手法を提案する。 この目的のために我々は,複雑な環境のオーサリング,可視化,シミュレーションの新たな標準である,ユニバーサルシーン記述(USD)フォーマットを利用する。 我々は,USDベースの環境モデルから知識グラフ(KG)表現への変換について検討し,セマンティッククエリや付加的な知識ソースとの統合を容易にする。

Robots performing human-scale manipulation tasks require an extensive amount of knowledge about their surroundings in order to perform their actions competently and human-like. In this work, we investigate the use of virtual reality technology as an implementation for robot environment modeling, and present a technique for translating scene graphs into knowledge bases. To this end, we take advantage of the Universal Scene Description (USD) format which is an emerging standard for the authoring, visualization and simulation of complex environments. We investigate the conversion of USD-based environment models into Knowledge Graph (KG) representations that facilitate semantic querying and integration with additional knowledge sources.
翻訳日:2023-10-26 13:53:35 公開日:2023-10-25
# GDPRの実証的エビデンス(In-)効果のマッピング:システムレビュー

Mapping the Empirical Evidence of the GDPR (In-)Effectiveness: A Systematic Review ( http://arxiv.org/abs/2310.16735v1 )

ライセンス: Link先を確認
Wenlong Li, Zihao Li, Wenkai Li, Yueming Zhang, Aolan Li(参考訳) データ保護の分野では、伝統的なドクトリナル、法、理論、政策に基づく問合せの領域と、急成長する実証的な証拠の体系の間に、著しい断線が通っている。 学術的および規制的な談話の多くは、抽象的な法的原則や規範的な枠組みに根ざしており、経験的な風景は未開または最小限の関与しか残っていない。 EUのデータ保護法が制定されて以来、経験的証拠の控えめな団体が生まれてきたが、広く散在し、検討されていない。 このような証拠は、データ保護対策の知覚、影響、明快さ、そして効果について重要な洞察を与えるが、周辺に迷い、より広い会話に不十分に統合される。 有意義な関係を構築するために,我々は,約30年(1995年~2022年3月)にわたる実証研究の包括的なレビューと合成を行い,今後の実証研究のための方法論的基礎を構築しつつ,gdprの評価とレビューへの実証的証拠のより強固な統合を提唱する。

In the realm of data protection, a striking disconnect prevails between traditional domains of doctrinal, legal, theoretical, and policy-based inquiries and a burgeoning body of empirical evidence. Much of the scholarly and regulatory discourse remains entrenched in abstract legal principles or normative frameworks, leaving the empirical landscape uncharted or minimally engaged. Since the birth of EU data protection law, a modest body of empirical evidence has been generated but remains widely scattered and unexamined. Such evidence offers vital insights into the perception, impact, clarity, and effects of data protection measures but languishes on the periphery, inadequately integrated into the broader conversation. To make a meaningful connection, we conduct a comprehensive review and synthesis of empirical research spanning nearly three decades (1995- March 2022), advocating for a more robust integration of empirical evidence into the evaluation and review of the GDPR, while laying a methodological foundation for future empirical research.
翻訳日:2023-10-26 13:53:24 公開日:2023-10-25
# デジタル人間の頭部の非参照品質評価法

A No-Reference Quality Assessment Method for Digital Human Head ( http://arxiv.org/abs/2310.16732v1 )

ライセンス: Link先を確認
Yingjie Zhou, Zicheng Zhang, Wei Sun, Xiongkuo Min, Xianghe Ma, Guangtao Zhai(参考訳) 近年、デジタル人間は拡張/仮想現実(A/VR)に広く応用されており、視聴者は自由にボリュームコンテンツを観察し、対話することができる。 しかし、デジタル人間は、生成と送信の過程で様々な歪みで劣化する可能性がある。 さらに、デジタル人間の知覚的品質評価にはほとんど努力が払われていない。 そのため、デジタル人間質評価(DHQA)の課題に対処するため、客観的品質評価手法の実行が急務である。 本稿では,マルチタスク方式でDHQAを扱うためのTransformerに基づく新しいno-reference(NR)手法を提案する。 具体的には、デジタル人間の前方2次元投影を入力として描画し、特徴抽出に視覚変換器(ViT)を用いる。 そこで我々は,歪み型を共同分類し,デジタル人間の知覚品質レベルを予測するマルチタスクモジュールを設計した。 実験結果から,提案手法は主観評価とよく相関し,最先端の品質評価手法よりも優れていた。

In recent years, digital humans have been widely applied in augmented/virtual reality (A/VR), where viewers are allowed to freely observe and interact with the volumetric content. However, the digital humans may be degraded with various distortions during the procedure of generation and transmission. Moreover, little effort has been put into the perceptual quality assessment of digital humans. Therefore, it is urgent to carry out objective quality assessment methods to tackle the challenge of digital human quality assessment (DHQA). In this paper, we develop a novel no-reference (NR) method based on Transformer to deal with DHQA in a multi-task manner. Specifically, the front 2D projections of the digital humans are rendered as inputs and the vision transformer (ViT) is employed for the feature extraction. Then we design a multi-task module to jointly classify the distortion types and predict the perceptual quality levels of digital humans. The experimental results show that the proposed method well correlates with the subjective ratings and outperforms the state-of-the-art quality assessment methods.
翻訳日:2023-10-26 13:53:04 公開日:2023-10-25
# マルチホップ空間推論における解法抽出と推論

Disentangling Extraction and Reasoning in Multi-hop Spatial Reasoning ( http://arxiv.org/abs/2310.16731v1 )

ライセンス: Link先を確認
Roshanak Mirzaee, Parisa Kordjamshidi(参考訳) テキスト上での空間的推論は、モデルがテキストから直接的な空間的情報を抽出するだけでなく、それに対する推論や暗黙的な空間的関係の推論も必要となるため、難しい。 近年の研究では、テキストよりも空間的推論を行う上で、大きな言語モデルが直面する困難が強調されている。 本稿では,この課題に対処するモデルにおいて,情報抽出と推論のプロセスを切り離すことの潜在的な利点について検討する。 そこで我々は,抽出と推論(記号的あるいはニューラル的)をアンタングルする様々なモデルを設計し,それらの部分に対する明示的な設計を伴わない,最先端(SOTA)ベースラインと比較する。 我々の実験結果は、現実的なデータ領域におけるモデルの一般化性を高める能力を示すとともに、解離の有効性を一貫して示している。

Spatial reasoning over text is challenging as the models not only need to extract the direct spatial information from the text but also reason over those and infer implicit spatial relations. Recent studies highlight the struggles even large language models encounter when it comes to performing spatial reasoning over text. In this paper, we explore the potential benefits of disentangling the processes of information extraction and reasoning in models to address this challenge. To explore this, we design various models that disentangle extraction and reasoning(either symbolic or neural) and compare them with state-of-the-art(SOTA) baselines with no explicit design for these parts. Our experimental results consistently demonstrate the efficacy of disentangling, showcasing its ability to enhance models' generalizability within realistic data domains.
翻訳日:2023-10-26 13:52:47 公開日:2023-10-25
# multiprompter: マルチエージェント強化学習による協調的プロンプト最適化

MultiPrompter: Cooperative Prompt Optimization with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.16730v1 )

ライセンス: Link先を確認
Dong-Ki Kim, Sungryull Sohn, Lajanugen Logeswaran, Dongsub Shim, Honglak Lee(参考訳) 近年,強化学習(RL)に基づく自動プロンプト最適化への関心が高まっている。 このアプローチは、解釈可能なプロンプトの生成やブラックボックス基盤モデルとの互換性など、重要な利点を提供する。 しかし、かなりのプロンプト空間サイズは、RL法に挑戦し、しばしば準最適ポリシー収束をもたらす。 本稿では,プロンプトを交互に構成するプロンプト間の協調ゲームとして,プロンプト最適化の新たなフレームワークであるMultiPrompterを紹介する。 我々の協調的プロンプト最適化は問題のサイズを効果的に減らし、プロンプトの学習を支援する。 提案手法をテキストから画像へのタスクでテストし,ベースラインよりも高品質な画像を生成する能力を示す。

Recently, there has been an increasing interest in automated prompt optimization based on reinforcement learning (RL). This approach offers important advantages, such as generating interpretable prompts and being compatible with black-box foundation models. However, the substantial prompt space size poses challenges for RL-based methods, often leading to suboptimal policy convergence. This paper introduces MultiPrompter, a new framework that views prompt optimization as a cooperative game between prompters which take turns composing a prompt together. Our cooperative prompt optimization effectively reduces the problem size and helps prompters learn optimal prompts. We test our method on the text-to-image task and show its ability to generate higher-quality images than baselines.
翻訳日:2023-10-26 13:52:31 公開日:2023-10-25
# AIハザードマネジメント:AIリスクに対する根本原因の体系的管理のためのフレームワーク

AI Hazard Management: A framework for the systematic management of root causes for AI risks ( http://arxiv.org/abs/2310.16727v1 )

ライセンス: Link先を確認
Ronald Schnitzer, Andreas Hapfelmeier, Sven Gaube, Sonja Zillner(参考訳) 人工知能(ai)分野の最近の進歩は、課題に取り組むための基盤を確立する。 しかし、AIの統合により、新たなリスクが発生する。 したがって、その利点の恩恵を受けるためには、AIに関連するリスクを適切に扱うことが不可欠である。 ソフトウェアシステムなどの関連分野における既存のリスク管理プロセスは、AIの仕様を十分に考慮する必要があります。 重要な課題は、AIリスクの根本原因を体系的かつ透過的に識別し、対処することである。 本稿では、AIハザード管理(AIHM)フレームワークを紹介し、AIハザードを体系的に識別し、評価し、治療するための構造化プロセスを提供する。 提案プロセスは、AIシステムのライフサイクルの最初期の段階でAIのハザードが捕捉されることを保証するため、開発と並行して実行される。 さらに、AIシステムの監査可能性を保証するため、提案されたフレームワークは、特定されたAIハザードの潜在的影響が許容できるレベルに低下する可能性があるという証拠を体系的に文書化している。 このフレームワークは、総合的な最先端分析からAIハザードリストの上に構築されている。 また、特定されたAIハザードの最適処理を支援する分類法も提供する。 さらに、AIHMフレームワークは、特定されたハザードの影響を許容レベルまで体系的に低減することで、電力グリッドAIユースケースの全体的な品質を向上する方法について説明する。

Recent advancements in the field of Artificial Intelligence (AI) establish the basis to address challenging tasks. However, with the integration of AI, new risks arise. Therefore, to benefit from its advantages, it is essential to adequately handle the risks associated with AI. Existing risk management processes in related fields, such as software systems, need to sufficiently consider the specifics of AI. A key challenge is to systematically and transparently identify and address AI risks' root causes - also called AI hazards. This paper introduces the AI Hazard Management (AIHM) framework, which provides a structured process to systematically identify, assess, and treat AI hazards. The proposed process is conducted in parallel with the development to ensure that any AI hazard is captured at the earliest possible stage of the AI system's life cycle. In addition, to ensure the AI system's auditability, the proposed framework systematically documents evidence that the potential impact of identified AI hazards could be reduced to a tolerable level. The framework builds upon an AI hazard list from a comprehensive state-of-the-art analysis. Also, we provide a taxonomy that supports the optimal treatment of the identified AI hazards. Additionally, we illustrate how the AIHM framework can increase the overall quality of a power grid AI use case by systematically reducing the impact of identified hazards to an acceptable level.
翻訳日:2023-10-26 13:52:18 公開日:2023-10-25
# NMDA受容体活性に及ぼす磁場効果のラジカルペアモデル

Radical Pair Model for Magnetic Field Effects on NMDA Receptor Activity ( http://arxiv.org/abs/2310.16725v1 )

ライセンス: Link先を確認
Parvathy S Nair1, Hadi Zadeh-Haghighi and Christoph Simon(参考訳) N-メチル-D-アスパラギン酸受容体は、脳の発達と機能において顕著な役割を担っている。 磁場のような外部刺激による機能への摂動は、様々な方法で脳に影響を及ぼす可能性がある。 様々な研究により、異なる強度の磁場がこれらの受容体に影響を与えることが示されている。 量子力学的プロセスであるラジカルペア機構は、これらのフィールド効果のいくつかを説明することができる。 rがセリンまたはチロシンであるタンパク質残基である[\mbox{ro}^\bullet \mbox{ mg($\mbox{h}_2$o$)_n$}^{+\bullet}]$という形のラジカルが本研究で検討されている。 磁場強度の関数としてのラジカル対の単分率の変動は、磁場がラジカル対反応の生成物にどのように影響するかを理解するために計算される。 この結果に基づき、ラジカル対機構は受容体活性に観察される磁場効果を説明する候補となる。 このモデルは磁場強度が変化するにつれてシステムの挙動の変化を予測し、特定の同位体効果も予測する。 さらに、ラジカル対に対する同様の効果は、脳内の様々な磁場効果のもっともらしい説明である可能性が示唆された。

The N-methyl-D-aspartate receptor is a prominent player in brain development and functioning. Perturbations to its functioning through external stimuli like magnetic fields can potentially affect the brain in numerous ways. Various studies have shown that magnetic fields of varying strengths affect these receptors. We propose that the radical pair mechanism, a quantum mechanical process, could explain some of these field effects. Radicals of the form $[\mbox{RO}^\bullet \mbox{ Mg($\mbox{H}_2$O$)_n$}^{+\bullet}]$, where R is a protein residue that can be Serine or Tyrosine, are considered for this study. The variation in the singlet fractional yield of the radical pairs, as a function of magnetic field strength, is calculated to understand how the magnetic field affects the products of the radical pair reactions. Based on the results, the radical pair mechanism is a likely candidate for explaining the magnetic field effects observed on the receptor activity. The model predicts changes in the behaviour of the system as magnetic field strength is varied and also predicts certain isotope effects. The results further suggest that similar effects on radical pairs could be a plausible explanation for various magnetic field effects within the brain.
翻訳日:2023-10-26 13:51:55 公開日:2023-10-25
# オフセットビルディングモデル(OBM)によるオフナディア航空画像からの都市ビルの再建

Rebuild City Buildings from Off-Nadir Aerial Images with Offset-Building Model (OBM) ( http://arxiv.org/abs/2310.16717v1 )

ライセンス: Link先を確認
Kai Li, Yupeng Deng, Yunlong Kong, Diyou Liu, Jingbo Chen, Yu Meng, Junxian Ma(参考訳) 超高解像度リモートセンシング画像における屋根から足へのオフセットの正確な測定は,都市情報抽出タスクにおいて重要である。 ディープラーニングの助けを借りて、既存の手法は2段階のCNNモデルを使って特徴マップの構築に関心のある領域を抽出する。 第一段階では、地域提案ネットワーク(RPN)を適用して数千のROI(関心の領域)を抽出し、地域ベースの畳み込みニューラルネットワーク(RCNN)にポストインポートして所望の情報を抽出する。 しかし、柔軟性のないRPNのため、これらの手法には効果的なユーザインタラクションが欠如し、事例対応の困難に遭遇し、汎用人工知能の進歩に追随するのは難しい。 本稿では,対話型トランスフォーマーモデルとプロンプトエンコーダを組み合わせることで,屋根からフットプリントへのオフセットベクトルだけでなく,建物のセグメンテーションを正確に抽出する。 我々のモデルでは、屋根からフットプリントまでのオフセットの予測において一般的な問題に対して強力なモジュール、ROAMを調整した。 我々は,公開可能なbonaiデータセット上でのモデルの実現性をテストし,14.6%から16.3%までのプロンプトインスタンスレベルのオフセットエラーを大幅に削減した。 さらに,大規模ビルディングオフセットに適したDistance-NMSアルゴリズムを開発し,予測されたビルディングオフセット角度と長さの精度を,簡便かつ効率的に向上させた。 モデルの堅牢性をさらに検証するため,中国福州市から0.5mのリモートセンシング画像を用いて,推論テストのための新しいテストセットを構築した。 私たちのコード、トレーニングメソッド、更新されたデータセットはhttps://github.com/likaiucas.com/でアクセスできます。

Accurate measurement of the offset from roof-to-footprint in very-high-resolution remote sensing imagery is crucial for urban information extraction tasks. With the help of deep learning, existing methods typically rely on two-stage CNN models to extract regions of interest on building feature maps. At the first stage, a Region Proposal Network (RPN) is applied to extract thousands of ROIs (Region of Interests) which will post-imported into a Region-based Convolutional Neural Networks (RCNN) to extract wanted information. However, because of inflexible RPN, these methods often lack effective user interaction, encounter difficulties in instance correspondence, and struggle to keep up with the advancements in general artificial intelligence. This paper introduces an interactive Transformer model combined with a prompt encoder to precisely extract building segmentation as well as the offset vectors from roofs to footprints. In our model, a powerful module, namely ROAM, was tailored for common problems in predicting roof-to-footprint offsets. We tested our model's feasibility on the publicly available BONAI dataset, achieving a significant reduction in Prompt-Instance-Level offset errors ranging from 14.6% to 16.3%. Additionally, we developed a Distance-NMS algorithm tailored for large-scale building offsets, significantly enhancing the accuracy of predicted building offset angles and lengths in a straightforward and efficient manner. To further validate the model's robustness, we created a new test set using 0.5m remote sensing imagery from Huizhou, China, for inference testing. Our code, training methods, and the updated dataset will be accessable at https://github.com/likaiucas.
翻訳日:2023-10-26 13:51:31 公開日:2023-10-25
# SkyMath:テクニカルレポート

SkyMath: Technical Report ( http://arxiv.org/abs/2310.16713v1 )

ライセンス: Link先を確認
Liu Yang, Haihua Yang, Wenjun Cheng, Lei Lin, Chenxia Li, Yifu Chen, Lunan Liu, Jianfei Pan, Tianwen Wei, Biye Li, Liang Zhao, Lijie Wang, Bo Zhu, Jujie He, Guoliang Li, Xuejie Wu, Xilin Luo, Rui Hu(参考訳) 大規模言語モデル(LLM)は、数学的推論を含む様々な自然言語処理(NLP)タスクを解く大きな可能性を示している。 そこで本研究では,130億パラメータを持つ数学用大規模言語モデルskymathを提案する。 自己補完ファインチューニングを適用し,Skywork-13B-Baseの数学的推論能力を著しく向上させた。 GSM8Kでは、SkyMathは、同じサイズのすべての既知のオープンソースモデルより優れており、新しいSOTAパフォーマンスを確立している。

Large language models (LLMs) have shown great potential to solve varieties of natural language processing (NLP) tasks, including mathematical reasoning. In this work, we present SkyMath, a large language model for mathematics with 13 billion parameters. By applying self-compare fine-tuning, we have enhanced mathematical reasoning abilities of Skywork-13B-Base remarkably. On GSM8K, SkyMath outperforms all known open-source models of similar size and has established a new SOTA performance.
翻訳日:2023-10-26 13:51:03 公開日:2023-10-25
# LLM性能予測器はアーキテクチャ検索に適した初期化器である

LLM Performance Predictors are good initializers for Architecture Search ( http://arxiv.org/abs/2310.16712v1 )

ライセンス: Link先を確認
Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Dujian Ding(参考訳) 大規模言語モデル(LLM)は、幅広いNLPタスクの解決において重要な要素となっている。 本稿では,llmsを用いてパフォーマンス予測器(pp)を構築する,新たなユースケースについて検討する。 特定のディープニューラルネットワークアーキテクチャを前提として,下流タスクにおけるパフォーマンスを予測するモデル。 LLMのためのPPプロンプトを設計する。 (i)役割:LLMに割り当てられた役割の記載 (ii)指示:性能予測を行うためにllmに従わなければならない指示の組。 (iii)ハイパーパラメータ:各アーキテクチャ固有のハイパーパラメータの定義と (iv)デモ: サンプルアーキテクチャとその効率指標、"スクラッチからトレーニングする"パフォーマンス。 機械翻訳 (MT) タスクでは, PPプロンプト (LLM-PP) を用いた GPT-4 が, SOTA にマッチする平均絶対誤差と SOTA 性能予測器と比較してランク相関係数の限界劣化でアーキテクチャの性能を予測できることがわかった。 さらに, LLM-PP からの予測を小さな回帰モデル (LLM-Distill-PP) に蒸留可能であることを示す。 LLM-Distill-PPモデルは、LCM-PPの性能を驚くほど保ち、性能推定の重いユースケースに対する費用対効果がある。 具体的には、ニューラルネットワーク探索(NAS)において、探索の初期部分に対してLLM-Distill-PPを用いたNAS(HS-NAS)のハイブリッド探索アルゴリズムを提案する。 HS-NASはベンチマーク間でSOTA NASと非常によく似ており、検索時間を約50%削減し、場合によってはレイテンシ、GFLOP、モデルサイズを改善する。

Large language models (LLMs) have become an integral component in solving a wide range of NLP tasks. In this work, we explore a novel use case of using LLMs to build performance predictors (PP): models that, given a specific deep neural network architecture, predict its performance on a downstream task. We design PP prompts for LLMs consisting of: (i) role: description of the role assigned to the LLM, (ii) instructions: set of instructions to be followed by the LLM to carry out performance prediction, (iii) hyperparameters: a definition of each architecture-specific hyperparameter and (iv) demonstrations: sample architectures along with their efficiency metrics and 'training from scratch' performance. For machine translation (MT) tasks, we discover that GPT-4 with our PP prompts (LLM-PP) can predict the performance of architecture with a mean absolute error matching the SOTA and a marginal degradation in rank correlation coefficient compared to SOTA performance predictors. Further, we show that the predictions from LLM-PP can be distilled to a small regression model (LLM-Distill-PP). LLM-Distill-PP models surprisingly retain the performance of LLM-PP largely and can be a cost-effective alternative for heavy use cases of performance estimation. Specifically, for neural architecture search (NAS), we propose a Hybrid-Search algorithm for NAS (HS-NAS), which uses LLM-Distill-PP for the initial part of search, resorting to the baseline predictor for rest of the search. We show that HS-NAS performs very similar to SOTA NAS across benchmarks, reduces search hours by 50% roughly, and in some cases, improves latency, GFLOPs, and model size.
翻訳日:2023-10-26 13:50:55 公開日:2023-10-25
# HI-TOM:大規模言語モデルにおける高次マインド推論理論の評価ベンチマーク

HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning in Large Language Models ( http://arxiv.org/abs/2310.16755v1 )

ライセンス: Link先を確認
Yinghui He, Yufan Wu, Yilin Jia, Rada Mihalcea, Yulong Chen, Naihao Deng(参考訳) 心の理論(りょうせい、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。 ToMは知性、言語理解、認知プロセスの発展において重要な役割を果たしている。 これまでの研究は主に1階と2階のToMに焦点を当ててきたが、我々は他人の信念を再帰的に推論する高階のToMについて検討した。 本稿では,高次マインド理論ベンチマークHI-TOMを紹介する。 各種Large Language Models (LLM) を用いた実験により,ToMタスクの性能低下が示唆され,現在のLLMの限界が示されている。 我々は,LSMのさまざまな障害事例を徹底的に分析し,NLPの将来に関する知見の意義について考察する。

Theory of Mind (ToM) is the ability to reason about one's own and others' mental states. ToM plays a critical role in the development of intelligence, language understanding, and cognitive processes. While previous work has primarily focused on first and second-order ToM, we explore higher-order ToM, which involves recursive reasoning on others' beliefs. We introduce HI-TOM, a Higher Order Theory of Mind benchmark. Our experimental evaluation using various Large Language Models (LLMs) indicates a decline in performance on higher-order ToM tasks, demonstrating the limitations of current LLMs. We conduct a thorough analysis of different failure cases of LLMs, and share our thoughts on the implications of our findings on the future of NLP.
翻訳日:2023-10-26 13:42:23 公開日:2023-10-25
# CAD-動的AVQAのためのコンテキストマルチモーダルアライメント

CAD -- Contextual Multi-modal Alignment for Dynamic AVQA ( http://arxiv.org/abs/2310.16754v1 )

ライセンス: Link先を確認
Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa(参考訳) 音声視覚質問応答(avqa)タスクの文脈では、音声視覚モダリティを3つのレベルで学習することができる。 1)空間 2) 時間的,そして 3)意味論。 既存のAVQA手法には2つの大きな欠点がある: ネットワークを通過する音声視覚(AV)情報は空間的レベルと時間的レベルに一致しない; そして、モーダル間(オーディオと視覚)のセマンティック情報は文脈内ではバランスが取れない。 本稿では,AVQA手法の課題に対処する,エンドツーエンドのマルチモーダルアライメント(CAD)ネットワークを提案する。 一 空間レベルに頑健な音声及び視覚的アライメントを確保するためのパラメータフリー確率的文脈ブロックを導入すること。 二 自己監督設定における時間レベルの動的オーディオ及び視覚的アライメントのための事前学習手法の提案 三 セマンティックレベルの音声及び視覚情報のバランスをとるための相互注意機構を導入すること。 提案する新しいcadネットワークは,音楽avqaデータセットにおける最先端手法全体のパフォーマンスを平均9.4%向上させる。 また、AVQAに対する提案されたコントリビューションが既存のメソッドに追加され、さらなる複雑さの要求なしにパフォーマンスが向上することを示す。

In the context of Audio Visual Question Answering (AVQA) tasks, the audio visual modalities could be learnt on three levels: 1) Spatial, 2) Temporal, and 3) Semantic. Existing AVQA methods suffer from two major shortcomings; the audio-visual (AV) information passing through the network isn't aligned on Spatial and Temporal levels; and, inter-modal (audio and visual) Semantic information is often not balanced within a context; this results in poor performance. In this paper, we propose a novel end-to-end Contextual Multi-modal Alignment (CAD) network that addresses the challenges in AVQA methods by i) introducing a parameter-free stochastic Contextual block that ensures robust audio and visual alignment on the Spatial level; ii) proposing a pre-training technique for dynamic audio and visual alignment on Temporal level in a self-supervised setting, and iii) introducing a cross-attention mechanism to balance audio and visual information on Semantic level. The proposed novel CAD network improves the overall performance over the state-of-the-art methods on average by 9.4% on the MUSIC-AVQA dataset. We also demonstrate that our proposed contributions to AVQA can be added to the existing methods to improve their performance without additional complexity requirements.
翻訳日:2023-10-26 13:42:10 公開日:2023-10-25
# PROMINET: メール応答予測のためのプロトタイプベースのマルチビューネットワーク

PROMINET: Prototype-based Multi-View Network for Interpretable Email Response Prediction ( http://arxiv.org/abs/2310.16753v1 )

ライセンス: Link先を確認
Yuqing Wang and Prashanth Vijayaraghavan and Ehsan Degan(参考訳) メールはビジネスコミュニケーションに広く使われているツールであり、メールマーケティングは企業にとってコスト効率の良い戦略として現れてきた。 これまで,メールマーケティングのパフォーマンスに影響を与える要因について検討してきたが,メールの内容やメタデータを考慮し,メール応答行動の理解に重点を置いている。 本研究では,メールデータからの意味情報と構造情報を組み込んだプロトタイプベースのマルチビューネットワーク(PROMINET)を提案する。 ProMINETモデルはプロトタイプ学習を利用することで、潜在例を生成し、解釈可能な電子メール応答予測を可能にする。 モデルマップは意味と構造を学習し、文書、文、フレーズなど、異なるレベルの粒度のトレーニングデータ中のサンプルを観察した。 このアプローチは、Enronコーパスと社内Eメールマーケティングコーパスの2つの実世界のEメールデータセットで評価されている。 ProMINETモデルはベースラインモデルよりも優れており、両方のデータセットでF1スコアが約3%向上している。 さらに、モデルは異なる粒度のプロトタイプを通して解釈可能性を提供し、非解釈可能なモデルと同等のパフォーマンスを維持する。 学習したプロトタイプは、メールのテキスト編集を強化し、効果的なメール応答の可能性を高める提案を生成する可能性も示している。 本研究は電子メールのやりとりにおける送受信者コミュニケーションと顧客エンゲージメントの向上に寄与する。

Email is a widely used tool for business communication, and email marketing has emerged as a cost-effective strategy for enterprises. While previous studies have examined factors affecting email marketing performance, limited research has focused on understanding email response behavior by considering email content and metadata. This study proposes a Prototype-based Multi-view Network (PROMINET) that incorporates semantic and structural information from email data. By utilizing prototype learning, the PROMINET model generates latent exemplars, enabling interpretable email response prediction. The model maps learned semantic and structural exemplars to observed samples in the training data at different levels of granularity, such as document, sentence, or phrase. The approach is evaluated on two real-world email datasets: the Enron corpus and an in-house Email Marketing corpus. Experimental results demonstrate that the PROMINET model outperforms baseline models, achieving a ~3% improvement in F1 score on both datasets. Additionally, the model provides interpretability through prototypes at different granularity levels while maintaining comparable performance to non-interpretable models. The learned prototypes also show potential for generating suggestions to enhance email text editing and improve the likelihood of effective email responses. This research contributes to enhancing sender-receiver communication and customer engagement in email interactions.
翻訳日:2023-10-26 13:41:47 公開日:2023-10-25
# 1次元投影によるシンプルでスケーラブルで効果的なクラスタリング

Simple, Scalable and Effective Clustering via One-Dimensional Projections ( http://arxiv.org/abs/2310.16752v1 )

ライセンス: Link先を確認
Moses Charikar, Monika Henzinger, Lunjia Hu, Maxmilian V\"otsch, Erik Waingarten(参考訳) クラスタリングは教師なし機械学習の基本的な問題であり、データ分析には多くの応用がある。 Lloydのアルゴリズムや$k$-means++のような一般的なクラスタリングアルゴリズムは、$d$次元空間の$n$ポイント($n\times d$ matrix $X$)を$k$クラスタにクラスタするときに$\Omega(ndk)$時間を取ることができる。 中間から大きい$k$のアプリケーションでは、乗法的な$k$係数は非常に高価になる。 任意の$k$に対して、期待時間$O(\mathrm{nnz}(X) + n\log n)$で確実に動作する単純なランダム化クラスタリングアルゴリズムを導入する。 ここで$\mathrm{nnz}(x)$ は入力データセットの0でないエントリの総数である$x$ であり、これは$nd$で上限を上回っており、スパースデータセットではかなり小さい。 我々は,このアルゴリズムが$k$-means目的の任意の入力データセットに対して近似比$\smash{\widetilde{O}(k^4)}$を達成することを証明した。 我々はまた、我々の理論解析は、$k$-meansアルゴリズムの近似比が射影のクラスでほぼ保存されていること、そして$k$-means++のシードは期待される$O(n \log n)$時間で1次元で実装可能であることを示し、独立した関心を持つと考えている。 最後に,このクラスタリングアルゴリズムは,従来の最先端手法と比較して,実行時間とクラスタ品質のトレードオフを新たに与えていることを示す。

Clustering is a fundamental problem in unsupervised machine learning with many applications in data analysis. Popular clustering algorithms such as Lloyd's algorithm and $k$-means++ can take $\Omega(ndk)$ time when clustering $n$ points in a $d$-dimensional space (represented by an $n\times d$ matrix $X$) into $k$ clusters. In applications with moderate to large $k$, the multiplicative $k$ factor can become very expensive. We introduce a simple randomized clustering algorithm that provably runs in expected time $O(\mathrm{nnz}(X) + n\log n)$ for arbitrary $k$. Here $\mathrm{nnz}(X)$ is the total number of non-zero entries in the input dataset $X$, which is upper bounded by $nd$ and can be significantly smaller for sparse datasets. We prove that our algorithm achieves approximation ratio $\smash{\widetilde{O}(k^4)}$ on any input dataset for the $k$-means objective. We also believe that our theoretical analysis is of independent interest, as we show that the approximation ratio of a $k$-means algorithm is approximately preserved under a class of projections and that $k$-means++ seeding can be implemented in expected $O(n \log n)$ time in one dimension. Finally, we show experimentally that our clustering algorithm gives a new tradeoff between running time and cluster quality compared to previous state-of-the-art methods for these tasks.
翻訳日:2023-10-26 13:41:27 公開日:2023-10-25
# 水中ロボットのスパース前処理によるメートルスケール単眼深度推定

Metrically Scaled Monocular Depth Estimation through Sparse Priors for Underwater Robots ( http://arxiv.org/abs/2310.16750v1 )

ライセンス: Link先を確認
Luca Ebner, Gideon Billings, Stefan Williams(参考訳) 本研究では,移動式水中車両におけるモノクル画像からのリアルタイム深度推定の問題に対処する。 三角特徴量からスパース深度測定を解き、深度予測を改善し、スケールの曖昧さを解消する深度学習モデルを定式化する。 任意の空間の事前入力を可能にするために、高密度パラメータ化法を適用する。 我々のモデルは、効率的なエンコーダデコーダバックボーンと現代的な軽量トランスフォーマー最適化ステージを用いて、モノクロ画像に基づく深度推定の最先端アプローチを拡張した。 このネットワークは、前方に見える水中データセットflseaで教師付きで訓練されている。 このデータセットの評価結果は,スパース特徴の融合による深度予測精度の大幅な向上を示す。 また,リトレーニングを行わずに,ダイバー操作型カメラリグで収集した下向きデータセットにおいて,サンゴ礁の調査を行い,同様の深さ予測精度を実現した。 この方法は、ラップトップgpu上で160fps、単一のcpuコア上で7fpsのリアルタイムパフォーマンスを実現し、組み込みシステムへの直接デプロイに適している。 この実装はhttps://github.com/ebnerluca/uw_depthで公開されている。

In this work, we address the problem of real-time dense depth estimation from monocular images for mobile underwater vehicles. We formulate a deep learning model that fuses sparse depth measurements from triangulated features to improve the depth predictions and solve the problem of scale ambiguity. To allow prior inputs of arbitrary sparsity, we apply a dense parameterization method. Our model extends recent state-of-the-art approaches to monocular image based depth estimation, using an efficient encoder-decoder backbone and modern lightweight transformer optimization stage to encode global context. The network is trained in a supervised fashion on the forward-looking underwater dataset, FLSea. Evaluation results on this dataset demonstrate significant improvement in depth prediction accuracy by the fusion of the sparse feature priors. In addition, without any retraining, our method achieves similar depth prediction accuracy on a downward looking dataset we collected with a diver operated camera rig, conducting a survey of a coral reef. The method achieves real-time performance, running at 160 FPS on a laptop GPU and 7 FPS on a single CPU core and is suitable for direct deployment on embedded systems. The implementation of this work is made publicly available at https://github.com/ebnerluca/uw_depth.
翻訳日:2023-10-26 13:40:56 公開日:2023-10-25
# DISCO:インド・ヨーロッパ語における拡散補正のための大規模アノテートコーパス

DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages ( http://arxiv.org/abs/2310.16749v1 )

ライセンス: Link先を確認
Vineet Bhat, Preethi Jyothi, Pushpak Bhattacharyya(参考訳) disfluency correction (dc) は、読みやすく解釈可能なテキストを作成するために、音声発話からフィラー、繰り返し、修正といった不均一な要素を取り除くプロセスである。 DCは、下流言語理解タスクによって処理される前に、自動音声認識(ASR)出力に適用される重要な後処理ステップである。 既存のDC研究は主に、大規模なオープンソースデータセットが利用できないため、英語に焦点を当てている。 多言語不フルエンス補正の目標に向けて,インド・ヨーロッパにおける4つの重要な言語(英語,ヒンディー語,ドイツ語,フランス語)をカバーする,高品質な人間の注釈付きDCコーパスを提案する。 全4言語で最新のdcモデルの結果を広範囲に分析し、f1スコアは97.55点(英語)、94.29点(ヒンディー語)、95.89点(ドイツ語)、92.97点(フランス語)を得た。 ダウンストリームタスクにおけるDCの利点を示すために,最新の機械翻訳(MT)システムと組み合わせて使用する場合,DCがBLEUスコアを平均5.65ポイント増加させることを示す。 私たちは、アノテーション付きデータセットと一緒に実験を実行するコードをリリースします。

Disfluency correction (DC) is the process of removing disfluent elements like fillers, repetitions and corrections from spoken utterances to create readable and interpretable text. DC is a vital post-processing step applied to Automatic Speech Recognition (ASR) outputs, before subsequent processing by downstream language understanding tasks. Existing DC research has primarily focused on English due to the unavailability of large-scale open-source datasets. Towards the goal of multilingual disfluency correction, we present a high-quality human-annotated DC corpus covering four important Indo-European languages: English, Hindi, German and French. We provide extensive analysis of results of state-of-the-art DC models across all four languages obtaining F1 scores of 97.55 (English), 94.29 (Hindi), 95.89 (German) and 92.97 (French). To demonstrate the benefits of DC on downstream tasks, we show that DC leads to 5.65 points increase in BLEU scores on average when used in conjunction with a state-of-the-art Machine Translation (MT) system. We release code to run our experiments along with our annotated dataset here.
翻訳日:2023-10-26 13:40:38 公開日:2023-10-25
# HANSEN:オーサリング分析のための人間とAIのテキストベンチマーク

HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis ( http://arxiv.org/abs/2310.16746v1 )

ライセンス: Link先を確認
Nafis Irtiza Tripto, Adaku Uchendu, Thai Le, Mattia Setzu, Fosca Giannotti, Dongwon Lee(参考訳) スタイロメトリ(stylometry)としても知られる著者分析は、自然言語処理(nlp)の重要な側面である。 同様に、最近のLarge Language Models (LLMs) の進歩は、人間が書いたテキストとAI生成したテキストを区別するために著者分析をますます重要にしている。 しかし、これらの著者分析タスクは、主に音声テキストではなく、文章テキストに焦点を当てている。 したがって、音声テキストの最大のベンチマークであるHANSEN(Human ANd ai Spoken tExt beNchmark)を紹介する。 HANSENは、新しいAI生成音声テキストデータセットの作成とともに、書き起こしを伴う既存の音声データセットの厳密なキュレーションを含んでいる。 17の人間のデータセットと、ChatGPT、PaLM2、Vicuna13Bという3つの著名なLLMを使用して作成されたAI生成音声テキストで構成されている。 HANSENの有効性を評価・実証するために,オーサシップ属性(AA)とオーサリティ検証(AV)を人間の音声データセット上で行い,最新技術(SOTA)モデルを用いた人間対AI音声テキスト検出を行った。 文字ngramやトランスフォーマーモデルのようなsoma手法は、人間が話すデータセットにおいて、手書きのものに比べて類似したaaとavのパフォーマンスを示すが、aiが生成する音声テキスト検出には改善の余地がある。 HANSENベンチマークは以下の通りである。

Authorship Analysis, also known as stylometry, has been an essential aspect of Natural Language Processing (NLP) for a long time. Likewise, the recent advancement of Large Language Models (LLMs) has made authorship analysis increasingly crucial for distinguishing between human-written and AI-generated texts. However, these authorship analysis tasks have primarily been focused on written texts, not considering spoken texts. Thus, we introduce the largest benchmark for spoken texts - HANSEN (Human ANd ai Spoken tExt beNchmark). HANSEN encompasses meticulous curation of existing speech datasets accompanied by transcripts, alongside the creation of novel AI-generated spoken text datasets. Together, it comprises 17 human datasets, and AI-generated spoken texts created using 3 prominent LLMs: ChatGPT, PaLM2, and Vicuna13B. To evaluate and demonstrate the utility of HANSEN, we perform Authorship Attribution (AA) & Author Verification (AV) on human-spoken datasets and conducted Human vs. AI spoken text detection using state-of-the-art (SOTA) models. While SOTA methods, such as, character ngram or Transformer-based model, exhibit similar AA & AV performance in human-spoken datasets compared to written ones, there is much room for improvement in AI-generated spoken text detection. The HANSEN benchmark is available at: https://huggingface.co/datasets/HANSEN-REPO/HANSEN.
翻訳日:2023-10-26 13:40:15 公開日:2023-10-25
# 干渉型ニューラルネットワーク

Interferometric Neural Networks ( http://arxiv.org/abs/2310.16742v1 )

ライセンス: Link先を確認
Arun Sehrawat(参考訳) 一方、ニューラルネットワークは、機械学習と最適化の分野で多くの応用が成功している。 一方、干渉計は、光学、天文学、量子物理学などの波を扱うあらゆる分野の不可欠な部分である。 ここでは,干渉計からなるニューラルネットワークを導入し,それらから生成した逆ネットワークを構築する。 私たちのネットワークには古典的な層はなく、量子コンピュータやフォトニックチップで実現できます。 組み合わせ最適化,画像分類,画像生成に適用可能であることを示す。 組合せ最適化では、ネットワークは一貫して大域的最適化に収束するか、あるいは狭い範囲にとどまる。 マルチクラス画像分類タスクでは,ネットワークの精度は93%と83%である。 最後に,人間の顔だけでなく,0から9までの数字の画像を生成する能力を示す。

On the one hand, artificial neural networks have many successful applications in the field of machine learning and optimization. On the other hand, interferometers are integral parts of any field that deals with waves such as optics, astronomy, and quantum physics. Here, we introduce neural networks composed of interferometers and then build generative adversarial networks from them. Our networks do not have any classical layer and can be realized on quantum computers or photonic chips. We demonstrate their applicability for combinatorial optimization, image classification, and image generation. For combinatorial optimization, our network consistently converges to the global optimum or remains within a narrow range of it. In multi-class image classification tasks, our networks achieve accuracies of 93% and 83%. Lastly, we show their capability to generate images of digits from 0 to 9 as well as human faces.
翻訳日:2023-10-26 13:39:51 公開日:2023-10-25
# 確率潜在変圧器:確率強制型ゾナルジェットの効率的なモデリング

Stochastic Latent Transformer: Efficient Modelling of Stochastically Forced Zonal Jets ( http://arxiv.org/abs/2310.16741v1 )

ライセンス: Link先を確認
Ira J. S. Shokar, Rich R. Kerswell, Peter H. Haynes(参考訳) 確率的偏微分方程式(spdes)の効率的な還元次モデリングのための確率的ディープラーニング手法である「確率的潜在トランスフォーマー」を提案する。 流体力学の深層学習の進歩にもかかわらず、限られた研究で確率論的に駆動される流れのモデル化が研究され、これは巨大惑星のジェットから海洋循環、中緯度の気象変動まで幅広い現象を理解する上で重要な役割を担っている。 モデルアーキテクチャは,変換等価オートエンコーダと組み合わせた確率的強制変換器から成り,様々な統合期間にわたってシステムのダイナミクスを再現できることを実証する。 ニューラルネットワークは,数値積分に比べて5次速度向上を実現し,その効果をよく研究した水平噴流システムに適用した。 これにより、大規模アンサンブルのコスト効率が向上し、自発的な遷移事象の確率に関する統計的疑問を探索することができる。

We introduce the 'Stochastic Latent Transformer', a probabilistic deep learning approach for efficient reduced-order modelling of stochastic partial differential equations (SPDEs). Despite recent advances in deep learning for fluid mechanics, limited research has explored modelling stochastically driven flows - which play a crucial role in understanding a broad spectrum of phenomena, from jets on giant planets to ocean circulation and the variability of midlatitude weather. The model architecture consists of a stochastically-forced transformer, paired with a translation-equivariant autoencoder, that we demonstrate is capable of reproducing system dynamics across various integration periods. We demonstrate its effectiveness applied to a well-researched zonal jet system, with the neural network achieving a five-order-of-magnitude speedup compared to numerical integration. This facilitates the cost-effective generation of large ensembles, enabling the exploration of statistical questions concerning probabilities of spontaneous transition events.
翻訳日:2023-10-26 13:39:42 公開日:2023-10-25
# バイアス分析と言語モデル強調データ拡張による会話レコメンデーションシステムの改善

Improving Conversational Recommendation Systems via Bias Analysis and Language-Model-Enhanced Data Augmentation ( http://arxiv.org/abs/2310.16738v1 )

ライセンス: Link先を確認
Xi Wang, Hossein A. Rahmani, Jiqun Liu, Emine Yilmaz(参考訳) 会話レコメンデーションシステム(CRS)は,言語モデリング技術の進歩とともに注目されている研究分野である。 しかし、会話レコメンデーションの現状は、その相対的な新奇さと既存のコントリビューションの制限により、多くの課題に直面している。 本研究では,crsモデルを開発するためのベンチマークデータセットを調べ,選択バイアスや複数の人気バイアス変種を含む多ターンインタラクションに固有のフィードバックループから生じる潜在的なバイアスに対処する。 言語モデルとデータ拡張技術を用いて生成データの成功からインスピレーションを得た上で,バイアスを緩和しながらモデル性能を向上させる2つの新しい戦略「Once-Aug」と「PopNudge」を提案する。 ReDialおよびTG-ReDialベンチマークデータセットに関する広範な実験を通じて、データ拡張アプローチによるCRS技術の一貫した改善を示し、新しい複数のバイアスに対処するためのさらなる洞察を提供する。

Conversational Recommendation System (CRS) is a rapidly growing research area that has gained significant attention alongside advancements in language modelling techniques. However, the current state of conversational recommendation faces numerous challenges due to its relative novelty and limited existing contributions. In this study, we delve into benchmark datasets for developing CRS models and address potential biases arising from the feedback loop inherent in multi-turn interactions, including selection bias and multiple popularity bias variants. Drawing inspiration from the success of generative data via using language models and data augmentation techniques, we present two novel strategies, 'Once-Aug' and 'PopNudge', to enhance model performance while mitigating biases. Through extensive experiments on ReDial and TG-ReDial benchmark datasets, we show a consistent improvement of CRS techniques with our data augmentation approaches and offer additional insights on addressing multiple newly formulated biases.
翻訳日:2023-10-26 13:39:25 公開日:2023-10-25
# S$^3$-TTA: バイオメディカルイメージセグメンテーションにおけるテスト時間拡張のためのスケールスタイルの選択

S$^3$-TTA: Scale-Style Selection for Test-Time Augmentation in Biomedical Image Segmentation ( http://arxiv.org/abs/2310.16783v1 )

ライセンス: Link先を確認
Kangxian Xie, Siyu Huang, Sebastian Cajas Ordone, Hanspeter Pfister, Donglai Wei(参考訳) ディープラーニングモデルは、バイオメディカルイメージセグメンテーションで成功している。 実世界のデプロイを一般化するために、テスト時間拡張(TTA)メソッドは、テストイメージをトレーニングドメインに近いさまざまなバージョンに変換するためにしばしば使用される。 残念ながら、インスタンススケールとイメージスタイルの多様さのため、多くの拡張テストイメージは望ましくない結果をもたらし、全体的なパフォーマンスが低下する。 本研究は,変換整合度基準に基づいて,各テスト画像に対して適切な画像スケールとスタイルを選択する新しいTTAフレームワークであるS$^3$-TTAを提案する。 さらに、S$^3$-TTAは、タスク指向の強化を保証するために、エンドツーエンドの強化強化共同トレーニングパイプラインを構築する。 S$^3$-TTAは、細胞と肺のセグメンテーションのための公開ベンチマークにおいて、テストフェーズで入力データを増やすことで、それぞれ3.4%と1.3%の改善を示す。

Deep-learning models have been successful in biomedical image segmentation. To generalize for real-world deployment, test-time augmentation (TTA) methods are often used to transform the test image into different versions that are hopefully closer to the training domain. Unfortunately, due to the vast diversity of instance scale and image styles, many augmented test images produce undesirable results, thus lowering the overall performance. This work proposes a new TTA framework, S$^3$-TTA, which selects the suitable image scale and style for each test image based on a transformation consistency metric. In addition, S$^3$-TTA constructs an end-to-end augmentation-segmentation joint-training pipeline to ensure a task-oriented augmentation. On public benchmarks for cell and lung segmentation, S$^3$-TTA demonstrates improvements over the prior art by 3.4% and 1.3%, respectively, by simply augmenting the input data in testing phase.
翻訳日:2023-10-26 13:34:55 公開日:2023-10-25
# キキかブバか? 視覚・言語モデルにおける音の象徴

Kiki or Bouba? Sound Symbolism in Vision-and-Language Models ( http://arxiv.org/abs/2310.16781v1 )

ライセンス: Link先を確認
Morris Alper and Hadar Averbuch-Elor(参考訳) 人間の言語における音と意味のマッピングは概ね任意であると仮定されているが、認知科学の研究では、特定の音と意味の間には言語と人口集団の間で非自明な相関関係があることが示されている。 多くの意味の次元の中で、音の象徴は特に、言語と視覚領域の相互関連に関して、健全でよく実証されている。 本研究では,クリップや安定拡散といった視覚・言語モデルに音の象徴性が反映されるかどうかという問題に対処する。 これらのモデルの固有知識を調べるためにゼロショット知識を用いて、精神言語学でよく知られたkiki-bouba効果と並行して、これらのパターンを示す強い証拠を見つける。 本研究は,音の象徴性を示す新しい方法を提供し,その性質を計算ツールを用いて理解する。 私たちのコードは公開されます。

Although the mapping between sound and meaning in human language is assumed to be largely arbitrary, research in cognitive science has shown that there are non-trivial correlations between particular sounds and meanings across languages and demographic groups, a phenomenon known as sound symbolism. Among the many dimensions of meaning, sound symbolism is particularly salient and well-demonstrated with regards to cross-modal associations between language and the visual domain. In this work, we address the question of whether sound symbolism is reflected in vision-and-language models such as CLIP and Stable Diffusion. Using zero-shot knowledge probing to investigate the inherent knowledge of these models, we find strong evidence that they do show this pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our work provides a novel method for demonstrating sound symbolism and understanding its nature using computational tools. Our code will be made publicly available.
翻訳日:2023-10-26 13:34:38 公開日:2023-10-25
# マルチスケール拡散分別平滑化

Multi-scale Diffusion Denoised Smoothing ( http://arxiv.org/abs/2310.16779v1 )

ライセンス: Link先を確認
Jongheon Jeong, Jinwoo Shin(参考訳) 最近の拡散モデルとともに、ランダム化スムーシングは、大規模な事前訓練されたモデルのモデルに対する対角的堅牢性を提供するいくつかの具体的なアプローチの1つとなっている。 具体的には、拡散モデルのような正確な denoiser が利用できることを前提に、単純な "denoise-and-classify" パイプライン、いわゆる denoized smoothing を通じて任意の分類器上でランダム化スムーシングを実行することができる。 本稿では,分散平滑化の精度と認定ロバスト性とのトレードオフについて検討する。例えば,拡散モデルの表現がどの拡張平滑化の認定ロバスト性を最大化するかという問題である。 共有拡散モデルにおいて,複数の雑音レベルにまたがる平滑化分類器の集団的ロバスト性を目的とした新しい目標を検討するとともに,ランダム化平滑化における精度のコストを補正する新しい手法を提案する。 この目的が我々を細管拡散モデルに動機づける (a)原画像が復元可能であればいつでも一貫した弁別を行うが b) 非常に多様な出力を生成すること。 実験により, この拡散モデルの微調整方式とマルチスケール平滑化を組み合わせることで, 高い雑音レベルにおいて強固な頑健性が得られ, 非スムース分類器に近い精度を保った。

Along with recent diffusion models, randomized smoothing has become one of a few tangible approaches that offers adversarial robustness to models at scale, e.g., those of large pre-trained models. Specifically, one can perform randomized smoothing on any classifier via a simple "denoise-and-classify" pipeline, so-called denoised smoothing, given that an accurate denoiser is available - such as diffusion model. In this paper, we investigate the trade-off between accuracy and certified robustness of denoised smoothing: for example, we question on which representation of diffusion model would maximize the certified robustness of denoised smoothing. We consider a new objective that aims collective robustness of smoothed classifiers across multiple noise levels at a shared diffusion model, which also suggests a new way to compensate the cost of accuracy in randomized smoothing for its certified robustness. This objective motivates us to fine-tune diffusion model (a) to perform consistent denoising whenever the original image is recoverable, but (b) to generate rather diverse outputs otherwise. Our experiments show that this fine-tuning scheme of diffusion models combined with the multi-scale smoothing enables a strong certified robustness possible at highest noise level while maintaining the accuracy closer to non-smoothed classifiers.
翻訳日:2023-10-26 13:34:17 公開日:2023-10-25
# 画像モデリングのためのMixerFlow

MixerFlow for Image Modelling ( http://arxiv.org/abs/2310.16777v1 )

ライセンス: Link先を確認
Eshant English, Matthias Kirchler, Christoph Lippert(参考訳) 正規化フローは、単一のモデルから密度推定とデータ生成の両方を可能にする単射変換を用いて、複素密度をより単純な密度に変換する統計モデルである。 画像モデリングの文脈では、主要な選択はGlowベースのアーキテクチャであり、代替アーキテクチャは研究コミュニティでほとんど検討されていない。 本研究では,MLP-Mixerアーキテクチャに基づくMixerFlowと呼ばれる新しいアーキテクチャを提案する。 MixerFlowは、フローベースモデルの重量共有に効果的なメカニズムを提供する。 計算予算の固定化と画像解像度の増大により,画像データセットの密度推定精度が向上し,MixeFlowはGlowアーキテクチャの強力な代替となる。 また、MixerFlowはGlowベースのアーキテクチャよりも有益な埋め込みを提供していることも示しています。

Normalising flows are statistical models that transform a complex density into a simpler density through the use of bijective transformations enabling both density estimation and data generation from a single model. In the context of image modelling, the predominant choice has been the Glow-based architecture, whereas alternative architectures remain largely unexplored in the research community. In this work, we propose a novel architecture called MixerFlow, based on the MLP-Mixer architecture, further unifying the generative and discriminative modelling architectures. MixerFlow offers an effective mechanism for weight sharing for flow-based models. Our results demonstrate better density estimation on image datasets under a fixed computational budget and scales well as the image resolution increases, making MixeFlow a powerful yet simple alternative to the Glow-based architectures. We also show that MixerFlow provides more informative embeddings than Glow-based architectures.
翻訳日:2023-10-26 13:33:38 公開日:2023-10-25
# deft: 教師なしコアセット選択による大規模言語モデルのデータ効率的な微調整

DEFT: Data Efficient Fine-Tuning for Large Language Models via Unsupervised Core-Set Selection ( http://arxiv.org/abs/2310.16776v1 )

ライセンス: Link先を確認
Devleena Das, Vivek Khetan(参考訳) 近年の進歩により、多くの事前学習言語モデル(PLM)が利用可能になったが、ダウンストリームタスクでPLMを微調整するには、どの程度のデータが必要か、疑問が残る。 本稿では,教師なしのコアセット選択を活用し,ダウンストリームタスクのplmを微調整するために必要なデータ量を最小化する,データ効率のよい微調整フレームワークdeftを紹介する。 我々は,テキスト編集 LM の文脈における DEFT フレームワークの有効性を実証し,最先端のテキスト編集モデル CoEDIT (Raheja et al., 2023) と比較した。 定量的および定性的な結果から, DEFT モデルは CoEDIT と同程度の精度で, 約70% の精度で微調整可能であることが示された。

Recent advances have led to the availability of many pre-trained language models (PLMs); however, a question that remains is how much data is truly needed to fine-tune PLMs for downstream tasks? In this work, we introduce DEFT, a data-efficient fine-tuning framework that leverages unsupervised core-set selection to minimize the amount of data needed to fine-tune PLMs for downstream tasks. We demonstrate the efficacy of our DEFT framework in the context of text-editing LMs, and compare to the state-of-the art text-editing model, CoEDIT (Raheja et al., 2023). Our quantitative and qualitative results demonstrate that DEFT models are just as accurate as CoEDIT while being finetuned on ~70% less data.
翻訳日:2023-10-26 13:33:16 公開日:2023-10-25
# ハイゼンベルクからハバードまで:相関電子の浅い量子シミュレーションのための初期状態

From Heisenberg to Hubbard: An initial state for the shallow quantum simulation of correlated electrons ( http://arxiv.org/abs/2310.16775v1 )

ライセンス: Link先を確認
Bruno Murta and Joaqu\'in Fern\'andez-Rossier(参考訳) 非相互作用基底状態がFermi-Hubbardモデルのデジタル量子シミュレーションの初期状態として広く使われているのは、文献の正確な基底状態に対する代替の容易な近似が不足しているためである。 スピン=$\frac{1}{2}$ Heisenberg モデルが強相互作用極限におけるフェルミ・ハバードモデルの半充填時の実効低エネルギー理論であるという事実を証明し、我々はフェルミ・ハバードモデルの基底状態の教育的な推測を、短期量子ハードウェアに適した浅い回路を通して準備する3段階の決定論的量子ルーチンを提案する。 まず、ハイゼンベルクモデルの基底状態は、正しい対称性部分空間のみを探索するアンサッツを用いたハイブリッド変分法によって初期化される。 第二に、多重スピン-$\frac{1}{2}$波動関数をフェルミオンバージョンに変換する一般的な方法が考案された。 第3に、バエリスミル・アンザッツ (Baeriswyl ansatz) からインスピレーションを得て、このフェルミオン状態にドブロン-ホロン対を付加する定数深さの単一パラメータ層が適用される。 12地点までの鎖やはしごの数値シミュレーションは、量子シミュレーションが最も関係するであろう相互作用強度の中間値に対して、正確な基底状態との重なりの非相互作用基底状態の改善を確認している。

The widespread use of the noninteracting ground state as the initial state for the digital quantum simulation of the Fermi-Hubbard model is largely due to the scarcity of alternative easy-to-prepare approximations to the exact ground state in the literature. Exploiting the fact that the spin-$\frac{1}{2}$ Heisenberg model is the effective low-energy theory of the Fermi-Hubbard model at half-filling in the strongly interacting limit, here we propose a three-step deterministic quantum routine to prepare an educated guess of the ground state of the Fermi-Hubbard model through a shallow circuit suitable for near-term quantum hardware. First, the ground state of the Heisenberg model is initialized via a hybrid variational method using an ansatz that explores only the correct symmetry subspace. Second, a general method is devised to convert a multi-spin-$\frac{1}{2}$ wave function into its fermionic version. Third, taking inspiration from the Baeriswyl ansatz, a constant-depth single-parameter layer that adds doublon-holon pairs is applied to this fermionic state. Numerical simulations on chains and ladders with up to 12 sites confirm the improvement over the noninteracting ground state of the overlap with the exact ground state for the intermediate values of the interaction strength at which quantum simulation is bound to be most relevant.
翻訳日:2023-10-26 13:32:37 公開日:2023-10-25
# 都市プランナーとしてのAIエージェント: 合意に基づくマルチエージェント強化学習による都市計画におけるステアリングステークホルダダイナミクス

AI Agent as Urban Planner: Steering Stakeholder Dynamics in Urban Planning via Consensus-based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.16772v1 )

ライセンス: Link先を確認
Kejiang Qian, Lingjun Mao, Xin Liang, Yimin Ding, Jin Gao, Xinran Wei, Ziyi Guo, Jiajie Li(参考訳) 都市計画において、土地利用調整は、土地利用構成と持続可能な都市開発への現在の要求を整合させる上で重要な役割を担っている。 しかし、現在の都市計画の実践は2つの大きな問題に直面している。 まず、土地利用の決定は、主に人間の専門家に依存している。 また、都市計画への住民参加は、都市の持続可能性と居住性を促進することができるが、利害関係者の多様な利益を和解させることは困難である。 これらの課題に対処するために,実世界の土地利用再調整のためのコンセンサスに基づくマルチエージェント強化学習フレームワークを提案する。 この枠組みは参加型都市計画に役立ち、利害関係者として多様な知的エージェントが望ましい土地利用タイプに投票できる。 本枠組みでは,集団意思決定による土地利用の最適化を目的とした報酬設計における新たなコンセンサス機構を提案する。 複雑な都市システムの構造を抽象化するために、都市の地理情報は空間グラフ構造に変換され、グラフニューラルネットワークによって処理される。 従来のトップダウン計画と実世界のコミュニティによる参加型計画方法の両方に関する包括的な実験は、我々の計算フレームワークがグローバルな利益を高め、様々な関心事に対応し、異なる人口層間での満足度の向上をもたらすことを示している。 マルチエージェント強化学習を統合することで、参加型都市計画決定がよりダイナミックで、コミュニティのニーズに適応し、複雑な都市計画プロセスを自動化する堅牢なプラットフォームを提供する。

In urban planning, land use readjustment plays a pivotal role in aligning land use configurations with the current demands for sustainable urban development. However, present-day urban planning practices face two main issues. Firstly, land use decisions are predominantly dependent on human experts. Besides, while resident engagement in urban planning can promote urban sustainability and livability, it is challenging to reconcile the diverse interests of stakeholders. To address these challenges, we introduce a Consensus-based Multi-Agent Reinforcement Learning framework for real-world land use readjustment. This framework serves participatory urban planning, allowing diverse intelligent agents as stakeholder representatives to vote for preferred land use types. Within this framework, we propose a novel consensus mechanism in reward design to optimize land utilization through collective decision making. To abstract the structure of the complex urban system, the geographic information of cities is transformed into a spatial graph structure and then processed by graph neural networks. Comprehensive experiments on both traditional top-down planning and participatory planning methods from real-world communities indicate that our computational framework enhances global benefits and accommodates diverse interests, leading to improved satisfaction across different demographic groups. By integrating Multi-Agent Reinforcement Learning, our framework ensures that participatory urban planning decisions are more dynamic and adaptive to evolving community needs and provides a robust platform for automating complex real-world urban planning processes.
翻訳日:2023-10-26 13:32:01 公開日:2023-10-25
# ConvNetsは大規模なビジョントランスにマッチする

ConvNets Match Vision Transformers at Scale ( http://arxiv.org/abs/2310.16764v1 )

ライセンス: Link先を確認
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De(参考訳) 多くの研究者は、ConvNetは小さなまたは適度なサイズのデータセットでうまく機能すると考えているが、WebスケールでデータセットにアクセスするとVision Transformersと競合しない。 基礎モデルのトレーニングによく使用される画像のラベル付きデータセットである JFT-4B 上で事前訓練された高性能 ConvNet アーキテクチャを評価することで,この信念に挑戦する。 我々は、0.4kから110kのTPU-v4コア計算時間の間の事前トレーニング計算予算を検討し、NFNetモデルファミリーから深度と幅を増す一連のネットワークを訓練する。 保持された損失と計算予算の間のログスケーリング法を観察する。 ImageNetを微調整した後、NFNetはVision Transformerのパフォーマンスを同等の計算予算で比較した。 我々の最強の微調整モデルでは、トップ1の精度は90.4%である。

Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
翻訳日:2023-10-26 13:31:33 公開日:2023-10-25
# SuperHF: 人間のフィードバックによる反復学習

SuperHF: Supervised Iterative Learning from Human Feedback ( http://arxiv.org/abs/2310.16763v1 )

ライセンス: Link先を確認
Gabriel Mukobi, Peter Chatain, Su Fong, Robert Windesheim, Gitta Kutyniok, Kush Bhatia, Silas Alberti(参考訳) 大きな言語モデルは目覚ましい能力を示すが、安全性、人的価値との整合性、トレーニング中の安定性といった面での課題をしばしば提示する。 本稿では,これらのモデルを調整するために用いられる2つの一般的な手法であるSupervised Fine-Tuning(SFT)とReinforcement Learning from Human Feedback(RLHF)に焦点を当てる。 SFTはシンプルで堅牢で、多数のオープンソースモデルを動かす一方、RLHFはChatGPTのようなトップ層モデルで使用されるより洗練された手法であるが、ハッキングに対する不安定性と感受性にも悩まされている。 両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。 我々の仮説は、RLHFで使用される報酬モデルが効率的なデータ利用およびモデル一般化に不可欠であり、RLHFにおけるPPOの使用は不要であり、不安定性問題に寄与する可能性があるというものである。 SuperHFはPPOを単純な教師付き損失とKL(Kullback-Leibler)の分岐に置き換える。 オンライン学習システムでは、モデルのアウトプットを繰り返しサンプリングし、報酬モデルを通じてフィルタリングすることで、独自のトレーニングデータを生成する。 次に、報酬最適化問題を、トレーニング報酬自体の堅牢な最適化、新しいMETEOR類似度測定値によって測定されたモデル性能を劣化させる報酬モデルの報酬ハッキングの防止、下流評価における優れたパフォーマンスの維持の3つのコンポーネントに分割する。 実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬と低報酬のハッキングとのトレードオフを容易かつ良好に行い,下流キャリブレーションを改善し,GPT-4 ベースの定性評価スキームにおいて,実装が極めて簡単でありながら,競争言語モデルアライメント技術としての SuperHF の可能性を強調した。

While large language models demonstrate remarkable capabilities, they often present challenges in terms of safety, alignment with human values, and stability during training. Here, we focus on two prevalent methods used to align these models, Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF). SFT is simple and robust, powering a host of open-source models, while RLHF is a more sophisticated method used in top-tier models like ChatGPT but also suffers from instability and susceptibility to reward hacking. We propose a novel approach, Supervised Iterative Learning from Human Feedback (SuperHF), which seeks to leverage the strengths of both methods. Our hypothesis is two-fold: that the reward model used in RLHF is critical for efficient data use and model generalization and that the use of Proximal Policy Optimization (PPO) in RLHF may not be necessary and could contribute to instability issues. SuperHF replaces PPO with a simple supervised loss and a Kullback-Leibler (KL) divergence prior. It creates its own training data by repeatedly sampling a batch of model outputs and filtering them through the reward model in an online learning regime. We then break down the reward optimization problem into three components: robustly optimizing the training rewards themselves, preventing reward hacking-exploitation of the reward model that degrades model performance-as measured by a novel METEOR similarity metric, and maintaining good performance on downstream evaluations. Our experimental results show SuperHF exceeds PPO-based RLHF on the training objective, easily and favorably trades off high reward with low reward hacking, improves downstream calibration, and performs the same on our GPT-4 based qualitative evaluation scheme all the while being significantly simpler to implement, highlighting SuperHF's potential as a competitive language model alignment technique.
翻訳日:2023-10-26 13:31:19 公開日:2023-10-25
# IntenDD: インテント検出と発見のための一貫したコントラスト学習アプローチ

IntenDD: A Unified Contrastive Learning Approach for Intent Detection and Discovery ( http://arxiv.org/abs/2310.16761v1 )

ライセンス: Link先を確認
Bhavuk Singhal, Ashim Gupta, Shivasankaran V P, Amrith Krishna(参考訳) 対話発話から意図を特定することは、タスク指向対話システムにおいて不可欠な要素となる。 意図に関連したタスクは、通常、分類タスクとして定式化され、発話が予め定義されたカテゴリに分類されるか、あるいはこれらの発話から新しい未知の意図のカテゴリを発見する必要がある場合にクラスタリングタスクとして分類される。 さらに、インテント分類は、マルチクラス(MC)またはマルチラベル(ML)の設定でモデル化することができる。 通常、これらのタスクは個別のタスクとしてモデル化されるが、バックボーンをコードする共有発話を利用する統一的なアプローチであるIntenDDを提案する。 IntenDDは完全に教師なしのコントラスト学習戦略を用いて表現学習を行い、その語彙的特徴に基づいてラベルなし発話の擬似ラベルを生成する。 さらに, 修正吸着を用いた分類タスクの2段階後処理機構を導入する。 まず、トレーニングデータの残余を伝播させ、その後、両者をトランスダクティブ・セッティングでモデル化したラベルを平滑化する。 様々なベンチマークデータセットに対する広範な評価により、我々のアプローチは3つのタスクの全てで競争ベースラインを一貫して上回っていることが分かりました。 平均して、IntenDDは2.32%、1.26%、1.52%の改善率を示しており、それぞれ数発のMC、数発のML、および目的発見タスクのそれぞれである。

Identifying intents from dialogue utterances forms an integral component of task-oriented dialogue systems. Intent-related tasks are typically formulated either as a classification task, where the utterances are classified into predefined categories or as a clustering task when new and previously unknown intent categories need to be discovered from these utterances. Further, the intent classification may be modeled in a multiclass (MC) or multilabel (ML) setup. While typically these tasks are modeled as separate tasks, we propose IntenDD, a unified approach leveraging a shared utterance encoding backbone. IntenDD uses an entirely unsupervised contrastive learning strategy for representation learning, where pseudo-labels for the unlabeled utterances are generated based on their lexical features. Additionally, we introduce a two-step post-processing setup for the classification tasks using modified adsorption. Here, first, the residuals in the training data are propagated followed by smoothing the labels both modeled in a transductive setting. Through extensive evaluations on various benchmark datasets, we find that our approach consistently outperforms competitive baselines across all three tasks. On average, IntenDD reports percentage improvements of 2.32%, 1.26%, and 1.52% in their respective metrics for few-shot MC, few-shot ML, and the intent discovery tasks respectively.
翻訳日:2023-10-26 13:30:41 公開日:2023-10-25
# 分子から物質へ:原子特性予測のための大規模一般化モデルの事前学習

From Molecules to Materials: Pre-training Large Generalizable Models for Atomic Property Prediction ( http://arxiv.org/abs/2310.16802v1 )

ライセンス: Link先を確認
Nima Shoghi, Adeesh Kolluru, John R. Kitchin, Zachary W. Ulissi, C. Lawrence Zitnick, Brandon M. Wood(参考訳) ファンデーションモデルは自然言語処理やコンピュータビジョンといった機械学習分野に変化をもたらした。 原子特性予測の同様の成功は、複数の化学ドメインにまたがる効果的なモデルを訓練することの難しさによって制限されている。 これを解決するために、JMP(Joint Multi-domain Pre-Training)を導入し、異なる化学領域から複数のデータセットを同時にトレーニングし、各データセットをマルチタスクフレームワーク内のユニークな事前トレーニングタスクとして扱う。 統合トレーニングデータセットはOC20,OC22,ANI-1x,Transition-1xの$\sim$120Mシステムで構成される。 QM9, rMD17, MatBench, QMOF, SPICE, MD22など,様々な下流タスクやデータセットを微調整して, 性能と一般化を評価する。 JMPは、スクラッチからトレーニングまでの平均59%の改善を示し、40タスク中34タスクで最先端のタスクをマッチまたはセットする。 我々の研究は、化学ドメイン、特に低データタスクのプロパティ予測に多様なデータを利用する事前学習戦略の可能性を強調している。

Foundation models have been transformational in machine learning fields such as natural language processing and computer vision. Similar success in atomic property prediction has been limited due to the challenges of training effective models across multiple chemical domains. To address this, we introduce Joint Multi-domain Pre-training (JMP), a supervised pre-training strategy that simultaneously trains on multiple datasets from different chemical domains, treating each dataset as a unique pre-training task within a multi-task framework. Our combined training dataset consists of $\sim$120M systems from OC20, OC22, ANI-1x, and Transition-1x. We evaluate performance and generalization by fine-tuning over a diverse set of downstream tasks and datasets including: QM9, rMD17, MatBench, QMOF, SPICE, and MD22. JMP demonstrates an average improvement of 59% over training from scratch, and matches or sets state-of-the-art on 34 out of 40 tasks. Our work highlights the potential of pre-training strategies that utilize diverse data to advance property prediction across chemical domains, especially for low-data tasks.
翻訳日:2023-10-26 13:22:34 公開日:2023-10-25
# QMoE:トリリオンパラメータモデルの実用的サブ-1ビット圧縮

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models ( http://arxiv.org/abs/2310.16795v1 )

ライセンス: Link先を確認
Elias Frantar and Dan Alistarh(参考訳) Mixture-of-Experts (MoE)アーキテクチャは、大きな言語モデル(LLM)のスパースルーティングによる高推論コストに対する一般的な解決策を提供する。 例えば、switchtransformer-c2048モデルは1.6兆のパラメータを持ち、効率的に実行するために3.2tbのアクセルメモリを必要とする。 本稿では,このメモリ問題に対する,QMoEと呼ばれる新しい圧縮実行フレームワークの形での解決策を提案する。 具体的には、QMoEは1兆パラメータのMoEを1ビット未満のパラメータに正確に圧縮するスケーラブルなアルゴリズムで構成され、ベスポークGPUデコードカーネルと共同で設計され、効率的なエンドツーエンド圧縮推論を容易にする。 具体的には、QMoEは1.6兆パラメータのSwitchTransformer-c2048モデルを160GB未満(20倍圧縮、パラメータあたり0.8ビット)に1GPUで1日未満で圧縮できる。 これにより、4x NVIDIA A6000または8x NVIDIA 3090 GPUを持つ単一のサーバのような安価なコモディティハードウェア上で、理想的な非圧縮推論と比較して、初めて1兆パラメータモデルを実行することができる。 ソースコードと圧縮モデルはgithub.com/ist-daslab/qmoeで入手できる。

Mixture-of-Experts (MoE) architectures offer a general solution to the high inference costs of large language models (LLMs) via sparse routing, bringing faster and more accurate models, at the cost of massive parameter counts. For example, the SwitchTransformer-c2048 model has 1.6 trillion parameters, requiring 3.2TB of accelerator memory to run efficiently, which makes practical deployment challenging and expensive. In this paper, we present a solution to this memory problem, in form of a new compression and execution framework called QMoE. Specifically, QMoE consists of a scalable algorithm which accurately compresses trillion-parameter MoEs to less than 1 bit per parameter, in a custom format co-designed with bespoke GPU decoding kernels to facilitate efficient end-to-end compressed inference, with minor runtime overheads relative to uncompressed execution. Concretely, QMoE can compress the 1.6 trillion parameter SwitchTransformer-c2048 model to less than 160GB (20x compression, 0.8 bits per parameter) at only minor accuracy loss, in less than a day on a single GPU. This enables, for the first time, the execution of a trillion-parameter model on affordable commodity hardware, like a single server with 4x NVIDIA A6000 or 8x NVIDIA 3090 GPUs, at less than 5% runtime overhead relative to ideal uncompressed inference. The source code and compressed models are available at github.com/IST-DASLab/qmoe.
翻訳日:2023-10-26 13:22:14 公開日:2023-10-25
# 汎用パフォーマンスモデリングのための独立プログラムとアーキテクチャ表現の学習

Learning Independent Program and Architecture Representations for Generalizable Performance Modeling ( http://arxiv.org/abs/2310.16792v1 )

ライセンス: Link先を確認
Lingda Li, Thomas Flynn, Adolfy Hoisie(参考訳) 本稿では,高次元,独立/直交プログラムとマイクロアーキテクチャ表現を学習する,新しいディープラーニングに基づくパフォーマンスモデリングフレームワークperfvecを提案する。 学習したプログラム表現は、任意のマイクロアーキテクチャ上でのパフォーマンスを予測するために使用することができ、同様にプログラムのパフォーマンス予測にもマイクロアーキテクチャ表現を適用することができる。 さらに、perfvecは命令のパフォーマンスエッセンスをキャプチャする基礎モデルを提供しており、トレーニングコストを伴わずに、多数のパフォーマンスモデリング関連のタスクで開発者が直接使用できる。 この評価は、PerfVecが以前のアプローチよりも一般的で効率的で正確であることを示している。

This paper proposes PerfVec, a novel deep learning-based performance modeling framework that learns high-dimensional, independent/orthogonal program and microarchitecture representations. Once learned, a program representation can be used to predict its performance on any microarchitecture, and likewise, a microarchitecture representation can be applied in the performance prediction of any program. Additionally, PerfVec yields a foundation model that captures the performance essence of instructions, which can be directly used by developers in numerous performance modeling related tasks without incurring its training cost. The evaluation demonstrates that PerfVec is more general, efficient, and accurate than previous approaches.
翻訳日:2023-10-26 13:21:47 公開日:2023-10-25
# 不完全なオブザーバに対するカバープランニング

Covert Planning against Imperfect Observers ( http://arxiv.org/abs/2310.16791v1 )

ライセンス: Link先を確認
Haoxiang Ma, Chongyang Shi, Shuo Han, Michael R. Dorothy, and Jie Fu(参考訳) 隠ぺい計画(英: covert planning)とは、エージェントが検出を避けるために受動的オブザーバにリークする最小限の情報でタスクを達成することを目的とした、制約付き計画問題のクラスである。 しかし、既存の隠蔽計画手法は、しばしば決定論的環境を考慮するか、あるいは観測者の不完全な情報を活用しない。 本稿では,隠密計画が確率力学と観測者の不完全観測の結合をいかに活用し,最適タスク性能を検出せずに達成できるかについて検討する。 具体的には,エージェントと確率環境の相互作用をモデル化するためのマルコフ決定プロセスと,漏洩した情報を受動的オブザーバにキャプチャする部分観測関数を用いる。 観察者が名目的方針から逸脱したかどうかを検出するために仮説テストを採用するとすると、隠蔽計画エージェントは、所定の閾値以下の敵として検出される確率を維持しつつ、全割引報酬を最大化する。 有限メモリポリシは隠蔽計画におけるマルコフポリシよりも強力であることを示す。 そこで本研究では,(局所的に)最適カラットポリシーを計算するために,二度スケール更新による初歩的近位政策勾配法を開発した。 確率的グリッドワールドの例を用いて,提案手法の有効性を示す。 提案手法は,検出制約に違反することなく,敵が期待する報酬を最大化するポリシーを計算し,環境騒音が隠れたポリシーのパフォーマンスにどのように影響するかを実証的に示す。

Covert planning refers to a class of constrained planning problems where an agent aims to accomplish a task with minimal information leaked to a passive observer to avoid detection. However, existing methods of covert planning often consider deterministic environments or do not exploit the observer's imperfect information. This paper studies how covert planning can leverage the coupling of stochastic dynamics and the observer's imperfect observation to achieve optimal task performance without being detected. Specifically, we employ a Markov decision process to model the interaction between the agent and its stochastic environment, and a partial observation function to capture the leaked information to a passive observer. Assuming the observer employs hypothesis testing to detect if the observation deviates from a nominal policy, the covert planning agent aims to maximize the total discounted reward while keeping the probability of being detected as an adversary below a given threshold. We prove that finite-memory policies are more powerful than Markovian policies in covert planning. Then, we develop a primal-dual proximal policy gradient method with a two-time-scale update to compute a (locally) optimal covert policy. We demonstrate the effectiveness of our methods using a stochastic gridworld example. Our experimental results illustrate that the proposed method computes a policy that maximizes the adversary's expected reward without violating the detection constraint, and empirically demonstrates how the environmental noises can influence the performance of the covert policies.
翻訳日:2023-10-26 13:21:37 公開日:2023-10-25
# ほとんどクリーンなインスタンスによるノイズデータに基づく名前付きエンティティ認識の改善

Improving a Named Entity Recognizer Trained on Noisy Data with a Few Clean Instances ( http://arxiv.org/abs/2310.16790v1 )

ライセンス: Link先を確認
Zhendong Chu, Ruiyi Zhang, Tong Yu, Rajiv Jain, Vlad I Morariu, Jiuxiang Gu, Ani Nenkova(参考訳) 最先端のパフォーマンスを達成するためには、NERモデルを大規模で高品質な注釈付きデータでトレーニングする必要がある。 対照的に、現実世界のアプリケーションは、クラウドソーシングや外部知識ベースを通じて、費用対効果のある代替手段として、非専門家アノテータを通じて、大量の低品質ラベル付きデータを利用することが多い。 しかし、これらのアノテーションメソッドはノイズラベルを発生させ、結果としてパフォーマンスが著しく低下する。 したがって、ノイズの多いNERデータを小さなクリーンなインスタンスから誘導することで、ノイズを発生させる。 メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプル重量を補正します。 判別器は、識別プロンプトが異なるスパン及びカテゴリエラーの両方を検出することができる。 一般のクラウドソーシングと遠隔監視データセットの結果,提案手法は小規模のガイダンスセットで一貫して性能を向上できることがわかった。

To achieve state-of-the-art performance, one still needs to train NER models on large-scale, high-quality annotated data, an asset that is both costly and time-intensive to accumulate. In contrast, real-world applications often resort to massive low-quality labeled data through non-expert annotators via crowdsourcing and external knowledge bases via distant supervision as a cost-effective alternative. However, these annotation methods result in noisy labels, which in turn lead to a notable decline in performance. Hence, we propose to denoise the noisy NER data with guidance from a small set of clean instances. Along with the main NER model we train a discriminator model and use its outputs to recalibrate the sample weights. The discriminator is capable of detecting both span and category errors with different discriminative prompts. Results on public crowdsourcing and distant supervision datasets show that the proposed method can consistently improve performance with a small guidance set.
翻訳日:2023-10-26 13:21:13 公開日:2023-10-25
# 大規模言語モデルからの事前学習データの検出

Detecting Pretraining Data from Large Language Models ( http://arxiv.org/abs/2310.16789v1 )

ライセンス: Link先を確認
Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer(参考訳) 大規模言語モデル(LLM)は広くデプロイされているが、それらのトレーニングに使用されるデータはほとんど公開されていない。 このデータの驚くべき規模、数兆のトークンを考えると、著作権のある資料、個人を特定する情報、広く報告された基準ベンチマークのためのテストデータなど、潜在的に問題のあるテキストを含むことはほぼ確実である。 しかし、現在、これらの型のどのデータがどのデータを含んでいるか、どの比率で含まれているかを知る方法がありません。 本稿では,事前学習データ検出の問題について検討する。事前学習データを知ることなく,テキスト片とブラックボックスアクセスをLLMに与えることで,提案したテキストでモデルがトレーニングされたかどうかを判断できる。 本研究では,モデル学習前後に作成されたデータを用いてゴールド真理検出を支援する動的ベンチマークWIKIMIAを提案する。 また, 単純な仮説に基づく新たな検出手法Min-K% Probを導入する: 未知の例は, LLMの下では低い確率でいくつかの不規則な単語を含む傾向があり, また、そのような確率で低い単語を持つ場合が少なくなる。 min-k% probは、事前トレーニングコーパスや追加のトレーニングに関する知識がなくても適用でき、事前トレーニングデータに類似したデータに対する参照モデルのトレーニングを必要とする以前の検出方法から外れる。 さらに,Min-K% ProbがWIKIMIAを7.4%向上させることを示した。 我々は,Min-K% Probを2つの実世界のシナリオ,著作権付き書籍検出と下流のサンプル検出に応用し,一貫した有効解を見いだす。

Although large language models (LLMs) are widely deployed, the data used to train them is rarely disclosed. Given the incredible scale of this data, up to trillions of tokens, it is all but certain that it includes potentially problematic text such as copyrighted materials, personally identifiable information, and test data for widely reported reference benchmarks. However, we currently have no way to know which data of these types is included or in what proportions. In this paper, we study the pretraining data detection problem: given a piece of text and black-box access to an LLM without knowing the pretraining data, can we determine if the model was trained on the provided text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that uses data created before and after model training to support gold truth detection. We also introduce a new detection method Min-K% Prob based on a simple hypothesis: an unseen example is likely to contain a few outlier words with low probabilities under the LLM, while a seen example is less likely to have words with such low probabilities. Min-K% Prob can be applied without any knowledge about the pretraining corpus or any additional training, departing from previous detection methods that require training a reference model on data that is similar to the pretraining data. Moreover, our experiments demonstrate that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous methods. We apply Min-K% Prob to two real-world scenarios, copyrighted book detection, and contaminated downstream example detection, and find it a consistently effective solution.
翻訳日:2023-10-26 13:20:56 公開日:2023-10-25
# 非構造環境における認識のためのGOOSEデータセット

The GOOSE Dataset for Perception in Unstructured Environments ( http://arxiv.org/abs/2310.16788v1 )

ライセンス: Link先を確認
Peter Mortimer, Raphael Hagmanns, Miguel Granero, Thorsten Luettel, Janko Petereit, Hans-Joachim Wuensche(参考訳) 自律システムの展開の可能性は、環境の認識と解釈を改善することで著しく向上することができる。 しかしながら、非構造化屋外環境における自律システムのためのディープラーニングベースの技術の開発は、トレーニングとテストのためのデータ可用性の制限による課題を提起する。 このギャップに対処するため、非構造屋外環境向けに設計された包括的なデータセットであるドイツアウトドア・オフロードデータセット(GOOSE)を提示する。 gooseデータセットには10万のラベル付きイメージとポイントクラウドが含まれており、イメージとポイントクラウドデータの両方で最先端のセグメンテーションモデルをトレーニングするために使用される。 データセットと、非構造化地形のオントロジー、およびデータセット標準とガイドラインをオープンソースにしています。 このイニシアチブは、既存のデータセットをシームレスに包含し、非構造環境で動作するさまざまなロボットの認識能力を高めるための高速方法を可能にする、共通のフレームワークを確立することを目的としている。 データセット、オフロード知覚のための事前学習されたモデル、その他のドキュメントはhttps://goose-dataset.de/にある。

The potential for deploying autonomous systems can be significantly increased by improving the perception and interpretation of the environment. However, the development of deep learning-based techniques for autonomous systems in unstructured outdoor environments poses challenges due to limited data availability for training and testing. To address this gap, we present the German Outdoor and Offroad Dataset (GOOSE), a comprehensive dataset specifically designed for unstructured outdoor environments. The GOOSE dataset incorporates 10 000 labeled pairs of images and point clouds, which are utilized to train a range of state-of-the-art segmentation models on both image and point cloud data. We open source the dataset, along with an ontology for unstructured terrain, as well as dataset standards and guidelines. This initiative aims to establish a common framework, enabling the seamless inclusion of existing datasets and a fast way to enhance the perception capabilities of various robots operating in unstructured environments. The dataset, pre-trained models for offroad perception, and additional documentation can be found at https://goose-dataset.de/.
翻訳日:2023-10-26 13:20:27 公開日:2023-10-25
# Data Provenance Initiative: AIにおけるデータセットライセンスと属性の大規模監査

The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI ( http://arxiv.org/abs/2310.16787v1 )

ライセンス: Link先を確認
Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi (Alexis) Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Deb Roy, Sara Hooker(参考訳) 膨大な、多様な、一貫性のないデータセットで言語モデルをトレーニングするレースは、実践者に対する法的および倫理的リスクに対する懸念を高めている。 データの透明性と理解を脅かすこれらのプラクティスを是正するために、法律と機械学習の専門家の間で、1800以上のテキストデータセットを体系的に監査し追跡するための、複数の学際的な取り組みを招集する。 私たちは、ソース、クリエーター、一連のライセンス条件、プロパティ、以降の使用から、これらのデータセットの系統をトレースするためのツールと標準を開発します。 私たちのランドスケープ分析は、より低いリソース言語、より創造的なタスク、よりリッチなトピックの多様性、より新しい、より合成的なトレーニングデータといった重要なカテゴリを独占するクローズドデータセットによる、商業的にオープンなデータセットとクローズドデータセットの組成と焦点の急激な分割を強調しています。 このことは、異なるライセンス条件下で利用できるデータの種類がより深く分断され、著作権と公正使用に関する司法的法的解釈への含意が高まったことを示している。 また,広く使用されているデータセットホスティングサイトでは,ライセンスの欠落が72%以上,エラーレートが50%以上,ライセンスの誤分類が頻発している。 これは、多くの最近のブレークスルーを駆動する最も人気のあるデータセットの誤帰と情報利用の危機を示している。 データセットの透明性と責任ある使用に関する継続的な改善への貢献として、私たちは、最もポピュラーなオープンソースの微調整データコレクションであるwww.dataprovenance.orgのために、データプロヴァンスをトレースしてフィルタできるインタラクティブuiであるdata provenance explorerを使って、監査全体をリリースします。

The race to train language models on vast, diverse, and inconsistently documented datasets has raised pressing concerns about the legal and ethical risks for practitioners. To remedy these practices threatening data transparency and understanding, we convene a multi-disciplinary effort between legal and machine learning experts to systematically audit and trace 1800+ text datasets. We develop tools and standards to trace the lineage of these datasets, from their source, creators, series of license conditions, properties, and subsequent use. Our landscape analysis highlights the sharp divides in composition and focus of commercially open vs closed datasets, with closed datasets monopolizing important categories: lower resource languages, more creative tasks, richer topic variety, newer and more synthetic training data. This points to a deepening divide in the types of data that are made available under different license conditions, and heightened implications for jurisdictional legal interpretations of copyright and fair use. We also observe frequent miscategorization of licenses on widely used dataset hosting sites, with license omission of 72%+ and error rates of 50%+. This points to a crisis in misattribution and informed use of the most popular datasets driving many recent breakthroughs. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire audit, with an interactive UI, the Data Provenance Explorer, which allows practitioners to trace and filter on data provenance for the most popular open source finetuning data collections: www.dataprovenance.org.
翻訳日:2023-10-26 13:20:07 公開日:2023-10-25
# 最も単純なインフレポテンシャル

The Simplest Inflationary Potentials ( http://arxiv.org/abs/2310.16786v1 )

ライセンス: Link先を確認
Tom\'as Sousa, Deaglan J. Bartlett, Harry Desmond, Pedro G. Ferreira(参考訳) インフレは初期の宇宙にとって非常に好ましい理論である。 宇宙マイクロ波の背景と大規模構造の現在の観測と互換性があり、原始重力波を検出するための探索の原動力である。 また、データの現在の品質を考えると、多くの候補実装で非常に過小評価されている。 シンボリック回帰法を用いて、演算子の2つの可能な基底集合のうちの1つに対して、すべての単純なスカラー場ポテンシャルを生成する。 これらを単体で遅いインフレーションモデルとして扱い、プランクデータの情報を圧縮する際の効率を定量化する情報理論計量(最小記述長)で評価する。 ポテンシャルのパラメータ空間について、関数の構造複雑性に関連するものと、Katzのバックオフ言語モデルを用いて理論的動機付けされる関数を優先するものである。 これにより、シンプルさと正確さを最適にバランスさせるインフロンポテンシャルを、プランクデータを説明する際に識別することができる。 我々の探索的研究は、データから直接基礎物理学を抽出する扉を開くものであり、初期の宇宙の完全な理解を求めて、より洗練された理論上の先行とともに拡張される可能性がある。

Inflation is a highly favoured theory for the early Universe. It is compatible with current observations of the cosmic microwave background and large scale structure and is a driver in the quest to detect primordial gravitational waves. It is also, given the current quality of the data, highly under-determined with a large number of candidate implementations. We use a new method in symbolic regression to generate all possible simple scalar field potentials for one of two possible basis sets of operators. Treating these as single-field, slow-roll inflationary models we then score them with an information-theoretic metric ("minimum description length") that quantifies their efficiency in compressing the information in the Planck data. We explore two possible priors on the parameter space of potentials, one related to the functions' structural complexity and one that uses a Katz back-off language model to prefer functions that may be theoretically motivated. This enables us to identify the inflaton potentials that optimally balance simplicity with accuracy at explaining the Planck data, which may subsequently find theoretical motivation. Our exploratory study opens the door to extraction of fundamental physics directly from data, and may be augmented with more refined theoretical priors in the quest for a complete understanding of the early Universe.
翻訳日:2023-10-26 13:19:36 公開日:2023-10-25
# キャビティリセットと冷却のためのオンデマンド駆動散逸

On-demand driven dissipation for cavity reset and cooling ( http://arxiv.org/abs/2310.16785v1 )

ライセンス: Link先を確認
Vivek Maurya, Haimeng Zhang, Daria Kowsari, Andre Kuo, Darian M. Hartsell, Clark Miyamoto, Jocelyn Liu, Sadman Shanto, Azarin Zarassi, Kater W. Murch, and Eli M. Levenson-Falk(参考訳) 電磁界の目標モード上で能動的かつオンデマンドで調整可能な消散を提供する超伝導回路装置を提案する。 このデバイスは波長可変カプラをベースとし、広帯域フィルタモードと共振すると損失を発生させることができる。 パラメトリックに駆動すると、このカプラは駆動周波数に等しいエネルギーを調整した任意のモードの損失を誘導する。 本研究では, 超伝導量子ビットのリードアウトキャビティを測定後にリセットし, 20 ns以下の特性時間でリセットした。 また, 消散は連続的に行うことができ, キャビティの熱光子変動を抑制し, 関連する脱コヒーレンスチャネルとして熱光子変動を効果的に除去できることを示した。 本研究は,回路QEDにおける環境工学およびエントロピー除去のためのモジュールツールとしての有用性を示す。

We present a superconducting circuit device that provides active, on-demand, tunable dissipation on a target mode of the electromagnetic field. Our device is based on a tunable coupler that can be made lossy when tuned into resonance with a broadband filter mode. When driven parametrically, this coupler induces loss on any mode coupled to it with energy detuning equal to the drive frequency. We demonstrate the use of this device to reset a superconducting qubit's readout cavity after a measurement, resetting it with a characteristic time of under 20 ns. We also demonstrate that the dissipation can be driven constantly and thus suppress thermal photon fluctuations in the cavity, effectively eliminating thermal photon fluctuations as a relevant decoherence channel. Our results demonstrate the utility of our device as a modular tool for environmental engineering and entropy removal in circuit QED.
翻訳日:2023-10-26 13:19:14 公開日:2023-10-25
# Prompt Me Up:マルチモーダルエンティティと関係抽出のためのアライメントのパワーを解放する

Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity and Relation Extraction ( http://arxiv.org/abs/2310.16822v1 )

ライセンス: Link先を確認
Xuming Hu, Junzhe Chen, Aiwei Liu, Shiao Meng, Lijie Wen, Philip S. Yu(参考訳) テキストからエンティティや関係をどう抽出するか? 画像とテキストでマルチモーダル抽出を使用することで、エンティティや関係に関するより多くの信号を取得し、グラフや階層的融合を通じてそれらを整列させ、抽出を支援する。 様々な融合の試みにもかかわらず、以前の研究はNewsCLIPingのようなラベルのないイメージキャプチャーペアの多くを見落としていた。 本稿では,画像からオブジェクトを抽出し,ソフト擬似ラベルのエンティティおよび関係プロンプトにアライメントすることにより,エンティティオブジェクトとリレーショナルイメージアライメントのための革新的な事前学習目標を提案する。 これらのラベルは、事前学習のための自己教師付き信号として使われ、実体や関係を抽出する能力を高める。 3つのデータセットの実験では、以前のSOTAよりも平均3.41%のF1が改善されている。 さらに, 従来の多モード核融合と直交し, 従来のSOTA核融合に使用すると, さらに5.47% F1が向上する。

How can we better extract entities and relations from text? Using multimodal extraction with images and text obtains more signals for entities and relations, and aligns them through graphs or hierarchical fusion, aiding in extraction. Despite attempts at various fusions, previous works have overlooked many unlabeled image-caption pairs, such as NewsCLIPing. This paper proposes innovative pre-training objectives for entity-object and relation-image alignment, extracting objects from images and aligning them with entity and relation prompts for soft pseudo-labels. These labels are used as self-supervised signals for pre-training, enhancing the ability to extract entities and relations. Experiments on three datasets show an average 3.41% F1 improvement over prior SOTA. Additionally, our method is orthogonal to previous multimodal fusions, and using it on prior SOTA fusions further improves 5.47% F1.
翻訳日:2023-10-26 13:13:23 公開日:2023-10-25
# CATE Lasso:高次元線形回帰による条件平均処理効果の推定

CATE Lasso: Conditional Average Treatment Effect Estimation with High-Dimensional Linear Regression ( http://arxiv.org/abs/2310.16819v1 )

ライセンス: Link先を確認
Masahiro Kato and Masaaki Imaizumi(参考訳) 2つの治療法に関する因果推論において、条件平均治療効果(CATE)は、共変量に条件付けられた2つの治療法の期待結果の差として定義される個別因果効果を表す量として重要な役割を果たす。 本研究では,2つの処理の結果と共変量の間の2つの線形回帰モデルを仮定し,CATEを線形回帰モデルの違いとして定義する。 そこで本研究では,高次元および非スパースパラメータの下でもCATEを常に推定する手法を提案する。 本研究では,猫の定義を起源とする暗黙のスパーシティと呼ばれる弱い仮定を仮定した場合でも,一貫性などの望ましい理論的性質が明示的にスパーシティを仮定することなく達成可能であることを実証する。 この仮定では、潜在的結果における線形モデルのパラメータは、それぞれの線形回帰モデル間の差値を取る処理固有のパラメータと共通パラメータに分けることができるが、共通パラメータは同一である。 したがって、2つの線形回帰モデルの違いにより、共通のパラメータは消失し、処理固有のパラメータにのみ差が残る。 その結果、CATEの非ゼロパラメータは治療固有のパラメータの違いに対応している。 この仮定を生かして,カテゴリー推定に特化したラッソ回帰法を開発し,推定器の一貫性を示す。 最後に,提案手法の健全性についてシミュレーションにより確認する。

In causal inference about two treatments, Conditional Average Treatment Effects (CATEs) play an important role as a quantity representing an individualized causal effect, defined as a difference between the expected outcomes of the two treatments conditioned on covariates. This study assumes two linear regression models between a potential outcome and covariates of the two treatments and defines CATEs as a difference between the linear regression models. Then, we propose a method for consistently estimating CATEs even under high-dimensional and non-sparse parameters. In our study, we demonstrate that desirable theoretical properties, such as consistency, remain attainable even without assuming sparsity explicitly if we assume a weaker assumption called implicit sparsity originating from the definition of CATEs. In this assumption, we suppose that parameters of linear models in potential outcomes can be divided into treatment-specific and common parameters, where the treatment-specific parameters take difference values between each linear regression model, while the common parameters remain identical. Thus, in a difference between two linear regression models, the common parameters disappear, leaving only differences in the treatment-specific parameters. Consequently, the non-zero parameters in CATEs correspond to the differences in the treatment-specific parameters. Leveraging this assumption, we develop a Lasso regression method specialized for CATE estimation and present that the estimator is consistent. Finally, we confirm the soundness of the proposed method by simulation studies.
翻訳日:2023-10-26 13:13:04 公開日:2023-10-25
# DreamCraft3D: ブートストラップ付き拡散による階層型3D生成

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior ( http://arxiv.org/abs/2310.16818v1 )

ライセンス: Link先を確認
Jingxiang Sun and Bo Zhang and Ruizhi Shao and Lizhen Wang and Wen Liu and Zhenda Xie and Yebin Liu(参考訳) 高度でコヒーレントな3dオブジェクトを生成する階層的3dコンテンツ生成手法dreamcraft3dを提案する。 本研究では2次元参照画像を利用して幾何学的彫刻とテクスチャ強化の段階を導出する。 この作業の中心は、既存の作業が遭遇する一貫性の問題に対処することである。 コヒーレントにレンダリングするジオメトリを彫刻するために,ビュー依存拡散モデルを用いてスコア蒸留サンプリングを行う。 この3D事前は、いくつかのトレーニング戦略とともに、幾何整合性を優先するが、テクスチャの忠実度を損なう。 さらに, テクスチャを特に増強するBootstrapped Score Distillationを提案する。 そこで我々は,シーンの付加的なレンダリングにパーソナライズされた拡散モデルdreamboothを訓練し,シーンの最適化に関する3d知識を付与する。 この3D対応拡散によるスコアの蒸留は、シーンに対するビュー一貫性のあるガイダンスを提供する。 特に,拡散前の3次元シーン表現と3次元シーン表現を交互に最適化することにより,シーン固有の拡散モデルのトレーニングにおける最適化された3次元シーンアシストという相互強化を実現する。 最適化はブートストラップされ、テクスチャが大幅に向上する。 階層的生成を通じて3dプリエントをカスタマイズすることで、dreamcraft3dはコヒーレントな3dオブジェクトをフォトリアリスティックなレンダリングで生成し、3dコンテンツ生成の最先端を前進させる。 コードはhttps://github.com/deepseek-ai/dreamcraft3d。

We present DreamCraft3D, a hierarchical 3D content generation method that produces high-fidelity and coherent 3D objects. We tackle the problem by leveraging a 2D reference image to guide the stages of geometry sculpting and texture boosting. A central focus of this work is to address the consistency issue that existing works encounter. To sculpt geometries that render coherently, we perform score distillation sampling via a view-dependent diffusion model. This 3D prior, alongside several training strategies, prioritizes the geometry consistency but compromises the texture fidelity. We further propose Bootstrapped Score Distillation to specifically boost the texture. We train a personalized diffusion model, Dreambooth, on the augmented renderings of the scene, imbuing it with 3D knowledge of the scene being optimized. The score distillation from this 3D-aware diffusion prior provides view-consistent guidance for the scene. Notably, through an alternating optimization of the diffusion prior and 3D scene representation, we achieve mutually reinforcing improvements: the optimized 3D scene aids in training the scene-specific diffusion model, which offers increasingly view-consistent guidance for 3D optimization. The optimization is thus bootstrapped and leads to substantial texture boosting. With tailored 3D priors throughout the hierarchical generation, DreamCraft3D generates coherent 3D objects with photorealistic renderings, advancing the state-of-the-art in 3D content generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.
翻訳日:2023-10-26 13:12:39 公開日:2023-10-25
# 超伝導量子ビットの全光単発読み出し

All-optical single-shot readout of a superconducting qubit ( http://arxiv.org/abs/2310.16817v1 )

ライセンス: Link先を確認
Georg Arnold, Thomas Werner, Rishabh Sahu, Lucky N. Kapoor, Liu Qiu, Johannes M. Fink(参考訳) 超伝導量子ハードウェアの急速な開発は、低温環境における大規模なエラー修正の必要性から、I/Oの大幅な制限に陥ると予想されている。 古典的なデータセンターは、同様のネットワークボトルネックを取り除き、再構成可能なソフトウェア定義インフラストラクチャを可能にするために、光ファイバーの相互接続に依存している。 同じ精神で、極低温電気光学リンクが提案され、量子ビット制御信号の生成や極低温読み出し電子回路の置き換えに使用されている。 これまでのところ、後者は低効率、低帯域幅、追加のマイクロ波駆動の必要性、クーパーペアとキュービット状態の破壊に悩まされていた。 本研究ではミリケルビン温度での電子光学マイクロ波フォトニクスを実現することで、アクティブまたはパッシブな極低温マイクロ波装置を必要としないラジオオーバーファイバー量子ビット読み出しを実現する。 循環器フリーな読み出し方式において,Jaynes-Cummings非線形性を用いて全光単発読み出しを示す。 重要な点は、遮蔽元素が存在しないにもかかわらず、高忠実度量子非分解測定によって検証された量子ビット状態に対する直接放射の影響を観測しないことである。 この超伝導回路と通信波長光との互換性は、モジュラー量子ネットワークを確立するための前提条件であるだけでなく、超伝導光子検出器の多重読み出しや古典的な超伝導論理にも関係している。 さらに、この実験は、厳しい環境下での電気光学ラジオメトリーの可能性を示す。これは、電波天文学、惑星ミッション、地球観測に応用された、THz体制に広がる電子を含まないセンシング原理である。

The rapid development of superconducting quantum hardware is expected to run into significant I/O restrictions due to the need for large-scale error correction in a cryogenic environment. Classical data centers rely on fiber-optic interconnects to remove similar networking bottlenecks and to allow for reconfigurable, software-defined infrastructures. In the same spirit, ultra-cold electro-optic links have been proposed and used to generate qubit control signals, or to replace cryogenic readout electronics. So far, the latter suffered from either low efficiency, low bandwidth and the need for additional microwave drives, or breaking of Cooper pairs and qubit states. In this work we realize electro-optic microwave photonics at millikelvin temperatures to implement a radio-over-fiber qubit readout that does not require any active or passive cryogenic microwave equipment. We demonstrate all-optical single-shot-readout by means of the Jaynes-Cummings nonlinearity in a circulator-free readout scheme. Importantly, we do not observe any direct radiation impact on the qubit state as verified with high-fidelity quantum-non-demolition measurements despite the absence of shielding elements. This compatibility between superconducting circuits and telecom wavelength light is not only a prerequisite to establish modular quantum networks, it is also relevant for multiplexed readout of superconducting photon detectors and classical superconducting logic. Moreover, this experiment showcases the potential of electro-optic radiometry in harsh environments - an electronics-free sensing principle that extends into the THz regime with applications in radio astronomy, planetary missions and earth observation.
翻訳日:2023-10-26 13:12:13 公開日:2023-10-25
# GPTモデルは人間の要約ガイドラインに従うことができるか? 対話要約のためのChatGPTとGPT-4の評価

Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT and GPT-4 for Dialogue Summarization ( http://arxiv.org/abs/2310.16810v1 )

ライセンス: Link先を確認
Yongxin Zhou, Fabien Ringeval, Fran\c{c}ois Portet(参考訳) 本研究は,対話要約のための人間のガイドラインに従う上で,ChatGPT や GPT-4 のようなプロンプト駆動型大規模言語モデル (LLM) の能力について検討する。 実験では、DialogSum(英語の社会会話)とDECODA(フランス語のコールセンター対話)を使用し、既存の文献からのプロンプトや人間の要約ガイドラインからのプロンプト、そして2段階のプロンプトアプローチなど、様々なプロンプトをテストした。 以上の結果から,gptモデルは長い要約を生成し,人間の要約ガイドラインから逸脱することが多い。 しかし、人間のガイドラインを中間のステップとして使うと約束が示され、場合によっては直接の単語長制約プロンプトよりも優れている。 その結果,GPTモデルは要約に独特のスタイル傾向を示すことがわかった。 BERTScoresは、人間の参照と意味的類似性を示すGPT出力を劇的に減少させることはなかったが、ROUGEスコアは、GPT生成と人文要約の文法的および語彙的相違を明らかにする。 これらの結果は、対話要約のための人間の指示に従うGPTモデルの能力と限界に光を当てた。

This study explores the capabilities of prompt-driven Large Language Models (LLMs) like ChatGPT and GPT-4 in adhering to human guidelines for dialogue summarization. Experiments employed DialogSum (English social conversations) and DECODA (French call center interactions), testing various prompts: including prompts from existing literature and those from human summarization guidelines, as well as a two-step prompt approach. Our findings indicate that GPT models often produce lengthy summaries and deviate from human summarization guidelines. However, using human guidelines as an intermediate step shows promise, outperforming direct word-length constraint prompts in some cases. The results reveal that GPT models exhibit unique stylistic tendencies in their summaries. While BERTScores did not dramatically decrease for GPT outputs suggesting semantic similarity to human references and specialised pre-trained models, ROUGE scores reveal grammatical and lexical disparities between GPT-generated and human-written summaries. These findings shed light on the capabilities and limitations of GPT models in following human instructions for dialogue summarization.
翻訳日:2023-10-26 13:11:47 公開日:2023-10-25
# GPT-4V(ision)のOCR機能探索 : 定量化と深部評価

Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation ( http://arxiv.org/abs/2310.16809v1 )

ライセンス: Link先を確認
Yongxin Shi, Dezhi Peng, Wenhui Liao, Zening Lin, Xinhong Chen, Chongyu Liu, Yuyi Zhang, Lianwen Jin(参考訳) 本稿では、最近リリースされた大規模マルチモーダルモデル(LMM)であるGPT-4V(ision)の光学文字認識(OCR)能力を総合的に評価する。 本研究では,テキスト認識,手書き文字認識,手書き数式認識,テーブル構造認識,視覚リッチ文書からの情報抽出など,ocrタスクにおけるモデルの性能評価を行った。 評価の結果,GPT-4Vはラテン内容の認識と理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることがわかった。 これらの観測に基づいて、特殊OCRモデルの必要性を深く掘り下げ、OCR下流タスクにGPT-4Vのような事前訓練済みの一般LMMをフル活用するための戦略を慎重に検討する。 この研究は、LMMを用いたOCRの今後の研究に重要な参考となる。 評価パイプラインと結果はhttps://github.com/SCUT-DLVCLab/GPT-4V_OCRで公開されている。

This paper presents a comprehensive evaluation of the Optical Character Recognition (OCR) capabilities of the recently released GPT-4V(ision), a Large Multimodal Model (LMM). We assess the model's performance across a range of OCR tasks, including scene text recognition, handwritten text recognition, handwritten mathematical expression recognition, table structure recognition, and information extraction from visually-rich document. The evaluation reveals that GPT-4V performs well in recognizing and understanding Latin contents, but struggles with multilingual scenarios and complex tasks. Based on these observations, we delve deeper into the necessity of specialized OCR models and deliberate on the strategies to fully harness the pretrained general LMMs like GPT-4V for OCR downstream tasks. The study offers a critical reference for future research in OCR with LMMs. Evaluation pipeline and results are available at https://github.com/SCUT-DLVCLab/GPT-4V_OCR.
翻訳日:2023-10-26 13:11:27 公開日:2023-10-25
# 畳み込みマルチヘッドアテンションネットワークを用いたフィンガーベイン検証

Fingervein Verification using Convolutional Multi-Head Attention Network ( http://arxiv.org/abs/2310.16808v1 )

ライセンス: Link先を確認
Raghavendra Ramachandra and Sushma Venkatesh(参考訳) 生体認証システムは、ユーザフレンドリーで信頼性の高い人物認証を必要とする様々なセキュリティベースのアクセス制御アプリケーションにデプロイされる。 異なる生体計測特性の中で、指紋認証は信頼性の高い検証性能のために広く研究されている。 さらに、フィンガーベインパターンは皮膚内に存在し、外部には見えないため、外部要因によるプレゼンテーション攻撃や劣化に対する固有の抵抗性を有する。 本稿では,畳み込み型マルチヘッドアテンションネットワークである veinatnnet を用いた新しいフィンガーベイン検証手法を提案する。 提案するVeinAtnNetは,正常および拡張指静脈画像から識別情報を抽出しながら,学習可能なパラメータの少ない軽量化を実現する。 提案する veinatnnet は300のユニークなフィンガーベインパターンを持つ新たに構築されたfingerveinデータセットでトレーニングされ、複数のセッションで採取され、フィンガーベイン毎に92のサンプルが得られた。 FV-300とFV-USMおよびFV-PolyUフィンガーベインデータセットで大規模な実験を行った。 提案法の性能を5種類の最新のフィンガーベイン認証システムと比較し, 提案法の有効性を示唆した。

Biometric verification systems are deployed in various security-based access-control applications that require user-friendly and reliable person verification. Among the different biometric characteristics, fingervein biometrics have been extensively studied owing to their reliable verification performance. Furthermore, fingervein patterns reside inside the skin and are not visible outside; therefore, they possess inherent resistance to presentation attacks and degradation due to external factors. In this paper, we introduce a novel fingervein verification technique using a convolutional multihead attention network called VeinAtnNet. The proposed VeinAtnNet is designed to achieve light weight with a smaller number of learnable parameters while extracting discriminant information from both normal and enhanced fingervein images. The proposed VeinAtnNet was trained on the newly constructed fingervein dataset with 300 unique fingervein patterns that were captured in multiple sessions to obtain 92 samples per unique fingervein. Extensive experiments were performed on the newly collected dataset FV-300 and the publicly available FV-USM and FV-PolyU fingervein dataset. The performance of the proposed method was compared with five state-of-the-art fingervein verification systems, indicating the efficacy of the proposed VeinAtnNet.
翻訳日:2023-10-26 13:11:09 公開日:2023-10-25
# シリコン中の遠方スピン間の2量子論理

Two-qubit logic between distant spins in silicon ( http://arxiv.org/abs/2310.16805v1 )

ライセンス: Link先を確認
Jurgen Dijkema, Xiao Xue, Patrick Harvey-Collard, Maximilian Rimbach-Russ, Sander L. de Snoo, Guoji Zheng, Amir Sammak, Giordano Scappucci, Lieven M.K. Vandersypen(参考訳) 量子粒子間の直接相互作用は、自然に距離とともに崩壊する。 しかし、将来的な量子ビットアーキテクチャでは、異なる長さスケールでの相互作用機構の活用が重要である。 本研究では、2つの半導体スピン量子ビット250$\mu$mのコヒーレントな相互作用を容易にするために超伝導共振器を用いる。 この分離は、このプラットフォームで一般的に使われる直接相互作用メカニズムよりも数桁大きい。 我々は、共振器が仮想光子を介してスピンスピン結合を媒介する状態でシステムを操作する。 制御可能な周波数で2本のスピンの反位相振動を報告する。 観測は、iSWAP振動と10ナノ秒のエンタングリング操作と一致している。 これらの結果は、チップ上のスピン量子ビットモジュールのスケーラブルネットワークを約束する。

Direct interactions between quantum particles naturally fall off with distance. For future-proof qubit architectures, however, it is important to avail of interaction mechanisms on different length scales. In this work, we utilize a superconducting resonator to facilitate a coherent interaction between two semiconductor spin qubits 250 $\mu$m apart. This separation is several orders of magnitude larger than for the commonly employed direct interaction mechanisms in this platform. We operate the system in a regime where the resonator mediates a spin-spin coupling through virtual photons. We report anti-phase oscillations of the populations of the two spins with controllable frequency. The observations are consistent with iSWAP oscillations and ten nanosecond entangling operations. These results hold promise for scalable networks of spin qubit modules on a chip.
翻訳日:2023-10-26 13:10:47 公開日:2023-10-25
# ユニバーサル微分方程式を用いたSIRモデルによるCOVID-19地域伝播の学習

Learning COVID-19 Regional Transmission Using Universal Differential Equations in a SIR model ( http://arxiv.org/abs/2310.16804v1 )

ライセンス: Link先を確認
Adrian Rojas-Campos, Lukas Stelz, Pascal Nieters(参考訳) 新型コロナウイルスなどの感染症の感染拡大のモデル化が困難である。 単一領域のSIRモデルは感染の入ってくる力を考慮せず、それらを多数の相互作用する領域に拡張するには、現実の世界に存在しない多くの仮定が必要となる。 SIR+UDEモデルを用いて、近隣地域の影響を捉え、モデルの予測を改善するために、ユニバーサル微分方程式(UDE)を提案する。 UDEは、ディープニューラルネットワーク(DNN)によって完全にあるいは部分的に定義される微分方程式である。 我々は他の領域からの感染の入射力を学ぶdnnによって構成されるsir方程式に付加項を含む。 学習は自動微分と勾配降下を用いて行われ、近隣地域の状態によって引き起こされる対象システムの変化にアプローチする。 提案モデルについて,単一地域sirとdnnのみからなるデータ駆動モデルとの比較を行った。 提案するude+sirモデルは,より正確に発生ダイナミクスを捉える予測を生成するが,発生の最終段階では性能の低下が観測される。 単一領域のSIRと完全なデータ駆動のアプローチは、適切なダイナミクスを正確に捉えていない。 予測が得られた後、我々はSINDyアルゴリズムを用いてDNNを回帰的に置換し、エラーレベルを著しく向上させることなくモデルのブラックボックス要素を除去した。

Highly-interconnected societies difficult to model the spread of infectious diseases such as COVID-19. Single-region SIR models fail to account for incoming forces of infection and expanding them to a large number of interacting regions involves many assumptions that do not hold in the real world. We propose using Universal Differential Equations (UDEs) to capture the influence of neighboring regions and improve the model's predictions in a combined SIR+UDE model. UDEs are differential equations totally or partially defined by a deep neural network (DNN). We include an additive term to the SIR equations composed by a DNN that learns the incoming force of infection from the other regions. The learning is performed using automatic differentiation and gradient descent to approach the change in the target system caused by the state of the neighboring regions. We compared the proposed model using a simulated COVID-19 outbreak against a single-region SIR and a fully data-driven model composed only of a DNN. The proposed UDE+SIR model generates predictions that capture the outbreak dynamic more accurately, but a decay in performance is observed at the last stages of the outbreak. The single-area SIR and the fully data-driven approach do not capture the proper dynamics accurately. Once the predictions were obtained, we employed the SINDy algorithm to substitute the DNN with a regression, removing the black box element of the model with no considerable increase in the error levels.
翻訳日:2023-10-26 13:10:37 公開日:2023-10-25
# 言語に依存しないコード埋め込み

Language Agnostic Code Embeddings ( http://arxiv.org/abs/2310.16803v1 )

ライセンス: Link先を確認
Saiteja Utpala, Alex Gu, Pin Yu Chen(参考訳) 近年、コード言語モデルは、様々な重要なコード理解および生成タスクに対処する際、顕著な進歩を遂げている。 しかし、この分野には、多言語コードモデルのコードの埋め込みに関する包括的な深い理解が欠けている。 本稿では,多言語コード組込みに関する包括的研究を行い,それらの組込みの言語間機能に着目した。 コードの埋め込みは、特定の言語のニュアンスと構文に深く結びついているものと、セマンティクスに焦点を当てたこれらの詳細に無関係な部分の2つの異なるコンポーネントで構成されている。 さらに、この言語固有のコンポーネントを分離して排除すると、ダウンストリームコード検索タスクが大幅に改善され、平均相反ランク(MRR)の最大+17が絶対的に増加することを示す。

Recently, code language models have achieved notable advancements in addressing a diverse array of essential code comprehension and generation tasks. Yet, the field lacks a comprehensive deep dive and understanding of the code embeddings of multilingual code models. In this paper, we present a comprehensive study on multilingual code embeddings, focusing on the cross-lingual capabilities of these embeddings across different programming languages. Through probing experiments, we demonstrate that code embeddings comprise two distinct components: one deeply tied to the nuances and syntax of a specific language, and the other remaining agnostic to these details, primarily focusing on semantics. Further, we show that when we isolate and eliminate this language-specific component, we witness significant improvements in downstream code retrieval tasks, leading to an absolute increase of up to +17 in the Mean Reciprocal Rank (MRR).
翻訳日:2023-10-26 13:10:16 公開日:2023-10-25
# SparseDFF:ワンショットデキスタラスマニピュレーションのためのスパースビュー機能蒸留

SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation ( http://arxiv.org/abs/2310.16838v1 )

ライセンス: Link先を確認
Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin Zhu, Leonidas Guibas(参考訳) 人間は、異なるインスタンス間の意味的対応を理解するため、さまざまなオブジェクトの形状、ポーズ、外観の操作スキルの伝達に長けている。 ロボットに類似した高レベルの理解を与えるため,大規模な2次元視覚モデルを用いて多視点画像から意味的特徴を抽出するDFF(Distilled Feature Field)を開発した。 現在の研究では、密度の高い視点からDFFを再構築する上での高度な性能を示しているが、固定カメラによる操作タスクが数多く行われているにもかかわらず、疎い視点からDFFを学習する開発は比較的初期段階にある。 本稿では,sparsedffという,sparse rgbd観察から視野に一貫性のある3次元dffを得る新しい方法を紹介し,新しいシーンに転送可能なデクスタース操作のワンショット学習を可能にする。 具体的には,画像の特徴を3Dポイントクラウドにマッピングすることで,高密度な特徴場を確立することができる。 SparseDFFのコアとなる軽量機能改善ネットワークは、3Dポイントクラウドにイメージ機能をバックプロジェクションした後、ペアワイズビュー間の対照的な損失に最適化されている。 さらに,各地域における特徴継続性を高めるためのポイントプルーニング機構を実装した。 音源と対象シーンの両方にコヒーレントな特徴場を確立することにより、実演と対象操作の間の終端効果パラメータを最小化するためのエネルギー関数を考案する。 このアプローチをデクスタラスハンドを用いて評価し,剛体と変形可能なオブジェクトの両方で実世界の操作をマスタし,オブジェクトとシーンコンテキストのバリエーションに対してロバストな一般化を示す。

Humans excel at transferring manipulation skills across diverse object shapes, poses, and appearances due to their understanding of semantic correspondences between different instances. To endow robots with a similar high-level understanding, we develop a Distilled Feature Field (DFF) for 3D scenes, leveraging large 2D vision models to distill semantic features from multiview images. While current research demonstrates advanced performance in reconstructing DFFs from dense views, the development of learning a DFF from sparse views is relatively nascent, despite its prevalence in numerous manipulation tasks with fixed cameras. In this work, we introduce SparseDFF, a novel method for acquiring view-consistent 3D DFFs from sparse RGBD observations, enabling one-shot learning of dexterous manipulations that are transferable to novel scenes. Specifically, we map the image features to the 3D point cloud, allowing for propagation across the 3D space to establish a dense feature field. At the core of SparseDFF is a lightweight feature refinement network, optimized with a contrastive loss between pairwise views after back-projecting the image features onto the 3D point cloud. Additionally, we implement a point-pruning mechanism to augment feature continuity within each local neighborhood. By establishing coherent feature fields on both source and target scenes, we devise an energy function that facilitates the minimization of feature discrepancies w.r.t. the end-effector parameters between the demonstration and the target manipulation. We evaluate our approach using a dexterous hand, mastering real-world manipulations on both rigid and deformable objects, and showcase robust generalization in the face of object and scene-context variations.
翻訳日:2023-10-26 13:02:52 公開日:2023-10-25
# RDBench:リレーショナルデータベースのためのMLベンチマーク

RDBench: ML Benchmark for Relational Databases ( http://arxiv.org/abs/2310.16837v1 )

ライセンス: Link先を確認
Zizhao Zhang, Yi Yang, Lutong Zou, He Wen, Tao Feng, Jiaxuan You(参考訳) 高品質なデータセットと標準化された評価指標から恩恵を受け、機械学習(ML)は持続的な進歩と広範なアプリケーションを実現した。 しかし、機械学習をリレーショナルデータベース(RDB)に適用する一方で、十分に確立されたベンチマークが存在しないことは、MLの開発にとって大きな障害である。 この問題に対処するため,我々は,複数のテーブルを含むrdb上で再現可能なml研究を促進するための標準ベンチマークであるrdbench(ml benchmark for relational databases)を紹介する。 RDBenchは、さまざまなスケール、ドメイン、リレーショナル構造のRDBデータセットを4つのレベルに分類する。 特に、さまざまなMLドメインに対するRDBenchの採用を単純化するために、RDBenchは、グラフデータ、均質グラフ、異質グラフを含む3種類のインターフェースを公開し、その基盤となるタスク定義を共有する。 RDBenchは、RDB予測タスクの下で、XGBoostからGraph Neural Networksまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。 rdbデータセットごとに複数の分類と回帰タスクを設計、同じデータセット上で平均結果を報告し、実験結果のロバスト性をさらに向上させる。 RDBenchはDBGymで実装されている。DBGymはデータベース上のML研究とアプリケーションのためのユーザフレンドリーなプラットフォームで、RDBenchを使った新しいMLメソッドのベンチマークを容易に行える。

Benefiting from high-quality datasets and standardized evaluation metrics, machine learning (ML) has achieved sustained progress and widespread applications. However, while applying machine learning to relational databases (RDBs), the absence of a well-established benchmark remains a significant obstacle to the development of ML. To address this issue, we introduce ML Benchmark For Relational Databases (RDBench), a standardized benchmark that aims to promote reproducible ML research on RDBs that include multiple tables. RDBench offers diverse RDB datasets of varying scales, domains, and relational structures, organized into 4 levels. Notably, to simplify the adoption of RDBench for diverse ML domains, for any given database, RDBench exposes three types of interfaces including tabular data, homogeneous graphs, and heterogeneous graphs, sharing the same underlying task definition. For the first time, RDBench enables meaningful comparisons between ML methods from diverse domains, ranging from XGBoost to Graph Neural Networks, under RDB prediction tasks. We design multiple classification and regression tasks for each RDB dataset and report averaged results over the same dataset, further enhancing the robustness of the experimental findings. RDBench is implemented with DBGym, a user-friendly platform for ML research and application on databases, enabling benchmarking new ML methods with RDBench at ease.
翻訳日:2023-10-26 13:02:22 公開日:2023-10-25
# LLM-FP4:4ビット浮動小数点量子変換器

LLM-FP4: 4-Bit Floating-Point Quantized Transformers ( http://arxiv.org/abs/2310.16836v1 )

ライセンス: Link先を確認
Shih-yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang-Ting Cheng(参考訳) 大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。 既存のトレーニング後の量子化(PTQ)ソリューションは主に整数ベースであり、8ビット以下のビット幅で苦労する。 整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘の形をした分布を扱うことができる。 FP量子化の特徴の1つは、その性能が指数ビットとクリッピング範囲の選択に依存することである。 本稿では,最適な量子化パラメータを探索することにより,FP-PTQベースラインを構築する。 さらに,活性化分布に高いチャネル間分散と低いチャネル内分散パターンが観察され,アクティベーション量子化の難しさが増す。 我々は、このパターンがLLM、BERT、Vision Transformerモデルなどの様々なタスク用に設計されたトランスフォーマーモデルの範囲で一貫性があることを認識している。 そこで本研究では,チャネル毎のアクティベーション量子化を提案し,これら付加的なスケーリング因子が重みの指数バイアスとして再評価可能であり,コストが無視できることを示す。 提案手法は,LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,全精度モデルよりわずか5.8低い共通感覚ゼロショット推論タスクの平均スコア63.1を達成し,従来よりも12.7ポイント向上した。 コードはhttps://github.com/nbasyl/llm-fp4。

We propose LLM-FP4 for quantizing both weights and activations in large language models (LLMs) down to 4-bit floating-point values, in a post-training manner. Existing post-training quantization (PTQ) solutions are primarily integer-based and struggle with bit widths below 8 bits. Compared to integer quantization, floating-point (FP) quantization is more flexible and can better handle long-tail or bell-shaped distributions, and it has emerged as a default choice in many hardware platforms. One characteristic of FP quantization is that its performance largely depends on the choice of exponent bits and clipping range. In this regard, we construct a strong FP-PTQ baseline by searching for the optimal quantization parameters. Furthermore, we observe a high inter-channel variance and low intra-channel variance pattern in activation distributions, which adds activation quantization difficulty. We recognize this pattern to be consistent across a spectrum of transformer models designed for diverse tasks, such as LLMs, BERT, and Vision Transformer models. To tackle this, we propose per-channel activation quantization and show that these additional scaling factors can be reparameterized as exponential biases of weights, incurring a negligible cost. Our method, for the first time, can quantize both weights and activations in the LLaMA-13B to only 4-bit and achieves an average score of 63.1 on the common sense zero-shot reasoning tasks, which is only 5.8 lower than the full-precision model, significantly outperforming the previous state-of-the-art by 12.7 points. Code is available at: https://github.com/nbasyl/LLM-FP4.
翻訳日:2023-10-26 13:01:56 公開日:2023-10-25
# 低値データからの物体検出のためのコントラスト事前学習の提案

Proposal-Contrastive Pretraining for Object Detection from Fewer Data ( http://arxiv.org/abs/2310.16835v1 )

ライセンス: Link先を確認
Quentin Bouniot, Romaric Audigier, Ang\'elique Loesch, Amaury Habrard(参考訳) 事前訓練されたディープニューラルネットワークの使用は、少ないデータで強力な結果を得るための魅力的な方法である。 物体検出などの密集した問題に特化する場合、画像のグローバル情報よりも局所的な学習の方が効率的であることが証明されている。 しかし、教師なし事前学習の場合、一般的なコントラスト学習はバッチサイズが大きく、そのため多くのリソースを必要とする。 この問題に対処するため,我々は,近年,多くの多種多様なオブジェクト提案の生成に特化して,コミュニティで注目を集めているトランスフォーマーベースのオブジェクト検出器に興味を持っている。 そこで本研究では,この性質を生かした非教師なし全体の事前学習手法であるpromise selection contrast (proseco)を提案する。 ProSeCoは、コントラスト学習のために検出器によって生成された多数のオブジェクト提案を使用し、より小さなバッチサイズとオブジェクトレベルの特徴を組み合わせて画像内のローカル情報を学ぶことができる。 比較的損失の有効性を向上させるため,複数の重複するオブジェクト提案を考慮したポジティブな例の選択において,対象位置情報を導入する。 トレーニング済みのバックボーンを再利用する場合,バックボーンと検出ヘッドの局所的情報学習における一貫性を提唱する。 本手法は, 標準および新しいベンチマークを用いた教師なし事前学習において, 少ないデータで学習する上で, 最先端の技術に勝ることを示す。

The use of pretrained deep neural networks represents an attractive way to achieve strong results with few data available. When specialized in dense problems such as object detection, learning local rather than global information in images has proven to be more efficient. However, for unsupervised pretraining, the popular contrastive learning requires a large batch size and, therefore, a lot of resources. To address this problem, we are interested in transformer-based object detectors that have recently gained traction in the community with good performance and with the particularity of generating many diverse object proposals. In this work, we present Proposal Selection Contrast (ProSeCo), a novel unsupervised overall pretraining approach that leverages this property. ProSeCo uses the large number of object proposals generated by the detector for contrastive learning, which allows the use of a smaller batch size, combined with object-level features to learn local information in the images. To improve the effectiveness of the contrastive loss, we introduce the object location information in the selection of positive examples to take into account multiple overlapping object proposals. When reusing pretrained backbone, we advocate for consistency in learning local information between the backbone and the detection head. We show that our method outperforms state of the art in unsupervised pretraining for object detection on standard and novel benchmarks in learning with fewer data.
翻訳日:2023-10-26 13:01:25 公開日:2023-10-25
# データ分布の比推定による離散拡散言語モデリング

Discrete Diffusion Language Modeling by Estimating the Ratios of the Data Distribution ( http://arxiv.org/abs/2310.16834v1 )

ライセンス: Link先を確認
Aaron Lou, Chenlin Meng, Stefano Ermon(参考訳) 多くの生成的モデリングタスクにおける画期的な性能にもかかわらず、拡散モデルは自然言語のような離散データ領域では不足している。 重要な点として、標準拡散モデルは、スコアマッチングの確立された理論に依存しているが、これを離散構造に一般化する努力は、同じ経験的成果を得られていない。 本研究では,従来の手法よりも安定な新たな離散的なスコアマッチング損失であるスコアエントロピーを提案することで,このギャップを埋める。 我々は,Score Entropy Discrete Diffusion Model (SEDD) をGPT-2の実験的な設定に拡張し,高い競合可能性を実現するとともに,異なるアルゴリズム上の利点ももたらした。 特に、同様のサイズのSEDDとGPT-2モデルを比較すると、SEDDは同等の難易度(通常、$+10\%$以内で、時にはベースラインを上回っている)が得られる。 さらに、SEDDモデルは、より忠実なシーケンス分布(GPT-2モデルよりも約4\times$)を学習し、生成品質(GPT-2と一致するネットワーク評価がわずか16\times$より少ない)で計算をオフにし、標準左から右へのプロンプトを超えて任意のインフィルを可能にする。

Despite their groundbreaking performance for many generative modeling tasks, diffusion models have fallen short on discrete data domains such as natural language. Crucially, standard diffusion models rely on the well-established theory of score matching, but efforts to generalize this to discrete structures have not yielded the same empirical gains. In this work, we bridge this gap by proposing score entropy, a novel discrete score matching loss that is more stable than existing methods, forms an ELBO for maximum likelihood training, and can be efficiently optimized with a denoising variant. We scale our Score Entropy Discrete Diffusion models (SEDD) to the experimental setting of GPT-2, achieving highly competitive likelihoods while also introducing distinct algorithmic advantages. In particular, when comparing similarly sized SEDD and GPT-2 models, SEDD attains comparable perplexities (normally within $+10\%$ of and sometimes outperforming the baseline). Furthermore, SEDD models learn a more faithful sequence distribution (around $4\times$ better compared to GPT-2 models with ancestral sampling as measured by large models), can trade off compute for generation quality (needing only $16\times$ fewer network evaluations to match GPT-2), and enables arbitrary infilling beyond the standard left to right prompting.
翻訳日:2023-10-26 13:01:04 公開日:2023-10-25
# lightspeed: モバイルデバイス上の光と高速のニューラルライトフィールド

LightSpeed: Light and Fast Neural Light Fields on Mobile Devices ( http://arxiv.org/abs/2310.16832v1 )

ライセンス: Link先を確認
Aarush Gupta, Junli Cao, Chaoyang Wang, Ju Hu, Sergey Tulyakov, Jian Ren, L\'aszl\'o A Jeni(参考訳) モバイルデバイス上でのリアルタイムのノベルビュー画像合成は、計算能力とストレージの制限により禁止されている。 モバイルデバイス上でのNeRFやそのデリバティブといったボリュームレンダリング手法は、ボリュームレンダリングの計算コストが高いため不適当である。 一方,近年の光場表現の進歩により,モバイルデバイス上でのリアルタイムビュー合成の結果が期待できる。 ニューラル光場法は、光線表現から画素色への直接マッピングを学習する。 現在の光線表現の選択は成層線サンプリングかPl\"{u}cker座標のいずれかであり、古典的な光スラブ(2面)表現を見渡せる。 本研究では,光スラブ表現を用いたニューラル光場学習が効率的な表現であることを示す。 さらに重要なことは、訓練とレンダリングが大幅に高速な特徴格子を用いて、4次元の光空間を学習できる低次元の光線表現である。 主にフロントビュー用に設計されているが、分割コンカニオン戦略を用いて、ライトスラブ表現を非フロントシーンに拡張できることが示されている。 本手法は従来の光フィールド法に比べて優れたレンダリング品質を提供し,レンダリング品質と速度のトレードオフを著しく改善する。

Real-time novel-view image synthesis on mobile devices is prohibitive due to the limited computational power and storage. Using volumetric rendering methods, such as NeRF and its derivatives, on mobile devices is not suitable due to the high computational cost of volumetric rendering. On the other hand, recent advances in neural light field representations have shown promising real-time view synthesis results on mobile devices. Neural light field methods learn a direct mapping from a ray representation to the pixel color. The current choice of ray representation is either stratified ray sampling or Pl\"{u}cker coordinates, overlooking the classic light slab (two-plane) representation, the preferred representation to interpolate between light field views. In this work, we find that using the light slab representation is an efficient representation for learning a neural light field. More importantly, it is a lower-dimensional ray representation enabling us to learn the 4D ray space using feature grids which are significantly faster to train and render. Although mostly designed for frontal views, we show that the light-slab representation can be further extended to non-frontal scenes using a divide-and-conquer strategy. Our method offers superior rendering quality compared to previous light field methods and achieves a significantly improved trade-off between rendering quality and speed.
翻訳日:2023-10-26 13:00:39 公開日:2023-10-25
# PERF: 単一パノラマからのパノラマ性神経放射場

PERF: Panoramic Neural Radiance Field from a Single Panorama ( http://arxiv.org/abs/2310.16831v1 )

ライセンス: Link先を確認
Guangcong Wang and Peng Wang and Zhaoxi Chen and Wenping Wang and Chen Change Loy and Ziwei Liu(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,マルチビュー画像を用いた新規なビュー合成において大きな進歩を遂げている。 最近では、NeRFを1枚の画像から3D先行画像で訓練しようとする研究もある。 それらは主に限られた視野に焦点を合わせており、目に見えないオクルージョンはほとんどなく、大きなオクルージョンを持つ現実世界の360度パノラマシナリオにスケーラビリティを著しく制限している。 本稿では,パノラマからパノラマ性神経放射場を学習する360度新鮮視合成フレームワークPERFを提案する。 特にPERFは、高価な退屈な画像収集なしで複雑なシーンで3Dローミングができる。 この目的を達成するために,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBD塗装法とプログレッシブ塗工工法を提案する。 具体的には、まず1つのパノラマを初期化としてパノラマ深度マップを予測し、ボリュームレンダリングで可視3D領域を再構成する。 次に,RGB 安定拡散モデルと単眼深度推定器から得られたランダムビューから RGB 画像と深度マップを完結する NeRF に協調的な RGBD 塗装手法を導入する。 最後に,新たにサンプリングされたビューと参照ビューとの間の不整合な幾何学を避けるために,塗装と消去の戦略を導入する。 2つのコンポーネントは、統一最適化フレームワークでNeRFの学習に統合され、有望な結果が得られる。 レプリカに関する広範囲な実験と新しいデータセットperf-in-the-wildは、最先端メソッドよりもperfが優れていることを示している。 PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。 プロジェクトページとコードはhttps://perf-project.github.io/で入手できる。

Neural Radiance Field (NeRF) has achieved substantial progress in novel view synthesis given multi-view images. Recently, some works have attempted to train a NeRF from a single image with 3D priors. They mainly focus on a limited field of view and there are few invisible occlusions, which greatly limits their scalability to real-world 360-degree panoramic scenarios with large-size occlusions. In this paper, we present PERF, a 360-degree novel view synthesis framework that trains a panoramic neural radiance field from a single panorama. Notably, PERF allows 3D roaming in a complex scene without expensive and tedious image collection. To achieve this goal, we propose a novel collaborative RGBD inpainting method and a progressive inpainting-and-erasing method to lift up a 360-degree 2D scene to a 3D scene. Specifically, we first predict a panoramic depth map as initialization given a single panorama, and reconstruct visible 3D regions with volume rendering. Then we introduce a collaborative RGBD inpainting approach into a NeRF for completing RGB images and depth maps from random views, which is derived from an RGB Stable Diffusion model and a monocular depth estimator. Finally, we introduce an inpainting-and-erasing strategy to avoid inconsistent geometry between a newly-sampled view and reference views. The two components are integrated into the learning of NeRFs in a unified optimization framework and achieve promising results. Extensive experiments on Replica and a new dataset PERF-in-the-wild demonstrate the superiority of our PERF over state-of-the-art methods. Our PERF can be widely used for real-world applications, such as panorama-to-3D, text-to-3D, and 3D scene stylization applications. Project page and code are available at https://perf-project.github.io/.
翻訳日:2023-10-26 13:00:17 公開日:2023-10-25
# TD-MPC2:継続的制御のためのスケーラブルでロバストな世界モデル

TD-MPC2: Scalable, Robust World Models for Continuous Control ( http://arxiv.org/abs/2310.16828v1 )

ライセンス: Link先を確認
Nicklas Hansen, Hao Su, Xiaolong Wang(参考訳) TD-MPCは、学習された暗黙(デコーダなし)世界モデルの潜在空間において局所軌道最適化を行うモデルベース強化学習(RL)アルゴリズムである。 本稿では,TD-MPCアルゴリズムを改良したTD-MPC2を提案する。 我々は,TD-MPC2が4つのタスク領域にまたがる104のオンラインRLタスクのベースラインを大幅に改善し,一組のハイパーパラメータで一貫した結果が得られることを示した。 さらに,モデルとデータサイズによってエージェント能力が向上し,単一の317mパラメータエージェントをトレーニングして,複数のタスクドメイン,具体化,アクションスペース間で80タスクを実行することに成功した。 我々は,大規模td-mpc2エージェントに関連する教訓,機会,リスクについて考察した。 https://nicklashansen.github.io/td-mpc2

TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://nicklashansen.github.io/td-mpc2
翻訳日:2023-10-26 12:59:43 公開日:2023-10-25
# meteorモニタリングのためのdeep machine learning - transfer learningとgradient-weighted class activation mappingによる進歩

Deep machine learning for meteor monitoring: advances with transfer learning and gradient-weighted class activation mapping ( http://arxiv.org/abs/2310.16826v1 )

ライセンス: Link先を確認
Eloy Pe\~na-Asensio, Josep M. Trigo-Rodr\'iguez, Pau Gr\`ebol-Tom\`as, David Regordosa-Avellana, Albert Rimola(参考訳) 近年では、気象研究における光学検出システムの利用が劇的に増加し、膨大な量のデータが分析されている。 隕石の自動検出ツールは、連続的な隕石の入射流の研究、新しい隕石の回収、太陽系のより深い理解を達成するのに不可欠である。 隕石検出に関して、隕石と非気象画像の偽陽性の区別は伝統的に手作業で行われてきた。 この問題に対処するため,我々は,畳み込みニューラルネットワーク(cnns)を用いて候補流星検出を分類する完全自動化パイプラインを開発した。 提案手法では,雲や月,建物などの静的要素を含む画像においても,流星を検出できる。 各フレーム内の隕石を正確に検出するために、グラディエント重み付きクラス活性化マッピング(Grad-CAM)技術を用いる。 この方法では、最後の畳み込み層からのアクティベーションを、その層の特徴マップ上の勾配の平均値に乗じることで、関心領域の識別を容易にする。 これらの知見を第1畳み込み層から導出した活性化マップと組み合わせることで、隕石の最も可能性の高い画素位置を効果的に特定する。 本研究では,スペインのmeteor network (spmn) が収集した大規模データセット上でモデルをトレーニングし,98\%の精度で評価した。 今回紹介した新しい手法は,流星科学者とステーションオペレータの作業負荷を低減し,流星追跡と分類の精度を向上させる可能性を秘めている。

In recent decades, the use of optical detection systems for meteor studies has increased dramatically, resulting in huge amounts of data being analyzed. Automated meteor detection tools are essential for studying the continuous meteoroid incoming flux, recovering fresh meteorites, and achieving a better understanding of our Solar System. Concerning meteor detection, distinguishing false positives between meteor and non-meteor images has traditionally been performed by hand, which is significantly time-consuming. To address this issue, we developed a fully automated pipeline that uses Convolutional Neural Networks (CNNs) to classify candidate meteor detections. Our new method is able to detect meteors even in images that contain static elements such as clouds, the Moon, and buildings. To accurately locate the meteor within each frame, we employ the Gradient-weighted Class Activation Mapping (Grad-CAM) technique. This method facilitates the identification of the region of interest by multiplying the activations from the last convolutional layer with the average of the gradients across the feature map of that layer. By combining these findings with the activation map derived from the first convolutional layer, we effectively pinpoint the most probable pixel location of the meteor. We trained and evaluated our model on a large dataset collected by the Spanish Meteor Network (SPMN) and achieved a precision of 98\%. Our new methodology presented here has the potential to reduce the workload of meteor scientists and station operators and improve the accuracy of meteor tracking and classification.
翻訳日:2023-10-26 12:59:27 公開日:2023-10-25
# commoncanvas:creative-commonsイメージを用いたオープン拡散モデル

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images ( http://arxiv.org/abs/2310.16825v1 )

ライセンス: Link先を確認
Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov(参考訳) 我々は,creative-commons-licensed (cc) 画像のデータセットを組み立て,安定拡散2 (sd2) と定性的に競合するオープン拡散モデルの訓練を行う。 本課題は,(1)高解像度CC画像にはテキスト・ツー・イメージ生成モデルの訓練に必要なキャプションが欠けていること,(2)CC画像は比較的少ないこと,である。 次に,これらの課題に対処するために,直観的な転送学習手法を用いて,cc画像と組み合わせた高品質な合成キャプションを作成する。 次に、既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発する。 これらの結果は,高品質モデルのトレーニングに十分な数のCC画像(約7000万)があることを示唆している。 トレーニングレシピはまた、3倍のトレーニングスピードアップを実現し、迅速なモデル反復を可能にする様々な最適化も実装しています。 私たちはこのレシピを利用して、いくつかの高品質なテキストから画像へのモデルをトレーニングしています。 我々の最大のモデルは、LAIONよりもはるかに小さいCCデータセットでトレーニングされ、トレーニングに合成キャプションを使用するにもかかわらず、人間の評価においてSD2に匹敵する性能を達成する。 モデル、データ、コードはhttps://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.mdでリリースしています。

We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
翻訳日:2023-10-26 12:59:00 公開日:2023-10-25
# WebArena: 自律エージェント構築のための現実的なWeb環境

WebArena: A Realistic Web Environment for Building Autonomous Agents ( http://arxiv.org/abs/2307.13854v3 )

ライセンス: Link先を確認
Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig(参考訳) 生成AIの進歩により、自律エージェントは自然言語コマンドを通じて日々のタスクを管理することが可能になった。 しかし、現在のエージェントは主に単純な合成環境で作成され、テストされ、現実世界のシナリオと切り離される。 本稿では,現実的で再現性の高い言語誘導エージェントのための環境を構築する。 具体的には、web上でタスクを行うエージェントに注目し、eコマース、ソーシャルフォーラムの議論、共同ソフトウェア開発、コンテンツ管理という4つの共通ドメインから完全に機能するwebサイトを構築する。 私たちの環境は、人間のようなタスク解決を促進するツール(地図など)と外部知識ベース(ユーザマニュアルなど)で豊かになっています。 私たちの環境に基づいて、タスク完了の機能的正確性を評価することに焦点を当てた一連のベンチマークタスクをリリースします。 私たちのベンチマークのタスクは多様で、長い水平で、人間が日常的にインターネット上で実行するタスクをエミュレートするように設計されています。 我々はいくつかのベースラインエージェントを実験し、行動前に推論などの最近の手法を統合する。 GPT-4をベースとしたベストエージェントは、エンド・ツー・エンドのタスク成功率14.41%に過ぎず、人間のパフォーマンス78.24%よりも大幅に低い。 これらの結果は、ロバストなエージェントのさらなる開発の必要性、現在の最先端の大規模言語モデルが実際のタスクにおける完全なパフォーマンスには程遠いこと、そして、webarenaがそのような進歩を測定するために使用できることを浮き彫りにしている。

With advances in generative AI, there is now potential for autonomous agents to manage daily tasks via natural language commands. However, current agents are primarily created and tested in simplified synthetic environments, leading to a disconnect with real-world scenarios. In this paper, we build an environment for language-guided agents that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on the web, and create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and designed to emulate tasks that humans routinely perform on the internet. We experiment with several baseline agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 14.41%, significantly lower than the human performance of 78.24%. These results highlight the need for further development of robust agents, that current state-of-the-art large language models are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress.
翻訳日:2023-10-26 11:11:16 公開日:2023-10-25
# 見えないモダリティインタラクションを学ぶ

Learning Unseen Modality Interaction ( http://arxiv.org/abs/2306.12795v3 )

ライセンス: Link先を確認
Yunhua Zhang and Hazel Doughty and Cees G.M. Snoek(参考訳) マルチモーダル学習(multimodal learning)は、興味のモダリティの組み合わせがトレーニング中に利用可能であると仮定し、クロスモーダル対応を学ぶ。 本稿では,マルチモーダル学習におけるモダリティ完全仮定に挑戦し,その代わりに推論中のモダリティ結合に対する一般化を試みる。 我々は,非知覚的モダリティ相互作用の問題を提起し,第1の解決法を提案する。 異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。 これにより、情報は利用可能なモダリティにまたがる単純な和演算で蓄積される。 トレーニング中の判別的モダリティの組み合わせを減らすために、モダリティ予測の信頼性を示す擬似スーパービジョンを用いてモデル学習をさらに改善する。 本手法は,マルチモーダル映像分類,ロボット状態回帰,マルチメディア検索において,多様なタスクやモダリティに対して有効であることを示す。 プロジェクトwebサイト: https://xiaobai1217.github.io/unseen-modality-interaction/

Multimodal learning assumes all modality combinations of interest are available during training to learn cross-modal correspondences. In this paper, we challenge this modality-complete assumption for multimodal learning and instead strive for generalization to unseen modality combinations during inference. We pose the problem of unseen modality interaction and introduce a first solution. It exploits a module that projects the multidimensional features of different modalities into a common space with rich information preserved. This allows the information to be accumulated with a simple summation operation across available modalities. To reduce overfitting to less discriminative modality combinations during training, we further improve the model learning with pseudo-supervision indicating the reliability of a modality's prediction. We demonstrate that our approach is effective for diverse tasks and modalities by evaluating it for multimodal video classification, robot state regression, and multimedia retrieval. Project website: https://xiaobai1217.github.io/Unseen-Modality-Interaction/.
翻訳日:2023-10-26 11:10:49 公開日:2023-10-25
# nlp研究におけるパラダイムシフトの2次解析--いつ、どのように、なぜ?

A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and Why? ( http://arxiv.org/abs/2305.12920v3 )

ライセンス: Link先を確認
Aniket Pramanick, Yufang Hou, Saif M. Mohammad, Iryna Gurevych(参考訳) 科学分野の基本概念と傾向を理解することは、その継続的な進歩を保ち続けるために不可欠である。 本研究では,因果発見と推論手法を用いて,科学分野における研究トピックの進化を分析するための体系的枠組みを提案する。 我々は,NLPにおける研究トピックの進化の多様な側面を包含する3つの変数を定義し,因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。 その後、これらの関係の強度を測定するためにこの構造を利用する。 ACLアンソロジーコーパスに関する広範な実験を行うことにより、我々のフレームワークは、幅広いNLP研究トピックの進化的傾向と根本原因を効果的に発見できることを実証する。 具体的には、タスクとメソッドがNLPの研究の主要な要因であることを示し、データセットは従うが、メトリクスは最小限の影響を持つ。

Understanding the fundamental concepts and trends in a scientific field is crucial for keeping abreast of its continuous advancement. In this study, we propose a systematic framework for analyzing the evolution of research topics in a scientific field using causal discovery and inference techniques. We define three variables to encompass diverse facets of the evolution of research topics within NLP and utilize a causal discovery algorithm to unveil the causal connections among these variables using observational data. Subsequently, we leverage this structure to measure the intensity of these relationships. By conducting extensive experiments on the ACL Anthology corpus, we demonstrate that our framework effectively uncovers evolutionary trends and the underlying causes for a wide range of NLP research topics. Specifically, we show that tasks and methods are primary drivers of research in NLP, with datasets following, while metrics have minimal impact.
翻訳日:2023-10-26 11:10:33 公開日:2023-10-25
# 知識蒸留$\approx$ Label Smoothing: Fact or Fallacy?

Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy? ( http://arxiv.org/abs/2301.12609v4 )

ライセンス: Link先を確認
Md Arafat Sultan(参考訳) 元々は、あるモデルから別のモデルへの知識伝達の方法として提案されていたが、近年の研究では、知識蒸留(KD)が実際に正則化の一形態であることを示唆している。 この新しい観点からの最も強い議論は、ラベルスムーシング(LS)との明らかな類似性である。 ここでは、トレーニングしたモデルの予測信頼度を比較することにより、この2つの方法間の等価性を再検討する。 異なるサイズのモデルを含む4つのテキスト分類タスクの実験では、以下のことが示される。 (a)ほとんどの環境では、KDとLSが全く反対方向にモデルの信頼性を駆動し、 b)KDでは,学生は知識だけでなく,教師からの信頼も受け継ぎ,古典的知識伝達の視点を強化している。

Originally proposed as a method for knowledge transfer from one model to another, some recent studies have suggested that knowledge distillation (KD) is in fact a form of regularization. Perhaps the strongest argument of all for this new perspective comes from its apparent similarities with label smoothing (LS). Here we re-examine this stated equivalence between the two methods by comparing the predictive confidences of the models they train. Experiments on four text classification tasks involving models of different sizes show that: (a) In most settings, KD and LS drive model confidence in completely opposite directions, and (b) In KD, the student inherits not only its knowledge but also its confidence from the teacher, reinforcing the classical knowledge transfer view.
翻訳日:2023-10-26 11:10:18 公開日:2023-10-25
# heam:ディープニューラルネットワークの高効率近似マルチプライア最適化

HEAM: High-Efficiency Approximate Multiplier Optimization for Deep Neural Networks ( http://arxiv.org/abs/2201.08022v5 )

ライセンス: Link先を確認
Su Zheng, Zhen Li, Yao Lu, Jingbo Gao, Jide Zhang, Lingli Wang(参考訳) オペランド分布にしたがって平均誤差を最小化する近似乗算器の自動設計のための最適化手法を提案する。 我々の乗算器は、DNNにおいて最もよく再現された近似乗算器よりも50.24%高い精度で15.76%小さく、消費電力が25.05%減少し、3.50%遅れている。 正確な乗算器と比較して、乗算器は面積、消費電力、遅延を44.94%、47.63%、および16.78%削減し、精度の損失は無視できる。 我々の乗算器を持つ試験されたDNN加速器モジュールは、18.70%の面積と9.99%の消費電力を得る。

We propose an optimization method for the automatic design of approximate multipliers, which minimizes the average error according to the operand distributions. Our multiplier achieves up to 50.24% higher accuracy than the best reproduced approximate multiplier in DNNs, with 15.76% smaller area, 25.05% less power consumption, and 3.50% shorter delay. Compared with an exact multiplier, our multiplier reduces the area, power consumption, and delay by 44.94%, 47.63%, and 16.78%, respectively, with negligible accuracy losses. The tested DNN accelerator modules with our multiplier obtain up to 18.70% smaller area and 9.99% less power consumption than the original modules.
翻訳日:2023-10-26 11:10:05 公開日:2023-10-25
# 量子重力におけるユニタリティのリアリスト解釈

A Realist Interpretation of Unitarity in Quantum Gravity ( http://arxiv.org/abs/2310.15157v2 )

ライセンス: Link先を確認
Indrajit Sen, Stephon Alexander, Justin Dressel(参考訳) ユニタリティは、状態の非正規化性と時間の問題のため、正準量子重力において実装するのが難しい概念である。 本研究では、パイロット波理論に基づく現実主義的アプローチを用いて、ホイーラー・ド・ウィット方程式のアシュテカール定式化に対処する。 我々は,最近議論された重力-フェルミオン系の大域的時間を定義するために,理論における定配置の仮定を用いる(Phys)。 D 106.10 (2022): 106012) コダマ状態に依存するワイルスピナーの変種をパラメータ化する。 全体ハミルトニアン制約は、半古典近似を含まずに時間依存シュロディンガー方程式を与え、構成空間上の局所連続性方程式を導出する。 誘導方程式のレベルで現実条件を実装し,システム軌道に沿った実スピン接続,外在曲率,トライアドを得る。 非正規化可能なコダマ状態は、保存電流密度の完全な量子状態から自然に分解され、量子力学的ユニタリティの可能性を開く。 また,非正規化可能な状態に適用可能なユニタリティの概念をパイロット波で一般化し,系の平衡密度の存在を示す。 最後に、ハミルトニアン制約の近似解を見つけることにより、ミニ超空間におけるユニタリ状態を見つける。

Unitarity is a difficult concept to implement in canonical quantum gravity because of state non-normalizability and the problem of time. In this work, we take a realist approach based on pilot-wave theory to address this issue in the Ashtekar formulation of the Wheeler-de Witt equation. We use the postulate of a definite configuration in the theory to define a global time for the gravitational-fermionic system recently discussed in (Phys. Rev. D 106.10 (2022): 106012), by parameterizing a variation of a Weyl-spinor that depends on the Kodama state. The total Hamiltonian constraint yields a time-dependent Schrodinger equation, without semi-classical approximations, which we use to derive a local continuity equation over the configuration space. We implement the reality conditions at the level of the guidance equation, and obtain a real spin-connection, extrinsic curvature and triad along the system trajectory. The non-normalizable Kodama state is naturally factored out of the full quantum state in the conserved current density, opening the possibility for quantum-mechanical unitarity. We also give a pilot-wave generalisation of the notion of unitarity applicable to non-normalizable states, and show the existence of equilibrium density for our system. Lastly, we find unitary states in mini-superspace by finding an approximate solution to the Hamiltonian constraint.
翻訳日:2023-10-26 11:04:44 公開日:2023-10-25
# MGAS: 効率的かつ効率的なニューラルネットワークのためのマルチグラニュラリティアーキテクチャ探索

MGAS: Multi-Granularity Architecture Search for Effective and Efficient Neural Networks ( http://arxiv.org/abs/2310.15074v2 )

ライセンス: Link先を確認
Xiaoyun Liu, Divya Saxena, Jiannong Cao, Yuqing Zhao, Penghui Ruan(参考訳) 微分可能なアーキテクチャサーチ(DAS)は、時間効率の自動化によってニューラルネットワークサーチ(NAS)に革命をもたらし、離散的な候補サンプリングと評価から微分可能なスーパーネット最適化と離散化へと移行する。 しかし、既存のDAS法は、粗粒度操作レベル探索のみを行うか、または、モデルサイズとモデル性能を同時に最適化できない粒度カーネルレベルおよび重みレベルユニットの残りの比率を手動で定義する。 さらに、これらの手法は、メモリ消費を減らすために検索品質を損なう。 これらの課題に対処するために,多粒度アーキテクチャ探索(MGAS)を導入した。これは,多粒度検索空間を包括的かつメモリ効率よく探索し,効率的かつ効率的なニューラルネットワークを発見することを目的とした統合フレームワークである。 具体的には,各粒度レベルに特有の離散化関数を学習し,進化するアーキテクチャに応じて残りの比率を適応的に決定する。 これにより、異なる対象モデルサイズに対して、異なる粒度レベルの単位間の最適なバランスが確保される。 メモリ要求を考慮して、スーパーネット最適化と離散化を複数のサブネットステージに分割する。 それでも、このアプローチの強欲な性質は、初期段階に偏見をもたらす可能性がある。 バイアスを補うために, 先行ユニットの再収穫と再成長を可能にするために, 漸進的再評価を提案する。 CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。

Differentiable architecture search (DAS) revolutionizes neural architecture search (NAS) with time-efficient automation, transitioning from discrete candidate sampling and evaluation to differentiable super-net optimization and discretization. However, existing DAS methods either only conduct coarse-grained operation-level search or manually define the remaining ratios for fine-grained kernel-level and weight-level units, which fail to simultaneously optimize model size and model performance. Furthermore, these methods compromise search quality to reduce memory consumption. To tackle these issues, we introduce multi-granularity architecture search (MGAS), a unified framework which aims to comprehensively and memory-efficiently explore the multi-granularity search space to discover both effective and efficient neural networks. Specifically, we learn discretization functions specific to each granularity level to adaptively determine the remaining ratios according to the evolving architecture. This ensures an optimal balance among units of different granularity levels for different target model sizes. Considering the memory demands, we break down the super-net optimization and discretization into multiple sub-net stages. Nevertheless, the greedy nature of this approach may introduce bias in the early stages. To compensate for the bias, we propose progressive re-evaluation to allow for re-pruning and regrowing of previous units during subsequent stages. Extensive experiments on CIFAR-10, CIFAR-100 and ImageNet demonstrate that MGAS outperforms other state-of-the-art methods in achieving a better trade-off between model performance and model size.
翻訳日:2023-10-26 11:04:20 公開日:2023-10-25
# move-one-sample-out によるデータプルーニング

Data Pruning via Moving-one-Sample-out ( http://arxiv.org/abs/2310.14664v2 )

ライセンス: Link先を確認
Haoru Tan, Sitong Wu, Fei Du, Yukang Chen, Zhibin Wang, Fan Wang, Xiaojuan Qi(参考訳) 本稿では、トレーニングセットから最も情報に乏しいサンプルを識別・削除することを目的とした、移動単サンプルアウト(MoSo)と呼ばれる新しいデータ抽出手法を提案する。 MoSoの背後にある中核的な洞察は、最適な経験的リスクに対する影響を評価することで、各サンプルの重要性を決定することである。 これは、特定のサンプルがトレーニングセットから除外された場合に経験的リスクが変動する程度を測定することで達成される。 計算コストのかかる1次調整手順の代わりに、異なる訓練段階からの勾配情報のみを必要とする効率的な1次近似器を提案する。 我々の近似の背景にある重要な考え方は、トレーニングセットの平均勾配に一貫した勾配を持つサンプルは、より情報的であり、より高いスコアを受け取るべきであるということであり、これは直感的に理解できる。 実験の結果,mosoは高い刈り込み率で性能劣化を効果的に軽減し,様々な設定で良好な性能が得られることがわかった。

In this paper, we propose a novel data-pruning approach called moving-one-sample-out (MoSo), which aims to identify and remove the least informative samples from the training set. The core insight behind MoSo is to determine the importance of each sample by assessing its impact on the optimal empirical risk. This is achieved by measuring the extent to which the empirical risk changes when a particular sample is excluded from the training set. Instead of using the computationally expensive leaving-one-out-retraining procedure, we propose an efficient first-order approximator that only requires gradient information from different training stages. The key idea behind our approximation is that samples with gradients that are consistently aligned with the average gradient of the training set are more informative and should receive higher scores, which could be intuitively understood as follows: if the gradient from a specific sample is consistent with the average gradient vector, it implies that optimizing the network using the sample will yield a similar effect on all remaining samples. Experimental results demonstrate that MoSo effectively mitigates severe performance degradation at high pruning ratios and achieves satisfactory performance across various settings.
翻訳日:2023-10-26 11:03:46 公開日:2023-10-25
# normdial:社会的規範の遵守と違反をモデル化する、同等のバイリンガル合成ダイアログデータセット

NormDial: A Comparable Bilingual Synthetic Dialog Dataset for Modeling Social Norm Adherence and Violation ( http://arxiv.org/abs/2310.14563v2 )

ライセンス: Link先を確認
Oliver Li, Mallika Subramanian, Arkadiy Saakyan, Sky CH-Wang, Smaranda Muresan(参考訳) 社会的規範は基本的に対人コミュニケーションを形成する。 本稿では,中国とアメリカの文化に対する社会的規範の遵守と違反に関するターンバイターンアノテーションを備えた,高品質なdyadic対話データセットであるnormdialを提案する。 社会規範検出のタスクの導入により,我々のデータセットは中国語と英語の両方で,専門家が注釈付けした社会規範の小さなコレクションで大規模言語モデルを促すことによって,人文パイプラインを用いて合成的に生成される。 提案する対話は,人間の評価を通じて高品質であり,既存の大規模言語モデルの性能をさらに評価する。 本研究は、言語や文化にまたがる会話的文脈に現れる社会規範のニュアンスを理解するための新しい方向性を示唆する。

Social norms fundamentally shape interpersonal communication. We present NormDial, a high-quality dyadic dialogue dataset with turn-by-turn annotations of social norm adherences and violations for Chinese and American cultures. Introducing the task of social norm observance detection, our dataset is synthetically generated in both Chinese and English using a human-in-the-loop pipeline by prompting large language models with a small collection of expert-annotated social norms. We show that our generated dialogues are of high quality through human evaluation and further evaluate the performance of existing large language models on this task. Our findings point towards new directions for understanding the nuances of social norms as they manifest in conversational contexts that span across languages and cultures.
翻訳日:2023-10-26 11:03:26 公開日:2023-10-25
# BERTモデルに対する意図的バックドア攻撃

Attention-Enhancing Backdoor Attacks Against BERT-based Models ( http://arxiv.org/abs/2310.14480v2 )

ライセンス: Link先を確認
Weimin Lyu, Songzhu Zheng, Lu Pang, Haibin Ling, Chao Chen(参考訳) 近年の研究では、textit{Backdoor Attacks} が自然言語処理(NLP)モデルの安全性を脅かす可能性があることが明らかになった。 バックドア攻撃の戦略を調査することは、モデルの脆弱性を理解するのに役立つ。 既存のテキストバックドア攻撃のほとんどは、ステルストリガーの生成やモデル重み付けの変更に焦点を当てている。 本稿では,ニューラルネットワークの内部構造とバックドア機構を直接対象とする。 本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。 我々の損失は、攻撃の成功率と中毒率の観点から攻撃効果を高める様々な攻撃方法に適用できる。 従来のダーティラベル攻撃だけでなく、より困難なクリーンラベル攻撃にも適用される。 本研究では,異なるバックボーンモデル (BERT, RoBERTa, DistilBERT) と各種タスク (Sentiment Analysis, Toxic Detection, Topic Classification) について検証を行った。

Recent studies have revealed that \textit{Backdoor Attacks} can threaten the safety of natural language processing (NLP) models. Investigating the strategies of backdoor attacks will help to understand the model's vulnerability. Most existing textual backdoor attacks focus on generating stealthy triggers or modifying model weights. In this paper, we directly target the interior structure of neural networks and the backdoor mechanism. We propose a novel Trojan Attention Loss (TAL), which enhances the Trojan behavior by directly manipulating the attention patterns. Our loss can be applied to different attacking methods to boost their attack efficacy in terms of attack successful rates and poisoning rates. It applies to not only traditional dirty-label attacks, but also the more challenging clean-label attacks. We validate our method on different backbone models (BERT, RoBERTa, and DistilBERT) and various tasks (Sentiment Analysis, Toxic Detection, and Topic Classification).
翻訳日:2023-10-26 11:03:12 公開日:2023-10-25
# 高度なAIによる社会規模リスク評価のための国際コンソーシアム

An International Consortium for Evaluations of Societal-Scale Risks from Advanced AI ( http://arxiv.org/abs/2310.14455v2 )

ライセンス: Link先を確認
Ross Gruetzemacher, Alan Chan, Kevin Frazier, Christy Manning, \v{S}t\v{e}p\'an Los, James Fox, Jos\'e Hern\'andez-Orallo, John Burden, Matija Franklin, Cl\'iodhna N\'i Ghuidhir, Mark Bailey, Daniel Eth, Toby Pilditch, Kyle Kilian(参考訳) AIの高度な進歩とフロンティアAIシステム(AI能力フロンティアの境界を推し進める先進的なAIシステム)からのリスクを踏まえると、AIガバナンスと規制スキームの作成と実装は優先順位付けと実質的な投資に値する。 しかし現状は維持不可能であり、率直に言って危険である。 規制のギャップにより、AIラボは最小限の監視で研究、開発、デプロイメント活動を行うことができた。 これに対し、フロンティアAIシステムの開発と展開のリスクを評価する手段として、フロンティアAIシステム評価が提案されている。 しかし、AIリスク評価エコシステムは、評価者の多様性の制限、努力の最適部分配分、逆インセンティブなど、大きな調整課題に直面している。 本稿では,AI開発者とサードパーティのAIリスク評価者の両方からなる,AIリスク評価のための国際コンソーシアムの形でのソリューションを提案する。 このようなコンソーシアムは、責任あるスケーリングポリシーの管理や評価に基づくリスク対応の調整など、先進的なAIから社会規模のリスクを緩和する国際的な取り組みにおいて重要な役割を果たす可能性がある。 本稿では、現在の評価エコシステムとその欠点を議論し、先進的なaiリスク評価のための国際コンソーシアムを提案し、その実施に関する課題を議論し、以前の国際機関から学べる教訓と国際aiガバナンス機関の既存の提案について議論し、最後に、コンソーシアムの設立を進めるための具体的な手順を推奨する。 (i)利害関係者からのフィードバック (ii)追加調査を行う (iii)利害関係者のためのワークショップを実施します。 (iv)フィードバックを分析し、最終提案を作成する。 (v)募金、及び (vi)コンソーシアムを作成する。

Given rapid progress toward advanced AI and risks from frontier AI systems (advanced AI systems pushing the boundaries of the AI capabilities frontier), the creation and implementation of AI governance and regulatory schemes deserves prioritization and substantial investment. However, the status quo is untenable and, frankly, dangerous. A regulatory gap has permitted AI labs to conduct research, development, and deployment activities with minimal oversight. In response, frontier AI system evaluations have been proposed as a way of assessing risks from the development and deployment of frontier AI systems. Yet, the budding AI risk evaluation ecosystem faces significant coordination challenges, such as a limited diversity of evaluators, suboptimal allocation of effort, and perverse incentives. This paper proposes a solution in the form of an international consortium for AI risk evaluations, comprising both AI developers and third-party AI risk evaluators. Such a consortium could play a critical role in international efforts to mitigate societal-scale risks from advanced AI, including in managing responsible scaling policies and coordinated evaluation-based risk response. In this paper, we discuss the current evaluation ecosystem and its shortcomings, propose an international consortium for advanced AI risk evaluations, discuss issues regarding its implementation, discuss lessons that can be learnt from previous international institutions and existing proposals for international AI governance institutions, and, finally, we recommend concrete steps to advance the establishment of the proposed consortium: (i) solicit feedback from stakeholders, (ii) conduct additional research, (iii) conduct a workshop(s) for stakeholders, (iv) analyze feedback and create final proposal, (v) solicit funding, and (vi) create a consortium.
翻訳日:2023-10-26 11:02:56 公開日:2023-10-25
# VoxArabica:ロバストな方言対応アラビア語音声認識システム

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System ( http://arxiv.org/abs/2310.11069v3 )

ライセンス: Link先を確認
Abdul Waheed, Bashar Talafha, Peter Suvellin, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) アラビア語は複雑な言語であり、世界中で4億5000万以上の方言が話されている。 言語的多様性とバリエーションのため、アラビア語のための堅牢で一般化されたASRシステムを構築することは困難である。 本研究では、方言識別(DID)とアラビア語の自動音声認識(ASR)のためのVoxArabicaと呼ばれるシステムを開発し、デモすることで、このギャップに対処する。 我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。 我々のDIDモデルは、MSAに加えて17種類の方言を識別するように訓練されている。 MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。 さらに、ASRの残りの方言に対しては、ゼロショット設定でWhisperやMMSなどの様々なモデルを選択するオプションを提供する。 私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど様々な機能を提供します。 全体としては、VoxArabicaはアラビア研究に関する幅広い聴衆にとって有用であると考えています。 私たちのシステムは、現在https://cdce-206-12-100-168.ngrok.io/で動作しています。

Arabic is a complex language with many varieties and dialects spoken by over 450 millions all around the world. Due to the linguistic diversity and variations, it is challenging to build a robust and generalized ASR system for Arabic. In this work, we address this gap by developing and demoing a system, dubbed VoxArabica, for dialect identification (DID) as well as automatic speech recognition (ASR) of Arabic. We train a wide range of models such as HuBERT (DID), Whisper, and XLS-R (ASR) in a supervised setting for Arabic DID and ASR tasks. Our DID models are trained to identify 17 different dialects in addition to MSA. We finetune our ASR models on MSA, Egyptian, Moroccan, and mixed data. Additionally, for the remaining dialects in ASR, we provide the option to choose various models such as Whisper and MMS in a zero-shot setting. We integrate these models into a single web interface with diverse features such as audio recording, file upload, model selection, and the option to raise flags for incorrect outputs. Overall, we believe VoxArabica will be useful for a wide range of audiences concerned with Arabic research. Our system is currently running at https://cdce-206-12-100-168.ngrok.io/.
翻訳日:2023-10-26 11:02:25 公開日:2023-10-25
# 中国語大言語モデルにおける幻覚評価

Evaluating Hallucinations in Chinese Large Language Models ( http://arxiv.org/abs/2310.03368v4 )

ライセンス: Link先を確認
Qinyuan Cheng, Tianxiang Sun, Wenwei Zhang, Siyin Wang, Xiangyang Liu, Mozhi Zhang, Junliang He, Mianqiu Huang, Zhangyue Yin, Kai Chen, Xipeng Qiu(参考訳) 本稿では,中国大言語モデルにおける幻覚現象を測定するために,HaluQAというベンチマークを作成した。 HalluQAには450の厳密に設計された敵の質問が含まれており、複数のドメインにまたがっており、中国の歴史的文化、慣習、社会現象を考慮に入れている。 HalluQAの構築中,擬似偽造と事実誤りの2種類の幻覚を考察し,GLM-130B と ChatGPT に基づく敵対的サンプルを構築した。 評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDeskなど、24の大規模言語モデルに関する広範な実験を行います。 24モデル中、18モデルは50%未満の非幻覚率を達成した。 これはHauQAが非常に難しいことを示している。 様々なモデルにおける幻覚の主なタイプとその原因を分析した。 さらに,様々なモデルに対してどの種類の幻覚を優先すべきかについて議論する。

In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.
翻訳日:2023-10-26 11:02:00 公開日:2023-10-25
# 単語レベルとスパンレベルのタスクを統一する:NJUNLPによるWMT2023品質評価共有タスクへの参加

Unify word-level and span-level tasks: NJUNLP's Participation for the WMT2023 Quality Estimation Shared Task ( http://arxiv.org/abs/2309.13230v3 )

ライセンス: Link先を確認
Xiang Geng, Zhejian Lai, Yu Zhang, Shimin Tao, Hao Yang, Jiajun Chen, Shujian Huang(参考訳) 我々は,WMT 2023 Quality Estimation (QE)共有タスクに対するNJUNLPチームの提案を紹介する。 私たちのチームは2つのサブタスクすべてで、英語とドイツ語のペアの予測を提出しました。 (i)文・語レベルの品質予測、及び (ii)細粒度エラースパン検出。 NJUQEフレームワーク(https://github.com/NJUNLP/njuqe)に基づくQEの擬似データ手法をさらに検討する。 WMT翻訳タスクから並列データを用いて疑似MQMデータを生成する。 擬似QEデータ上でXLMR大モデルを事前訓練し、実QEデータ上で微調整する。 両段階で文レベルスコアと単語レベルタグを共同で学習する。 実証的に、私たちはパフォーマンスを改善する重要なハイパーパラメータを見つける実験を行います。 技術的には、単語レベルの出力をきめ細かな誤差にカバーする単純な手法を提案する。 全体的に、我々のモデルは単語レベルときめ細かいエラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得ました。

We introduce the submissions of the NJUNLP team to the WMT 2023 Quality Estimation (QE) shared task. Our team submitted predictions for the English-German language pair on all two sub-tasks: (i) sentence- and word-level quality prediction; and (ii) fine-grained error span detection. This year, we further explore pseudo data methods for QE based on NJUQE framework (https://github.com/NJUNLP/njuqe). We generate pseudo MQM data using parallel data from the WMT translation task. We pre-train the XLMR large model on pseudo QE data, then fine-tune it on real QE data. At both stages, we jointly learn sentence-level scores and word-level tags. Empirically, we conduct experiments to find the key hyper-parameters that improve the performance. Technically, we propose a simple method that covert the word-level outputs to fine-grained error span results. Overall, our models achieved the best results in English-German for both word-level and fine-grained error span detection sub-tasks by a considerable margin.
翻訳日:2023-10-26 11:01:41 公開日:2023-10-25
# 多類分類における平均ケースロバストネスの効率的な推定

Efficient Estimation of Average-Case Robustness for Multi-Class Classification ( http://arxiv.org/abs/2307.13885v4 )

ライセンス: Link先を確認
Tessa Han, Suraj Srinivas, Himabindu Lakkaraju(参考訳) 機械学習におけるロバスト性は、逆条件でよく研究されるが、実世界のノイズ(測定ノイズなど)は逆条件ではなくランダムである。 このような雑音下でのモデル行動は、平均ケースロバスト性、すなわち入力周辺の局所領域で一貫した予測を得る確率によって捉えられる。 しかしながら、モンテカルロサンプリングに基づく平均ケースロバストネスを計算するna\"iveなアプローチは、特に高次元データでは統計的に非効率であり、大規模アプリケーションでは計算コストがかかる。 本研究では,マルチクラス判別モデルの平均ケースロバストネスを効率的に計算する最初の解析推定器を開発した。 これらの推定器は入力周辺の局所領域のモデルを線形化し、結果の線形モデルのロバスト性を解析的に計算する。 これらの推定器が標準ディープラーニングモデルのロバストネスを効率的に計算し、ロバスト性バイアスの測定やノイズの摂動に弱いデータセットの同定など、ロバストネスに関わる様々なタスクにおいてこれらの推定器の有用性を示す。 そこで本研究では,ロバストネスのための新しいフレームワークを提案するだけでなく,下流アプリケーションにおける平均ケースロバストネスの利用を可能にし,その計算を実用的なものにする。

Robustness in machine learning is commonly studied in the adversarial setting, yet real-world noise (such as measurement noise) is random rather than adversarial. Model behavior under such noise is captured by average-case robustness, i.e., the probability of obtaining consistent predictions in a local region around an input. However, the na\"ive approach to computing average-case robustness based on Monte-Carlo sampling is statistically inefficient, especially for high-dimensional data, leading to prohibitive computational costs for large-scale applications. In this work, we develop the first analytical estimators to efficiently compute average-case robustness of multi-class discriminative models. These estimators linearize models in the local region around an input and analytically compute the robustness of the resulting linear models. We show empirically that these estimators efficiently compute the robustness of standard deep learning models and demonstrate these estimators' usefulness for various tasks involving robustness, such as measuring robustness bias and identifying dataset samples that are vulnerable to noise perturbation. In doing so, this work not only proposes a new framework for robustness, but also makes its computation practical, enabling the use of average-case robustness in downstream applications.
翻訳日:2023-10-26 11:01:24 公開日:2023-10-25
# Stanford-ORB: 現実世界の3Dオブジェクトの逆レンダリングベンチマーク

Stanford-ORB: A Real-World 3D Object Inverse Rendering Benchmark ( http://arxiv.org/abs/2310.16044v2 )

ライセンス: Link先を確認
Zhengfei Kuang, Yunzhi Zhang, Hong-Xing Yu, Samir Agarwala, Shangzhe Wu, Jiajun Wu(参考訳) 実世界の3Dオブジェクト逆レンダリングベンチマークであるStanford-ORBを紹介する。 最近の逆レンダリングの進歩により、3dコンテンツ生成における現実世界の幅広いアプリケーションが実現され、研究や商用のユースケースからコンシューマーデバイスへと急速に移行した。 結果は改善を続けているが、様々な逆レンダリングメソッドのパフォーマンスを定量的に評価し比較できる実世界のベンチマークは存在しない。 既存の現実世界のデータセットは、通常、オブジェクトの形状とマルチビューイメージのみで構成されており、素材の復元とオブジェクトのリライトの質を評価するには不十分である。 材料や照明を回収する手法は、しばしば合成データを用いて定量的評価を行うが、複雑な実環境への一般化は保証されない。 地上3Dスキャン,マルチビュー画像,環境照明など,様々な自然環境下で捉えた実世界のオブジェクトのデータセットを新たに導入する。 このデータセットを用いて,対象の逆レンダリングタスクの総合的な実世界評価ベンチマークを構築し,既存手法の性能を比較した。

We introduce Stanford-ORB, a new real-world 3D Object inverse Rendering Benchmark. Recent advances in inverse rendering have enabled a wide range of real-world applications in 3D content generation, moving rapidly from research and commercial use cases to consumer devices. While the results continue to improve, there is no real-world benchmark that can quantitatively assess and compare the performance of various inverse rendering methods. Existing real-world datasets typically only consist of the shape and multi-view images of objects, which are not sufficient for evaluating the quality of material recovery and object relighting. Methods capable of recovering material and lighting often resort to synthetic data for quantitative evaluation, which on the other hand does not guarantee generalization to complex real-world environments. We introduce a new dataset of real-world objects captured under a variety of natural scenes with ground-truth 3D scans, multi-view images, and environment lighting. Using this dataset, we establish the first comprehensive real-world evaluation benchmark for object inverse rendering tasks from in-the-wild scenes, and compare the performance of various existing methods.
翻訳日:2023-10-26 10:54:45 公開日:2023-10-25
# WebWISE: 大規模言語モデルによるWebインタフェース制御とシークエンシャル探索

WebWISE: Web Interface Control and Sequential Exploration with Large Language Models ( http://arxiv.org/abs/2310.16042v2 )

ライセンス: Link先を確認
Heyi Tao, Sethuraman T V, Michal Shlapentokh-Rothman, Derek Hoiem(参考訳) 本稿では,Large Language Model (LLM) を用いて,クリック,スクロール,テキスト入力操作によるWebソフトウェアタスクの自動実行について検討する。 強化学習(RL)や模倣学習といった従来のアプローチは、訓練やタスク固有に非効率である。 提案手法では,フィルタドキュメンテーションオブジェクトモデル(DOM)要素を観測として使用し,タスクをステップバイステップで実行し,現在の観測結果に基づいて小さなプログラムを逐次生成する。 手動で用意した例から恩恵を受けるか、ゼロショットトライアルの成功に基づいて自動的に生成された例を使う。 提案手法をMiniWob++ベンチマークで評価する。 インコンテキストの例が1つしかないので、WebWISEメソッドは、多くのデモや試行を必要とする他の方法と同じような、あるいは優れたパフォーマンスを実現します。

The paper investigates using a Large Language Model (LLM) to automatically perform web software tasks using click, scroll, and text input operations. Previous approaches, such as reinforcement learning (RL) or imitation learning, are inefficient to train and task-specific. Our method uses filtered Document Object Model (DOM) elements as observations and performs tasks step-by-step, sequentially generating small programs based on the current observations. We use in-context learning, either benefiting from a single manually provided example, or an automatically generated example based on a successful zero-shot trial. We evaluate the proposed method on the MiniWob++ benchmark. With only one in-context example, our WebWISE method achieves similar or better performance than other methods that require many demonstrations or trials.
翻訳日:2023-10-26 10:54:26 公開日:2023-10-25
# アクセント固有のコードブックを用いたアクセント音声認識

Accented Speech Recognition With Accent-specific Codebooks ( http://arxiv.org/abs/2310.15970v2 )

ライセンス: Link先を確認
Darshan Prabhu, Preethi Jyothi, Sriram Ganapathy, Vinit Unni(参考訳) 音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。 あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。 本研究では,トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。 これらの学習可能なコードブックはアクセント固有の情報をキャプチャし、ASRエンコーダ層に統合される。 モデルはアクセント付き英語音声で訓練されるが、テストデータには訓練中に見られなかったアクセントも含まれていた。 mozilla common voice multi-accented datasetでは、提案手法が英語のアクセント(単語誤り率の相対的改善)だけでなく、目に見えないアクセント(werでは最大$5\$$$の相対的改善)にも大きなパフォーマンス向上をもたらすことを示した。 さらに、L2Articデータセット上でゼロショット転送設定の利点を説明する。 また,アクセント対向訓練に基づく他の手法との比較を行った。

Speech accents pose a significant challenge to state-of-the-art automatic speech recognition (ASR) systems. Degradation in performance across underrepresented accents is a severe deterrent to the inclusive adoption of ASR. In this work, we propose a novel accent adaptation approach for end-to-end ASR systems using cross-attention with a trainable set of codebooks. These learnable codebooks capture accent-specific information and are integrated within the ASR encoder layers. The model is trained on accented English speech, while the test data also contained accents which were not seen during training. On the Mozilla Common Voice multi-accented dataset, we show that our proposed approach yields significant performance gains not only on the seen English accents (up to $37\%$ relative improvement in word error rate) but also on the unseen accents (up to $5\%$ relative improvement in WER). Further, we illustrate benefits for a zero-shot transfer setup on the L2Artic dataset. We also compare the performance with other approaches based on accent adversarial training.
翻訳日:2023-10-26 10:54:12 公開日:2023-10-25
# 潜在誘導拡散とネストセンブルを用いた医用画像分類におけるロバスト性と信頼性の向上

Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles ( http://arxiv.org/abs/2310.15952v2 )

ライセンス: Link先を確認
Xing Shen, Hengguan Huang, Brennan Nichyporuk, Tal Arbel(参考訳) 深層学習モデルは、様々な医療画像解析タスクにおいて顕著な成功を収めてきたが、実際の臨床状況におけるこれらのモデルの展開には、取得した画像のばらつきに対して堅牢である必要がある。 多くの方法は、トレーニングデータを拡張してテスト時の堅牢性を高めるために事前定義された変換を適用するが、これらの変換は、患者画像に見られる多様な変数に対するモデルの堅牢性を保証するものではない。 本稿では,条件付き拡散モデルと組み合わされたトランスフォーマーに基づく新しい3段階アプローチを提案する。 この目的のために、複数の画像エンコーダはまず階層的な特徴表現を学習し、識別可能な潜在空間を構築する。 次に、潜在コードに導かれる逆拡散過程が、情報的事前に作用し、予測候補を生成的手法で提案する。 最後に、予測候補を2レベル集約プロトコルに集約し、最終的な出力を生成する。 医用イメージングベンチマークデータセットの広範な実験を通じて,本手法はロバスト性と信頼性のキャリブレーションの観点から最先端の手法により改善されることを示す。 さらに, 症例レベルでの予測の不確実性を定量化し, 臨床実習における臨床医への信頼性を高める戦略を導入する。

While deep learning models have achieved remarkable success across a range of medical image analysis tasks, deployment of these models in real clinical contexts requires that they be robust to variability in the acquired images. While many methods apply predefined transformations to augment the training data to enhance test-time robustness, these transformations may not ensure the model's robustness to the diverse variability seen in patient images. In this paper, we introduce a novel three-stage approach based on transformers coupled with conditional diffusion models, with the goal of improving model robustness to the kinds of imaging variability commonly encountered in practice without the need for pre-determined data augmentation strategies. To this end, multiple image encoders first learn hierarchical feature representations to build discriminative latent spaces. Next, a reverse diffusion process, guided by the latent code, acts on an informative prior and proposes prediction candidates in a generative manner. Finally, several prediction candidates are aggregated in a bi-level aggregation protocol to produce the final output. Through extensive experiments on medical imaging benchmark datasets, we show that our method improves upon state-of-the-art methods in terms of robustness and confidence calibration. Additionally, we introduce a strategy to quantify the prediction uncertainty at the instance level, increasing their trustworthiness to clinicians using them in clinical practice.
翻訳日:2023-10-26 10:54:00 公開日:2023-10-25
# COPF: 最適な政策適合による継続的な学習

COPF: Continual Learning Human Preference through Optimal Policy Fitting ( http://arxiv.org/abs/2310.15694v2 )

ライセンス: Link先を確認
Han Zhang, Lin Gui, Yuanzhao Zhai, Hui Wang, Yu Lei, Ruifeng Xu(参考訳) 人間フィードバックからの強化学習(rlhf)は、事前学習された言語モデル(lm)を改善するために一般的に用いられる手法であり、人間の好みに適合する能力を高める。 しかしながら、現在のRLHFベースのLMは、新しいクエリやフィードバックが導入されるたびに完全なリトレーニングを必要とする。 lmsの再トレーニングは、データプライバシに関する懸念に加えて、膨大な時間と計算リソースを必要とするため、多くの現実の状況において実践上の困難をもたらす。 この制限に対処するために,モンテカルロ法を用いて一連の最適政策を推定し,関数正規化と連続的にポリシーシーケンスを適合させる,COPF(Continuous Optimal Policy Fitting)と呼ばれる新しい手法を提案する。 COPFは単一の学習フェーズを含み、複雑な強化学習を必要としない。 重要なのは、ラベルのないデータから学習するRLHFと共有することで、継続的な嗜好学習に柔軟になることだ。 実験の結果, copfは, 異なるタスクやドメインにおける人間の嗜好と一貫性を持たせる上で, 強い連続学習(cl)ベースラインよりも優れていることがわかった。

The technique of Reinforcement Learning from Human Feedback (RLHF) is a commonly employed method to improve pre-trained Language Models (LM), enhancing their ability to conform to human preferences. Nevertheless, the current RLHF-based LMs necessitate full retraining each time novel queries or feedback are introduced, which becomes a challenging task because human preferences can vary between different domains or tasks. Retraining LMs poses practical difficulties in many real-world situations due to the significant time and computational resources required, along with concerns related to data privacy. To address this limitation, we propose a new method called Continual Optimal Policy Fitting (COPF), in which we estimate a series of optimal policies using the Monte Carlo method, and then continually fit the policy sequence with the function regularization. COPF involves a single learning phase and doesn't necessitate complex reinforcement learning. Importantly, it shares the capability with RLHF to learn from unlabeled data, making it flexible for continual preference learning. Our experimental results show that COPF outperforms strong Continuous learning (CL) baselines when it comes to consistently aligning with human preferences on different tasks and domains.
翻訳日:2023-10-26 10:53:37 公開日:2023-10-25
# VMAFによるPyTorchの再実装:実験結果

VMAF Re-implementation on PyTorch: Some Experimental Results ( http://arxiv.org/abs/2310.15578v2 )

ライセンス: Link先を確認
Kirill Aistov and Maxim Koroteev(参考訳) 標準VMAF実装に基づいて,PyTorchフレームワークを用いたVMAFの実装を提案する。 この実装で標準(libvmaf)と比較すると、vmafユニットで$\lesssim 10^{-2}$の差が示される。 目的関数としてVMAFを使用する場合の勾配計算について検討し、この関数を用いたトレーニングが不利な勾配を生じさせないことを示す。

Based on the standard VMAF implementation we propose an implementation of VMAF using PyTorch framework. For this implementation comparisons with the standard (libvmaf) show the discrepancy $\lesssim 10^{-2}$ in VMAF units. We investigate gradients computation when using VMAF as an objective function and demonstrate that training using this function does not result in ill-behaving gradients.
翻訳日:2023-10-26 10:53:15 公開日:2023-10-25
# TCRA-LLM:推論コスト削減のための大規模言語モデル

TCRA-LLM: Token Compression Retrieval Augmented Large Language Model for Inference Cost Reduction ( http://arxiv.org/abs/2310.15556v2 )

ライセンス: Link先を確認
Junyi Liu, Liangzhi Li, Tong Xiang, Bowen Wang, Yiming Qian(参考訳) ChatGPTが公開用のAPIをリリースして以来、商用の大規模言語モデル(LLM)上に構築されたアプリケーションの数は指数関数的に増加した。 このようなモデルの一般的な使用例としては、コンテキスト内学習能力の活用と、検索強化によって得られた知識を活用したユーザクエリによる応答の生成がある。 商業的な検索拡張 LLM の展開の1つの問題は、LLM の入力トークンサイズを大幅に増大させる追加の検索コンテキストによるコストである。 そこで本研究では,要約圧縮と意味圧縮の2つの手法を含むトークン圧縮方式を提案する。 第1の方法は、長さの異なる自己インストラクションを含むサンプルを用いて生成されたデータセットによって微調整されたt5ベースのモデルを適用し、要約を行うことでトークンサイズを削減する。 第2の方法は、セマンティクスへの影響が小さい単語を取り除いてトークンサイズを更に圧縮する。 提案手法の有効性を適切に評価するために,妊娠期や乳幼児の食品レコメンデーションに着目したFRDB(Food-Recommendation DB)というデータセットを提案し,活用する。 意味的圧縮は、トークンサイズとパフォーマンスをトレードオフするより柔軟な方法を提供するので、トークンサイズを1.6%の精度低下で20%削減できます。

Since ChatGPT released its API for public use, the number of applications built on top of commercial large language models (LLMs) increase exponentially. One popular usage of such models is leveraging its in-context learning ability and generating responses given user queries leveraging knowledge obtained by retrieval augmentation. One problem of deploying commercial retrieval-augmented LLMs is the cost due to the additionally retrieved context that largely increases the input token size of the LLMs. To mitigate this, we propose a token compression scheme that includes two methods: summarization compression and semantic compression. The first method applies a T5-based model that is fine-tuned by datasets generated using self-instruct containing samples with varying lengths and reduce token size by doing summarization. The second method further compresses the token size by removing words with lower impact on the semantic. In order to adequately evaluate the effectiveness of the proposed methods, we propose and utilize a dataset called Food-Recommendation DB (FRDB) focusing on food recommendation for women around pregnancy period or infants. Our summarization compression can reduce 65% of the retrieval token size with further 0.3% improvement on the accuracy; semantic compression provides a more flexible way to trade-off the token size with performance, for which we can reduce the token size by 20% with only 1.6% of accuracy drop.
翻訳日:2023-10-26 10:53:09 公開日:2023-10-25
# FANToM: インタラクションにおける心のストレステストマシン理論のベンチマーク

FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions ( http://arxiv.org/abs/2310.15421v2 )

ライセンス: Link先を確認
Hyunwoo Kim, Melanie Sclar, Xuhui Zhou, Ronan Le Bras, Gunhee Kim, Yejin Choi, Maarten Sap(参考訳) 心の理論(ToM)評価は、相互作用性に本質的に欠ける受動的物語を用いたテストモデルに焦点を当てている。 本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。 本ベンチマークは,大規模言語モデル(llm)の評価において,心理学から重要な理論的要件と必要な経験的考察を導出する。 特に,LLMにおける視覚的・虚偽のToM能力を識別するために,同じ推論を要求される複数の質問を定式化する。 FANToMは、チェーン・オブ・シークレット・推論や微調整でさえも、人間よりもはるかにパフォーマンスが悪く、最先端のLLMでは困難であることを示す。

Theory of mind (ToM) evaluations currently focus on testing models using passive narratives that inherently lack interactivity. We introduce FANToM, a new benchmark designed to stress-test ToM within information-asymmetric conversational contexts via question answering. Our benchmark draws upon important theoretical requisites from psychology and necessary empirical considerations when evaluating large language models (LLMs). In particular, we formulate multiple types of questions that demand the same underlying reasoning to identify illusory or false sense of ToM capabilities in LLMs. We show that FANToM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chain-of-thought reasoning or fine-tuning.
翻訳日:2023-10-26 10:52:46 公開日:2023-10-25
# TaskDiff: タスク指向の会話のための類似度メトリクス

TaskDiff: A Similarity Metric for Task-Oriented Conversations ( http://arxiv.org/abs/2310.15298v2 )

ライセンス: Link先を確認
Ankita Bhaumik, Praveen Venkateswaran, Yara Rizk, Vatche Isahagian(参考訳) 対話型デジタルアシスタントの普及により、ユーザエクスペリエンスの向上とパーソナライズされた応答生成に使用できる大量の会話データが利用可能になった。 ChatGPTのようなポピュラーな言語モデルを使ってこれらのアシスタントを構築するには、さらなるエンジニアリングと評価方法に重点を置く必要がある。 テキストの類似度指標は、このような分析と評価の重要な要素である。 文献では多くの類似度指標が提案されているが、ユニークな会話特徴を活かさないため、タスク指向の会話には有効ではない。 このギャップに対処するために、異なる対話成分(発話、意図、スロット)とそれらの分布を利用して類似度を計算する新しい会話類似度指標TaskDiffを提案する。 TaskDiffのベンチマークデータセットに対する大規模な実験的評価は、他の関連するアプローチよりも優れたパフォーマンスと堅牢性を示している。

The popularity of conversational digital assistants has resulted in the availability of large amounts of conversational data which can be utilized for improved user experience and personalized response generation. Building these assistants using popular large language models like ChatGPT also require additional emphasis on prompt engineering and evaluation methods. Textual similarity metrics are a key ingredient for such analysis and evaluations. While many similarity metrics have been proposed in the literature, they have not proven effective for task-oriented conversations as they do not take advantage of unique conversational features. To address this gap, we present TaskDiff, a novel conversational similarity metric that utilizes different dialogue components (utterances, intents, and slots) and their distributions to compute similarity. Extensive experimental evaluation of TaskDiff on a benchmark dataset demonstrates its superior performance and improved robustness over other related approaches.
翻訳日:2023-10-26 10:52:35 公開日:2023-10-25
# DISC-FinLLM: 複数の専門家による微調整に基づく中国の金融大規模言語モデル

DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning ( http://arxiv.org/abs/2310.15205v2 )

ライセンス: Link先を確認
Wei Chen, Qiushi Wang, Zefei Long, Xianyin Zhang, Zhongtian Lu, Bingxuan Li, Siyuan Wang, Jiarong Xu, Xiang Bai, Xuanjing Huang, Zhongyu Wei(参考訳) 金融大規模言語モデル (LLM) を構築するために, マルチエキスパートファインチューニングフレームワークを提案する。 提案手法は,マルチターン質問応答能力,ドメインテキスト処理能力,数理計算能力,検索エンハンスド生成能力を用いて,一般的なllmを改善する。 DISC-FIN-SFT という金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化生成)のインストラクションサンプルを含む。 複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。 さらなるリソースはhttps://github.com/FudanDISC/DISC-FinLLMで見ることができる。

We propose Multiple Experts Fine-tuning Framework to build a financial large language model (LLM), DISC-FinLLM. Our methodology improves general LLMs by endowing them with multi-turn question answering abilities, domain text processing capabilities, mathematical computation skills, and retrieval-enhanced generation capabilities. We build a financial instruction-tuning dataset named DISC-FIN-SFT, including instruction samples of four categories (consulting, NLP tasks, computing and retrieval-augmented generation). Evaluations conducted on multiple benchmarks demonstrate that our model performs better than baseline models in various financial scenarios. Further resources can be found at https://github.com/FudanDISC/DISC-FinLLM.
翻訳日:2023-10-26 10:52:21 公開日:2023-10-25