このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231028となっている論文です。

PDF登録状況(公開日: 20231028)

TitleAuthorsAbstract論文公表日・翻訳日
# DPoSブロックチェーンの買収はどこまで難しいのか? コインベースの投票管理のセキュリティを理解する

How Hard is Takeover in DPoS Blockchains? Understanding the Security of Coin-based Voting Governance ( http://arxiv.org/abs/2310.18596v1 )

ライセンス: Link先を確認
Chao Li, Balaji Palanisamy, Runhua Xu, Li Duan, Jiqiang Liu, Wei Wang, (参考訳) EOSIO、Steem、TRONといったDPoS(Delegated-Proof-of-Stake)ブロックチェーンは、コインベースの投票システムを通じて選ばれたブロック生産者の委員会によって管理されている。 我々は最近、SteemとTRONの間で起きた最初の事実上のブロックチェーンの買収を目撃した。 このインシデントから1時間以内に、TRONの創業者がSteem委員会全体を引き継ぎ、オリジナルのSteemコミュニティは何年も維持してきたブロックチェーンを離れざるを得なくなった。 これはブロックチェーンとWeb 3.0の進化における歴史的な出来事である。 その大きな破壊的影響にもかかわらず、DPoSブロックチェーンが一般的に乗っ取りに対して脆弱であることや、乗っ取りに対する抵抗を改善する方法についてはほとんど分かっていない。 本稿では、DPoSブロックチェーンの乗っ取りに対する抵抗が、その基礎となるコインベースの投票ガバナンスシステムの理論的設計と実際の利用の両方によって制御されていることを実証する。 DPoSブロックチェーンの現在のアクティブな抵抗は、理論上の上限よりもはるかに低いことが、我々の理論的分析によって明らかになった。 しかし実際には、有権者の選好は著しく異なる可能性がある。 本稿では,EOSIO,Steem,TRONの受動的乗っ取り抵抗に関する大規模な実証的研究を行った。 本研究は、投票者の選好の多様性を特定し、この多様性が乗っ取り抵抗に与える影響を特徴づけるものである。 我々の研究は、理論的および実証的な分析の両方を通じて、コインベースの投票ガバナンスのセキュリティに関する新たな洞察を提供し、このガバナンスモデルを実装するブロックチェーンの乗っ取り抵抗を改善するための潜在的方法を提案する。

Delegated-Proof-of-Stake (DPoS) blockchains, such as EOSIO, Steem and TRON, are governed by a committee of block producers elected via a coin-based voting system. We recently witnessed the first de facto blockchain takeover that happened between Steem and TRON. Within one hour of this incident, TRON founder took over the entire Steem committee, forcing the original Steem community to leave the blockchain that they maintained for years. This is a historical event in the evolution of blockchains and Web 3.0. Despite its significant disruptive impact, little is known about how vulnerable DPoS blockchains are in general to takeovers and the ways in which we can improve their resistance to takeovers. In this paper, we demonstrate that the resistance of a DPoS blockchain to takeovers is governed by both the theoretical design and the actual use of its underlying coin-based voting governance system. When voters actively cooperate to resist potential takeovers, our theoretical analysis reveals that the current active resistance of DPoS blockchains is far below the theoretical upper bound. However in practice, voter preferences could be significantly different. This paper presents the first large-scale empirical study of the passive takeover resistance of EOSIO, Steem and TRON. Our study identifies the diversity in voter preferences and characterizes the impact of this diversity on takeover resistance. Through both theoretical and empirical analyses, our study provides novel insights into the security of coin-based voting governance and suggests potential ways to improve the takeover resistance of any blockchain that implements this governance model.
翻訳日:2024-03-18 23:51:32 公開日:2023-10-28
# IoT対応エッジからの電力グリッド運用に対する需要側脅威

Demand-Side Threats to Power Grid Operations from IoT-Enabled Edge ( http://arxiv.org/abs/2310.18820v1 )

ライセンス: Link先を確認
Subhash Lakshminarayana, Carsten Maple, Andrew Larkins, Daryl Flack, Christopher Few, Anurag. K. Srivastava, (参考訳) スマートヒートポンプや電気自動車充電器など,IoT(Internet-of-Things)対応のエネルギースマート家電(ESA)の普及が,需要側対応(DSR)サービスの実現の鍵となっている。 しかし、これらのスマートアプライアンスはセキュリティの観点からは設計が貧弱であり、電力グリッドオペレーションに対する新たな脅威となることが多い。 悪意ある当事者がシステムにアクセスし、突然要求を変更することで重要なグリッド操作を妨害する便利なエントリポイントになる可能性がある。 ユーティリティサイドやSCADAの資産とは異なり、ESAは、その多さと、消費者サイトにおける広範な監視インフラの欠如により、継続的に監視されることはない。 本稿では、電力グリッド運用を含む需要側の脅威を詳細に分析する。 i)ESAの脆弱性の概観とDSRエコシステムからのリスクの広範化 二 電力グリッドの動作に対する攻撃の影響の鍵となる要因 最後に、電力グリッドのサイバー物理的レジリエンスを改善するための措置を提示し、世界中の業界や規制機関の継続的な取り組みの文脈に配置する。

The growing adoption of Internet-of-Things (IoT)-enabled energy smart appliances (ESAs) at the consumer end, such as smart heat pumps, electric vehicle chargers, etc., is seen as key to enabling demand-side response (DSR) services. However, these smart appliances are often poorly engineered from a security point of view and present a new threat to power grid operations. They may become convenient entry points for malicious parties to gain access to the system and disrupt important grid operations by abruptly changing the demand. Unlike utility-side and SCADA assets, ESAs are not monitored continuously due to their large numbers and the lack of extensive monitoring infrastructure at consumer sites. This article presents an in-depth analysis of the demand side threats to power grid operations including (i) an overview of the vulnerabilities in ESAs and the wider risk from the DSR ecosystem and (ii) key factors influencing the attack impact on power grid operations. Finally, it presents measures to improve the cyber-physical resilience of power grids, putting them in the context of ongoing efforts from the industry and regulatory bodies worldwide.
翻訳日:2024-03-18 23:51:32 公開日:2023-10-28
# Telehealth Chain:ブロックチェーン上のセキュアで透明な遠隔医療トランザクションのためのプロトコル

The Telehealth Chain: a protocol for secure and transparent telemedicine transactions on the blockchain ( http://arxiv.org/abs/2310.18839v1 )

ライセンス: Link先を確認
Syed Sarosh Mahdi, Zaib Ullah, Gopi Battineni, Muneer Gohar Babar, Umer Daood, (参考訳) ブロックチェーン技術は、機密性の高い医療データを保管および転送するためのセキュアで分散化されたプラットフォームを提供する。 本稿では、遠隔医療サービスを容易にするブロックチェーンベースのデジタルエンティティを構築するための理論的枠組みを提案する。 このフレームワークはブロックチェーン技術を利用して、医療従事者が患者のトランザクションをリモートで操作するためのセキュアで信頼性の高いプラットフォームを提供する。 ブロックチェーンは、患者のデータを保護し、プライバシを確保し、支払いを容易にする、ワンストップのデジタルサービスとして機能する。 提案されたフレームワークは、既存のHyperledger Fabricプラットフォームを活用して、セキュアなブロックチェーン支援の遠隔医療プラットフォームを構築する。

Blockchain technology provides a secure and decentralized platform for storing and transferring sensitive medical data, which can be utilized to enable remote medical consultations. This paper proposes a theoretical framework for creating a blockchain-based digital entity to facilitate telemedicine services. The proposed framework utilizes blockchain technology to provide a secure and reliable platform for medical practitioners to remotely interact with patient transactions. The blockchain will serve as a one-stop digital service to secure patient data, ensure privacy, and facilitate payments. The proposed framework leverages the existing Hyperledger Fabric platform to build a secure blockchain-assisted telemedicine platform.
翻訳日:2024-03-18 23:51:32 公開日:2023-10-28
# ディープラーニングを用いた感情指向行動モデル

Emotion-Oriented Behavior Model Using Deep Learning ( http://arxiv.org/abs/2311.14674v1 )

ライセンス: Link先を確認
Muhammad Arslan Raza, Muhammad Shoaib Farooq, Adel Khelifi, Atif Alvi(参考訳) 感情は、あらゆる社会的相互作用の基本的な要素として、人間の表情やジェスチャーを通じた相互作用の有効性を表す行動に繋がる。 したがって、エージェントは人間の社会的パラメータを理解し、それに応じて行動するための社会的および認知的能力を持つ必要がある。 しかし、そのような感情指向行動モデルはまだ既存の研究では提示されていない。 感情予測は、会話のモダリティを用いた効果的な対話のための適切なエージェントの行動を生成する。 エージェントの社会的相互作用における感情や行動の重要性を考慮し,社会認知型人工エージェントの感情に基づく行動モデルを提案する。 提案モデルでは,長短期記憶(LSTM)や畳み込みニューラルネットワーク(CNN),変換器(BERT)からの双方向エンコーダ表現など,複数のモデルで訓練されたツイートデータを用いて,平均精度92%と55%の感情予測を行う。 さらに、CNN-LSTMからの感情予測を用いて、行動モジュールは、表情と行動マークアップ言語(BML)を用いたジェスチャーを用いて応答する。 感情に基づく行動予測の精度は,質問紙から収集した2尾のピアソン相関を用いて統計的に検証した。 分析により、すべての感情に基づく行動は、0.01レベルと0.05レベルの有意な相関に基づいて、人間のようなジェスチャーや表情を正確に表現している。 本研究は,感情指向行動に基づく多面的人工エージェントインタラクションの基盤となる。 認知は人間間の社会的相互作用において重要である。

Emotions, as a fundamental ingredient of any social interaction, lead to behaviors that represent the effectiveness of the interaction through facial expressions and gestures in humans. Hence an agent must possess the social and cognitive abilities to understand human social parameters and behave accordingly. However, no such emotion-oriented behavior model is presented yet in the existing research. The emotion prediction may generate appropriate agents' behaviors for effective interaction using conversation modality. Considering the importance of emotions, and behaviors, for an agent's social interaction, an Emotion-based Behavior model is presented in this paper for Socio-cognitive artificial agents. The proposed model is implemented using tweets data trained on multiple models like Long Short-Term Memory (LSTM), Convolution Neural Network (CNN) and Bidirectional Encoder Representations from Transformers (BERT) for emotion prediction with an average accuracy of 92%, and 55% respectively. Further, using emotion predictions from CNN-LSTM, the behavior module responds using facial expressions and gestures using Behavioral Markup Language (BML). The accuracy of emotion-based behavior predictions is statistically validated using the 2-tailed Pearson correlation on the data collected from human users through questionnaires. Analysis shows that all emotion-based behaviors accurately depict human-like gestures and facial expressions based on the significant correlation at the 0.01 and 0.05 levels. This study is a steppingstone to a multi-faceted artificial agent interaction based on emotion-oriented behaviors. Cognition has significance regarding social interaction among humans.
翻訳日:2023-12-03 14:03:29 公開日:2023-10-28
# 汎用組込みハードウェア上でのディープニューラルネットワークを用いた視覚に基づく交通推定

Vision-Based Incoming Traffic Estimator Using Deep Neural Network on General Purpose Embedded Hardware ( http://arxiv.org/abs/2311.16125v1 )

ライセンス: Link先を確認
K. G. Zoysa, and S. R. Munasinghe(参考訳) 交通管理は世界中の多くの都市で深刻な問題である。 現在、郊外部でも交通渋滞が頻発している。 不適切な交通制御は国の燃料、時間、生産性を無駄にする。 信号機は交通の流れを改善するために使用されるが、交差点の実際の交通強度と一致しない不適切なタイミングや時代遅れのタイミングのためにしばしば問題を引き起こす。 統計的手法に基づく交通強度判定は、任意の時点で期待される平均強度のみを与える。 しかし、トラフィックを正確に制御するには、リアルタイムのトラフィック強度を知る必要がある。 本研究では,画像処理と機械学習を用いて,実際の交通強度をリアルタイムで推定する。 エッジ検出法に基づく画像処理には汎用電子ハードウェアが用いられている。 ディープニューラルネットワーク(dnn)を訓練し,各画像の交通強度をリアルタイムで推定した。 訓練されたDNNは、道路試験中のリアルタイム画像の90%でトラフィックの強度を正確に推定した。 電子システムはraspberry piのシングルボードコンピュータに実装されていたため、大規模展開には費用対効果がある。

Traffic management is a serious problem in many cities around the world. Even the suburban areas are now experiencing regular traffic congestion. Inappropriate traffic control wastes fuel, time, and the productivity of nations. Though traffic signals are used to improve traffic flow, they often cause problems due to inappropriate or obsolete timing that does not tally with the actual traffic intensity at the intersection. Traffic intensity determination based on statistical methods only gives the average intensity expected at any given time. However, to control traffic accurately, it is required to know the real-time traffic intensity. In this research, image processing and machine learning have been used to estimate actual traffic intensity in real time. General-purpose electronic hardware has been used for in-situ image processing based on the edge-detection method. A deep neural network (DNN) was trained to infer traffic intensity in each image in real time. The trained DNN estimated traffic intensity accurately in 90% of the real-time images during road tests. The electronic system was implemented on a Raspberry Pi single-board computer; hence, it is cost-effective for large-scale deployment.
翻訳日:2023-12-03 13:29:28 公開日:2023-10-28
# 医療分野における大規模言語モデルの現状と展望

Overview of Current Applications of Large Language Models in Various Medical Specialities ( http://arxiv.org/abs/2311.12882v1 )

ライセンス: Link先を確認
Ummara Mumtaz, Awais Ahmed, Summaya Mumtaz(参考訳) 本稿では,医療分野における大規模言語モデル(llms)の最近の応用について概観し,医療品質向上におけるその変貌的役割について述べる。 多様な医療領域から大量のデータを処理することで、LLMは医師、医療提供者、患者を支援する上で重要な役割を担っている。 がん診断,歯学,腎臓学,皮膚科など,様々な医療分野におけるそれらの利用について検討する。 本論文は,様々な医療分野に適用されるllm方法論,医療分野における異なるデータ型,関連するllmの入力フォーマット,および医療分野におけるllmの実用的ユースケースを含む。

This paper gives an overview of the latest applications of Large Language Models (LLMs) in the healthcare sector, highlighting their transformative role in enhancing medical care quality. By processing vast amounts of data from diverse medical domains, LLMs have become pivotal in assisting doctors, healthcare providers, and patients. We explore their utilization in various medical specialties, such as cancer diagnostics, dentistry, nephrology, dermatology, etc. The paper includes the LLM methodologies applied in various medical specialties, different data types in the medical domains and the relevant input formatting for LLMs, along with practical use-cases of LLMs in the healthcare domain.
翻訳日:2023-11-27 00:23:38 公開日:2023-10-28
# PYTHAGORAS Theorem(紀元前569-479)の導出に関する2つの異なる解析 : 離散連続状態

Two different analyses on derivation of PYTHAGORAS Theorem (569-479 BC): Discrete continuum states ( http://arxiv.org/abs/1905.09724v5 )

ライセンス: Link先を確認
B. Rath(参考訳) ピタゴラスの定理の2つの異なる導出を提案し、離散状態と連続状態の研究に適用する。

We propose two different derivations of Pythagoras Theorem and apply the same to study discrete and continuum states.
翻訳日:2023-11-02 18:52:48 公開日:2023-10-28
# DPOK:微調整テキスト・画像拡散モデルの強化学習

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16381v2 )

ライセンス: Link先を確認
Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, Kimin Lee(参考訳) 人間のフィードバックから学ぶことで、テキストから画像へのモデルを改善することが示されている。 これらのテクニックはまず、人間がタスクで関心を持っているものをキャプチャして、学習した報酬関数に基づいてモデルを改善する報酬関数を学習する。 比較的単純なアプローチ(例えば報酬スコアに基づく拒絶サンプリング)が研究されているが、報酬関数を持つ微調整のテキスト・ツー・イメージモデルはまだ難しい。 本研究では,オンライン強化学習(RL)を用いてテキスト・画像の微調整を行う。 本稿では, 拡散モデルに着目し, 微調整タスクをRL問題として定義し, フィードバック学習報酬を最大化するためにポリシー勾配を用いた事前学習されたテキスト・画像拡散モデルを更新する。 我々のアプローチはdpokと呼ばれ、ポリシー最適化とkl正規化を統合する。 我々は、RLファインチューニングと教師付きファインチューニングの両方に対するKL正規化の分析を行う。 実験の結果,DPOKは画像テキストアライメントと画質の両方に関して,教師付き微調整よりも優れていることがわかった。 私たちのコードはhttps://github.com/google-research/google-research/tree/master/dpokで利用可能です。

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relatively simple approaches (e.g., rejection sampling based on reward scores) have been investigated, fine-tuning text-to-image models with the reward function remains challenging. In this work, we propose using online reinforcement learning (RL) to fine-tune text-to-image models. We focus on diffusion models, defining the fine-tuning task as an RL problem, and updating the pre-trained text-to-image diffusion models using policy gradient to maximize the feedback-trained reward. Our approach, coined DPOK, integrates policy optimization with KL regularization. We conduct an analysis of KL regularization for both RL fine-tuning and supervised fine-tuning. In our experiments, we show that DPOK is generally superior to supervised fine-tuning with respect to both image-text alignment and image quality. Our code is available at https://github.com/google-research/google-research/tree/master/dpok.
翻訳日:2023-11-02 02:15:33 公開日:2023-10-28
# 変分不均衡回帰:確率的平滑化による不確かさの定量化

Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing ( http://arxiv.org/abs/2306.06599v7 )

ライセンス: Link先を確認
Ziyan Wang, Hao Wang(参考訳) 既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。 本稿では,不均衡回帰でうまく機能するだけでなく,副産物として合理的な不確実性推定を行う確率的不均衡回帰(vir)と呼ばれるディープラーニングモデルを提案する。 Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. いくつかの実世界のデータセットにおける実験では、virは精度と不確実性の両方の観点から、最先端の不均衡回帰モデルよりも優れています。 コードは間もなくhttps://github.com/Wang-ML-Lab/variational-imbalanced-regression.comで公開される。

Existing regression models tend to fall short in both accuracy and uncertainty estimation when the label distribution is imbalanced. In this paper, we propose a probabilistic deep learning model, dubbed variational imbalanced regression (VIR), which not only performs well in imbalanced regression but naturally produces reasonable uncertainty estimation as a byproduct. Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. Experiments in several real-world datasets show that our VIR can outperform state-of-the-art imbalanced regression models in terms of both accuracy and uncertainty estimation. Code will soon be available at https://github.com/Wang-ML-Lab/variational-imbalanced-regression.
翻訳日:2023-11-01 23:26:55 公開日:2023-10-28
# 光分子効果:空気-水界面との可視光相互作用

Photomolecular Effect: Visible Light Interaction with Air-Water Interface ( http://arxiv.org/abs/2310.19832v1 )

ライセンス: Link先を確認
Guangxin Lv, Yaodong Tu, James H. Zhang, Gang Chen(参考訳) 水は可視光にほとんど透明であるが、空気-水界面は光分子効果と仮定して可視光と強く相互作用する。 この効果では、横磁気偏光子によって水クラスターが空-水界面から切り離される。 10以上の異なる実験を用いて、この効果の存在と、その波長、入射角、可視光の偏光への依存性を実証する。 さらに、可視光は薄い霧を加熱し、この過程が天候、気候、地球の水循環に影響を与えることを示唆している。 我々の研究は、光分子効果は雲、霧、海、土壌表面、植物の呼吸など自然界で広く起こり、エネルギーと清浄な水に新たな応用をもたらすことを示唆している。

Although water is almost transparent to visible light, we demonstrate that the air-water interface interacts strongly with visible light via what we hypothesize as the photomolecular effect. In this effect, transverse-magnetic polarized photons cleave off water clusters from the air-water interface. We use over 10 different experiments to demonstrate the existence of this effect and its dependence on the wavelength, incident angle and polarization of visible light. We further demonstrate that visible light heats up thin fogs, suggesting that this process can impact weather, climate, and the earth's water cycle. Our study suggests that the photomolecular effect should happen widely in nature, from clouds to fogs, ocean to soil surfaces, and plant transpiration, and can also lead to new applications in energy and clear water.
翻訳日:2023-11-01 18:26:37 公開日:2023-10-28
# 模倣による説明:政策学習の解釈による決定の理解

Explaining by Imitating: Understanding Decisions by Interpretable Policy Learning ( http://arxiv.org/abs/2310.19831v1 )

ライセンス: Link先を確認
Alihan H\"uy\"uk, Daniel Jarrett, Mihaela van der Schaar(参考訳) 観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。 意思決定者の方針をモデル化することは困難であり、基礎となる状態へのアクセスがなく、環境のダイナミクスに関する知識がなく、ライブ実験の許可もない。 我々は,(1)設計による透明性,(2)部分的可観測性,(3)完全にオフラインである意思決定行動のデータ駆動表現を学習したい。 これらの重要な基準を満たすために,エージェントの(バイアスのある)信念更新プロセスと,(最適でない)信念-行動マッピングを共同で推定する,新しいモデルに基づくポリシー学習手法("Interpole")を提案する。 アルツハイマー病の診断に関するシミュレーションデータと実世界データの両方を用いて,人間の意思決定行動の監査,定量化,理解のための調査装置としてのアプローチの可能性を示す。

Understanding human behavior from observed data is critical for transparency and accountability in decision-making. Consider real-world settings such as healthcare, in which modeling a decision-maker's policy is challenging -- with no access to underlying states, no knowledge of environment dynamics, and no allowance for live experimentation. We desire learning a data-driven representation of decision-making behavior that (1) inheres transparency by design, (2) accommodates partial observability, and (3) operates completely offline. To satisfy these key criteria, we propose a novel model-based Bayesian method for interpretable policy learning ("Interpole") that jointly estimates an agent's (possibly biased) belief-update process together with their (possibly suboptimal) belief-action mapping. Through experiments on both simulated and real-world data for the problem of Alzheimer's disease diagnosis, we illustrate the potential of our approach as an investigative device for auditing, quantifying, and understanding human decision-making behavior.
翻訳日:2023-11-01 18:26:15 公開日:2023-10-28
# galliformespectra:ヘンブレッドデータセット

GalliformeSpectra: A Hen Breed Dataset ( http://arxiv.org/abs/2310.19830v1 )

ライセンス: Link先を確認
Galib Muhammad Shahriar Himel, Md Masudul Islam(参考訳) 本論では,各品種の特徴と特徴を抽出し,各地域から得られた10種の異種を包括的に分析した。 このデータセットには、ビーレフェルド、ブラックオルピントン、ブラフマ、バッキー、ファイヨミ、レグホーン、ニューハンプシャー、プリマスロック、サセックス、テュルク人の品種が含まれており、世界中で広く飼育されている養鶏の多様な表現を提供している。 1010枚のJPG画像が細心の注意で収集され,各鶏の物理的特性,羽毛パターン,特徴を呈示した。 これらの画像はその後標準化され、再サイズされ、データセット内の一貫性のためにPNGフォーマットに変換された。 コンピレーションは品種間で均等に分散しているが、豊富な資源を提供し、養鶏科学、遺伝学、農業研究における研究と応用の基礎となっている。 このデータセットは、異なる鶏種にまたがる独特な特徴と遺伝的特性の探索と解析を可能にし、養鶏、農業、遺伝研究の進歩を支援することで、様々な分野に寄与する大きな可能性を秘めている。

This article presents a comprehensive dataset featuring ten distinct hen breeds, sourced from various regions, capturing the unique characteristics and traits of each breed. The dataset encompasses Bielefeld, Blackorpington, Brahma, Buckeye, Fayoumi, Leghorn, Newhampshire, Plymouthrock, Sussex, and Turken breeds, offering a diverse representation of poultry commonly bred worldwide. A total of 1010 original JPG images were meticulously collected, showcasing the physical attributes, feather patterns, and distinctive features of each hen breed. These images were subsequently standardized, resized, and converted to PNG format for consistency within the dataset. The compilation, although unevenly distributed across the breeds, provides a rich resource, serving as a foundation for research and applications in poultry science, genetics, and agricultural studies. This dataset holds significant potential to contribute to various fields by enabling the exploration and analysis of unique characteristics and genetic traits across different hen breeds, thereby supporting advancements in poultry breeding, farming, and genetic research.
翻訳日:2023-11-01 18:25:26 公開日:2023-10-28
# Embodied Computational Agents を用いた連続的発達神経シミュレーション

Continual Developmental Neurosimulation Using Embodied Computational Agents ( http://arxiv.org/abs/2103.05753v2 )

ライセンス: Link先を確認
Bradly Alicea, Rishabh Chakrabarty, Stefan Dvoretskii, Ziyi Gong, Akshara Gopi, Avery Lim, and Jesse Parent(参考訳) 発達生物学、認知科学、計算モデリングの合成を通じて学ぶべきことはたくさんある。 今後はBraitenberg Vehiclesをベースとした,開発にインスパイアされた学習エージェントの設計を提案する。 これらのエージェントを使用して計算自律性の具体化の性質を例示し、我々は認知発達能力の構成要素としての具体化経験と形態形成成長のモデリングに近づいた。 成人表現型の発生と利用可能な発達経路の偶然性に影響を与える生物学的・認知的発達を考える。 神経系の形態形成, 発達学習, 可塑性の関連現象のブリッジングにおける発達軌跡の役割を考察することができる。 本手法は, 連続学習と密接に結びついており, 発達的実施形態と密に統合されており, 発達的ブレイテンベルク車両 (dBVs) と呼ばれるエージェントを用いて実施することができる。 この表現型は発達のタイミングで特徴づけられる: 異なる形態形成、臨界、獲得(発達学習)期間を持つ。 これらの特性は、ニューラルネットワークのトレーニングにおける発達過程と空間依存的実施の文脈において、シフト重みと適応的ネットワークトポロジーによる創発的接続を生み出す。 さらに,ネットワーク形態形成は遺伝的アルゴリズムを用いて行うことができ,発達学習は多数の計算手法を用いて行うことができることを提案する。 このアプローチは、開発アプローチから生じる可能性のある適応エージェントの振る舞いの青写真を提供する。 結論として,エージェント学習と開発を異なる時間スケールで検討する。 エンボディドエージェントベースのアプローチにおける発達、進化、学習は、生物学的にインスパイアされたインテリジェンスの統合的視点の鍵となる。

There is much to learn through synthesis of Developmental Biology, Cognitive Science and Computational Modeling. Our path forward is to present a design for developmentally-inspired learning agents based on Braitenberg Vehicles. Using these agents to exemplify the embodied nature of computational autonomy, we move closer to modeling embodied experience and morphogenetic growth as components of cognitive developmental capacity. We consider biological and cognitive development which influence the generation of adult phenotypes and the contingency of available developmental pathways. Continual developmental neurosimulation allows us to consider the role of developmental trajectories in bridging the related phenomena of nervous system morphogenesis, developmental learning, and plasticity. Being closely tied to continual learning, our approach is tightly integrated with developmental embodiment, and can be implemented using a type of agent called developmental Braitenberg Vehicles (dBVs). This phenotype is characterized in terms of developmental timing: with distinct morphogenetic, critical, and acquisition (developmental learning) periods. These properties produce emergent connectivity with shifting weights and adaptive network topologies in the context of developmental processes and spatially-dependent embodiment in training neural networks. We further propose that network morphogenesis can be accomplished using a genetic algorithmic approach, while developmental learning can be implemented using a number of computational methodologies. This approach provides a blueprint for adaptive agent behavior that might result from a developmental approach. In conclusion, we will consider agent learning and development at different timescales. The development, evolution, and learning in an embodied agent-based approach is key to an integrative view of biologically-inspired intelligence.
翻訳日:2023-11-01 01:46:36 公開日:2023-10-28
# 追跡データ収集におけるais, xバンド海洋レーダーシステム, カメラ監視システムの比較

A Comparison of AIS, X-Band Marine Radar Systems and Camera Surveillance Systems in the Collection of Tracking Data ( http://arxiv.org/abs/2206.12809v2 )

ライセンス: Link先を確認
Yassir Zardoua, Abdelali Astito, Mohammed Boulaala(参考訳) 近年では海運が増加しており、特に海上貿易が盛んである。 海洋環境の安全、安全、および保護を確保するため、いくつかのシステムが配備されている。 それらの不便を克服するために、収集されたデータは一般的に融合される。 融合されたデータは様々な目的に使われており、私たちの関心の1つはターゲット追跡です。 この文脈で最も重要なシステムはAISとXバンド海洋レーダーである。 多くの研究は、カメラ監視システムが提供する視覚データがさらなる利点をもたらすと考えている。 そのため,視覚データ(画像)を用いたトラッキングアルゴリズムが数多く開発されている。 しかし、カメラシステムの統合が重要である理由については、あまり強調されていない。 そこで本論文の主な目的は、上記の目標追跡のための監視システムを分析し、海上監視システムへのカメラの統合による海上保安改善の成果をまとめることである。

Maritime traffic has increased in recent years, especially in terms of seaborne trade. To ensure safety, security, and protection of the marine environment, several systems have been deployed. To overcome some of their inconveniences, the collected data is typically fused. The fused data is used for various purposes, one of our interest is target tracking. The most relevant systems in that context are AIS and X-band marine radar. Many works consider that visual data provided by camera surveillance systems enable additional advantages. Therefore, many tracking algorithms using visual data (images) have been developed. Yet, there is little emphasis on the reasons making the integration of camera systems important. Thus, our main aim in this paper is to analyze the aforementioned surveillance systems for target tracking and conclude some of the maritime security improvements resulted from the integration of cameras to the overall maritime surveillance system.
翻訳日:2023-11-01 01:40:58 公開日:2023-10-28
# 微分物理学による複雑なロコモーションスキル学習

Complex Locomotion Skill Learning via Differentiable Physics ( http://arxiv.org/abs/2206.02341v2 )

ライセンス: Link先を確認
Yu Fang and Jiancheng Liu and Mingrui Zhang and Jiasheng Zhang and Yidong Ma and Minchen Li and Yuanming Hu and Chenfanfu Jiang and Tiantian Liu(参考訳) 微分可能物理はニューラルネットワーク(nn)コントローラの効率的な勾配に基づく最適化を可能にする。 しかし、既存の作業は通常、機能と一般化性に制限のあるNNコントローラのみを提供する。 本稿では,複雑度と多様性を著しく向上したタスクが可能な統一NNコントローラを出力する実践的学習フレームワークを提案する。 トレーニングの堅牢性と効率を体系的に改善するために,周期的アクティベーション関数や調整された損失関数を含むベースラインアプローチに対する一連の改善について検討した。 さらに,複雑なロコモーションタスクのトレーニングに効果的なバッチ処理とadamオプティマイザの採用も確認しました。 我々は, 移動課題と複数ロボット設計に挑戦しながら, 微分可能なマススプリング・マテリアルポイント法(mpm)シミュレーションの枠組みを評価する。 実験によると、我々の学習フレームワークは、微分可能な物理に基づいて、強化学習よりも優れた結果をもたらし、より速く収束する。 本システムで訓練された統一nnコントローラを用いて,ロボットの移動を対話的に制御し,速度,高さ,方向指示で複数の目標に切り替えることができることを示す。 コードはhttps://github.com/erizmr/complex-locomotion-skill-learning-via-differentiable-physicsで入手できる。

Differentiable physics enables efficient gradient-based optimizations of neural network (NN) controllers. However, existing work typically only delivers NN controllers with limited capability and generalizability. We present a practical learning framework that outputs unified NN controllers capable of tasks with significantly improved complexity and diversity. To systematically improve training robustness and efficiency, we investigated a suite of improvements over the baseline approach, including periodic activation functions, and tailored loss functions. In addition, we find our adoption of batching and an Adam optimizer effective in training complex locomotion tasks. We evaluate our framework on differentiable mass-spring and material point method (MPM) simulations, with challenging locomotion tasks and multiple robot designs. Experiments show that our learning framework, based on differentiable physics, delivers better results than reinforcement learning and converges much faster. We demonstrate that users can interactively control soft robot locomotion and switch among multiple goals with specified velocity, height, and direction instructions using a unified NN controller trained in our system. Code is available at https://github.com/erizmr/Complex-locomotion-skill-learning-via-differentiable-physics.
翻訳日:2023-11-01 01:40:05 公開日:2023-10-28
# $\varphi$-divergences を用いた分布ロバストベイズ最適化

Distributionally Robust Bayesian Optimization with $\varphi$-divergences ( http://arxiv.org/abs/2203.02128v5 )

ライセンス: Link先を確認
Hisham Husain and Vu Nguyen and Anton van den Hengel(参考訳) 堅牢性の研究は、多くのシステムが不確実性に直面するデータ駆動環境において必然性のため、多くの注目を集めている。 そのような問題の一つがベイズ最適化 (BO) であり、不確実性は多面的であるが、この方向に特化した研究は限られている。 特に、Kirschner et al. (2020) は、DROのレンズからBO問題をキャストすることで、既存の分散ロバスト最適化(DRO)の文献を橋渡しする。 この研究は先駆的だが、有限文脈仮定のような様々な現実的な欠点に悩まされており、主要な疑問を残している。 本研究では,$\chi^2$-divergence, total variation, and extant kullback-leibler (kl) divergence など多くの一般的な選択肢を想定した$\varphi$-divergences におけるデータシフトに対するロバスト性を検討することで,この問題に多くの一般性を求める。 この設定におけるDRO-BO問題は有限次元最適化問題と等価であり、連続的な文脈でも証明可能な部分線型後悔境界で容易に実装できることを示す。 次に,提案手法が既存の手法を超越し,理論的結果が得られたことを実験的に示す。

The study of robustness has received much attention due to its inevitability in data-driven settings where many systems face uncertainty. One such example of concern is Bayesian Optimization (BO), where uncertainty is multi-faceted, yet there only exists a limited number of works dedicated to this direction. In particular, there is the work of Kirschner et al. (2020), which bridges the existing literature of Distributionally Robust Optimization (DRO) by casting the BO problem from the lens of DRO. While this work is pioneering, it admittedly suffers from various practical shortcomings such as finite contexts assumptions, leaving behind the main question Can one devise a computationally tractable algorithm for solving this DRO-BO problem? In this work, we tackle this question to a large degree of generality by considering robustness against data-shift in $\varphi$-divergences, which subsumes many popular choices, such as the $\chi^2$-divergence, Total Variation, and the extant Kullback-Leibler (KL) divergence. We show that the DRO-BO problem in this setting is equivalent to a finite-dimensional optimization problem which, even in the continuous context setting, can be easily implemented with provable sublinear regret bounds. We then show experimentally that our method surpasses existing methods, attesting to the theoretical results.
翻訳日:2023-11-01 01:38:23 公開日:2023-10-28
# DCIS検出における深層学習モデルへのXAIアプローチ

An XAI Approach to Deep Learning Models in the Detection of DCIS ( http://arxiv.org/abs/2106.14186v3 )

ライセンス: Link先を確認
Michele La Ferla, Matthew Montebello and Dylan Seychell(参考訳) その結果,XAIは,臨床コミュニティにおける補助的AIシステムの実装に関する議論を始める上で,概念実証として活用できることが示唆された。

The results showed that XAI could indeed be used as a proof of concept to begin discussions on the implementation of assistive AI systems within the clinical community.
翻訳日:2023-11-01 01:36:09 公開日:2023-10-28
# グラフベースのポリシー学習を用いたオープンアドホックチームワークのための一般学習フレームワーク

A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based Policy Learning ( http://arxiv.org/abs/2210.05448v2 )

ライセンス: Link先を確認
Arrasy Rahman and Ignacio Carlucho and Niklas H\"opner and Stefano V. Albrecht(参考訳) オープンアドホックチームワークは、1人のエージェントをトレーニングして、時間とともに構成が変わる可能性のある、未知のチームメイトのグループと効率的に協力する、という問題です。 変数チーム構成は、新しいチームのダイナミクスに適応する要件や状態ベクトルサイズの変化に対処する要件など、エージェントに対する課題を生成する。 これらの課題は、制御されたエージェントが環境の一部のビューしか持たない現実のアプリケーションにおいて悪化する。 本研究では,オープンなアドホックチームワークのためのソリューションを,完全かつ部分的な可観測性の下で開発する。 まず,グラフニューラルネットワークアーキテクチャを活用した完全可観測ケースの解法を開発し,強化学習に基づく最適ポリシーを得る。 次に、このソリューションを部分的に観察可能なシナリオに拡張し、潜伏した環境状態とチーム構成に対する信頼推定を維持する様々な方法論を提案します。 これらの信念推定は、オープンアドホックなチームワークにおける部分的可観測性の下でエージェントの最適ポリシーを計算するための完全に可観測なケースのソリューションと組み合わせられる。 実験の結果,オープンなアドホックチームワークにおいて,完全かつ部分的に観察可能なケースで効率的なポリシを学習できることが実証された。 さらなる分析により、我々の手法の成功は、部分的可観測性の下で環境の固有の状態を推測しながら、チームメイトの行動の効果を効果的に学習した結果であることが示された。

Open ad hoc teamwork is the problem of training a single agent to efficiently collaborate with an unknown group of teammates whose composition may change over time. A variable team composition creates challenges for the agent, such as the requirement to adapt to new team dynamics and dealing with changing state vector sizes. These challenges are aggravated in real-world applications in which the controlled agent only has a partial view of the environment. In this work, we develop a class of solutions for open ad hoc teamwork under full and partial observability. We start by developing a solution for the fully observable case that leverages graph neural network architectures to obtain an optimal policy based on reinforcement learning. We then extend this solution to partially observable scenarios by proposing different methodologies that maintain belief estimates over the latent environment states and team composition. These belief estimates are combined with our solution for the fully observable case to compute an agent's optimal policy under partial observability in open ad hoc teamwork. Empirical results demonstrate that our solution can learn efficient policies in open ad hoc teamwork in fully and partially observable cases. Further analysis demonstrates that our methods' success is a result of effectively learning the effects of teammates' actions while also inferring the inherent state of the environment under partial observability.
翻訳日:2023-11-01 01:29:12 公開日:2023-10-28
# すべてのステップは平等に重要か? イベントのベンチマーク基本性検出

Are All Steps Equally Important? Benchmarking Essentiality Detection of Events ( http://arxiv.org/abs/2210.04074v3 )

ライセンス: Link先を確認
Haoyu Wang, Hongming Zhang, Yueguan Wang, Yuqian Deng, Muhao Chen, Dan Roth(参考訳) 自然言語は様々な粒度のイベントを表現し、粗い粒度のイベント(ゴール)をより細かい粒度のイベントシーケンス(ステップ)に分解することができる。 イベントプロセスを理解する上で批判的だが見過ごされている側面は、すべてのステップイベントが目標の完了に対して等しく重要であるとは限らないことだ。 本稿では,現在のモデルが目標イベントに関連するステップイベントの本質をどの程度理解しているかを検討することで,このギャップに対処する。 認知研究は、このような能力により機械は前提条件や日常的な作業に必要な努力について人間の常識を模倣できることを示唆している。 コミュニティガイドサイトWikiHowから収集した高品質な(ゴール,ステップ)ペアのコーパスに,専門家による目標に関する本質的な説明を手作業で行う。 高いアノテーション間の合意は、人間が事象の本質について一貫した理解を持っていることを示している。 しかし,複数の統計的および大規模事前学習言語モデルを評価すると,既存のアプローチは人間に比べてかなり性能が劣っていることがわかった。 この観察は、この批判的かつ困難なタスクに対するさらなる調査の必要性を浮き彫りにしている。 データセットとコードはhttp://cogcomp.org/page/publication_view/1023で入手できる。

Natural language expresses events with varying granularities, where coarse-grained events (goals) can be broken down into finer-grained event sequences (steps). A critical yet overlooked aspect of understanding event processes is recognizing that not all step events hold equal importance toward the completion of a goal. In this paper, we address this gap by examining the extent to which current models comprehend the essentiality of step events in relation to a goal event. Cognitive studies suggest that such capability enables machines to emulate human commonsense reasoning about preconditions and necessary efforts of everyday tasks. We contribute a high-quality corpus of (goal, step) pairs gathered from the community guideline website WikiHow, with steps manually annotated for their essentiality concerning the goal by experts. The high inter-annotator agreement demonstrates that humans possess a consistent understanding of event essentiality. However, after evaluating multiple statistical and largescale pre-trained language models, we find that existing approaches considerably underperform compared to humans. This observation highlights the need for further exploration into this critical and challenging task. The dataset and code are available at http://cogcomp.org/page/publication_view/1023.
翻訳日:2023-11-01 01:28:14 公開日:2023-10-28
# 最大最悪ケースリプシッツパラメータを用いたプライベート確率最適化:(非スムース)凸損失の最適速度と非凸損失への拡張

Private Stochastic Optimization With Large Worst-Case Lipschitz Parameter: Optimal Rates for (Non-Smooth) Convex Losses and Extension to Non-Convex Losses ( http://arxiv.org/abs/2209.07403v5 )

ライセンス: Link先を確認
Andrew Lowy, Meisam Razaviyayn(参考訳) すべてのデータ点のリプシッツパラメータが極めて大きい損失関数を持つ差分プライベート (dp) 確率最適化 (so) について検討した。 現在、DP SOに関するほとんどの研究は、損失はデータ上の一様リプシッツ連続である(すなわち、確率勾配はすべてのデータ点上で一様に境界づけられている)と仮定している。 この仮定は便利であるが、しばしば悲観的な過剰なリスク境界をもたらす。 多くの実践的な問題において、すべてのデータポイントに対する損失の最悪の(一様)リプシッツパラメータは、異常値のため非常に大きい。 このような場合、損失の最悪のリプシッツパラメータでスケールするDP SOの誤差境界は空である。 これらの制限に対処するため、この研究は損失の均一なリプシッツパラメータに依存しない最適超過リスク境界を提供する。 最近の研究(Wang et al., 2020; Kamath et al., 2022)に基づいて構築された確率勾配は、約$k \geq 2$に対して$k$-次モーメントを束縛したと仮定する。 均一なリプシッツdpの作業と比較すると、損失の均一なリプシッツパラメータではなく、k$-th モーメントバウンドで過大なリスクがスケールし、異常値や重み付きデータの存在下での速度が大幅に速くなります。 凸および強い凸損失関数に対しては、最初の漸近的に最適な超過リスク境界(対数係数まで)を提供する。 Wang et al., 2020; Kamath et al., 2022)とは対照的に、我々の境界は損失関数を微分可能/滑らかにする必要がない。 また,特定のパラメーター条件で厳密な過大なリスクを持つスムーズな損失に対する線形時間アルゴリズムを考案する。 さらに、我々の研究は、近近偏pl不等式を満たす非凸非一様リプシッツ損失関数に最初に対処した。 近位plアルゴリズムは、ほぼ最適超過リスクを有する。

We study differentially private (DP) stochastic optimization (SO) with loss functions whose worst-case Lipschitz parameter over all data points may be extremely large. To date, the vast majority of work on DP SO assumes that the loss is uniformly Lipschitz continuous over data (i.e. stochastic gradients are uniformly bounded over all data points). While this assumption is convenient, it often leads to pessimistic excess risk bounds. In many practical problems, the worst-case (uniform) Lipschitz parameter of the loss over all data points may be extremely large due to outliers. In such cases, the error bounds for DP SO, which scale with the worst-case Lipschitz parameter of the loss, are vacuous. To address these limitations, this work provides near-optimal excess risk bounds that do not depend on the uniform Lipschitz parameter of the loss. Building on a recent line of work (Wang et al., 2020; Kamath et al., 2022), we assume that stochastic gradients have bounded $k$-th order moments for some $k \geq 2$. Compared with works on uniformly Lipschitz DP SO, our excess risk scales with the $k$-th moment bound instead of the uniform Lipschitz parameter of the loss, allowing for significantly faster rates in the presence of outliers and/or heavy-tailed data. For convex and strongly convex loss functions, we provide the first asymptotically optimal excess risk bounds (up to a logarithmic factor). In contrast to (Wang et al., 2020; Kamath et al., 2022), our bounds do not require the loss function to be differentiable/smooth. We also devise a linear-time algorithm for smooth losses that has excess risk that is tight in certain practical parameter regimes. Additionally, our work is the first to address non-convex non-uniformly Lipschitz loss functions satisfying the Proximal-PL inequality; this covers some practical machine learning models. Our Proximal-PL algorithm has near-optimal excess risk.
翻訳日:2023-11-01 01:27:15 公開日:2023-10-28
# ヘマグルチニン配列を用いたインフルエンザウイルス宿主予測のための機械学習アルゴリズム

Dive into Machine Learning Algorithms for Influenza Virus Host Prediction with Hemagglutinin Sequences ( http://arxiv.org/abs/2207.13842v2 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザウイルスは急速に変異し、公衆衛生、特に脆弱な集団に脅威をもたらす可能性がある。 歴史を通じて、インフルエンザa型ウイルスは異なる種間でパンデミックを引き起こしてきた。 感染拡大を防ぐためには、ウイルスの起源を特定することが重要である。 近年,ウイルス配列の迅速かつ正確な予測に機械学習アルゴリズムの利用が注目されている。 本研究では,さまざまな分類レベルで機械学習アルゴリズムを評価するために,実検定データセットと各種評価指標を用いた。 ヘマグルチニンは免疫応答の主要なタンパク質であるため、ヘマグルチニン配列のみが用いられ、位置特異的なスコアリングマトリックスと単語埋め込みによって表現された。 その結果、5グラム変換ニューラルネットワークはウイルス配列の予測に最も有効なアルゴリズムであり、99.54%のaucpr、98.01%のf1スコア、96.60%のmcc、94.74%のaucpr、87.41%のf1スコア、80.79%のmccを低い分類レベルで予測する。

Influenza viruses mutate rapidly and can pose a threat to public health, especially to those in vulnerable groups. Throughout history, influenza A viruses have caused pandemics between different species. It is important to identify the origin of a virus in order to prevent the spread of an outbreak. Recently, there has been increasing interest in using machine learning algorithms to provide fast and accurate predictions for viral sequences. In this study, real testing data sets and a variety of evaluation metrics were used to evaluate machine learning algorithms at different taxonomic levels. As hemagglutinin is the major protein in the immune response, only hemagglutinin sequences were used and represented by position-specific scoring matrix and word embedding. The results suggest that the 5-grams-transformer neural network is the most effective algorithm for predicting viral sequence origins, with approximately 99.54% AUCPR, 98.01% F1 score and 96.60% MCC at a higher classification level, and approximately 94.74% AUCPR, 87.41% F1 score and 80.79% MCC at a lower classification level.
翻訳日:2023-11-01 01:25:53 公開日:2023-10-28
# fasthuman: 高品質な衣服を数分で再構築する

FastHuman: Reconstructing High-Quality Clothed Human in Minutes ( http://arxiv.org/abs/2211.14485v2 )

ライセンス: Link先を確認
Lixiang Lin, Songyou Peng, Qijun Gan, Jianke Zhu(参考訳) 多視点画像を用いた高品質な人体形状を数分で最適化する手法を提案する。 従来のニューラルレンダリング手法では、レンダリング損失のみを用いて幾何学と外観を歪ませることが困難であり、計算集約性が高いが、マルチビュー光度整合性を確保するためにメッシュベースのパッチワープ手法と、幾何学的詳細を効率的に洗練するために球高調波照明を用いる。 配向点雲の形状表現とSHシェーディングを用い、暗黙の手法と比較して最適化とレンダリングの時間を大幅に短縮する。 提案手法は,合成データと実世界データの両方において有望な結果を示し,高品質な人体形状を迅速に生成するための効果的なソリューションとなった。 プロジェクトページ \href{https://l1346792580123.github.io/nccsfs/}{https://l1346792580123.github.io/nccsfs/}

We propose an approach for optimizing high-quality clothed human body shapes in minutes, using multi-view posed images. While traditional neural rendering methods struggle to disentangle geometry and appearance using only rendering loss, and are computationally intensive, our method uses a mesh-based patch warping technique to ensure multi-view photometric consistency, and sphere harmonics (SH) illumination to refine geometric details efficiently. We employ oriented point clouds' shape representation and SH shading, which significantly reduces optimization and rendering times compared to implicit methods. Our approach has demonstrated promising results on both synthetic and real-world datasets, making it an effective solution for rapidly generating high-quality human body shapes. Project page \href{https://l1346792580123.github.io/nccsfs/}{https://l1346792580123.github.io/nccsfs/}
翻訳日:2023-10-31 23:44:03 公開日:2023-10-28
# 転校者攻撃評価の実践に向けて

Towards Good Practices in Evaluating Transfer Adversarial Attacks ( http://arxiv.org/abs/2211.09565v3 )

ライセンス: Link先を確認
Zhengyu Zhao, Hanwei Zhang, Renjue Li, Ronan Sicre, Laurent Amsaleg, Michael Backes(参考訳) トランスファー攻撃は、現実のブラックボックスシナリオにおいて重要なセキュリティ上の懸念を引き起こす。 しかし,既存の評価では2つの共通的な限界があるため,実際の評価は困難である。 第一に、異なる方法はしばしば体系的にではなく、1対1の比較でかなり評価される。 第2に、転送性のみが評価されるが、他の重要な攻撃特性であるステルス性は見過ごされている。 本稿では,これらの制限に対処するための優れた手法をデザインし,imagenetにおける23の代表的な攻撃を対象とし,転送攻撃を包括的に評価する。 特に,既存の攻撃を5つのカテゴリに分類することを提案する。 これらの分析は、既存の知識にも挑戦し、攻撃的総合評価に最適な攻撃ハイパーパラメータを決定するのに役立つ新たな発見につながる。 我々はまた、様々な非知覚性指標を採用し、新しいきめ細かい特徴を調べることで、ステルスネスに特に注意を払っています。 全体として、転送可能性とステルス性に関する新たな洞察は、将来の評価に有効なベストプラクティスをもたらします。

Transfer adversarial attacks raise critical security concerns in real-world, black-box scenarios. However, the actual progress of this field is difficult to assess due to two common limitations in existing evaluations. First, different methods are often not systematically and fairly evaluated in a one-to-one comparison. Second, only transferability is evaluated but another key attack property, stealthiness, is largely overlooked. In this work, we design good practices to address these limitations, and we present the first comprehensive evaluation of transfer attacks, covering 23 representative attacks against 9 defenses on ImageNet. In particular, we propose to categorize existing attacks into five categories, which enables our systematic category-wise analyses. These analyses lead to new findings that even challenge existing knowledge and also help determine the optimal attack hyperparameters for our attack-wise comprehensive evaluation. We also pay particular attention to stealthiness, by adopting diverse imperceptibility metrics and looking into new, finer-grained characteristics. Overall, our new insights into transferability and stealthiness lead to actionable good practices for future evaluations.
翻訳日:2023-10-31 23:42:29 公開日:2023-10-28
# 自己調和型バリアハミルトニアンモンテカルロによる非バイアス制約サンプリング

Unbiased constrained sampling with Self-Concordant Barrier Hamiltonian Monte Carlo ( http://arxiv.org/abs/2210.11925v3 )

ライセンス: Link先を確認
Maxence Noble, Valentin De Bortoli, Alain Durmus(参考訳) 本稿では, hmcアルゴリズムのバージョンであるバリア・ハミルトン・モンテカルロ(bhmc)を提案する。これは,多様体上のギブス分布から$\pi$をサンプリングすることを目的としたもので, 自己一致障壁から導出されるヘッセン計量 $\mathfrak{g}$ を付与するものである。 我々の方法は、$\mathfrak{g}$からなるハミルトン力学に依存する。 したがって、$\mathrm{M}$を定義する制約を取り入れ、その基礎となる幾何学を活用できる。 しかし、対応するハミルトン力学はユークリッドの場合とは対照的に非分離正規微分方程式(ODE)によって定義される。 これは、HMC のリーマン多様体への既存の一般化における避けられないバイアスを意味する。 本稿では,この問題に対処するため,新しいフィルタステップである「進化チェックステップ」を提案する。 このステップは、連続BHMC(c-BHMC)と数値BHMC(n-BHMC)の2つのバージョンで実装されている。 我々の主な結果は、これらの2つの新しいアルゴリズムが$\pi$に関して可逆マルコフ連鎖を生成し、以前の実装と比較してバイアスを負わないことを示しています。 この結論は,ポリトープ上で定義される対象分布を考える数値実験によって裏付けられている。

In this paper, we propose Barrier Hamiltonian Monte Carlo (BHMC), a version of the HMC algorithm which aims at sampling from a Gibbs distribution $\pi$ on a manifold $\mathrm{M}$, endowed with a Hessian metric $\mathfrak{g}$ derived from a self-concordant barrier. Our method relies on Hamiltonian dynamics which comprises $\mathfrak{g}$. Therefore, it incorporates the constraints defining $\mathrm{M}$ and is able to exploit its underlying geometry. However, the corresponding Hamiltonian dynamics is defined via non separable Ordinary Differential Equations (ODEs) in contrast to the Euclidean case. It implies unavoidable bias in existing generalization of HMC to Riemannian manifolds. In this paper, we propose a new filter step, called "involution checking step", to address this problem. This step is implemented in two versions of BHMC, coined continuous BHMC (c-BHMC) and numerical BHMC (n-BHMC) respectively. Our main results establish that these two new algorithms generate reversible Markov chains with respect to $\pi$ and do not suffer from any bias in comparison to previous implementations. Our conclusions are supported by numerical experiments where we consider target distributions defined on polytopes.
翻訳日:2023-10-31 23:41:19 公開日:2023-10-28
# unbounded memoryを用いたオンライン凸最適化

Online Convex Optimization with Unbounded Memory ( http://arxiv.org/abs/2210.09903v4 )

ライセンス: Link先を確認
Raunak Kumar, Sarah Dean, and Robert Kleinberg(参考訳) online convex optimization(oco)は、オンライン学習において広く使われているフレームワークである。 各ラウンドにおいて、学習者は凸集合における決定を選択し、敵は凸損失関数を選択し、その後、学習者は現在の決定に関連する損失を被る。 しかし、多くのアプリケーションでは、学習者の損失は現在の決定だけでなく、その時点まですべての決定の歴史に依存する。 ocoフレームワークとその既存の一般化は、これを捉えておらず、長い一連の近似引数の後、多くの関心の設定にしか適用できない。 彼らはまた、非自明な下限がないため、メモリ依存がきついかどうかという疑問も残している。 本稿では,OCOフレームワークの一般化である ``Online Convex Optimization with Unbounded Memory'' を紹介する。 我々は,現在の損失に対する過去の決定の最大影響を定量化するメモリ容量$p$,$h_p$の概念を導入する。 o(\sqrt{h_p t})$ upperbound on the policy regret and a matching (worst-case) lowerbound を証明します。 特別な場合として、有限メモリを持つocoに対する最初の非自明な下界を証明し、独立な興味を持ち、既存の上界を改善することができる。 オンラインリニアコントロールやオンラインパフォーマンス予測など,さまざまなオンライン学習問題に対して,後悔境界の導出と既存の後悔境界導出を改善し,単純化することにより,フレームワークの広範な適用性を示す。

Online convex optimization (OCO) is a widely used framework in online learning. In each round, the learner chooses a decision in a convex set and an adversary chooses a convex loss function, and then the learner suffers the loss associated with their current decision. However, in many applications the learner's loss depends not only on the current decision but on the entire history of decisions until that point. The OCO framework and its existing generalizations do not capture this, and they can only be applied to many settings of interest after a long series of approximation arguments. They also leave open the question of whether the dependence on memory is tight because there are no non-trivial lower bounds. In this work we introduce a generalization of the OCO framework, ``Online Convex Optimization with Unbounded Memory'', that captures long-term dependence on past decisions. We introduce the notion of $p$-effective memory capacity, $H_p$, that quantifies the maximum influence of past decisions on present losses. We prove an $O(\sqrt{H_p T})$ upper bound on the policy regret and a matching (worst-case) lower bound. As a special case, we prove the first non-trivial lower bound for OCO with finite memory~\citep{anavaHM2015online}, which could be of independent interest, and also improve existing upper bounds. We demonstrate the broad applicability of our framework by using it to derive regret bounds, and to improve and simplify existing regret bound derivations, for a variety of online learning problems including online linear control and an online variant of performative prediction.
翻訳日:2023-10-31 23:40:10 公開日:2023-10-28
# 対照的なふりかえり:RLにおける素早い学習と一般化のための重要なステップについて

Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL ( http://arxiv.org/abs/2210.05845v7 )

ライセンス: Link先を確認
Chen Sun, Wannan Yang, Thomas Jiralerspong, Dane Malenfant, Benjamin Alsbury-Nealy, Yoshua Bengio, Blake Richards(参考訳) 実生活では、成功はしばしば、互いに時間的に、そして最終的な報酬から遠ざかる複数の重要なステップに付随する。 これらの重要なステップは、信用代入のベルマン方程式に依存する従来の強化学習(RL)手法と同一視することが難しい。 本稿では、オフラインのコントラスト学習を用いて、これらの重要なステップに注目する新しいRLアルゴリズムを提案する。 Contrastive Retrospection (ConSpec)と呼ばれるこのアルゴリズムは、既存のRLアルゴリズムに追加することができる。 conspecは、新しい対照的な損失によって、タスクのクリティカルステップのプロトタイプセットを学習し、現在の状態がプロトタイプの1つと一致したとき、本質的な報酬を与える。 ConSpecのプロトタイプは2つの重要な利点を提供している。 i) 全ての重要なステップの迅速な識別を可能にする。 (ii)容易に解釈可能で、感覚的特徴が変化した場合の分布の一般化を可能にする。 クレジット・アサインに対する他の現代のRLアプローチとは違い、ConSpecは、成功が(そして他の状態を無視した)相反する小さなステップのセットを、取られたステップごとに前向きに予測することよりも、遡及的に特定することが容易であるという事実を生かしている。 ConSpecは多様なRLタスクの学習を大幅に改善する。 コードはリンクで入手できる。 https://github.com/sunchipsster1/ConSpec

In real life, success is often contingent upon multiple critical steps that are distant in time from each other and from the final reward. These critical steps are challenging to identify with traditional reinforcement learning (RL) methods that rely on the Bellman equation for credit assignment. Here, we present a new RL algorithm that uses offline contrastive learning to hone in on these critical steps. This algorithm, which we call Contrastive Retrospection (ConSpec), can be added to any existing RL algorithm. ConSpec learns a set of prototypes for the critical steps in a task by a novel contrastive loss and delivers an intrinsic reward when the current state matches one of the prototypes. The prototypes in ConSpec provide two key benefits for credit assignment: (i) They enable rapid identification of all the critical steps. (ii) They do so in a readily interpretable manner, enabling out-of-distribution generalization when sensory features are altered. Distinct from other contemporary RL approaches to credit assignment, ConSpec takes advantage of the fact that it is easier to retrospectively identify the small set of steps that success is contingent upon (and ignoring other states) than it is to prospectively predict reward at every taken step. ConSpec greatly improves learning in a diverse set of RL tasks. The code is available at the link: https://github.com/sunchipsster1/ConSpec
翻訳日:2023-10-31 23:39:04 公開日:2023-10-28
# 量子位相推定のための低深さアルゴリズムについて

On low-depth algorithms for quantum phase estimation ( http://arxiv.org/abs/2302.02454v4 )

ライセンス: Link先を確認
Hongkang Ni, Haoya Li, Lexing Ying(参考訳) 量子位相推定は量子コンピューティングの重要な構成要素の一つである。 早期のフォールトトレラント量子デバイスにおいては、(1)最小数のアンシラ量子ビットを使用する量子位相推定アルゴリズムが望ましい。(2)重要なミスマッチを伴う初期状態が不有効であること、(3)使用する全リソースに対するハイゼンベルグ限界を達成すること、(4)初期状態とターゲット状態との重なり合いが1に近づくと、最大回路長の減少プレファクタを有すること。 本稿では,量子力学からの既存のアルゴリズムが最初の3つの要件を達成できることを示す。 第2の貢献として,第4の要件を満たすアルゴリズムの修正版を提案する。

Quantum phase estimation is one of the critical building blocks of quantum computing. For early fault-tolerant quantum devices, it is desirable for a quantum phase estimation algorithm to (1) use a minimal number of ancilla qubits, (2) allow for inexact initial states with a significant mismatch, (3) achieve the Heisenberg limit for the total resource used, and (4) have a diminishing prefactor for the maximum circuit length when the overlap between the initial state and the target state approaches one. In this paper, we prove that an existing algorithm from quantum metrology can achieve the first three requirements. As a second contribution, we propose a modified version of the algorithm that also meets the fourth requirement, which makes it particularly attractive for early fault-tolerant quantum devices.
翻訳日:2023-10-31 23:31:27 公開日:2023-10-28
# 訓練データが異なるモデルに対する自然分布シフトに対する効果的なロバスト性

Effective Robustness against Natural Distribution Shifts for Models with Different Training Data ( http://arxiv.org/abs/2302.01381v2 )

ライセンス: Link先を確認
Zhouxing Shi, Nicholas Carlini, Ananth Balashankar, Ludwig Schmidt, Cho-Jui Hsieh, Alex Beutel, Yao Qin(参考訳) 効果的なロバスト性」は、分散(id)性能から予測できる以上の余分な分散(ood)ロバスト性を測定する。 既存の有効ロバスト性評価では、通常はimagenetのような単一のテストセットを使用してid精度を評価する。 例えば、ImageNetでトレーニングされたモデルとLAIONでトレーニングされたゼロショット言語イメージでトレーニングされたモデルを比較すると、これは問題になる。 本稿では,異なるデータに基づいて学習したモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。 これを実現するために、評価されたモデルすべてに対するトレーニング分布をカバーする複数のIDテストセットの精度を制御する。 我々の新しい評価基準は、異なるトレーニングデータを持つモデルが存在する場合の効果的なロバスト性をよりよく推定する。 また、ImageNetを唯一のIDテストセットとして使用した以前の研究で示されたゼロショットCLIPライクなモデルの驚くべき効果的なロバスト性向上についても説明できます。 インタラクティブなビジュアライゼーションを含む追加のアーティファクトは、https://shizhouxing.github.io/ effective-robustnessで提供される。

"Effective robustness" measures the extra out-of-distribution (OOD) robustness beyond what can be predicted from the in-distribution (ID) performance. Existing effective robustness evaluations typically use a single test set such as ImageNet to evaluate the ID accuracy. This becomes problematic when evaluating models trained on different data distributions, e.g., comparing models trained on ImageNet vs. zero-shot language-image pre-trained models trained on LAION. In this paper, we propose a new evaluation metric to evaluate and compare the effective robustness of models trained on different data. To do this, we control for the accuracy on multiple ID test sets that cover the training distributions for all the evaluated models. Our new evaluation metric provides a better estimate of effective robustness when there are models with different training data. It may also explain the surprising effective robustness gains of zero-shot CLIP-like models exhibited in prior works that used ImageNet as the only ID test set, while the gains diminish under our new evaluation. Additional artifacts including interactive visualizations are provided at https://shizhouxing.github.io/effective-robustness.
翻訳日:2023-10-31 23:30:29 公開日:2023-10-28
# DisDiff:拡散確率モデルの教師なし解離

DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.13721v3 )

ライセンス: Link先を確認
Tao Yang, Yuwang Wang, Yan Lv, Nanning Zheng(参考訳) これらの因子の観測と条件生成プロセスのモデル化の背景にある説明可能な要因を理解することを目的として,拡散確率モデル(DPM)に不整合表現学習を接続し,DPMの顕著なモデリング能力を活用する。 そこで本稿では,DPM の非直交化(disentanglement of DPMs)という新たな課題を提案する。事前学習した DPM に対して,因子のアノテーションを使わずに,DPM の基本的因子を自動的に発見し,各因子の表現に基づいて,DPM の勾配場を下位次数体に分解する。 歪んだDPMでは、これらの固有の因子が自動的に発見され、明示的に表現され、亜次体を介して拡散過程に注入される。 この課題に対処するため、DPMの枠組みにおいて非教師なしのDisDiffを考案し、非拘束表現学習を実現する。 合成および実世界のデータセットに関する大規模な実験は、DisDiffの有効性を実証している。

Targeting to understand the underlying explainable factors behind observations and modeling the conditional generation process on these factors, we connect disentangled representation learning to Diffusion Probabilistic Models (DPMs) to take advantage of the remarkable modeling ability of DPMs. We propose a new task, disentanglement of (DPMs): given a pre-trained DPM, without any annotations of the factors, the task is to automatically discover the inherent factors behind the observations and disentangle the gradient fields of DPM into sub-gradient fields, each conditioned on the representation of each discovered factor. With disentangled DPMs, those inherent factors can be automatically discovered, explicitly represented, and clearly injected into the diffusion process via the sub-gradient fields. To tackle this task, we devise an unsupervised approach named DisDiff, achieving disentangled representation learning in the framework of DPMs. Extensive experiments on synthetic and real-world datasets demonstrate the effectiveness of DisDiff.
翻訳日:2023-10-31 23:30:08 公開日:2023-10-28
# oracle による非スムース弱凸関数制約最適化のための単ループスイッチングサブグレードの複雑さ

Oracle Complexity of Single-Loop Switching Subgradient Methods for Non-Smooth Weakly Convex Functional Constrained Optimization ( http://arxiv.org/abs/2301.13314v3 )

ライセンス: Link先を確認
Yankun Huang, Qihang Lin(参考訳) 対象関数が弱凸であり、制約関数が凸または弱凸である非凸制約付き最適化問題を考える。 この問題を解決するために,oracle の複雑性が凸問題でのみ知られている直感的かつ容易に実装可能な一階法であるclassic switching subgradient method を考える。 本稿では,非凸問題のほぼ定常点を求めるために,スイッチング段階法のオラクル複雑性を初めて解析する。 結果は凸および弱凸制約に対して別途導出される。 従来の手法、特にダブルループ法と比較して、切り換え勾配法は非滑らかな問題に適用でき、単一のループのみを用いて同じ複雑さを達成できるため、内部反復数調整の手間を省くことができる。

We consider a non-convex constrained optimization problem, where the objective function is weakly convex and the constraint function is either convex or weakly convex. To solve this problem, we consider the classical switching subgradient method, which is an intuitive and easily implementable first-order method whose oracle complexity was only known for convex problems. This paper provides the first analysis on the oracle complexity of the switching subgradient method for finding a nearly stationary point of non-convex problems. Our results are derived separately for convex and weakly convex constraints. Compared to existing approaches, especially the double-loop methods, the switching gradient method can be applied to non-smooth problems and achieves the same complexity using only a single loop, which saves the effort on tuning the number of inner iterations.
翻訳日:2023-10-31 23:29:48 公開日:2023-10-28
# 小条件集合をもつ因果グラフのキャラクタリゼーションと学習

Characterization and Learning of Causal Graphs with Small Conditioning Sets ( http://arxiv.org/abs/2301.09028v2 )

ライセンス: Link先を確認
Murat Kocaoglu(参考訳) 制約に基づく因果探索アルゴリズムは、データで観測された条件付き独立性を体系的にテストすることで因果グラフ構造の一部を学習する。 これらのアルゴリズム、例えばPCアルゴリズムとその変種は、パールによって提案されたいわゆる因果グラフの同値クラスのグラフィカルな特徴に依存している。 しかしながら、条件付き独立性テストは、特に条件付きセットが大きい場合には、急速に統計能力を失うため、制約に基づく因果発見アルゴリズムは、データが制限された場合に苦労する。 これに対処するために、条件付き独立性テストを用いることを提案し、条件付き集合のサイズは強固な因果関係の発見のためにいくつかの整数 $k$ で上限される。 因果グラフの同値クラスの既存のグラフィカルな特徴付けは、条件付き独立性ステートメントをすべて活用できない場合は適用できない。 2つの因果グラフが$k$-markov同値であるとは、条件付き集合のサイズが$k$で上限されている場合に同じ条件付き独立性制約を伴っているときである。 2つの因果グラフ間の$k$-Markov同値をグラフィカルに特徴付ける新しい表現を提案する。 本稿では,この等価クラスを学習するための$k$-PCアルゴリズムを提案する。 最後に, 合成および半合成実験を行い, $k$-pc アルゴリズムがベースラインアルゴリズムと比較して, 小規模サンプルシステムにおいてより強固な因果発見を可能にすることを示す。

Constraint-based causal discovery algorithms learn part of the causal graph structure by systematically testing conditional independences observed in the data. These algorithms, such as the PC algorithm and its variants, rely on graphical characterizations of the so-called equivalence class of causal graphs proposed by Pearl. However, constraint-based causal discovery algorithms struggle when data is limited since conditional independence tests quickly lose their statistical power, especially when the conditioning set is large. To address this, we propose using conditional independence tests where the size of the conditioning set is upper bounded by some integer $k$ for robust causal discovery. The existing graphical characterizations of the equivalence classes of causal graphs are not applicable when we cannot leverage all the conditional independence statements. We first define the notion of $k$-Markov equivalence: Two causal graphs are $k$-Markov equivalent if they entail the same conditional independence constraints where the conditioning set size is upper bounded by $k$. We propose a novel representation that allows us to graphically characterize $k$-Markov equivalence between two causal graphs. We propose a sound constraint-based algorithm called the $k$-PC algorithm for learning this equivalence class. Finally, we conduct synthetic, and semi-synthetic experiments to demonstrate that the $k$-PC algorithm enables more robust causal discovery in the small sample regime compared to the baseline algorithms.
翻訳日:2023-10-31 23:28:34 公開日:2023-10-28
# JKOスキームによる流れニューラルネットワークの正規化

Normalizing flow neural networks by JKO scheme ( http://arxiv.org/abs/2212.14424v3 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) 正規化フローは効率的なサンプリングと推定のための深層生成モデルのクラスであり、特に高次元において魅力的な性能を達成する。 フローは、しばしば可逆的残留ブロックの列を使って実装される。 既存の作業では、特別なネットワークアーキテクチャとフロートラジェクトリの正規化が採用されている。 本稿では、ワッサーシュタイン勾配流の離散時間力学を展開させるJordan-Kinderleherer-Otto(JKO)スキームにインスパイアされた、JKO-iFlowと呼ばれるニューラルODEフローネットワークを開発する。 提案手法は残差ブロックを次々と積み重ねることで,残差ブロックの効率的なブロックワイドトレーニングを可能にし,SDEトラジェクトリのサンプリングやスコアマッチングや変動学習を回避し,エンドツーエンドトレーニングにおけるメモリ負荷と難易度を低減する。 また,確率空間における誘導軌道の漸進的改善によるフローネットワークの適応時間パラメータ化を開発し,モデル精度をさらに向上する。 合成および実データを用いた実験により,提案するjko-iflowネットワークは,計算コストとメモリコストを大幅に削減し,既存のフローモデルや拡散モデルと比較して競合性能が向上することを示した。

Normalizing flow is a class of deep generative models for efficient sampling and likelihood estimation, which achieves attractive performance, particularly in high dimensions. The flow is often implemented using a sequence of invertible residual blocks. Existing works adopt special network architectures and regularization of flow trajectories. In this paper, we develop a neural ODE flow network called JKO-iFlow, inspired by the Jordan-Kinderleherer-Otto (JKO) scheme, which unfolds the discrete-time dynamic of the Wasserstein gradient flow. The proposed method stacks residual blocks one after another, allowing efficient block-wise training of the residual blocks, avoiding sampling SDE trajectories and score matching or variational learning, thus reducing the memory load and difficulty in end-to-end training. We also develop adaptive time reparameterization of the flow network with a progressive refinement of the induced trajectory in probability space to improve the model accuracy further. Experiments with synthetic and real data show that the proposed JKO-iFlow network achieves competitive performance compared with existing flow and diffusion models at a significantly reduced computational and memory cost.
翻訳日:2023-10-31 23:28:02 公開日:2023-10-28
# 物理インフォームドガウス過程回帰は線形PDE解を一般化する

Physics-Informed Gaussian Process Regression Generalizes Linear PDE Solvers ( http://arxiv.org/abs/2212.12474v4 )

ライセンス: Link先を確認
Marvin Pf\"ortner and Ingo Steinwart and Philipp Hennig and Jonathan Wenger(参考訳) 線形偏微分方程式(英: Linear partial differential equation, PDEs)は、熱伝達、電磁気、波動伝播などの物理過程を記述する重要な力学モデルのクラスである。 実際には、離散化に基づく特殊数値法を用いてPDEを解く。 一般に、未知のモデルパラメータの見積もりと、可能であれば初期化の物理的測定を用いる。 このような解法はしばしば下流の応用でより大きな科学的モデルに埋め込まれ、エラー定量化が重要な役割を果たす。 しかし、パラメータや測定の不確かさを無視することで、古典的なPDEソルバはその固有近似誤差の一貫した推定を導出できない可能性がある。 本研究では、線形PDEを物理インフォームドガウス過程(GP)回帰として解釈することで、この問題を原理的にアプローチする。 我々のフレームワークは、任意の有界線型作用素による観測に対するガウス過程推論定理の鍵となる一般化に基づいている。 この確率論的視点は、(1)固有の離散化誤差の定量化、(2)モデルパラメータの不確かさを解に伝播させ、(3)ノイズ測定の条件を与える。 この定式化の強さを実証し、重み付け残差法、コロケーション、有限体積、擬スペクトル、および有限要素法やスペクトル法のような(一般化)ガレルキン法を含むPDEソルバの中心クラスを厳密に一般化することを証明する。 したがって、このクラスは構造化誤差推定を直接装備することができる。 要約すると, 数値解析とベイズ推定の境界を曖昧にすることで, モジュラービルディングブロックとしての機械モデルと確率モデルとのシームレスな統合が可能となる。

Linear partial differential equations (PDEs) are an important, widely applied class of mechanistic models, describing physical processes such as heat transfer, electromagnetism, and wave propagation. In practice, specialized numerical methods based on discretization are used to solve PDEs. They generally use an estimate of the unknown model parameters and, if available, physical measurements for initialization. Such solvers are often embedded into larger scientific models with a downstream application and thus error quantification plays a key role. However, by ignoring parameter and measurement uncertainty, classical PDE solvers may fail to produce consistent estimates of their inherent approximation error. In this work, we approach this problem in a principled fashion by interpreting solving linear PDEs as physics-informed Gaussian process (GP) regression. Our framework is based on a key generalization of the Gaussian process inference theorem to observations made via an arbitrary bounded linear operator. Crucially, this probabilistic viewpoint allows to (1) quantify the inherent discretization error; (2) propagate uncertainty about the model parameters to the solution; and (3) condition on noisy measurements. Demonstrating the strength of this formulation, we prove that it strictly generalizes methods of weighted residuals, a central class of PDE solvers including collocation, finite volume, pseudospectral, and (generalized) Galerkin methods such as finite element and spectral methods. This class can thus be directly equipped with a structured error estimate. In summary, our results enable the seamless integration of mechanistic models as modular building blocks into probabilistic models by blurring the boundaries between numerical analysis and Bayesian inference.
翻訳日:2023-10-31 23:27:25 公開日:2023-10-28
# 連続監視開量子電池におけるデーモニックエルゴトロピー

Daemonic ergotropy in continuously-monitored open quantum batteries ( http://arxiv.org/abs/2302.12279v2 )

ライセンス: Link先を確認
Daniele Morrone, Matteo A. C. Rossi, Marco G. Genoni(参考訳) 相関した補助系で行った測定から得られた情報を利用して量子系から抽出できる作業量を増やすことができる。 デーモニック・エルゴトロピーの概念は、量子構造におけるこの仕事の抽出促進を適切に記述し、定量化するために導入された。 本稿では,エネルギー貯蔵型量子デバイスと相互作用する環境を測定することで情報を得る,連続監視型オープン量子システムのコンテキストにおけるこのアイデアの適用について検討する。 まず、対応するデーモニックエルゴトロピーは、エルゴトロピーと対応する無条件状態のエネルギーの間に値を取ることを示す。 この上界は、被測定の種類とは独立に、初期純状態と環境に対する完全に効率的な射影測定とを仮定して達成される。 一方、測定が非効率である場合や初期状態が混合された場合、デーモンのエルゴトロピーは一般に測定戦略に依存する。 このシナリオは、古典場によって駆動され、自発的に放出される光子がホモダイン、ヘテロダイン、あるいは光検出によって連続的に観測される2段階の原子であるオープン量子電池のパラダイム的例を通して研究される。

The amount of work that can be extracted from a quantum system can be increased by exploiting the information obtained from a measurement performed on a correlated ancillary system. The concept of daemonic ergotropy has been introduced to properly describe and quantify this work extraction enhancement in the quantum regime. We here explore the application of this idea in the context of continuously-monitored open quantum systems, where information is gained by measuring the environment interacting with the energy-storing quantum device. We first show that the corresponding daemonic ergotropy takes values between the ergotropy and the energy of the corresponding unconditional state. The upper bound is achieved by assuming an initial pure state and a perfectly efficient projective measurement on the environment, independently of the kind of measurement performed. On the other hand, if the measurement is inefficient or the initial state is mixed, the daemonic ergotropy is generally dependent on the measurement strategy. This scenario is investigated via a paradigmatic example of an open quantum battery: a two-level atom driven by a classical field and whose spontaneously emitted photons are continuously monitored via either homodyne, heterodyne, or photo-detection.
翻訳日:2023-10-31 23:18:02 公開日:2023-10-28
# 高速時間的ウェーブレットグラフニューラルネットワーク

Fast Temporal Wavelet Graph Neural Networks ( http://arxiv.org/abs/2302.08643v3 )

ライセンス: Link先を確認
Duc Thien Nguyen, Manh Duc Tuan Nguyen, Truong Son Hy, Risi Kondor(参考訳) 時空間信号の予測は多くの領域、特に神経科学や輸送において重要な役割を果たす。 この課題は、高度に複雑な空間構造と、ネットワークの非線形時間ダイナミクスによって困難である。 人間の脳と交通ネットワークの信頼性とタイムリーな予測を容易にするため、離散空間におけるマルチレゾリューション解析とウェーブレット理論の理論により、時系列データにおける時間的および記憶的タスクの学習に有効なFTWGNN(Fast Temporal Wavelet Graph Neural Networks)を提案する。 我々は多分解能行列分解(mmf)(kondor et al., 2014)を用いて高濃度のグラフ構造を分解し、新しいアーキテクチャのバックボーンとして高速なウェーブレット畳み込みを構築することができるスパースウェーブレット基底を計算する。 実世界のPEMS-BAY, METR-LAトラフィックデータセット, AJILE12 ECoGデータセットによる実験結果から,FTWGNNは計算フットプリントを低く保ちながら最先端技術と競合することが示された。 pytorchの実装はhttps://github.com/hysonlab/twgnnで公開しています。

Spatio-temporal signals forecasting plays an important role in numerous domains, especially in neuroscience and transportation. The task is challenging due to the highly intricate spatial structure, as well as the non-linear temporal dynamics of the network. To facilitate reliable and timely forecast for the human brain and traffic networks, we propose the Fast Temporal Wavelet Graph Neural Networks (FTWGNN) that is both time- and memory-efficient for learning tasks on timeseries data with the underlying graph structure, thanks to the theories of multiresolution analysis and wavelet theory on discrete spaces. We employ Multiresolution Matrix Factorization (MMF) (Kondor et al., 2014) to factorize the highly dense graph structure and compute the corresponding sparse wavelet basis that allows us to construct fast wavelet convolution as the backbone of our novel architecture. Experimental results on real-world PEMS-BAY, METR-LA traffic datasets and AJILE12 ECoG dataset show that FTWGNN is competitive with the state-of-the-arts while maintaining a low computational footprint. Our PyTorch implementation is publicly available at https://github.com/HySonLab/TWGNN
翻訳日:2023-10-31 23:16:02 公開日:2023-10-28
# 一般化平滑性下における近似最適非凸確率最適化

Near-Optimal Non-Convex Stochastic Optimization under Generalized Smoothness ( http://arxiv.org/abs/2302.06032v2 )

ライセンス: Link先を確認
Zijian Liu, Srikanth Jagabathula, Zhengyuan Zhou(参考訳) 一般化された滑らかな条件である$(l_{0},l_{1})$-smoothness は、経験的および理論的証拠の両方によって示される多くの最適化問題においてより現実的であるため、人々の関心を引き起こしている。 2つの最近の研究は、$O(\epsilon^{-3})$サンプル複雑性を確立し、$O(\epsilon)$-定常点を得る。 しかし、どちらも$\mathrm{ploy}(\epsilon^{-1})$という順序で大きなバッチサイズを必要とする。 さらに、これらの既存の収束限界は、期待値に対してのみ確立されるが、1回のランで有用な性能保証が提供されないため、不十分である。 本研究では,STORMアルゴリズムの単純な変種を再検討することにより,従来の2つの問題を同時に解決する。 具体的には、$(L_{0},L_{1})$-smoothness と affine-type noises の下で、最初の準最適 $O(\log(1/(\delta\epsilon))\epsilon^{-3})$ 高確率サンプル複雑性を確立し、$\delta\in(0,1)$ は失敗確率である。 また、同じアルゴリズムでは、問題依存パラメータへの依存性を改善した期待収束のために最適な$o(\epsilon^{-3})$サンプル複雑性を回収する。 さらに重要なことに、我々の収束結果には、以前の作業とは対照的に、一定のバッチサイズしか必要ありません。

The generalized smooth condition, $(L_{0},L_{1})$-smoothness, has triggered people's interest since it is more realistic in many optimization problems shown by both empirical and theoretical evidence. Two recent works established the $O(\epsilon^{-3})$ sample complexity to obtain an $O(\epsilon)$-stationary point. However, both require a large batch size on the order of $\mathrm{ploy}(\epsilon^{-1})$, which is not only computationally burdensome but also unsuitable for streaming applications. Additionally, these existing convergence bounds are established only for the expected rate, which is inadequate as they do not supply a useful performance guarantee on a single run. In this work, we solve the prior two problems simultaneously by revisiting a simple variant of the STORM algorithm. Specifically, under the $(L_{0},L_{1})$-smoothness and affine-type noises, we establish the first near-optimal $O(\log(1/(\delta\epsilon))\epsilon^{-3})$ high-probability sample complexity where $\delta\in(0,1)$ is the failure probability. Besides, for the same algorithm, we also recover the optimal $O(\epsilon^{-3})$ sample complexity for the expected convergence with improved dependence on the problem-dependent parameter. More importantly, our convergence results only require a constant batch size in contrast to the previous works.
翻訳日:2023-10-31 23:15:20 公開日:2023-10-28
# 星型分極拡散確率モデル

Star-Shaped Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.05259v3 )

ライセンス: Link先を確認
Andrey Okhotin, Dmitry Molchanov, Vladimir Arkhipkin, Grigory Bartosh, Viktor Ohanesian, Aibek Alanov, Dmitry Vetrov(参考訳) Denoising Diffusion Probabilistic Models (DDPM)は、最近の生成モデルにおけるブレークスルーの基礎を提供する。 彼らのマルコフ構造は、ガウスあるいは離散性以外の分布を持つ DDPM を定義するのを難しくする。 本稿では,星形DDPM(SS-DDPM)を紹介する。 その星型の拡散過程は、遷移確率の定義や後方計算の必要性を回避できる。 指数分布系に対する星形と特異なマルコフ拡散の双対性を確立し、SS-DDPMのトレーニングとサンプリングに効率的なアルゴリズムを導出する。 ガウス分布の場合、SS-DDPMはDDPMと等価である。 しかし、SS-DDPMは、Beta、von Mises$\unicode{x2013}$Fisher、Dirichlet、Wishartなどの分布を持つ拡散モデルを設計するための簡単なレシピを提供する。 我々は,このモデルを異なる設定で評価し,ベータSS-DDPMがガウスDDPMに匹敵する結果が得られる画像データでも競合することを示した。 私たちの実装はhttps://github.com/andrey-okhotin/star-shaped で利用可能です。

Denoising Diffusion Probabilistic Models (DDPMs) provide the foundation for the recent breakthroughs in generative modeling. Their Markovian structure makes it difficult to define DDPMs with distributions other than Gaussian or discrete. In this paper, we introduce Star-Shaped DDPM (SS-DDPM). Its star-shaped diffusion process allows us to bypass the need to define the transition probabilities or compute posteriors. We establish duality between star-shaped and specific Markovian diffusions for the exponential family of distributions and derive efficient algorithms for training and sampling from SS-DDPMs. In the case of Gaussian distributions, SS-DDPM is equivalent to DDPM. However, SS-DDPMs provide a simple recipe for designing diffusion models with distributions such as Beta, von Mises$\unicode{x2013}$Fisher, Dirichlet, Wishart and others, which can be especially useful when data lies on a constrained manifold. We evaluate the model in different settings and find it competitive even on image data, where Beta SS-DDPM achieves results comparable to a Gaussian DDPM. Our implementation is available at https://github.com/andrey-okhotin/star-shaped .
翻訳日:2023-10-31 23:14:51 公開日:2023-10-28
# 人間のスケッチは物体検出に何ができるのか?

What Can Human Sketches Do for Object Detection? ( http://arxiv.org/abs/2303.15149v2 )

ライセンス: Link先を確認
Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Aneeshan Sain and Subhadeep Koley and Tao Xiang and Yi-Zhe Song(参考訳) スケッチは非常に表現力が高く、本質的に主観的および細かな視覚的手がかりを捉えている。 しかし、このような人間のスケッチの原生的性質の探索は、画像検索のそれに限定されている。 本稿では,スケッチの表現性を初めて育成するが,オブジェクト検出の基本的なビジョンタスクについて述べる。 最終的な結果はスケッチ可能なオブジェクト検出フレームワークで、zebras(instance-aware detection)の群れ内の \textit{you} sketch -\textit{that} ``zebra''(例えば、草を食べているもの)と、あなたが望む \textit{part}(例えば ``zebra' の ``head" )のみに基づいて検出される。 モデルが機能しないことを 決定づけます (i)テストでどのカテゴリを期待するか(ゼロショット) (ii)追加のバウンディングボックス(フル教師付き)とクラスラベル(弱教師付き)を必要としない。 基礎モデル(例えばCLIP)と既存のスケッチモデルとの間には直感的な相乗効果があり、スケッチベースの画像検索(SBIR)はタスクを優雅に解決できる -- CLIPはモデルの一般化を提供し、SBIRは(sketch$\rightarrow$photo)ギャップを埋める。 特に,sbirモデルのスケッチ枝とフォト枝の両方に独立したプロンプトを行い,クリップの一般化能力の裏面に高度に一般化可能なスケッチとフォトエンコーダを構築する。 次に、検出されたボックスの領域埋め込みがSBIRのスケッチや写真埋め込みと一致するように、学習したエンコーダをオブジェクト検出に適用する訓練パラダイムを考案する。 pascal-voc や ms-coco のような標準オブジェクト検出データセットのフレームワークの評価は、ゼロショット設定での supervised (sod) と weakly supervised object detector (wsod) の両方よりも優れている。 プロジェクトページ: \url{https://pinakinathc.github.io/sketch-detect}

Sketches are highly expressive, inherently capturing subjective and fine-grained visual cues. The exploration of such innate properties of human sketches has, however, been limited to that of image retrieval. In this paper, for the first time, we cultivate the expressiveness of sketches but for the fundamental vision task of object detection. The end result is a sketch-enabled object detection framework that detects based on what \textit{you} sketch -- \textit{that} ``zebra'' (e.g., one that is eating the grass) in a herd of zebras (instance-aware detection), and only the \textit{part} (e.g., ``head" of a ``zebra") that you desire (part-aware detection). We further dictate that our model works without (i) knowing which category to expect at testing (zero-shot) and (ii) not requiring additional bounding boxes (as per fully supervised) and class labels (as per weakly supervised). Instead of devising a model from the ground up, we show an intuitive synergy between foundation models (e.g., CLIP) and existing sketch models build for sketch-based image retrieval (SBIR), which can already elegantly solve the task -- CLIP to provide model generalisation, and SBIR to bridge the (sketch$\rightarrow$photo) gap. In particular, we first perform independent prompting on both sketch and photo branches of an SBIR model to build highly generalisable sketch and photo encoders on the back of the generalisation ability of CLIP. We then devise a training paradigm to adapt the learned encoders for object detection, such that the region embeddings of detected boxes are aligned with the sketch and photo embeddings from SBIR. Evaluating our framework on standard object detection datasets like PASCAL-VOC and MS-COCO outperforms both supervised (SOD) and weakly-supervised object detectors (WSOD) on zero-shot setups. Project Page: \url{https://pinakinathc.github.io/sketch-detect}
翻訳日:2023-10-31 23:07:35 公開日:2023-10-28
# ゼロサムマルコフゲームにおける強化学習のための新しいポリシー反復アルゴリズム

A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum Markov Games ( http://arxiv.org/abs/2303.09716v4 )

ライセンス: Link先を確認
Anna Winnicki, R. Srikant(参考訳) 標準のMDPにおける最適ポリシーは、値反復またはポリシー反復のいずれかを使って得ることができる。 しかし、ゼロサムマルコフゲームの場合、効率的なポリシー反復アルゴリズムは存在しない。例えば、αが割引因子であるOmega(1/(1-alpha))のMDPを解いて、唯一知られているポリシー反復の収束版を実装する必要があることが示されている。 ナイーブポリシー反復と呼ばれる別のアルゴリズムは実装が容易であるが、非常に限定的な仮定の下では証明可能な収束性しか持たない。 単純ポリシー反復アルゴリズムの修正の試みにはいくつかの制限がある。 ここでは,ゲームに対するナイーブなポリシー反復の簡単な変形が指数関数的に速く収束することを示す。 我々が政策反復を示唆するために提案する唯一の追加は、実際的なアルゴリズムで使われているルックアヘッドポリシーを使うことである。 さらに,よく研究されている線形mdpに対応する線形マルコフゲームの関数近似設定において,lookaheadを効率的に実装できることを示した。 本稿では、ポリシーベースのrl(reinforcement learning)アルゴリズムの境界を提供することにより、このアルゴリズムの適用例を示す。 結果は関数近似設定に拡張する。

Optimal policies in standard MDPs can be obtained using either value iteration or policy iteration. However, in the case of zero-sum Markov games, there is no efficient policy iteration algorithm; e.g., it has been shown that one has to solve Omega(1/(1-alpha)) MDPs, where alpha is the discount factor, to implement the only known convergent version of policy iteration. Another algorithm, called naive policy iteration, is easy to implement but is only provably convergent under very restrictive assumptions. Prior attempts to fix naive policy iteration algorithm have several limitations. Here, we show that a simple variant of naive policy iteration for games converges exponentially fast. The only addition we propose to naive policy iteration is the use of lookahead policies, which are anyway used in practical algorithms. We further show that lookahead can be implemented efficiently in the function approximation setting of linear Markov games, which are the counterpart of the much-studied linear MDPs. We illustrate the application of our algorithm by providing bounds for policy-based RL (reinforcement learning) algorithms. We extend the results to the function approximation setting.
翻訳日:2023-10-31 23:06:13 公開日:2023-10-28
# より良い交通量推定に向けて:相関適応型GNNによる下決定問題と非平衡問題に共同で取り組む

Towards better traffic volume estimation: Jointly addressing the underdetermination and nonequilibrium problems with correlation-adaptive GNNs ( http://arxiv.org/abs/2303.05660v3 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Yunpeng Wang, Jian Sun(参考訳) 交通量は交通管理と制御のためにきめ細かい情報を提供するのに欠かせない要素である。 しかし、交通センサの配備が限られているため、本格的なボリューム情報を得ることは容易ではない。 このトピックに関する既存の研究は、主に特定のメソッドの全体的な推定精度の改善に焦点をあて、ボリューム推定の根本的な課題を無視し、いくつかの重要なタスクにおいて性能が劣る。 本稿では, 交通量推定に関する2つの重要な問題について考察する。(1) 未検出運動による交通流の過小評価, (2) 渋滞伝播による非平衡交通流。 本稿では,上記の問題に対処し,ネットワーク全体のトラフィック量推定を高精度に行うために,データ駆動型,モデルフリー,相関適応アプローチを提供するグラフベースのディープラーニング手法を提案する。 特に、未決定フローの推定における交通速度とボリュームの動的および非線形な関係を定量化するために、グラフアテンションに基づく速度パターン適応隣接行列を開発し、グラフ畳み込みプロセスに統合し、センサ間の非局所的相関を捉える。 非平衡流の影響を測定するため、上流と下流のセンサ間の時間-非同期相関を捉えるために、仮面とクリップされた注意をゲート時間畳み込み層と組み合わせてカスタマイズする。 次に、実世界の高速道路交通量データセットでモデルを評価し、いくつかのベンチマークモデルと比較する。 提案モデルでは,センサのカバレッジ率20%以下でも高い推定精度を達成し,他のベースライン,特に過度に決定された非平衡フロー位置において有意に性能を向上することを示した。 さらに,モデル設計を正当化するために,包括的定量的モデル解析を行った。

Traffic volume is an indispensable ingredient to provide fine-grained information for traffic management and control. However, due to limited deployment of traffic sensors, obtaining full-scale volume information is far from easy. Existing works on this topic primarily focus on improving the overall estimation accuracy of a particular method and ignore the underlying challenges of volume estimation, thereby having inferior performances on some critical tasks. This paper studies two key problems with regard to traffic volume estimation: (1) underdetermined traffic flows caused by undetected movements, and (2) non-equilibrium traffic flows arise from congestion propagation. Here we demonstrate a graph-based deep learning method that can offer a data-driven, model-free and correlation adaptive approach to tackle the above issues and perform accurate network-wide traffic volume estimation. Particularly, in order to quantify the dynamic and nonlinear relationships between traffic speed and volume for the estimation of underdetermined flows, a speed patternadaptive adjacent matrix based on graph attention is developed and integrated into the graph convolution process, to capture non-local correlations between sensors. To measure the impacts of non-equilibrium flows, a temporal masked and clipped attention combined with a gated temporal convolution layer is customized to capture time-asynchronous correlations between upstream and downstream sensors. We then evaluate our model on a real-world highway traffic volume dataset and compare it with several benchmark models. It is demonstrated that the proposed model achieves high estimation accuracy even under 20% sensor coverage rate and outperforms other baselines significantly, especially on underdetermined and non-equilibrium flow locations. Furthermore, comprehensive quantitative model analysis are also carried out to justify the model designs.
翻訳日:2023-10-31 23:05:13 公開日:2023-10-28
# Cal-QL: 効率的なオンラインファインチューニングのためのオフラインRL事前トレーニング

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning ( http://arxiv.org/abs/2303.05479v3 )

ライセンス: Link先を確認
Mitsuhiko Nakamoto, Yuexiang Zhai, Anikait Singh, Max Sobol Mark, Yi Ma, Chelsea Finn, Aviral Kumar, Sergey Levine(参考訳) オフライン強化学習(rl)の説得力のあるユースケースは、既存のデータセットからのポリシー初期化と、限られたインタラクションによる高速なオンライン微調整だ。 しかし、既存のオフラインrlメソッドは微調整時に振る舞う傾向がある。 本稿では,オフラインデータから効果的な初期化を学習する手法を考案し,高速なオンライン微調整機能を実現する。 本手法は,オフラインデータから学習ポリシーの価値を過小評価すると共に,学習されたQ-値が妥当な規模であるという意味で校正される保守的値関数初期化を学習することにより,これを達成している。 この性質をキャリブレーション(キャリブレーション)と呼び、学習されたポリシーの真値関数に対する下限と、単に振舞いポリシーであるかもしれない他の(最適でない)参照ポリシーの値に対する上限を正式に定義する。 このような校正値関数を学習するオフラインRLアルゴリズムは、オンラインの微調整を効果的に行うことができ、オンラインの微調整におけるオフライン初期化の利点を享受できることを示す。 実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。 経験的に、cal-qlは、本論文で研究した9/11の微調整ベンチマークタスクで最先端のメソッドを上回る。 コードとビデオはhttps://nakamotoo.github.io/Cal-QLで公開されている。

A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets followed by fast online fine-tuning with limited interaction. However, existing offline RL methods tend to behave poorly during fine-tuning. In this paper, we devise an approach for learning an effective initialization from offline data that also enables fast online fine-tuning capabilities. Our approach, calibrated Q-learning (Cal-QL), accomplishes this by learning a conservative value function initialization that underestimates the value of the learned policy from offline data, while also being calibrated, in the sense that the learned Q-values are at a reasonable scale. We refer to this property as calibration, and define it formally as providing a lower bound on the true value function of the learned policy and an upper bound on the value of some other (suboptimal) reference policy, which may simply be the behavior policy. We show that offline RL algorithms that learn such calibrated value functions lead to effective online fine-tuning, enabling us to take the benefits of offline initializations in online fine-tuning. In practice, Cal-QL can be implemented on top of the conservative Q learning (CQL) for offline RL within a one-line code change. Empirically, Cal-QL outperforms state-of-the-art methods on 9/11 fine-tuning benchmark tasks that we study in this paper. Code and video are available at https://nakamotoo.github.io/Cal-QL
翻訳日:2023-10-31 23:04:39 公開日:2023-10-28
# 正当性, 誤り性, 外在性等式に関する一般理論

A General Theory of Correct, Incorrect, and Extrinsic Equivariance ( http://arxiv.org/abs/2303.04745v2 )

ライセンス: Link先を確認
Dian Wang, Xupeng Zhu, Jung Yeon Park, Mingxi Jia, Guanang Su, Robert Platt, Robin Walters(参考訳) 等価な機械学習は多くのタスクで有効であることが証明されているが、成功は、同変ニューラルネットワークの対称性に一致する領域全体に基底真理関数が対称であるという仮定に大きく依存している。 同変学習文献の欠片は、対称性が領域内にのみ存在するときの同変ネットワークの分析である。 本研究では,そのような状況に対する一般的な理論を示す。 関数が表示する各種類の等分散の程度を連続的に定量化できる、正、不正確、極値等分散のポイントワイズ定義を提案する。 次に, モデル誤差に対する不正確な, 極端な対称性の影響について検討した。 部分的不正確な対称性を持つ分類や回帰設定において、不変あるいは同変ネットワークに対する誤差の低い境界を証明した。 また、外因性同値の潜在的有害効果も分析した。 実験は3つの異なる環境でこれらの結果を検証する。

Although equivariant machine learning has proven effective at many tasks, success depends heavily on the assumption that the ground truth function is symmetric over the entire domain matching the symmetry in an equivariant neural network. A missing piece in the equivariant learning literature is the analysis of equivariant networks when symmetry exists only partially in the domain. In this work, we present a general theory for such a situation. We propose pointwise definitions of correct, incorrect, and extrinsic equivariance, which allow us to quantify continuously the degree of each type of equivariance a function displays. We then study the impact of various degrees of incorrect or extrinsic symmetry on model error. We prove error lower bounds for invariant or equivariant networks in classification or regression settings with partially incorrect symmetry. We also analyze the potentially harmful effects of extrinsic equivariance. Experiments validate these results in three different environments.
翻訳日:2023-10-31 23:03:55 公開日:2023-10-28
# imagenet の敵対的トレーニングの再検討 - 脅威モデル間のアーキテクチャ,トレーニング,一般化

Revisiting Adversarial Training for ImageNet: Architectures, Training and Generalization across Threat Models ( http://arxiv.org/abs/2303.01870v2 )

ライセンス: Link先を確認
Naman D Singh, Francesco Croce, Matthias Hein(参考訳) ResNetアーキテクチャやCIFARのような低解像度データセットのために、敵のトレーニングが広く研究されているが、ImageNetではあまり知られていない。 トランスフォーマーがconvnetよりも堅牢であるかどうかという最近の議論を踏まえて,vitsとconvnextsを比較したimagenetの敵対的トレーニングを再検討する。 大規模な実験は、アーキテクチャの小さな変更、特にPatchStemをConvStemに置き換えること、およびトレーニングスキームが達成された堅牢性に大きな影響を与えることを示している。 これらの変更によって$\ell_\infty$-threatモデルでの堅牢性が向上するだけでなく、$\ell_1/\ell_2$-attacksの一般化が改善される。 私たちの修正されたconvnext、convnext + convstemは、モデルパラメータとフロップのさまざまな範囲にわたって最も堅牢な$\ell_\infty$-モデルを生成します。

While adversarial training has been extensively studied for ResNet architectures and low resolution datasets like CIFAR, much less is known for ImageNet. Given the recent debate about whether transformers are more robust than convnets, we revisit adversarial training on ImageNet comparing ViTs and ConvNeXts. Extensive experiments show that minor changes in architecture, most notably replacing PatchStem with ConvStem, and training scheme have a significant impact on the achieved robustness. These changes not only increase robustness in the seen $\ell_\infty$-threat model, but even more so improve generalization to unseen $\ell_1/\ell_2$-attacks. Our modified ConvNeXt, ConvNeXt + ConvStem, yields the most robust $\ell_\infty$-models across different ranges of model parameters and FLOPs, while our ViT + ConvStem yields the best generalization to unseen threat models.
翻訳日:2023-10-31 23:01:09 公開日:2023-10-28
# UCF: 一般化可能なディープフェイク検出のための共通機能を明らかにする

UCF: Uncovering Common Features for Generalizable Deepfake Detection ( http://arxiv.org/abs/2304.13949v2 )

ライセンス: Link先を確認
Zhiyuan Yan, Yong Zhang, Yanbo Fan, Baoyuan Wu(参考訳) ディープフェイク検出は、新しいタイプの偽造物への一般化が困難であるため、依然として困難な課題である。 この問題は、主に既存の検出手法の過剰適合から、偽りのない特徴やメソッド固有のパターンに起因している。 後者は研究されることはめったになく、以前の作品ではうまく扱っていない。 本稿では,2種類のオーバーフィッティング問題に共通の偽造特徴を明らかにすることによって対処する手法を提案する。 具体的には、まず、画像情報を3つの異なる要素(forgery-irrelevant、method-specific forgery、common forgery)に分解する異角化フレームワークを提案する。 メソッド固有の一般的な偽造特徴の分離を確保するために、偽造方法のカテゴリを予測するマルチクラス分類と、実と偽物とを区別するバイナリ分類を含むマルチタスク学習戦略を採用する。 さらに、条件付きデコーダは、forgery-unrelevant featuresと共に条件としてforgery機能を利用するように設計され、再構成された画像を生成する。 さらに, 共通および特異な偽造特徴の絡み合いを促進するために, 対照的な正則化手法を提案する。 最終的には、一般化可能なディープフェイク検出のためにのみ、一般的な偽造機能を利用する。 広範な評価は、現在の最先端メソッドよりも優れた一般化を実現することができることを示した。

Deepfake detection remains a challenging task due to the difficulty of generalizing to new types of forgeries. This problem primarily stems from the overfitting of existing detection methods to forgery-irrelevant features and method-specific patterns. The latter has been rarely studied and not well addressed by previous works. This paper presents a novel approach to address the two types of overfitting issues by uncovering common forgery features. Specifically, we first propose a disentanglement framework that decomposes image information into three distinct components: forgery-irrelevant, method-specific forgery, and common forgery features. To ensure the decoupling of method-specific and common forgery features, a multi-task learning strategy is employed, including a multi-class classification that predicts the category of the forgery method and a binary classification that distinguishes the real from the fake. Additionally, a conditional decoder is designed to utilize forgery features as a condition along with forgery-irrelevant features to generate reconstructed images. Furthermore, a contrastive regularization technique is proposed to encourage the disentanglement of the common and specific forgery features. Ultimately, we only utilize the common forgery features for the purpose of generalizable deepfake detection. Extensive evaluations demonstrate that our framework can perform superior generalization than current state-of-the-art methods.
翻訳日:2023-10-31 22:53:52 公開日:2023-10-28
# OpenLane-V2: 統一3DHDマッピングのためのトポロジ推論ベンチマーク

OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping ( http://arxiv.org/abs/2304.10440v3 )

ライセンス: Link先を確認
Huijie Wang, Tianyu Li, Yang Li, Li Chen, Chonghao Sima, Zhenbo Liu, Bangjun Wang, Peijin Jia, Yuting Wang, Shengyin Jiang, Feng Wen, Hang Xu, Ping Luo, Junchi Yan, Wei Zhang, Hongyang Li(参考訳) 複雑な交通状況を正確に描写することは、自動運転車が正しい判断を行うための重要な要素である。 しかし、既存のベンチマークはレーン知覚タスクのみに焦点を当ててシーンを単純化する傾向がある。 人間の運転者が車線と交通信号の両方に依存して車両を安全に運転することを観察し、交通シーン構造のトポロジー推論に関する最初のデータセットであるopenlane-v2を提示する。 提案したデータセットは,交通要素や車線などの知覚的実体間の関係を調べることにより,道路景観の構造を理解するための研究を進めることを目的としている。 既存のデータセットを活用して、openlane-v2は2000の注釈付き道路シーンで構成され、トラフィック要素とそのレーンとの相関を記述している。 openlaneから受け継いだ3dレーン検出を含む3つの主要なサブタスクと、モデルのパフォーマンスを評価するための対応するメトリクスで構成されている。 様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。

Accurately depicting the complex traffic scene is a vital component for autonomous vehicles to execute correct judgments. However, existing benchmarks tend to oversimplify the scene by solely focusing on lane perception tasks. Observing that human drivers rely on both lanes and traffic signals to operate their vehicles safely, we present OpenLane-V2, the first dataset on topology reasoning for traffic scene structure. The objective of the presented dataset is to advance research in understanding the structure of road scenes by examining the relationship between perceived entities, such as traffic elements and lanes. Leveraging existing datasets, OpenLane-V2 consists of 2,000 annotated road scenes that describe traffic elements and their correlation to the lanes. It comprises three primary sub-tasks, including the 3D lane detection inherited from OpenLane, accompanied by corresponding metrics to evaluate the model's performance. We evaluate various state-of-the-art methods, and present their quantitative and qualitative results on OpenLane-V2 to indicate future avenues for investigating topology reasoning in traffic scenes.
翻訳日:2023-10-31 22:52:54 公開日:2023-10-28
# マルチモーダルc4:テキストとインターリーブされた10億規模の画像コーパス

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text ( http://arxiv.org/abs/2304.06939v3 )

ライセンス: Link先を確認
Wanrong Zhu and Jack Hessel and Anas Awadalla and Samir Yitzhak Gadre and Jesse Dodge and Alex Fang and Youngjae Yu and Ludwig Schmidt and William Yang Wang and Yejin Choi(参考訳) コンテキスト内ビジョンとflamingoのような言語モデルは、入力として画像とテキストの任意にインターリーブされたシーケンスをサポートする。 このフォーマットは、独立した教師付き(画像、テキスト)例をインターリーブすることで、少数のショット学習を可能にするだけでなく、画像間のインタラクションを含むより複雑なプロンプト、例えば「画像aと画像bの共通点は何か? このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 しかし、現在までこの形式の大規模データは公開されていない。 画像がインターリーブされた人気テキスト専用C4コーパスの拡張であるMultimodal C4をリリースする。 線形代入アルゴリズムを用いて、CLIP機能を用いて、画像の長文体への配置を行う。 マルチモーダルC4は、料理、旅行、技術などの日常的なトピックにまたがる。 ランダムな文書のサンプルを手作業で検査すると、画像の大多数(88%)が局所的に関連しており、線形代入が各画像(80%)に特によく一致する個々の文を頻繁に選択する。 NSFW画像や広告等をフィルタリングした後、得られたコーパスは101.2Mの文書からなり、43Bの英語トークンに571Mの画像をインターリーブした。

In-context vision and language models like Flamingo support arbitrarily interleaved sequences of images and text as input. This format not only enables few-shot learning via interleaving independent supervised (image, text) examples, but also, more complex prompts involving interaction between images, e.g., "What do image A and image B have in common?" To support this interface, pretraining occurs over web corpora that similarly contain interleaved images+text. To date, however, large-scale data of this form have not been publicly available. We release Multimodal C4, an augmentation of the popular text-only C4 corpus with images interleaved. We use a linear assignment algorithm to place images into longer bodies of text using CLIP features, a process that we show outperforms alternatives. Multimodal C4 spans everyday topics like cooking, travel, technology, etc. A manual inspection of a random sample of documents shows that a vast majority (88%) of images are topically relevant, and that linear assignment frequently selects individual sentences specifically well-aligned with each image (80%). After filtering NSFW images, ads, etc., the resulting corpus consists of 101.2M documents with 571M images interleaved in 43B English tokens.
翻訳日:2023-10-31 22:51:45 公開日:2023-10-28
# 非エルミート多体ランダウ・ツェナー系の量子力学

Quantum dynamics of non-Hermitian many-body Landau-Zener systems ( http://arxiv.org/abs/2304.03471v3 )

ライセンス: Link先を確認
Rajesh K. Malla, Julia Cen, Wilton J. M. Kort-Kamp, Avadh Saxena(参考訳) 線形駆動非エルミート量子系を大規模に解く枠組みを開発した。 エルミティアのシナリオにおけるそのようなモデルのクラスは、一般的には多状態ランダウ・ツェナーモデルとして知られている。 非エルミティシティは、ダイアバティックレベル間の反エルミティアン結合に起因する。 我々は、非正規化波動関数の同時成長を記述するこの種類のモデルに特有の新しい保存則が存在することを発見した。 これらのモデルはボース=アインシュタイン凝縮に応用され、多種ボソニック系のダイナミクスを記述することができる。 保存法則は二原子分子の原子への解離を説明する対生成機構に関係している。 可解かつ半古典的可解な非エルミート的ランダウ・ツェナーモデルに対する一般的な枠組みを提供する。 我々の発見は、時間依存の非エルミート量子系における様々な創発現象の新しい道を開く。

We develop a framework to solve a large class of linearly driven non-Hermitian quantum systems. Such a class of models in the Hermitian scenario is commonly known as multi-state Landau-Zener models. The non-hermiticity is due to the anti-Hermitian couplings between the diabatic levels. We find that there exists a new conservation law, unique to this class of models, that describes the simultaneous growth of the unnormalized wavefunctions. These models have practical applications in Bose-Einstein condensates, and they can describe the dynamics of multi-species bosonic systems. The conservation law relates to a pair-production mechanism that explains the dissociation of diatomic molecules into atoms. We provide a general framework for both solvable and semiclassically solvable non-Hermitian Landau-Zener models. Our findings will open new avenues for a number of diverse emergent phenomena in explicitly time-dependent non-Hermitian quantum systems.
翻訳日:2023-10-31 22:51:08 公開日:2023-10-28
# 周波数誘導拡散モデルによるゼロショット医用画像翻訳

Zero-shot Medical Image Translation via Frequency-Guided Diffusion Models ( http://arxiv.org/abs/2304.02742v3 )

ライセンス: Link先を確認
Yunxiang Li, Hua-Chieh Shao, Xiao Liang, Liyuan Chen, Ruiqi Li, Steve Jiang, Jing Wang, You Zhang(参考訳) 近年、拡散モデルは高品質で現実的な画像を生成できる優れた生成モデルとして登場している。 しかし, 医学的画像翻訳では, 原産地画像の構造詳細は前方拡散過程中に失われ, 学習された逆拡散により完全には回復できないため, 既存の拡散モデルでは構造情報の保持が不十分であり, 解剖学的構造の完全性は医療画像において極めて重要である。 例えば、画像翻訳の誤りは、構造や腫瘍を歪ませたり、変化させたり、あるいは取り除いたりすることがあり、誤った診断や不適切な治療につながる。 ペア化されたソースとターゲット画像を用いたトレーニングと条件付き拡散モデルは、解剖学的に一致する。 しかしながら、このようなペアデータを得るのは非常に困難でコストがかかるため、分散テストデータに対する先進モデルの堅牢性も低下する可能性がある。 構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。 その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングすることができ、トレーニング中にソースドメインデータに露出することなく、直接ソースからターゲットドメインへの変換に使用できる。 解剖学的部位の3つのCT(CBCT)翻訳タスクとMR画像の相互変換タスクについて検討した。 FGDMはFrechet Inception Distance(FID)、Peak Signal-to-Noise Ratio(PSNR)、Structuor similarity Index Measure(SSIM)のメトリクスにおいて最先端の手法(GANベース、VAEベース、拡散ベース)よりも優れており、ゼロショット画像翻訳においてその大きな利点を示している。

Recently, the diffusion model has emerged as a superior generative model that can produce high quality and realistic images. However, for medical image translation, the existing diffusion models are deficient in accurately retaining structural information since the structure details of source domain images are lost during the forward diffusion process and cannot be fully recovered through learned reverse diffusion, while the integrity of anatomical structures is extremely important in medical images. For instance, errors in image translation may distort, shift, or even remove structures and tumors, leading to incorrect diagnosis and inadequate treatments. Training and conditioning diffusion models using paired source and target images with matching anatomy can help. However, such paired data are very difficult and costly to obtain, and may also reduce the robustness of the developed model to out-of-distribution testing data. We propose a frequency-guided diffusion model (FGDM) that employs frequency-domain filters to guide the diffusion model for structure-preserving image translation. Based on its design, FGDM allows zero-shot learning, as it can be trained solely on the data from the target domain, and used directly for source-to-target domain translation without any exposure to the source-domain data during training. We evaluated it on three cone-beam CT (CBCT)-to-CT translation tasks for different anatomical sites, and a cross-institutional MR imaging translation task. FGDM outperformed the state-of-the-art methods (GAN-based, VAE-based, and diffusion-based) in metrics of Frechet Inception Distance (FID), Peak Signal-to-Noise Ratio (PSNR), and Structural Similarity Index Measure (SSIM), showing its significant advantages in zero-shot medical image translation.
翻訳日:2023-10-31 22:50:17 公開日:2023-10-28
# 大規模マルチモーダル基礎モデルのパラメータ効率チューニング

Parameter-efficient Tuning of Large-scale Multimodal Foundation Model ( http://arxiv.org/abs/2305.08381v3 )

ライセンス: Link先を確認
Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun Zhang, Xiao Luo, Qi Tian(参考訳) 大規模事前学習の進展により、パラメーター効率の高い転送学習は、さまざまな人工知能サブフィールドで大きな人気を集めている。 コアとなるのは、小さなパラメータセットだけで下流タスクにモデルを適応させることである。 近年,このような手法をマルチモーダルタスクに活用し,有望な結果を得た。 しかし、2つの重要な問題は未解決のままである: 軽量設計の複雑さをさらに減らす方法と、非常に低いパラメータの下でのモード間のアライメントを強化する方法である。 本稿では,これらの課題を克服するために,クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。 既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1mのトレーニング可能なパラメータを生成し、事前学習モデルの0.04%のパラメータしか持たない低固有次元を探索するマルチモーダルプロンプトチューニングを実装する。 そこで本研究では,非常に少ないパラメータシーン下でのInformative Context Enhancement and Gated Query Transformationモジュールを提案する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端だけでなく、完全な微調整アプローチよりも優れていることを示している。 私たちのコードは、https://github.com/WillDreamer/Aurora.comで利用可能です。

Driven by the progress of large-scale pre-training, parameter-efficient transfer learning has gained immense popularity across different subfields of Artificial Intelligence. The core is to adapt the model to downstream tasks with only a small set of parameters. Recently, researchers have leveraged such proven techniques in multimodal tasks and achieve promising results. However, two critical issues remain unresolved: how to further reduce the complexity with lightweight design and how to boost alignment between modalities under extremely low parameters. In this paper, we propose A graceful prompt framework for cross-modal transfer (Aurora) to overcome these challenges. Considering the redundancy in existing architectures, we first utilize the mode approximation to generate 0.1M trainable parameters to implement the multimodal prompt tuning, which explores the low intrinsic dimension with only 0.04% parameters of the pre-trained model. Then, for better modality alignment, we propose the Informative Context Enhancement and Gated Query Transformation module under extremely few parameters scenes. A thorough evaluation on six cross-modal benchmarks shows that it not only outperforms the state-of-the-art but even outperforms the full fine-tuning approach. Our code is available at: https://github.com/WillDreamer/Aurora.
翻訳日:2023-10-31 22:41:39 公開日:2023-10-28
# CLIPトレーニングにおける逆スケーリング法

An Inverse Scaling Law for CLIP Training ( http://arxiv.org/abs/2305.07017v2 )

ライセンス: Link先を確認
Xianhang Li, Zeyu Wang, Cihang Xie(参考訳) 画像とテキストを接続する先駆的な基盤モデルの1つであるCLIPは、コンピュータビジョンにおける最近のブレークスルーを可能にした。 しかし、それに伴う訓練費は禁止的に高く、広範な探検の障壁となっている。 本稿では,CLIPトレーニングの逆スケーリング法が存在し,画像/テキストエンコーダが大きいほど,トレーニングに応用可能な画像/テキストトークンのシーケンス長が短くなる,という驚くべき発見を示す。 さらに,画像/テキストトークン長の削減戦略が,このスケーリング則の品質を決定する上で重要な役割を担っていることを示す。 この結果,計算資源が限られている場合でも,CLIPをうまく訓練できることがわかった。 例えば、私たちのCLIPモデルは8つのA100 GPUを使用して、0ショットのトップ-1 ImageNet-1kアキュラシーーを約2日間で63.2%、約3日間で67.8%、約4日間で69.3%を達成する。 G/14では、ImageNet-1kゼロショットの精度が83.0%の新しいレコードを登録し、OpenCLIPと比較して約33倍のトレーニングを加速します。 CLIPに関連する計算障壁を減らすことで、この分野、特に学者からより多くの研究を刺激したいと思っています。 私たちのコードはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。

CLIP, one of the pioneering foundation models that connect images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even with limited computational resources. For example, using 8 A100 GPUs, our CLIP models achieve zero-shot top-1 ImageNet-1k accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. Our method also works well when scaling up -- with G/14, we register a new record of 83.0% ImageNet-1k zero-shot accuracy, and meanwhile accelerate the training by ~33x compared to its OpenCLIP counterpart. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
翻訳日:2023-10-31 22:40:43 公開日:2023-10-28
# 弱教師付き意味セグメンテーションのためのsegment anything model (sam)拡張擬似ラベル

Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.05803v3 )

ライセンス: Link先を確認
Tianle Chen, Zheda Mai, Ruiwen Li, Wei-lun Chao(参考訳) 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、画像レベルのアノテーションのみを使用することで、精細なピクセルレベルのアノテーションの必要性を回避することを目的としている。 既存の手法の多くは、ピクセルレベルの擬似ラベルを導出し、完全に教師付きセマンティクスセグメンテーションモデルを訓練するためにクラスアクティベーションマップ(cam)に依存している。 これらの擬似ラベルはクラスアウェアであり、特定のクラスの粗い領域を示すが、オブジェクトアウェアではなく、正確なオブジェクト境界を記述できない。 そこで本研究では,Segment Anything Model(SAM)を用いて,オブジェクト,部品,サブ部品のきめ細かいインスタンスマスクを生成可能な,クラスに依存しない基礎モデルを提案する。 我々は CAM 擬似ラベルを SAM マスクの選択と組み合わせに用い,その結果,クラス認識とオブジェクト認識の両方の高品質な擬似ラベルが得られる。 我々のアプローチは非常に多用途であり、変更することなく既存のWSSSメソッドに簡単に統合できる。 その単純さにもかかわらず、当社の手法はPASCAL VOCとMS-COCOの両方のデータセット上で、最先端のWSSS手法よりも一貫した利得を示している。

Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.
翻訳日:2023-10-31 22:39:03 公開日:2023-10-28
# 木構造を統一した非自己回帰問題解法

Non-Autoregressive Math Word Problem Solver with Unified Tree Structure ( http://arxiv.org/abs/2305.04556v2 )

ライセンス: Link先を確認
Yi Bin, Mengqun Han, Wenhao Shi, Lei Wang, Yang Yang, See-Kiong Ng, Heng Tao Shen(参考訳) 既存のMWPソルバは、与えられた問題記述から解表現をデコードするためにシーケンスまたはバイナリツリーを使用している。 しかし、そのような構造は数学的操作によって導出できる変種を扱えず、例えば $(a_1+a_2) * a_3$ と $a_1 * a_3+a_2 * a_3$ はどちらも同じ問題に対して有効な解となり得るが、異なる式列や木として定式化できる。 同じ入力問題に対する異なる解決手順を示す複数の解の変種は、以下の2つの問題を提起する。 1)モデルが入力空間と出力空間の間のマッピング関数を効果的に学習することを困難にし、 2) 有効な式 variant を評価するときに、誤って \textit{wrong} を示す。 これらの問題に対処するために、各要素は置換可能であり、全ての表現変種と同一である解表現を示す統合ツリー構造を導入する。 そこで我々は,この問題を解析し,統一木に基づいて解表現を導出するために,新しい非自己回帰解法である「textit{MWP-NAS}」を提案する。 可能な表現の変種を評価するため,統一木の表現の部分的精度を評価するパスベースの指標を設計する。 Math23K と MAWPS を用いた大規模な実験の結果,提案したMWP-NAS の有効性が示された。 コードとチェックポイントは: \url{https://github.com/mengqunhan/MWP-NAS}.

Existing MWP solvers employ sequence or binary tree to present the solution expression and decode it from given problem description. However, such structures fail to handle the variants that can be derived via mathematical manipulation, e.g., $(a_1+a_2) * a_3$ and $a_1 * a_3+a_2 * a_3$ can both be possible valid solutions for a same problem but formulated as different expression sequences or trees. The multiple solution variants depicting different possible solving procedures for the same input problem would raise two issues: 1) making it hard for the model to learn the mapping function between the input and output spaces effectively, and 2) wrongly indicating \textit{wrong} when evaluating a valid expression variant. To address these issues, we introduce a unified tree structure to present a solution expression, where the elements are permutable and identical for all the expression variants. We propose a novel non-autoregressive solver, named \textit{MWP-NAS}, to parse the problem and deduce the solution expression based on the unified tree. For evaluating the possible expression variants, we design a path-based metric to evaluate the partial accuracy of expressions of a unified tree. The results from extensive experiments conducted on Math23K and MAWPS demonstrate the effectiveness of our proposed MWP-NAS. The codes and checkpoints are available at: \url{https://github.com/mengqunhan/MWP-NAS}.
翻訳日:2023-10-31 22:38:33 公開日:2023-10-28
# 翻訳に基づくアライメントによる視覚・言語モデルのパラメータ効率の良い言語間移動

Parameter-Efficient Cross-lingual Transfer of Vision and Language Models via Translation-based Alignment ( http://arxiv.org/abs/2305.03510v2 )

ライセンス: Link先を確認
Zhen Zhang, Jialu Wang, Xin Eric Wang(参考訳) CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。 他の言語をサポートするためにCLIPを拡張しようとする最近の取り組みにもかかわらず、リソースの不均一さのため、さまざまな言語のパフォーマンスの相違が観測されている。 さらに、これらの事前学習されたモデルの現在の言語間転送方法は、多くの言語で過剰なリソースを消費する。 そこで本研究では,多言語間差を緩和する翻訳に基づくアライメント手法を用いて,パラメータ効率の高い多言語間移動のためのパラメータ効率の微調整手法を提案する。 Extensive experiments on XTD and Multi30K datasets, covering 11 languages under zero-shot, few-shot, and full-dataset learning scenarios, show that our framework significantly reduces the multilingual disparities among languages and improves cross-lingual transfer results, especially in low-resource scenarios, while only keeping and fine-tuning an extremely small number of parameters compared to the full model (e.g., Our framework only requires 0.16\% additional parameters of a full-model for each language in the few-shot learning scenario). コードは \url{https://github.com/eric-ai-lab/pectvlm} で入手できる。 コードは \url{https://github.com/eric-ai-lab/pectvlm} で入手できる。

Pre-trained vision and language models such as CLIP have witnessed remarkable success in connecting images and texts with a primary focus on English texts. Despite recent efforts to extend CLIP to support other languages, disparities in performance among different languages have been observed due to uneven resource availability. Additionally, current cross-lingual transfer methods of those pre-trained models would consume excessive resources for a large number of languages. Therefore, we propose a new parameter-efficient cross-lingual transfer learning framework that utilizes a translation-based alignment method to mitigate multilingual disparities and explores parameter-efficient fine-tuning methods for parameter-efficient cross-lingual transfer. Extensive experiments on XTD and Multi30K datasets, covering 11 languages under zero-shot, few-shot, and full-dataset learning scenarios, show that our framework significantly reduces the multilingual disparities among languages and improves cross-lingual transfer results, especially in low-resource scenarios, while only keeping and fine-tuning an extremely small number of parameters compared to the full model (e.g., Our framework only requires 0.16\% additional parameters of a full-model for each language in the few-shot learning scenario). The codes are available at \url{https://github.com/eric-ai-lab/PECTVLM}. The codes are available at \url{https://github.com/eric-ai-lab/PECTVLM}.
翻訳日:2023-10-31 22:38:08 公開日:2023-10-28
# フェデレーションラーニングとO-RANの相乗効果:マルチ分散機械学習サービスのためのElastic Virtualized Architectureを目指して

Synergies Between Federated Learning and O-RAN: Towards an Elastic Virtualized Architecture for Multiple Distributed Machine Learning Services ( http://arxiv.org/abs/2305.02109v3 )

ライセンス: Link先を確認
Payam Abdisarabshali, Nicholas Accurso, Filippo Malandra, Weifeng Su, Seyyedali Hosseinalipour(参考訳) フェデレートラーニング(FL)は、最も人気のある分散機械学習技術である。 しかし、現代の無線ネットワーク上でのFLの実装は、大きな課題に直面している。 (i)ネットワーク状態のダイナミクス及び (ii)先行研究では考慮されていない複数のflサービス/タスクとシステム内の他のネットワークサービスの共存。 これらの課題に乗じて,動的マルチサービスFL(DMS-FL)と呼ばれるNextGネットワーク上の汎用FLパラダイムを導入する。 DMS-FLにおける3つの未探索設計事項を同定する。 (i)FLサービスオペレータの蓄積 (二)無線リソースの断片化、及び (iii)信号強度変動。 本稿では,新しい分散MLアーキテクチャである Elastic Virtualized FL (EV-FL) を提案する。 EV-FLはOpen RAN(O-RAN)システムの全可能性を解き放ち、FLサービスを実行するためのエラスティックリソースプロビジョニング手法を導入している。 さらに、既存のFLアーキテクチャに3次元を導入するマルチタイムのFL管理システムを構成する。 (i)仮想化 (ii)スケーラビリティ,及び (iii)弾力性。 EV-FLの調査を通じて,今後の研究の方向性を明らかにする。 最終的にEV-FLをシミュレートし、無線リソースの節約とFLサービスの公平性向上の可能性を実証した。

Federated learning (FL) is the most popular distributed machine learning technique. However, implementation of FL over modern wireless networks faces key challenges caused by (i) dynamics of the network conditions and (ii) the coexistence of multiple FL services/tasks and other network services in the system, which are not jointly considered in prior works. Motivated by these challenges, we introduce a generic FL paradigm over NextG networks, called dynamic multi-service FL (DMS-FL). We identify three unexplored design considerations in DMS-FL: (i) FL service operator accumulation, (ii) wireless resource fragmentation, and (iii) signal strength fluctuations. We take the first steps towards addressing these design considerations by proposing a novel distributed ML architecture called elastic virtualized FL (EV-FL). EV-FL unleashes the full potential of Open RAN (O-RAN) systems and introduces an elastic resource provisioning methodology to execute FL services. It further constitutes a multi-time-scale FL management system that introduces three dimensions into existing FL architectures: (i) virtualization, (ii) scalability, and (iii) elasticity. Through investigating EV-FL, we reveal a series of open research directions for future work. We finally simulate EV-FL to demonstrate its potential in saving wireless resources and increasing fairness among FL services.
翻訳日:2023-10-31 22:37:37 公開日:2023-10-28
# ドメイン非依存フーリエニューラル演算子

Domain Agnostic Fourier Neural Operators ( http://arxiv.org/abs/2305.00478v2 )

ライセンス: Link先を確認
Ning Liu, Siavash Jafarzadeh, Yue Yu(参考訳) フーリエニューラル作用素(FNO)は関数空間間の高非線形マッピングを学習することができ、近年、複雑な物理系の応答を学習するための一般的なツールとなっている。 しかし、精度と効率を向上させるため、FNOは矩形領域のモデリングに制限される高速フーリエ変換(FFT)に依存している。 このような制限を解除し、不規則なジオメトリとトポロジの変化を許容するために、不規則なジオメトリと進化するドメインを持つサロゲートを学習するための新しいニューラルネットワークアーキテクチャであるドメイン非依存のフーリエニューラル演算子(DAFNO)を導入する。 鍵となる考え方は、FNOの積分層アーキテクチャにスムーズな特性関数を組み込んで、FFTを活用して高速な計算を行うことである。 dafnoは,材料モデリングと翼シミュレーションの2つのベンチマークデータセットのベースラインニューラルオペレータモデルと比較して,最先端の精度を実現している。 トポロジー変化を伴う複雑な領域を扱う場合の dafno の能力と一般化性をさらに示すため, 脆性材料破壊進展問題を考える。 1つのトレーニングクラックシミュレーションサンプルだけで、DAFNOは訓練されたシナリオと全く異なるクラックパターンのロードシナリオに一般化可能である。 この論文に付随するコードとデータは、https://github.com/ningliu-iga/dafnoで入手できます。

Fourier neural operators (FNOs) can learn highly nonlinear mappings between function spaces, and have recently become a popular tool for learning responses of complex physical systems. However, to achieve good accuracy and efficiency, FNOs rely on the Fast Fourier transform (FFT), which is restricted to modeling problems on rectangular domains. To lift such a restriction and permit FFT on irregular geometries as well as topology changes, we introduce domain agnostic Fourier neural operator (DAFNO), a novel neural operator architecture for learning surrogates with irregular geometries and evolving domains. The key idea is to incorporate a smoothed characteristic function in the integral layer architecture of FNOs, and leverage FFT to achieve rapid computations, in such a way that the geometric information is explicitly encoded in the architecture. In our empirical evaluation, DAFNO has achieved state-of-the-art accuracy as compared to baseline neural operator models on two benchmark datasets of material modeling and airfoil simulation. To further demonstrate the capability and generalizability of DAFNO in handling complex domains with topology changes, we consider a brittle material fracture evolution problem. With only one training crack simulation sample, DAFNO has achieved generalizability to unseen loading scenarios and substantially different crack patterns from the trained scenario. Our code and data accompanying this paper are available at https://github.com/ningliu-iga/DAFNO.
翻訳日:2023-10-31 22:36:59 公開日:2023-10-28
# メカニスティック・インタプリタビリティのための自動回路発見に向けて

Towards Automated Circuit Discovery for Mechanistic Interpretability ( http://arxiv.org/abs/2304.14997v4 )

ライセンス: Link先を確認
Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adri\`a Garriga-Alonso(参考訳) かなりの努力と直感を通じて、近年のいくつかの研究は、トランスフォーマーモデルの非自明な振る舞いをリバースエンジニアリングした。 本論文は, 機械的な解釈過程を体系化する。 まず、研究者は望ましいモデル行動を引き起こすメトリクスとデータセットを選択する。 次に、アクティベーションパッチを適用して、どの抽象ニューラルネットワークユニットが動作に関与しているかを見つける。 調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。 プロセスのステップの1つを自動化し、モデルの計算グラフで指定された動作を実装する回路を識別する。 我々は,いくつかのアルゴリズムを提案し,それを検証するために先行する解釈可能性結果を再現する。 例えば、ACDCアルゴリズムは、GPT-2 Smallの回路で5/5のコンポーネントタイプを再発見し、グレーター・タン演算を計算した。 ACDCはGPT-2 Smallで32,000のエッジのうち68を選定した。 私たちのコードはhttps://github.com/ArthurConmy/Automatic-Circuit-Discoveryで公開されています。

Through considerable effort and intuition, several recent works have reverse-engineered nontrivial behaviors of transformer models. This paper systematizes the mechanistic interpretability process they followed. First, researchers choose a metric and dataset that elicit the desired model behavior. Then, they apply activation patching to find which abstract neural network units are involved in the behavior. By varying the dataset, metric, and units under investigation, researchers can understand the functionality of each component. We automate one of the process' steps: to identify the circuit that implements the specified behavior in the model's computational graph. We propose several algorithms and reproduce previous interpretability results to validate them. For example, the ACDC algorithm rediscovered 5/5 of the component types in a circuit in GPT-2 Small that computes the Greater-Than operation. ACDC selected 68 of the 32,000 edges in GPT-2 Small, all of which were manually found by previous work. Our code is available at https://github.com/ArthurConmy/Automatic-Circuit-Discovery.
翻訳日:2023-10-31 22:36:31 公開日:2023-10-28
# ガウス・シュタイン変分勾配のダイナミクス理解に向けて

Towards Understanding the Dynamics of Gaussian-Stein Variational Gradient Descent ( http://arxiv.org/abs/2305.14076v4 )

ライセンス: Link先を確認
Tianle Liu, Promit Ghosal, Krishnakumar Balasubramanian, Natesh S. Pillai(参考訳) Stein Variational Gradient Descent (SVGD) は非パラメトリック粒子に基づく決定論的サンプリングアルゴリズムである。 広く使われているにもかかわらず、SVGDの理論的性質の理解は依然として難しい問題である。 ガウス的対象からサンプリングする場合、二線型核を持つsvgdダイナミクスは初期化子がガウス的であればガウス的となる。 この事実に触発された我々は、ガウス-SVGDの詳細な理論的研究、すなわち、双線型核を通してガウス分布の族に投影されるSVGD、またはそれに相当するガウス変分推論(GVI)をSVGDで行う。 平均場PDEと離散粒子系の両方を考慮した完全な図形を示す。 ターゲットが強い対数対数の場合、平均場ガウス-SVGDダイナミクスはKL分散においてターゲットに最も近いガウス分布に線形に収束することが証明される。 有限粒子設定では、平均場極限への時間収束と、目標がガウス的である場合の平衡への時間収束の両方がある。 一般の場合、密度ベースおよび粒子ベースによるガウス-SVGDの実装を提案し、GVIの最近のアルゴリズムが、異なる視点から提案され、我々の統一フレームワークの特別なケースとして現れていることを示す。 興味深いことに、このフレームワークの新しい粒子ベースのインスタンスの1つは、既存のアプローチを経験的に上回っている。 その結果,SVGDとGVIの双方の理解を深める上で,具体的な貢献が得られた。

Stein Variational Gradient Descent (SVGD) is a nonparametric particle-based deterministic sampling algorithm. Despite its wide usage, understanding the theoretical properties of SVGD has remained a challenging problem. For sampling from a Gaussian target, the SVGD dynamics with a bilinear kernel will remain Gaussian as long as the initializer is Gaussian. Inspired by this fact, we undertake a detailed theoretical study of the Gaussian-SVGD, i.e., SVGD projected to the family of Gaussian distributions via the bilinear kernel, or equivalently Gaussian variational inference (GVI) with SVGD. We present a complete picture by considering both the mean-field PDE and discrete particle systems. When the target is strongly log-concave, the mean-field Gaussian-SVGD dynamics is proven to converge linearly to the Gaussian distribution closest to the target in KL divergence. In the finite-particle setting, there is both uniform in time convergence to the mean-field limit and linear convergence in time to the equilibrium if the target is Gaussian. In the general case, we propose a density-based and a particle-based implementation of the Gaussian-SVGD, and show that several recent algorithms for GVI, proposed from different perspectives, emerge as special cases of our unified framework. Interestingly, one of the new particle-based instance from this framework empirically outperforms existing approaches. Our results make concrete contributions towards obtaining a deeper understanding of both SVGD and GVI.
翻訳日:2023-10-31 22:29:43 公開日:2023-10-28
# Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセット3Dビジュアルグラウンド

Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans ( http://arxiv.org/abs/2305.13876v2 )

ライセンス: Link先を確認
Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe(参考訳) 本稿では,既存の3D画像グラウンドモデル,特に制限された3Dリソースの制約を克服し,特定の3Dデータセットに過度に適合する傾向を克服する,3Dシーンにおけるクロスデータセット視覚グラウンドの新たなタスクを提案する。 クロス3dvgを容易にするために、大規模な3dビジュアルグラウンドデータセットであるriareferを作成しました。 3RScanの1,380の屋内RGB-Dスキャンの中に、人間のアノテーションによる3Dオブジェクトの63万以上の多様な記述が含まれている。 ソース3dビジュアルグラウンドデータセットを用いてクロス3dvgモデルをトレーニングした後、ターゲットデータセット、例えば、異なるセンサー、3d再構築方法、言語アノテーションを使用して、ターゲットラベルなしで評価する。 3dデータセット間のギャップを埋めるように設計されたクリップベースのマルチビュー2dおよび3d統合により、確立された視覚接地モデルを用いて包括的な実験を行う。 クロス3dvgタスク。 (i)クロスデータセットの3Dビジュアルグラウンドは、データセット間の3Dデータと言語変異のため、単一のデータセットによる学習や評価よりも大幅にパフォーマンスが低下する。 さらに 2) オブジェクト検出器とローカライゼーションモジュールの改善,3DデータとマルチビューCLIPベースの画像特徴の融合により,この低性能を緩和できる。 私たちのCross3DVGタスクは、深い言語理解を活用しながら、多様な3Dシーンを処理する堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供することができる。

We present a novel task for cross-dataset visual grounding in 3D scenes (Cross3DVG), which overcomes limitations of existing 3D visual grounding models, specifically their restricted 3D resources and consequent tendencies of overfitting a specific 3D dataset. We created RIORefer, a large-scale 3D visual grounding dataset, to facilitate Cross3DVG. It includes more than 63k diverse descriptions of 3D objects within 1,380 indoor RGB-D scans from 3RScan, with human annotations. After training the Cross3DVG model using the source 3D visual grounding dataset, we evaluate it without target labels using the target dataset with, e.g., different sensors, 3D reconstruction methods, and language annotators. Comprehensive experiments are conducted using established visual grounding models and with CLIP-based multi-view 2D and 3D integration designed to bridge gaps among 3D datasets. For Cross3DVG tasks, (i) cross-dataset 3D visual grounding exhibits significantly worse performance than learning and evaluation with a single dataset because of the 3D data and language variants across datasets. Moreover, (ii) better object detector and localization modules and fusing 3D data and multi-view CLIP-based image features can alleviate this lower performance. Our Cross3DVG task can provide a benchmark for developing robust 3D visual grounding models to handle diverse 3D scenes while leveraging deep language understanding.
翻訳日:2023-10-31 22:29:15 公開日:2023-10-28
# LogiCoT: 論理的チェーン・オブ・サートインストラクション・チューニング

LogiCoT: Logical Chain-of-Thought Instruction-Tuning ( http://arxiv.org/abs/2305.12147v2 )

ライセンス: Link先を確認
Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou, Yue Zhang(参考訳) Generative Pre-trained Transformer 4 (GPT-4) は印象的な連鎖推論能力を示す。 近年のAlpacaのような自己指導型チューニングの研究は、モデルの汎用性の向上に重点を置いている。 これらの命令により、open-domain text generationやparaphrasingといった一般的なタスクでgpt-3.5に匹敵するパフォーマンスを実現することができる。 しかし、モデルが複雑な推論タスクを処理するのを助けるのには不足している。 このギャップを埋めるために,GPT-4を用いた論理的連鎖推論のための新しい命令チューニングデータセットであるLogiCoTを提案する。 我々は,GPT-4に連鎖論理を生成するための指示を抽出する過程について詳述する。 logicotは論理推論のモデルを教えるための命令セットであり、一般的な推論スキルを引き出す。

Generative Pre-trained Transformer 4 (GPT-4) demonstrates impressive chain-of-thought reasoning ability. Recent work on self-instruction tuning, such as Alpaca, has focused on enhancing the general proficiency of models. These instructions enable the model to achieve performance comparable to GPT-3.5 on general tasks like open-domain text generation and paraphrasing. However, they fall short of helping the model handle complex reasoning tasks. To bridge the gap, this paper presents LogiCoT, a new instruction-tuning dataset for Logical Chain-of-Thought reasoning with GPT-4. We elaborate on the process of harvesting instructions for prompting GPT-4 to generate chain-of-thought rationales. LogiCoT serves as an instruction set for teaching models of logical reasoning and elicits general reasoning skills.
翻訳日:2023-10-31 22:28:25 公開日:2023-10-28
# 確率的勾配降下(ノイズ)に対する一様時間wasserstein安定性境界

Uniform-in-Time Wasserstein Stability Bounds for (Noisy) Stochastic Gradient Descent ( http://arxiv.org/abs/2305.12056v2 )

ライセンス: Link先を確認
Lingjiong Zhu, Mert Gurbuzbalaban, Anant Raj, Umut Simsekli(参考訳) アルゴリズム安定性は、実用的なアルゴリズムの一般化境界を導出するのに強力な重要な概念である。 過去10年間、異なる損失関数のクラスに適用される異なるアルゴリズムの安定性限界が増えている。 これらの境界は最適化アルゴリズムの様々な特性を照らしているが、それぞれのケースの分析には、異なる数学的ツールを持つ異なる証明技術が必要であった。 本研究では,学習理論と応用確率との関係を新たに定義し,確率最適化アルゴリズムに対するwassersteinの安定性境界を証明するための統一ガイドラインを提案する。 確率勾配降下(SGD)に対する我々のアプローチを概説し、強い凸損失と付加雑音による非凸損失に対する時間一様安定性境界(すなわち、反復数で境界が増加することはない)を得る。 我々のアプローチは柔軟であり、他の一般的なオプティマイザにも一般化可能である。 また、エルゴード性は時間一様境界を得るために重要な要素であることも示しており、イテレートに追加のノイズが注入されない限り凸または凸でない損失に対しては達成できない。 最後に, 解析手法をわずかに延長し, 凸および非凸損失(付加雑音を伴わない)下でのsgdの時間一様境界を証明する。

Algorithmic stability is an important notion that has proven powerful for deriving generalization bounds for practical algorithms. The last decade has witnessed an increasing number of stability bounds for different algorithms applied on different classes of loss functions. While these bounds have illuminated various properties of optimization algorithms, the analysis of each case typically required a different proof technique with significantly different mathematical tools. In this study, we make a novel connection between learning theory and applied probability and introduce a unified guideline for proving Wasserstein stability bounds for stochastic optimization algorithms. We illustrate our approach on stochastic gradient descent (SGD) and we obtain time-uniform stability bounds (i.e., the bound does not increase with the number of iterations) for strongly convex losses and non-convex losses with additive noise, where we recover similar results to the prior art or extend them to more general cases by using a single proof technique. Our approach is flexible and can be generalizable to other popular optimizers, as it mainly requires developing Lyapunov functions, which are often readily available in the literature. It also illustrates that ergodicity is an important component for obtaining time-uniform bounds -- which might not be achieved for convex or non-convex losses unless additional noise is injected to the iterates. Finally, we slightly stretch our analysis technique and prove time-uniform bounds for SGD under convex and non-convex losses (without additional additive noise), which, to our knowledge, is novel.
翻訳日:2023-10-31 22:28:12 公開日:2023-10-28
# 個人用オンラインアイテム価格

Differentially Private Online Item Pricing ( http://arxiv.org/abs/2305.11362v3 )

ライセンス: Link先を確認
Joon Suk Huh(参考訳) 本研究は,購入者のプライバシを保ちながら,反復的かつ無制限のサプライアイテムプライシングオークションにおいて,収益の最大化の問題に対処する。 本稿では,購入者の入力ペアに対する差分プライバシーを提供する新しいアルゴリズムであるアイテム選択と入札を提案する。 特に、私たちのアルゴリズムは、プライバシを保証するサブ線形の$O(\sqrt{T}\log{T})を初めて提供する。 提案手法は指数重みメタアルゴリズムに基づいており, ランダムな摂動による収益関数の不連続の問題を緩和する。 指数的メカニズムと構造的類似性から,本手法は本質的に差分プライバシーを確保する。 また、購入者が連続したラウンドに対して戦略的に入札するシナリオに対応するようにアルゴリズムを拡張します。 固有の差分プライバシーは、この設定においてサブ線形後悔を保証するために、最小限の変更でアルゴリズムを適応することができる。

This work addresses the problem of revenue maximization in a repeated, unlimited supply item-pricing auction while preserving buyer privacy. We present a novel algorithm that provides differential privacy with respect to the buyer's input pair: item selection and bid. Notably, our algorithm is the first to offer a sublinear $O(\sqrt{T}\log{T})$ regret with a privacy guarantee. Our method is based on an exponential weights meta-algorithm, and we mitigate the issue of discontinuities in revenue functions via small random perturbations. As a result of its structural similarity to the exponential mechanism, our method inherently secures differential privacy. We also extend our algorithm to accommodate scenarios where buyers strategically bid over successive rounds. The inherent differential privacy allows us to adapt our algorithm with minimal modification to ensure a sublinear regret in this setting.
翻訳日:2023-10-31 22:27:45 公開日:2023-10-28
# 弱可積分境界不純物モデルにおけるゆっくりと崩壊するゼロモード

Slowly decaying zero mode in a weakly non-integrable boundary impurity model ( http://arxiv.org/abs/2305.11325v2 )

ライセンス: Link先を確認
Hsiu-Chung Yeh, Gabriel Cardoso, Leonid Korneev, Dries Sels, Alexander G. Abanov, Aditi Mitra(参考訳) 半無限鎖上の横フィールドイジングモデル(TFIM)は、エッジゼロモードを持つ。 本研究は、境界可積分分解相互作用によって摂動される不純物モデルを考える。 十分に大きな横磁場に対しては、tfimの順序相ではゼロモードが崩壊することが観測される。 崩壊は、鎖に沿って可積分分解相互作用がゼロでないゼロモードと定性的に異なる。 不純物モデルでは、零モードは非局所準保存作用素に緩和することで減衰し、後者は、チェーンの対向端がスペクトルの完全な縮退を保証するために非可換摂動を持たないときに正確に保存される。 熱力学の極限において、準保存作用素は消滅し、零モードの崩壊がフェルミの黄金律に従う状態が特定される。 崩壊のおもちゃモデルがクリロフ空間で構築され、フェルミの黄金律がこのおもちゃモデルからどのように回収されるかが強調されている。

The transverse field Ising model (TFIM) on the half-infinite chain possesses an edge zero mode. This work considers an impurity model -- TFIM perturbed by a boundary integrability breaking interaction. For sufficiently large transverse field, but in the ordered phase of the TFIM, the zero mode is observed to decay. The decay is qualitatively different from zero modes where the integrability breaking interactions are non-zero all along the chain. It is shown that for the impurity model, the zero mode decays by relaxing to a non-local quasi-conserved operator, the latter being exactly conserved when the opposite edge of the chain has no non-commuting perturbations so as to ensure perfect degeneracy of the spectrum. In the thermodynamic limit, the quasi-conserved operator vanishes, and a regime is identified where the decay of the zero mode obeys Fermi's Golden Rule. A toy model for the decay is constructed in Krylov space and it is highlighted how Fermi's Golden Rule may be recovered from this toy model.
翻訳日:2023-10-31 22:27:29 公開日:2023-10-28
# 協調生成AI:テキストから画像への効率的な編集のためのGPT-kの統合

Collaborative Generative AI: Integrating GPT-k for Efficient Editing in Text-to-Image Generation ( http://arxiv.org/abs/2305.11317v2 )

ライセンス: Link先を確認
Wanrong Zhu, Xinyi Wang, Yujie Lu, Tsu-Jui Fu, Xin Eric Wang, Miguel Eckstein and William Yang Wang(参考訳) text-to-image(t2i)生成の分野は、研究コミュニティと日々のユーザの両方で大きな注目を集めている。 t2iモデルの進歩にもかかわらず、ユーザが遭遇する一般的な問題は、入力プロンプトを反復的に編集して満足のいく画像を受け取る必要があることである。 GPT-kのような大規模言語モデルのテキスト生成能力の実証から,このようなモデルを用いてT2I生成の迅速な編集プロセスを改善する可能性を検討する。 我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。 その結果, GPT-k モデルは修飾詞の挿入に重点を置いているのに対し, 人間は語句を置き換えがちであることがわかった。 実験の結果, GPT-kは主主題の自然変化を予測するよりも, 修飾体の調整に有効であることが示唆された。 gpt-kモデルが提案する編集を採用すると、残りの編集の割合を20-30%削減できる。

The field of text-to-image (T2I) generation has garnered significant attention both within the research community and among everyday users. Despite the advancements of T2I models, a common issue encountered by users is the need for repetitive editing of input prompts in order to receive a satisfactory image, which is time-consuming and labor-intensive. Given the demonstrated text generation power of large-scale language models, such as GPT-k, we investigate the potential of utilizing such models to improve the prompt editing process for T2I generation. We conduct a series of experiments to compare the common edits made by humans and GPT-k, evaluate the performance of GPT-k in prompting T2I, and examine factors that may influence this process. We found that GPT-k models focus more on inserting modifiers while humans tend to replace words and phrases, which includes changes to the subject matter. Experimental results show that GPT-k are more effective in adjusting modifiers rather than predicting spontaneous changes in the primary subject matters. Adopting the edit suggested by GPT-k models may reduce the percentage of remaining edits by 20-30%.
翻訳日:2023-10-31 22:27:10 公開日:2023-10-28
# 言語モデルと世界モデル: 身体的経験と言語モデル

Language Models Meet World Models: Embodied Experiences Enhance Language Models ( http://arxiv.org/abs/2305.10626v3 )

ライセンス: Link先を確認
Jiannan Xiang, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, Zhiting Hu(参考訳) 大規模言語モデル(lms)は多くのタスクにおいて顕著な能力を示したが、オブジェクトの永続性理解や家事活動の計画など、物理的な環境での単純な推論や計画に苦しむことが多い。 この制限は、LMが書かれたテキストのみに基づいて訓練され、必須の具体的知識とスキルを欠いているという事実から生じる。 本稿では,lmsを世界モデルで微調整し,汎用言語能力を維持しつつ多様な具体的知識を得るための新しいパラダイムを提案する。 提案手法は,世界モデル,特に物理世界のシミュレータ(VirtualHome)に具現化エージェントを配置し,目標指向計画とランダム探索の両方を通じて,多種多様な具現化体験を取得する。 これらの経験は、lmsを微調整して、物理的世界での推論と行動のさまざまな能力、例えば、計画と完了目標、オブジェクトの永続性と追跡などを教えるために使用される。 さらに、特定のシミュレーションに縛られるのではなく、タスク間での具体的知識の一般化を容易にする微調整中のLMの一般性を維持することが望ましい。 そこで我々は,選択的な重み更新のための古典的(EWC)と,学習効率向上のためのローランクアダプタ(LoRA)を併用する。 広範な実験により、18のダウンストリームタスクにおけるベースlmsを平均64.28%向上させた。 特に、我々のアプローチにより強化された小さなlms(1.3b、6b、13b)は、はるかに大きなlms(例えばchatgpt)よりも優れています。

While large language models (LMs) have shown remarkable capabilities across numerous tasks, they often struggle with simple reasoning and planning in physical environments, such as understanding object permanence or planning household activities. The limitation arises from the fact that LMs are trained only on written text and miss essential embodied knowledge and skills. In this paper, we propose a new paradigm of enhancing LMs by finetuning them with world models, to gain diverse embodied knowledge while retaining their general language capabilities. Our approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), and acquires a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world, e.g., planning and completing goals, object permanence and tracking, etc. Moreover, it is desirable to preserve the generality of LMs during finetuning, which facilitates generalizing the embodied knowledge across tasks rather than being tied to specific simulations. We thus further introduce the classical (EWC) for selective weight updates, combined with low-rank adapters (LoRA) for training efficiency. Extensive experiments show our approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B, 6B, and 13B) enhanced by our approach match or even outperform much larger LMs (e.g., ChatGPT).
翻訳日:2023-10-31 22:26:33 公開日:2023-10-28
# 大規模言語モデルの統計的知識評価

Statistical Knowledge Assessment for Large Language Models ( http://arxiv.org/abs/2305.10519v2 )

ライセンス: Link先を確認
Qingxiu Dong, Jingjing Xu, Lingpeng Kong, Zhifang Sui and Lei Li(参考訳) 事実的質問に関するさまざまなプロンプトを考えると、大規模言語モデル(llm)は事実的正しい回答を確実に生成できるのだろうか? 既存のLSMは異なるプロンプトに対して異なる応答を生成する。 本稿では,与えられた事実集合に関するllmに含まれる知識の定量化の問題について検討する。 LLMの事実知識を評価する統計的手法であるKaRRを提案する。 主案は、被験者の多様なプロンプトとクエリ関係を与えられた回答エンティティに対応する LLM 生成テキストの比率と、ランダムな確率で生成するテキストの比率を推定することである。 評価スイートには、994,123個のエンティティと600個のリレーションがあり、1,395,905個のテキストエイリアスがある。 LLaMA, Alpaca, OPTなど, 様々な大きさのLLMを20個評価するために本手法を用いた。 実験の結果,LLMの人的評価結果と強い相関(0.43 Kendall's $\tau$)があることが確認された。 この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。

Given varying prompts regarding a factoid question, can a large language model (LLM) reliably generate factually correct answers? Existing LLMs may generate distinct responses for different prompts. In this paper, we study the problem of quantifying knowledge contained in an LLM regarding a given set of facts. We propose KaRR, a statistical approach to assess factual knowledge for LLMs. The main idea is to estimate the ratio of LLM generating text corresponding to the answer entity given diverse prompts of the subject and the querying relation, versus it generating by random chances. Our assessment suite contains a comprehensive set of 994,123 entities and 600 relations, with 1,395,905 text aliases. We use our method to evaluate 20 LLMs of various sizes, including LLaMA, Alpaca, OPT, etc. Experiments show that our results have a strong correlation (0.43 Kendall's $\tau$) with the results of human assessment on LLMs. Our results reveal that the knowledge in LLMs with the same backbone architecture adheres to the scaling law, while tuning on instruction-following data sometimes compromises the model's capability to generate factually correct text reliably.
翻訳日:2023-10-31 22:26:06 公開日:2023-10-28
# 二元分類における代理リスクの逆整合性

The Adversarial Consistency of Surrogate Risks for Binary Classification ( http://arxiv.org/abs/2305.09956v2 )

ライセンス: Link先を確認
Natalie Frank and Jonathan Niles-Weed(参考訳) 頑健な二分分類のための代理リスクの整合性について検討する。 逆行訓練によってロバストな分類法を学ぶことは一般的であり、各例が小さなボール内で悪質に破損した場合、予想される0$-$1$損失を最小限に抑える。 すなわち、任意のデータ分布に対して、元の敵のリスクの最小化シーケンスに影響を与えることなく、$0〜$$の損失を置き換えることができる。 また、$\rho$-marginの損失に対する逆整合性の定量的バージョンも証明します。 本結果から, 逆一貫したサロゲートのクラスは, 多くの共通サロゲートが整合であることが知られている標準設定よりもかなり小さいことが明らかとなった。

We study the consistency of surrogate risks for robust binary classification. It is common to learn robust classifiers by adversarial training, which seeks to minimize the expected $0$-$1$ loss when each example can be maliciously corrupted within a small ball. We give a simple and complete characterization of the set of surrogate loss functions that are \emph{consistent}, i.e., that can replace the $0$-$1$ loss without affecting the minimizing sequences of the original adversarial risk, for any data distribution. We also prove a quantitative version of adversarial consistency for the $\rho$-margin loss. Our results reveal that the class of adversarially consistent surrogates is substantially smaller than in the standard setting, where many common surrogates are known to be consistent.
翻訳日:2023-10-31 22:25:30 公開日:2023-10-28
# RelaMiX:ビデオベースのアクション認識におけるわずかなショット適応の探索

RelaMiX: Exploring Few-Shot Adaptation in Video-based Action Recognition ( http://arxiv.org/abs/2305.08420v2 )

ライセンス: Link先を確認
Kunyu Peng, Di Wen, David Schneider, Jiaming Zhang, Kailun Yang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg(参考訳) さまざまな環境、センサタイプ、データソースにまたがる正確で堅牢なパフォーマンスを保証するためには、アクティビティ認識にはドメイン適応が不可欠である。 教師なしドメイン適応法は広範囲に研究されてきたが、ターゲットドメインからの大規模なラベルなしデータが必要である。 本研究では,映像ベースアクティビティ認識(fsda-ar)のための,ごく少量のラベル付きターゲットビデオを用いて効果的な適応を実現する,少数ショットの領域適応について述べる。 この設定はアプリケーションにとって魅力的で有望なもので、少数の記録とラベル付けが必要であり、ターゲットドメイン内のクラス1つにつき1つの例さえ必要である。 UCF101, HMDB51, EPIC-KITCHEN, Sims4Action, ToyotaSmartHomeの5つのドメインタイプを考慮したFSDA-ARベンチマークを構築した。 この結果から,FSDA-ARは,対象ドメインのサンプルをはるかに少ない(ラベル付けした)非教師なし領域適応に対して比較可能な性能を示した。 さらに,少数のラベル付きドメインサンプルを知識ガイダンスとして活用するための新しいアプローチであるRelaMiXを提案する。 RelaMiXは、ドメイン間の情報アライメント機構とともに、関係降下を伴う時間的関係注意ネットワークを含んでいる。 さらに、数発のターゲットドメインサンプルを使用して、潜在空間内で機能を混合するメカニズムを統合する。 提案したRelaMiXソリューションは、FSDA-ARベンチマーク内のすべてのデータセットの最先端のパフォーマンスを実現する。 ビデオベースのアクティビティ認識のためのドメイン適応の今後の研究を促進するため、ベンチマークとソースコードはhttps://github.com/KPeng9510/RelaMiXで公開されています。

Domain adaptation is essential for activity recognition to ensure accurate and robust performance across diverse environments, sensor types, and data sources. Unsupervised domain adaptation methods have been extensively studied, yet, they require large-scale unlabeled data from the target domain. In this work, we address Few-Shot Domain Adaptation for video-based Activity Recognition (FSDA-AR), which leverages a very small amount of labeled target videos to achieve effective adaptation. This setting is attractive and promising for applications, as it requires recording and labeling only a few, or even a single example per class in the target domain, which often includes activities that are rare yet crucial to recognize. We construct FSDA-AR benchmarks using five established datasets considering diverse domain types: UCF101, HMDB51, EPIC-KITCHEN, Sims4Action, and ToyotaSmartHome. Our results demonstrate that FSDA-AR performs comparably to unsupervised domain adaptation with significantly fewer (yet labeled) target domain samples. We further propose a novel approach, RelaMiX, to better leverage the few labeled target domain samples as knowledge guidance. RelaMiX encompasses a temporal relational attention network with relation dropout, alongside a cross-domain information alignment mechanism. Furthermore, it integrates a mechanism for mixing features within a latent space by using the few-shot target domain samples. The proposed RelaMiX solution achieves state-of-the-art performance on all datasets within the FSDA-AR benchmark. To encourage future research of few-shot domain adaptation for video-based activity recognition, our benchmarks and source code are made publicly available at https://github.com/KPeng9510/RelaMiX.
翻訳日:2023-10-31 22:24:45 公開日:2023-10-28
# フィードバックグラフを用いたオンライン学習のためのMinimaxレグレクトについて

On the Minimax Regret for Online Learning with Feedback Graphs ( http://arxiv.org/abs/2305.15383v2 )

ライセンス: Link先を確認
Khaled Eldowa, Emmanuel Esposito, Tommaso Cesari, Nicol\`o Cesa-Bianchi(参考訳) 本研究では,オンライン学習の後悔に対する上層と下層の境界を,強く観察不能なフィードバックグラフを用いて改善する。 この問題の最もよく知られている上限は$\mathcal{o}\bigl(\sqrt{\alpha t\ln k}\bigr)$であり、ここで$k$はアクションの数、$\alpha$はグラフの独立数、$t$は時間軸である。 $\sqrt{\ln K}$因子は、$\alpha = 1$(専門家の場合)に必要であることが知られている。 一方、$\alpha = K$(盗賊の場合)の場合、ミニマックスレートは$\Theta\bigl(\sqrt{KT}\bigr)$、下界の$\Omega\bigl(\sqrt{\alpha T}\bigr)$は任意の$\alpha$に対して保持されることが知られている。 改良された上限 $\mathcal{o}\bigl(\sqrt{\alpha t(1+\ln(k/\alpha)))}\bigr)$ は任意の$\alpha$ に対して成立し、中間の場合を補間しながら、バンディットや専門家の下限に一致する。 この結果を証明するために、$q$-Tsallis entropyで、$\alpha$と異なる$q \in [1/2, 1)$の慎重に選択された値にFTRLを使用する。 このアルゴリズムの解析には、後悔の中の分散項に新しい境界が必要である。 また,我々の手法を時間変化グラフに拡張する方法を,その独立数の事前知識を必要とせずに示す。 我々の上限は改良された$\Omega\bigl(\sqrt{\alpha T(\ln K)/(\ln\alpha)}\bigr)$ lower bound for all $\alpha > 1$で補われ、その解析はマルチタスク学習への新たな還元に依存している。 これは、対数因子はすぐに$\alpha < k$ となることを示している。

In this work, we improve on the upper and lower bounds for the regret of online learning with strongly observable undirected feedback graphs. The best known upper bound for this problem is $\mathcal{O}\bigl(\sqrt{\alpha T\ln K}\bigr)$, where $K$ is the number of actions, $\alpha$ is the independence number of the graph, and $T$ is the time horizon. The $\sqrt{\ln K}$ factor is known to be necessary when $\alpha = 1$ (the experts case). On the other hand, when $\alpha = K$ (the bandits case), the minimax rate is known to be $\Theta\bigl(\sqrt{KT}\bigr)$, and a lower bound $\Omega\bigl(\sqrt{\alpha T}\bigr)$ is known to hold for any $\alpha$. Our improved upper bound $\mathcal{O}\bigl(\sqrt{\alpha T(1+\ln(K/\alpha))}\bigr)$ holds for any $\alpha$ and matches the lower bounds for bandits and experts, while interpolating intermediate cases. To prove this result, we use FTRL with $q$-Tsallis entropy for a carefully chosen value of $q \in [1/2, 1)$ that varies with $\alpha$. The analysis of this algorithm requires a new bound on the variance term in the regret. We also show how to extend our techniques to time-varying graphs, without requiring prior knowledge of their independence numbers. Our upper bound is complemented by an improved $\Omega\bigl(\sqrt{\alpha T(\ln K)/(\ln\alpha)}\bigr)$ lower bound for all $\alpha > 1$, whose analysis relies on a novel reduction to multitask learning. This shows that a logarithmic factor is necessary as soon as $\alpha < K$.
翻訳日:2023-10-31 22:17:42 公開日:2023-10-28
# ブラックボックス変分推論の収束について

On the Convergence of Black-Box Variational Inference ( http://arxiv.org/abs/2305.15349v3 )

ライセンス: Link先を確認
Kyurae Kim, Jisu Oh, Kaiwen Wu, Yi-An Ma, Jacob R. Gardner(参考訳) モンテカルロ変分推論(Monte Carlo variational inference)としても知られる完全なブラックボックス変分推論(BBVI)に対する最初の収束保証を提供する。 bbvi(bounded domain,bounded support,only optimize for the scale, such)の簡易バージョンに関する予備的な調査が実施されたが、私たちのセットアップにはそのようなアルゴリズムによる修正は必要ない。 本研究は, 強いログコンベビティと位置スケールのばらつきを有する後葉密度について検討した。 また,本分析の結果から,アルゴリズムの設計選択,特に変分近似のスケールの非線形パラメータ化は,最適下収束率をもたらすことが明らかとなった。 幸いなことに、近確率勾配勾配でBBVIを走らせるとこれらの制限が修正され、最も強い収束率保証が達成される。 ベイズ推論問題におけるBBVIの他の標準実装との比較により,この理論的知見を評価する。

We provide the first convergence guarantee for full black-box variational inference (BBVI), also known as Monte Carlo variational inference. While preliminary investigations worked on simplified versions of BBVI (e.g., bounded domain, bounded support, only optimizing for the scale, and such), our setup does not need any such algorithmic modifications. Our results hold for log-smooth posterior densities with and without strong log-concavity and the location-scale variational family. Also, our analysis reveals that certain algorithm design choices commonly employed in practice, particularly, nonlinear parameterizations of the scale of the variational approximation, can result in suboptimal convergence rates. Fortunately, running BBVI with proximal stochastic gradient descent fixes these limitations, and thus achieves the strongest known convergence rate guarantees. We evaluate this theoretical insight by comparing proximal SGD against other standard implementations of BBVI on large-scale Bayesian inference problems.
翻訳日:2023-10-31 22:16:56 公開日:2023-10-28
# スコアマッチング物体を用いたエネルギーベース正規化流れの訓練

Training Energy-Based Normalizing Flow with Score-Matching Objectives ( http://arxiv.org/abs/2305.15267v2 )

ライセンス: Link先を確認
Chen-Hao Chao, Wei-Fang Sun, Yen-Chang Hsu, Zsolt Kira, Chun-Yi Lee(参考訳) 本稿では,フローベースモデルとエネルギーベース生成モデルのパラメータ化の関係を確立し,エネルギーベース正規化フロー(EBFlow)と呼ばれる新しいフローベースモデリング手法を提案する。 EBFlowをスコアマッチング目的に最適化することにより、線形変換に対するヤコビ行列式の計算を完全にバイパスできることを示す。 この特徴により、フローベースモデルの構築において任意の線形層を使用することで、各トレーニングイテレーションの計算時間の複雑さを$O(D^2L)$から$O(D^3L)$に増やすことなく、$D$次元入力を受け入れる$L$層モデルにすることができる。 これにより、EBFlowのトレーニングは、一般的に推奨される最大可能性トレーニング方法よりも効率的になる。 実行時間の短縮に加えて,スコアマッチング手法の分析に基づいて開発した多数の手法により,ebflowのトレーニング安定性と経験的パフォーマンスを向上させる。 実験結果から,提案手法は負の対数類似度(NLL)において,先行手法よりも高い性能を示しながら,最大推定値よりも大幅に高速化された。

In this paper, we establish a connection between the parameterization of flow-based and energy-based generative models, and present a new flow-based modeling approach called energy-based normalizing flow (EBFlow). We demonstrate that by optimizing EBFlow with score-matching objectives, the computation of Jacobian determinants for linear transformations can be entirely bypassed. This feature enables the use of arbitrary linear layers in the construction of flow-based models without increasing the computational time complexity of each training iteration from $O(D^2L)$ to $O(D^3L)$ for an $L$-layered model that accepts $D$-dimensional inputs. This makes the training of EBFlow more efficient than the commonly-adopted maximum likelihood training method. In addition to the reduction in runtime, we enhance the training stability and empirical performance of EBFlow through a number of techniques developed based on our analysis of the score-matching methods. The experimental results demonstrate that our approach achieves a significant speedup compared to maximum likelihood estimation while outperforming prior methods with a noticeable margin in terms of negative log-likelihood (NLL).
翻訳日:2023-10-31 22:16:39 公開日:2023-10-28
# 科学的文書からのユーザ指向スニペットの非コンテキスト化のための質問応答フレームワーク

A Question Answering Framework for Decontextualizing User-facing Snippets from Scientific Documents ( http://arxiv.org/abs/2305.14772v2 )

ライセンス: Link先を確認
Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, Kyle Lo(参考訳) 多くの現実世界のアプリケーション(メモ取り、検索など)では、文書から文や段落を抽出し、そのスニペットをソース文書の外の人間に示す必要がある。 しかし、ユーザーは元のドキュメントのコンテキストがないため、スニペットを理解するのが難しくなるかもしれない。 本研究では,言語モデルを用いて科学文書のスニペットを書き換え,独自に読む。 まず、編集箇所の明確化や、他の文書への参照処理など、このユーザ向け非コンテクスト化タスクの要件と課題を定義します。 第2に,タスクを質問生成,質問応答,書き直しという3つの段階に分解するフレームワークを提案する。 このフレームワークを使って、経験豊富な科学記事読者から金のデコンテクスト化を収集する。 次に、現在最先端の商用およびオープンソース言語モデルにまたがるさまざまな実験を行い、タスクのモデルに、欠落するが関連のある情報を最も適切に提供する方法を特定します。 最後に、私たちのフレームワークに触発されたシンプルなプロンプト戦略であるQaDecontextを開発し、エンドツーエンドのプロンプトを改善する。 私たちは、書き直しが簡単であるのに対して、今日のモデルでは質問生成と回答は難しいまま、分析で結論付けます。

Many real-world applications (e.g., note taking, search) require extracting a sentence or paragraph from a document and showing that snippet to a human outside of the source document. Yet, users may find snippets difficult to understand as they lack context from the original document. In this work, we use language models to rewrite snippets from scientific documents to be read on their own. First, we define the requirements and challenges for this user-facing decontextualization task, such as clarifying where edits occur and handling references to other documents. Second, we propose a framework that decomposes the task into three stages: question generation, question answering, and rewriting. Using this framework, we collect gold decontextualizations from experienced scientific article readers. We then conduct a range of experiments across state-of-the-art commercial and open-source language models to identify how to best provide missing-but-relevant information to models for our task. Finally, we develop QaDecontext, a simple prompting strategy inspired by our framework that improves over end-to-end prompting. We conclude with analysis that finds, while rewriting is easy, question generation and answering remain challenging for today's models.
翻訳日:2023-10-31 22:15:35 公開日:2023-10-28
# decipherpref: gpt-4によるヒト嗜好判断における影響因子の解析

DecipherPref: Analyzing Influential Factors in Human Preference Judgments via GPT-4 ( http://arxiv.org/abs/2305.14702v3 )

ライセンス: Link先を確認
Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Fei Liu(参考訳) 人間の嗜好判断は、人間の価値観に沿ったアウトプットを生成するために、大きな言語モデル(LLM)を導く上で重要である。 人間の評価は、様々なシステムからの出力を比較し、既存の自動メトリクスを補完するために、要約タスクにも使われる。 しかし、その重要性にもかかわらず、これらの対比較やk$-wise比較についての研究は限られている。 出力長、情報性、流布、事実整合性といった要因の集団的影響と相対的重要性は、まだよく理解されていない。 また、人間の判断に他の隠れた要因があるかどうかも不明である。 本稿では,OpenAIが公開した対人的判断の収集について,詳細な検討を行う。 Bradley-Terry-Luceモデルを用いて、これらの人間の判断に埋め込まれた固有の嗜好を明らかにする。 最も好まれる要因はタスクやジャンルによって異なるが、最も好まれない要因は一貫性があり、例えば、アウトプットは短く、過剰なオフフォーカス内容や幻覚的事実を含んでいる。 本研究は,人間の嗜好評価におけるバランスのとれたデータセットの構築に影響を与えており,今後のllmの行動形成において重要なステップである。

Human preference judgments are pivotal in guiding large language models (LLMs) to produce outputs that align with human values. Human evaluations are also used in summarization tasks to compare outputs from various systems, complementing existing automatic metrics. Despite their significance, however, there has been limited research probing these pairwise or $k$-wise comparisons. The collective impact and relative importance of factors such as output length, informativeness, fluency, and factual consistency are still not well understood. It is also unclear if there are other hidden factors influencing human judgments. In this paper, we conduct an in-depth examination of a collection of pairwise human judgments released by OpenAI. Utilizing the Bradley-Terry-Luce (BTL) model, we reveal the inherent preferences embedded in these human judgments. We find that the most favored factors vary across tasks and genres, whereas the least favored factors tend to be consistent, e.g., outputs are too brief, contain excessive off-focus content or hallucinated facts. Our findings have implications on the construction of balanced datasets in human preference evaluations, which is a crucial step in shaping the behaviors of future LLMs.
翻訳日:2023-10-31 22:14:50 公開日:2023-10-28
# 多変量時系列予測のためのジョイントタイム周波数領域トランス

A Joint Time-frequency Domain Transformer for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2305.14649v2 )

ライセンス: Link先を確認
Yushu Chen, Shengzhuo Liu, Jinzhe Yang, Hao Jing, Wenlai Zhao, and Guangwen Yang(参考訳) 本稿では,長期多変量予測のための変換器モデルの性能向上と計算要求の最小化を目的として,JTFT(Joint Time-Frequency Domain Transformer)を提案する。 JTFTは時間と周波数領域の表現を組み合わせて予測を行う。 周波数領域表現は、少数の学習可能な周波数を利用することで、疎性を維持しながら、効率よくマルチスケール依存関係を抽出する。 同時に、時間領域(td)表現は、最新のデータポイントの固定数から導出され、局所関係のモデリングを強化し、非定常性の影響を緩和する。 重要なことに、表現の長さは入力シーケンスの長さとは独立であり、JTFTは線形計算複雑性を達成できる。 さらに, 時間的およびチャネル的モデリングの絡み合いによる性能劣化を防止すべく, 低ランクの注意層を提案する。 6つの実世界のデータセットの実験結果から、JTFTは予測性能において最先端のベースラインを上回っていることが示された。

In order to enhance the performance of Transformer models for long-term multivariate forecasting while minimizing computational demands, this paper introduces the Joint Time-Frequency Domain Transformer (JTFT). JTFT combines time and frequency domain representations to make predictions. The frequency domain representation efficiently extracts multi-scale dependencies while maintaining sparsity by utilizing a small number of learnable frequencies. Simultaneously, the time domain (TD) representation is derived from a fixed number of the most recent data points, strengthening the modeling of local relationships and mitigating the effects of non-stationarity. Importantly, the length of the representation remains independent of the input sequence length, enabling JTFT to achieve linear computational complexity. Furthermore, a low-rank attention layer is proposed to efficiently capture cross-dimensional dependencies, thus preventing performance degradation resulting from the entanglement of temporal and channel-wise modeling. Experimental results on six real-world datasets demonstrate that JTFT outperforms state-of-the-art baselines in predictive performance.
翻訳日:2023-10-31 22:14:25 公開日:2023-10-28
# 最適プレコンディショニングと釣り適応型ランゲヴィンサンプリング

Optimal Preconditioning and Fisher Adaptive Langevin Sampling ( http://arxiv.org/abs/2305.14442v3 )

ライセンス: Link先を確認
Michalis K. Titsias(参考訳) 我々は,期待される2乗跳躍距離を解析的に最適化することにより,ランゲヴィン拡散の最適条件を定義する。 これは逆フィッシャー情報共分散行列の最適前提条件となり、この共分散行列は目標の下で平均化されたログターゲット勾配の外積として計算される。 この結果をメトロポリス調整ランゲヴィンアルゴリズム(MALA)に適用し,アルゴリズムの実行時に発生する勾配履歴から事前条件を学習する,計算効率のよいMCMCスキームを導出する。 いくつかの実験において、提案アルゴリズムは高次元において非常に堅牢であり、標準適応MCMCによる事前条件学習と位置依存リーマン多様体MALAサンプリング器を含む、他の手法よりも大幅に優れていることを示す。

We define an optimal preconditioning for the Langevin diffusion by analytically optimizing the expected squared jumped distance. This yields as the optimal preconditioning an inverse Fisher information covariance matrix, where the covariance matrix is computed as the outer product of log target gradients averaged under the target. We apply this result to the Metropolis adjusted Langevin algorithm (MALA) and derive a computationally efficient adaptive MCMC scheme that learns the preconditioning from the history of gradients produced as the algorithm runs. We show in several experiments that the proposed algorithm is very robust in high dimensions and significantly outperforms other methods, including a closely related adaptive MALA scheme that learns the preconditioning with standard adaptive MCMC as well as the position-dependent Riemannian manifold MALA sampler.
翻訳日:2023-10-31 22:13:12 公開日:2023-10-28
# サブ4ビット整数量子化による圧縮大言語モデルのメモリ効率向上

Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization ( http://arxiv.org/abs/2305.14152v2 )

ライセンス: Link先を確認
Jeonghoon Kim, Jung Hyun Lee, Sungdong Kim, Joonsuk Park, Kang Min Yoo, Se Jung Kwon, Dongsoo Lee(参考訳) 大規模言語モデル(LLM)は、高いメモリ要求と計算コストのために微調整とデプロイメントの課題に直面している。 パラメータ効率のよい微調整法(PEFT)は、微調整中の最適化状態のメモリ使用量を減らすことを目的としているが、事前訓練されたLCM重みの固有のサイズは、引き続き懸念されている。 メモリ要求の緩和とLCM推論の高速化のために量子化技術が広く提案されているが、これらの技術のほとんどは展開フェーズに向けている。 このギャップを埋めるために,PEFT と量子化 LLM の利点を組み合わせた単純かつ効果的な手法であるパラメータ効率・量子化認識適応(PEQA)を提案する。 量子化スケールのみを更新することにより、PEQAは量子化LDMに直接適用でき、シームレスなタスク遷移が保証される。 既存のPEFTメソッドと並行して、PEQAはオプティマイザ状態に関連するメモリオーバーヘッドを大幅に削減する。 さらに、量子化の利点を活用して、モデルのサイズを大幅に削減する。 微調整後も、PEQAを調整したLLMの量子化構造はそのままであり、デプロイ段階での推論が高速化される。 最大65億のパラメータを持つLLM上でのタスク固有適応にPEQAチューニングを用いる。 PEQAをチューニングしたLLMの論理的推論と言語理解を評価するために,命令データセットを用いて低ビット量子化LLMを微調整する。 その結果、LLMを4ビット未満の精度で量子化しても、言語モデリング、少数ショットインコンテキスト学習、理解能力はPEQAで完全精度のオリジナルパフォーマンスに回復(あるいは改善)可能であることがわかった。

Large language models (LLMs) face the challenges in fine-tuning and deployment due to their high memory demands and computational costs. While parameter-efficient fine-tuning (PEFT) methods aim to reduce the memory usage of the optimizer state during fine-tuning, the inherent size of pre-trained LLM weights continues to be a pressing concern. Even though quantization techniques are widely proposed to ease memory demands and accelerate LLM inference, most of these techniques are geared towards the deployment phase. To bridge this gap, this paper presents Parameter-Efficient and Quantization-aware Adaptation (PEQA) - a simple yet effective method that combines the advantages of PEFT with quantized LLMs. By updating solely the quantization scales, PEQA can be directly applied to quantized LLMs, ensuring seamless task transitions. Parallel to existing PEFT methods, PEQA significantly reduces the memory overhead associated with the optimizer state. Furthermore, it leverages the advantages of quantization to substantially reduce model sizes. Even after fine-tuning, the quantization structure of a PEQA-tuned LLM remains intact, allowing for accelerated inference on the deployment stage. We employ PEQA-tuning for task-specific adaptation on LLMs with up to 65 billion parameters. To assess the logical reasoning and language comprehension of PEQA-tuned LLMs, we fine-tune low-bit quantized LLMs using a instruction dataset. Our results show that even when LLMs are quantized to below 4-bit precision, their capabilities in language modeling, few-shot in-context learning, and comprehension can be resiliently restored to (or even improved over) their full-precision original performances with PEQA.
翻訳日:2023-10-31 22:11:51 公開日:2023-10-28
# 因果成分分析

Causal Component Analysis ( http://arxiv.org/abs/2305.17225v2 )

ライセンス: Link先を確認
Liang Wendong, Armin Keki\'c, Julius von K\"ugelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Sch\"olkopf(参考訳) 独立成分分析(ICA)は、観測された混合物から独立潜伏変数を回収することを目的としている。 因果表現学習(crl)は、因果関係をエンコードする未知グラフとともに、因果関係(統計的に依存することが多い)の潜在変数を推論することを目的としている。 因果成分分析(CauCA)と呼ばれる中間問題を導入する。 CauCAはICAの一般化であり、潜伏成分間の因果依存性をモデル化し、CRLの特別な場合と見なすことができる。 CRLとは対照的に、因果グラフの知識を前提とし、未混合関数と因果機構の学習にのみ焦点をあてる。 CauCAにおける基底真理の回復に関するあらゆる不可能な結果は、CRLにも適用され、CRLの拡張のためのステップストーンとして機能する可能性がある。 潜在因果変数の異なる種類の介入によって生成された複数のデータセットからcaucaの識別性を特徴付ける。 この介入的な視点は、非線形ica -- 空グラフを持つcaucaの特別な場合 -- に対して、以前の結果よりも厳密に少ないデータセットを必要とする新しい識別可能性結果をもたらす。 本研究では,非混合関数と因果機構の両方を推定するために正規化フローを用いた可能性に基づくアプローチを導入し,CauCAおよびICA設定における広範囲な合成実験によりその効果を実証する。

Independent Component Analysis (ICA) aims to recover independent latent variables from observed mixtures thereof. Causal Representation Learning (CRL) aims instead to infer causally related (thus often statistically dependent) latent variables, together with the unknown graph encoding their causal relationships. We introduce an intermediate problem termed Causal Component Analysis (CauCA). CauCA can be viewed as a generalization of ICA, modelling the causal dependence among the latent components, and as a special case of CRL. In contrast to CRL, it presupposes knowledge of the causal graph, focusing solely on learning the unmixing function and the causal mechanisms. Any impossibility results regarding the recovery of the ground truth in CauCA also apply for CRL, while possibility results may serve as a stepping stone for extensions to CRL. We characterize CauCA identifiability from multiple datasets generated through different types of interventions on the latent causal variables. As a corollary, this interventional perspective also leads to new identifiability results for nonlinear ICA -- a special case of CauCA with an empty graph -- requiring strictly fewer datasets than previous results. We introduce a likelihood-based approach using normalizing flows to estimate both the unmixing function and the causal mechanisms, and demonstrate its effectiveness through extensive synthetic experiments in the CauCA and ICA setting.
翻訳日:2023-10-31 22:04:39 公開日:2023-10-28
# 社会的相互作用を模擬した言語モデルの構築

Training Socially Aligned Language Models on Simulated Social Interactions ( http://arxiv.org/abs/2305.16960v3 )

ライセンス: Link先を確認
Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi(参考訳) AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。 しかし、社会的相互作用を通じて価値判断に関するコンセンサスを導出する人間とは異なり、現在の言語モデル(lms)は、トレーニングコーパスを分離して厳格に複製するように訓練され、未知のシナリオと敵の攻撃に対する脆弱性のサブパー一般化に繋がる。 この研究は、シミュレーションされた社会的相互作用から学ぶことができる新しい訓練パラダイムを示す。 既存の手法と比較して、我々のアプローチはかなりスケーラブルで効率的であり、アライメントベンチマークや人間評価において優れた性能を示している。 LMのトレーニングにおけるこのパラダイムシフトは、社会的規範と価値を堅牢かつ正確に反映できるAIシステムの開発に一歩近づきます。

Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.
翻訳日:2023-10-31 22:04:16 公開日:2023-10-28
# Anchoringによる価値イテレーションの高速化

Accelerating Value Iteration with Anchoring ( http://arxiv.org/abs/2305.16569v2 )

ライセンス: Link先を確認
Jongmin Lee, Ernest K. Ryu(参考訳) 値反復(VI)は現代の強化学習の理論と実践の基礎であり、$\mathcal{O}(\gamma^k)$-rateで収束することが知られている。 しかし、驚くべきことに、vi設定の最適速度は分かっておらず、一般的な加速機構を見つけることはオープンな問題であった。 本稿ではベルマン整合性演算子と最適性演算子の両方に対する最初の加速VIを示す。 我々の手法は Anc-VI と呼ばれ、nesterov の加速度と区別する) \emph{anchoring} 機構に基づいており、標準 VI よりもベルマン誤差を高速に低減する。 特に、Anc-VI は $\mathcal{O}(1/k)$-rate for $\gamma\approx 1$ あるいは $\gamma=1$ であるのに対して、標準 VI は $\mathcal{O}(1)$ for $\gamma\ge 1-1/k$ である。 また,anc-viの加速速度の最適性を確立するために,上限値が4ドルの定数値まで一致するような複雑性を低減できる。 最後に、アンカー機構が近似 VI とガウス-シーデル VI のセットアップにも同様の利点をもたらすことを示す。

Value Iteration (VI) is foundational to the theory and practice of modern reinforcement learning, and it is known to converge at a $\mathcal{O}(\gamma^k)$-rate, where $\gamma$ is the discount factor. Surprisingly, however, the optimal rate for the VI setup was not known, and finding a general acceleration mechanism has been an open problem. In this paper, we present the first accelerated VI for both the Bellman consistency and optimality operators. Our method, called Anc-VI, is based on an \emph{anchoring} mechanism (distinct from Nesterov's acceleration), and it reduces the Bellman error faster than standard VI. In particular, Anc-VI exhibits a $\mathcal{O}(1/k)$-rate for $\gamma\approx 1$ or even $\gamma=1$, while standard VI has rate $\mathcal{O}(1)$ for $\gamma\ge 1-1/k$, where $k$ is the iteration count. We also provide a complexity lower bound matching the upper bound up to a constant factor of $4$, thereby establishing optimality of the accelerated rate of Anc-VI. Finally, we show that the anchoring mechanism provides the same benefit in the approximate VI and Gauss--Seidel VI setups as well.
翻訳日:2023-10-31 22:03:36 公開日:2023-10-28
# ツリーベース拡散シュル・オディンガーブリッジとwasserstein barycentersへの応用

Tree-Based Diffusion Schr\"odinger Bridge with Applications to Wasserstein Barycenters ( http://arxiv.org/abs/2305.16557v2 )

ライセンス: Link先を確認
Maxence Noble, Valentin De Bortoli, Arnaud Doucet, Alain Durmus(参考訳) OTの一般化であるMulti-marginal Optimal Transport (mOT)は,所定の限界を持つ分布に対するコスト関数の積分を最小化することを目的としている。 本稿では,木構造を持つ二次コストを持つモットのエントロピーバージョン,すなわち,木のノード間でのペアワイズコスト関数の和として書ける関数について考察する。 この問題に対処するため,Diffusion Schr\"odinger Bridge (TreeDSB) アルゴリズムを拡張したツリーベースDiffusion Schr\"odinger Bridge (DSB) を開発した。 TreeDSBはマルチマージナルシンクホーンアルゴリズムの動的かつ連続的な状態空間に対応する。 この手法の特筆すべきユースケースは,星型木上のmot問題の解として再キャスト可能なwasserstein barycentersを計算することである。 本手法は画像補間やベイズ融合などの高次元設定に適用可能であることを示す。

Multi-marginal Optimal Transport (mOT), a generalization of OT, aims at minimizing the integral of a cost function with respect to a distribution with some prescribed marginals. In this paper, we consider an entropic version of mOT with a tree-structured quadratic cost, i.e., a function that can be written as a sum of pairwise cost functions between the nodes of a tree. To address this problem, we develop Tree-based Diffusion Schr\"odinger Bridge (TreeDSB), an extension of the Diffusion Schr\"odinger Bridge (DSB) algorithm. TreeDSB corresponds to a dynamic and continuous state-space counterpart of the multimarginal Sinkhorn algorithm. A notable use case of our methodology is to compute Wasserstein barycenters which can be recast as the solution of a mOT problem on a star-shaped tree. We demonstrate that our methodology can be applied in high-dimensional settings such as image interpolation and Bayesian fusion.
翻訳日:2023-10-31 22:03:08 公開日:2023-10-28
# シャープネスを意識した最小化が低ランク機能に

Sharpness-Aware Minimization Leads to Low-Rank Features ( http://arxiv.org/abs/2305.16292v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Dara Bahri, Hossein Mobahi, Nicolas Flammarion(参考訳) シャープネス認識最小化(sam)は、ニューラルネットワークのトレーニング損失のシャープネスを最小化する最近提案された手法である。 一般化の改善はよく知られており、主要な動機となっているが、SAMのさらなる興味深い効果は、ニューラルネットワークの異なる層で起こる特徴ランクの減少である。 完全接続ネットワーク,畳み込みネットワーク,視覚トランスフォーマーなどの異なるアーキテクチャと,回帰,分類,言語と画像のコントラストトレーニングといった異なる目的に対して,この低ランク効果が極めて広く起こることが示されている。 この現象をよりよく理解するために、単純な2層ネットワークにおいて低ランクな特徴がどのように生じるのかを機械論的に理解する。 我々は, SAMによってかなりの数のアクティベーションが完全に切断され, ランクの減少に直接寄与することが観察された。 この効果を理論的に確認し,ディープネットワークでも発生可能であることを確かめる。しかし,全体的なランク低減機構はより複雑であり,特に事前活性化スキップ接続と自己接続層を有するディープネットワークの場合である。 コードはhttps://github.com/tml-epfl/sam-low-rank-featuresで利用可能です。

Sharpness-aware minimization (SAM) is a recently proposed method that minimizes the sharpness of the training loss of a neural network. While its generalization improvement is well-known and is the primary motivation, we uncover an additional intriguing effect of SAM: reduction of the feature rank which happens at different layers of a neural network. We show that this low-rank effect occurs very broadly: for different architectures such as fully-connected networks, convolutional networks, vision transformers and for different objectives such as regression, classification, language-image contrastive training. To better understand this phenomenon, we provide a mechanistic understanding of how low-rank features arise in a simple two-layer network. We observe that a significant number of activations gets entirely pruned by SAM which directly contributes to the rank reduction. We confirm this effect theoretically and check that it can also occur in deep networks, although the overall rank reduction mechanism can be more complex, especially for deep networks with pre-activation skip connections and self-attention layers. We make our code available at https://github.com/tml-epfl/sam-low-rank-features.
翻訳日:2023-10-31 22:02:21 公開日:2023-10-28
# layoutgpt: 大きな言語モデルによる構成的ビジュアルプランニングと生成

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models ( http://arxiv.org/abs/2305.15393v2 )

ライセンス: Link先を確認
Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, William Yang Wang(参考訳) 視覚生成において高いユーザ制御性を達成するには、レイアウトのような複雑なきめ細かい入力が必要になることが多い。 しかし、このような入力は単純なテキスト入力に比べてユーザにとって大きな負担となる。 そこで本研究では,Large Language Models (LLM) がテキスト条件からレイアウトを生成することで視覚プランナとして機能し,視覚生成モデルと協調する方法について検討する。 LLMのビジュアルプランニングスキルを高めるために,スタイルシート言語でテキスト内ビジュアルデモを作成する手法であるLayoutGPTを提案する。 LayoutGPTは、2D画像から3D屋内シーンまで、複数のドメインで可塑性レイアウトを生成することができる。 LayoutGPTはまた、数値や空間関係のような困難な言語概念を忠実なテキストから画像生成のためのレイアウトアレンジメントに変換する上で、優れたパフォーマンスを示す。 下流画像生成モデルと組み合わせると、layoutgptは、テキストから画像へのモデル/システムよりも20〜40%優れ、数値的および空間的正確性のために視覚的レイアウトを設計する際に、人間ユーザーと同等の性能を達成している。 最後に、LayoutGPTは3次元屋内シーン合成における教師あり手法に匹敵する性能を達成し、複数の視覚領域におけるその有効性と可能性を示す。

Attaining a high degree of user controllability in visual generation often requires intricate, fine-grained inputs like layouts. However, such inputs impose a substantial burden on users when compared to simple text inputs. To address the issue, we study how Large Language Models (LLMs) can serve as visual planners by generating layouts from text conditions, and thus collaborate with visual generative models. We propose LayoutGPT, a method to compose in-context visual demonstrations in style sheet language to enhance the visual planning skills of LLMs. LayoutGPT can generate plausible layouts in multiple domains, ranging from 2D images to 3D indoor scenes. LayoutGPT also shows superior performance in converting challenging language concepts like numerical and spatial relations to layout arrangements for faithful text-to-image generation. When combined with a downstream image generation model, LayoutGPT outperforms text-to-image models/systems by 20-40% and achieves comparable performance as human users in designing visual layouts for numerical and spatial correctness. Lastly, LayoutGPT achieves comparable performance to supervised methods in 3D indoor scene synthesis, demonstrating its effectiveness and potential in multiple visual domains.
翻訳日:2023-10-31 21:59:59 公開日:2023-10-28
# 言語書き換えによるCLIPトレーニングの改善

Improving CLIP Training with Language Rewrites ( http://arxiv.org/abs/2305.20088v2 )

ライセンス: Link先を確認
Lijie Fan, Dilip Krishnan, Phillip Isola, Dina Katabi, Yonglong Tian(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、ペア画像とテキストデータを用いて転送可能な視覚モデルをトレーニングする最も効果的でスケーラブルな方法の1つである。 クリップモデルは、通常、過剰フィッティングやショートカットを防ぐためのデータ拡張に依存するコントラスト損失を使ってトレーニングされる。 しかし、CLIPトレーニングパラダイムでは、データ拡張は画像入力にのみ適用されるが、言語入力はトレーニングプロセス全体を通して変化せず、多様なテキストが同じ画像に露出することを制限する。 本稿では,言語書き換えによるクリップトレーニングの強化を目的とした,単純かつ効果的なアプローチであるlanguage augmented clip (laclip)を提案する。 大規模言語モデルのコンテキスト内学習機能を活用することで,各画像に関連するテキスト記述を書き換える。 これらの書き直されたテキストは、元のキー概念と意味を保ちながら、文構造と語彙の多様性を示している。 トレーニング中、LaCLIPは各画像のテキスト拡張としてオリジナルのテキストか書き直したバージョンのいずれかをランダムに選択する。 CC3M、CC12M、RedCaps、LAION-400Mデータセットの大規模な実験は、言語書き換えによるCLIP事前トレーニングが、トレーニング中に計算やメモリオーバーヘッドなしで転送性能を大幅に改善することを示している。 ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。 コードはhttps://github.com/LijieFan/LaCLIPで入手できる。

Contrastive Language-Image Pre-training (CLIP) stands as one of the most effective and scalable methods for training transferable vision models using paired image and text data. CLIP models are trained using contrastive loss, which typically relies on data augmentations to prevent overfitting and shortcuts. However, in the CLIP training paradigm, data augmentations are exclusively applied to image inputs, while language inputs remain unchanged throughout the entire training process, limiting the exposure of diverse texts to the same image. In this paper, we introduce Language augmented CLIP (LaCLIP), a simple yet highly effective approach to enhance CLIP training through language rewrites. Leveraging the in-context learning capability of large language models, we rewrite the text descriptions associated with each image. These rewritten texts exhibit diversity in sentence structure and vocabulary while preserving the original key concepts and meanings. During training, LaCLIP randomly selects either the original texts or the rewritten versions as text augmentations for each image. Extensive experiments on CC3M, CC12M, RedCaps and LAION-400M datasets show that CLIP pre-training with language rewrites significantly improves the transfer performance without computation or memory overhead during training. Specifically for ImageNet zero-shot accuracy, LaCLIP outperforms CLIP by 8.2% on CC12M and 2.4% on LAION-400M. Code is available at https://github.com/LijieFan/LaCLIP.
翻訳日:2023-10-31 21:52:39 公開日:2023-10-28
# 暗黙的伝達演算子学習:分子動力学のための多重時間分解サロゲート

Implicit Transfer Operator Learning: Multiple Time-Resolution Surrogates for Molecular Dynamics ( http://arxiv.org/abs/2305.18046v2 )

ライセンス: Link先を確認
Mathias Schreiner and Ole Winther and Simon Olsson(参考訳) 分子系の計算特性は(正規化されていない)ボルツマン分布の期待値の推定に依存する。 分子動力学 (MD) は、そのような量の近似法として広く採用されている。 しかし、安定なシミュレーションは非常に小さな積分時間ステップ (10^{-15}\,\mathrm{s}$) に依存しているのに対し、自由エネルギーや速度の結合のようないくつかの瞬間の収束は10^{-1}\, \mathrm{s}$ の時間スケールでのサンプリングプロセスに依存しており、これらのシミュレーションは全ての分子系に対して独立に繰り返す必要がある。 本稿では,シミュレーションプロセスのサロゲートを複数の時間分解能で学習するフレームワークであるImplict Transfer Operator (ITO) Learningを提案する。 拡散確率モデルに新しいSE(3)等変アーキテクチャを組み込んだITOを実装し, システムの一部しか観測されていない場合においても, 複数の時間スケールで自己整合確率力学を生成可能であることを示す。 最後に,粗い分子表現のみを用いて全原子の分子動力学を定量的にモデル化できる粗粒cg-se3-itoモデルを提案する。 したがって、ITOはMDの多重時間・空間分解能加速に向けた重要なステップを提供する。 コードは \href{https://github.com/olsson-group/ito}{https://github.com/olsson-group/ito} で入手できる。

Computing properties of molecular systems rely on estimating expectations of the (unnormalized) Boltzmann distribution. Molecular dynamics (MD) is a broadly adopted technique to approximate such quantities. However, stable simulations rely on very small integration time-steps ($10^{-15}\,\mathrm{s}$), whereas convergence of some moments, e.g. binding free energy or rates, might rely on sampling processes on time-scales as long as $10^{-1}\, \mathrm{s}$, and these simulations must be repeated for every molecular system independently. Here, we present Implict Transfer Operator (ITO) Learning, a framework to learn surrogates of the simulation process with multiple time-resolutions. We implement ITO with denoising diffusion probabilistic models with a new SE(3) equivariant architecture and show the resulting models can generate self-consistent stochastic dynamics across multiple time-scales, even when the system is only partially observed. Finally, we present a coarse-grained CG-SE3-ITO model which can quantitatively model all-atom molecular dynamics using only coarse molecular representations. As such, ITO provides an important step towards multiple time- and space-resolution acceleration of MD. Code is available at \href{https://github.com/olsson-group/ito}{https://github.com/olsson-group/ito}.
翻訳日:2023-10-31 21:48:11 公開日:2023-10-28
# 変圧器診断 : 臨床意思決定のための照明機能空間

Diagnosing Transformers: Illuminating Feature Spaces for Clinical Decision-Making ( http://arxiv.org/abs/2305.17588v2 )

ライセンス: Link先を確認
Aliyah R. Hsu, Yeshwanth Cherapanamjeri, Briton Park, Tristan Naumann, Anobel Y. Odisho, Bin Yu(参考訳) 事前訓練されたトランスフォーマーは、限られた臨床ノートを使用して臨床意思決定を支援するために微調整されることが多い。 モデルの解釈可能性は、特に医療のような高度な領域において、信頼を確立し、人間の関与を必要とする安全を確保するために不可欠である。 我々は,微調整された変圧器特徴空間の解釈性を高める体系的枠組みであるsufoを紹介する。 sufoは、モデル信頼と解釈可能性に関する重要な問題に対処するために、教師付き調査、教師なし類似性分析、特徴動力学、異常解析を含む、様々な分析および可視化技術を使用している。 我々は,実世界の病理分類タスクに着目した事前学習データの影響を事例研究し,MedNLIに関する知見を検証した。 110Mサイズのプレトレーニングトランスモデルを5種類評価し、一般ドメイン(BERT, TNLR)、混合ドメイン(BioBERT, Clinical BioBERT)、ドメイン固有(PubMedBERT)グループに分類した。 ドメイン固有モデルであるPubMedBERTは、微調整に有用な情報を含んでいるが、クラス不均衡が存在する場合、マイノリティクラスに過度に適応できる。 これとは対照的に、混合ドメインモデルではオーバーフィッティングに対する抵抗が強くなり、ドメイン固有のモデルの堅牢性が向上する可能性が示唆され、(2) ドメイン内事前トレーニングは微調整時の特徴の曖昧さを加速し、(3) 特徴空間は、この過程において著しくスパース化され、臨床医は、本論文で示されるように、微調整されたモデル間で共通の異常モードを識別できる。 これらの知見は,医療におけるトランスフォーマーの信頼性と安全性を高める上でのSUFOの有用性を示し,医用およびより重要な領域において,より微調整された言語モデルを評価する上で,SUFOは実践者を支援することができると考えている。

Pre-trained transformers are often fine-tuned to aid clinical decision-making using limited clinical notes. Model interpretability is crucial, especially in high-stakes domains like medicine, to establish trust and ensure safety, which requires human engagement. We introduce SUFO, a systematic framework that enhances interpretability of fine-tuned transformer feature spaces. SUFO utilizes a range of analytic and visualization techniques, including Supervised probing, Unsupervised similarity analysis, Feature dynamics, and Outlier analysis to address key questions about model trust and interpretability. We conduct a case study investigating the impact of pre-training data where we focus on real-world pathology classification tasks, and validate our findings on MedNLI. We evaluate five 110M-sized pre-trained transformer models, categorized into general-domain (BERT, TNLR), mixed-domain (BioBERT, Clinical BioBERT), and domain-specific (PubMedBERT) groups. Our SUFO analyses reveal that: (1) while PubMedBERT, the domain-specific model, contains valuable information for fine-tuning, it can overfit to minority classes when class imbalances exist. In contrast, mixed-domain models exhibit greater resistance to overfitting, suggesting potential improvements in domain-specific model robustness; (2) in-domain pre-training accelerates feature disambiguation during fine-tuning; and (3) feature spaces undergo significant sparsification during this process, enabling clinicians to identify common outlier modes among fine-tuned models as demonstrated in this paper. These findings showcase the utility of SUFO in enhancing trust and safety when using transformers in medicine, and we believe SUFO can aid practitioners in evaluating fine-tuned language models for other applications in medicine and in more critical domains.
翻訳日:2023-10-31 21:47:41 公開日:2023-10-28
# 確率的設定における逐次意思決定システムの自律能力評価(拡張版)

Autonomous Capability Assessment of Sequential Decision-Making Systems in Stochastic Settings (Extended Version) ( http://arxiv.org/abs/2306.04806v2 )

ライセンス: Link先を確認
Pulkit Verma, Rushang Karia, Siddharth Srivastava(参考訳) ユーザは自分のAIシステムに何ができるかを理解し、安全に使用するためには不可能である。 しかし、ユーザがシーケンシャル意思決定(SDM)機能でAIシステムを評価することができるという問題は、比較的未検討である。 本稿では,ブラックボックス型aiシステムの計画と動作をモデル化する新しい手法と,それらの能力が確率的な設定で実行するための効果と要件について述べる。 ブラックボックスのSDMシステムと効果的に対話し、その能力を記述する解釈可能な確率モデルを学ぶことができる能動的学習手法を提案する。 エージェントの正しいモデルに学習プロセスが収束することが保証されている条件を理論的に分析し、異なるエージェントに対する経験的評価とシミュレーションシナリオにより、このアプローチがほとんど一般化できず、サンプル効率の良い方法で任意のブラックボックスSDMエージェントの能力を効果的に記述できることを示した。

It is essential for users to understand what their AI systems can and can't do in order to use them safely. However, the problem of enabling users to assess AI systems with sequential decision-making (SDM) capabilities is relatively understudied. This paper presents a new approach for modeling the capabilities of black-box AI systems that can plan and act, along with the possible effects and requirements for executing those capabilities in stochastic settings. We present an active-learning approach that can effectively interact with a black-box SDM system and learn an interpretable probabilistic model describing its capabilities. Theoretical analysis of the approach identifies the conditions under which the learning process is guaranteed to converge to the correct model of the agent; empirical evaluations on different agents and simulated scenarios show that this approach is few-shot generalizable and can effectively describe the capabilities of arbitrary black-box SDM agents in a sample-efficient manner.
翻訳日:2023-10-31 21:39:53 公開日:2023-10-28
# ダイナミクスシフトを伴うデータに対する状態正規化ポリシー最適化

State Regularized Policy Optimization on Data with Dynamics Shift ( http://arxiv.org/abs/2306.03552v3 )

ライセンス: Link先を確認
Zhenghai Xue, Qingpeng Cai, Shuchang Liu, Dong Zheng, Peng Jiang, Kun Gai, Bo An(参考訳) 多くの現実世界のシナリオでは、強化学習(rl)アルゴリズムは、動的シフトのあるデータ、すなわち異なる環境ダイナミクスに基づいて訓練される。 現在の手法の大部分は、環境パラメータを識別するためにコンテキストエンコーダをトレーニングすることでこの問題に対処している。 動的シフトを伴うデータは、環境パラメータに従って分離され、対応するポリシーをトレーニングする。 しかし、これらの手法は、データがtextit{ad hoc} として使用されるため、サンプル非効率であり、1つのダイナミクスのために訓練されたポリシーは、異なるダイナミクスを持つ他のすべての環境で収集されたデータから恩恵を受けることができない。 本稿では,類似した構造と異なるダイナミクスを持つ多くの環境において,最適ポリシーが類似した定常状態分布を持つことを示す。 このような特性を活用し,動的シフトを持つデータから定常状態分布を学習し,効率的なデータ再利用を行う。 そのような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization)アルゴリズムにつながる。 理論的解析を行うため、類似した環境構造の直観はホモモルファスMDPの概念によって特徴づけられる。 次に、定常状態分布によって規則化されたポリシーに対して、低いバウンド性能保証を示す。 実際には、SRPOはオンラインとオフラインのRL設定の両方でコンテキストベースのアルゴリズムのアドオンモジュールとなることができる。 実験の結果、srpoは複数のコンテキストベースのアルゴリズムをより効率的にし、全体的な性能を大幅に向上できることがわかった。

In many real-world scenarios, Reinforcement Learning (RL) algorithms are trained on data with dynamics shift, i.e., with different underlying environment dynamics. A majority of current methods address such issue by training context encoders to identify environment parameters. Data with dynamics shift are separated according to their environment parameters to train the corresponding policy. However, these methods can be sample inefficient as data are used \textit{ad hoc}, and policies trained for one dynamics cannot benefit from data collected in all other environments with different dynamics. In this paper, we find that in many environments with similar structures and different dynamics, optimal policies have similar stationary state distributions. We exploit such property and learn the stationary state distribution from data with dynamics shift for efficient data reuse. Such distribution is used to regularize the policy trained in a new environment, leading to the SRPO (\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization) algorithm. To conduct theoretical analyses, the intuition of similar environment structures is characterized by the notion of homomorphous MDPs. We then demonstrate a lower-bound performance guarantee on policies regularized by the stationary state distribution. In practice, SRPO can be an add-on module to context-based algorithms in both online and offline RL settings. Experimental results show that SRPO can make several context-based algorithms far more data efficient and significantly improve their overall performance.
翻訳日:2023-10-31 21:38:42 公開日:2023-10-28
# 言語間の感情弧の評価: 感情分析におけるグローバル分割の橋渡し

Evaluating Emotion Arcs Across Languages: Bridging the Global Divide in Sentiment Analysis ( http://arxiv.org/abs/2306.02213v2 )

ライセンス: Link先を確認
Daniela Teodorescu and Saif M. Mohammad(参考訳) 感情は、個人(または人口)が時間とともにどのように感じるかを捉えます。 産業や研究で広く使われているが、自動的に生成された弧を評価する作業はほとんどない。 これは真の(金)感情の弧を確立するのが難しいためである。 私たちの研究は、初めて、系統的かつ定量的に自動生成された感情弧を評価しました。 また、機械学習(ML)モデルとLexicon-Only(LexO)手法の2つの感情弧を生成する一般的な方法を比較する。 9言語で18の多様なデータセットで実験を行うことで、インスタンスレベルの感情分類が著しく貧弱であるにもかかわらず、LexO法は数百のインスタンスから情報を集約する際に感情弧を生成するのに非常に正確であることを示す。 また,6つのアフリカ諸言語とアラビア語,スペイン語による実験を通じて,英語感情辞書の自動翻訳により,低リソース言語における高品質な感情アークを生成することができることを示した。 これは世界中の言語における感情の研究の道を開くもので、これは商業、公共政策、健康研究に欠かせない。 コードとリソース:https://github.com/dteodore/EmotionArcs

Emotion arcs capture how an individual (or a population) feels over time. They are widely used in industry and research; however, there is little work on evaluating the automatically generated arcs. This is because of the difficulty of establishing the true (gold) emotion arc. Our work, for the first time, systematically and quantitatively evaluates automatically generated emotion arcs. We also compare two common ways of generating emotion arcs: Machine-Learning (ML) models and Lexicon-Only (LexO) methods. By running experiments on 18 diverse datasets in 9 languages, we show that despite being markedly poor at instance level emotion classification, LexO methods are highly accurate at generating emotion arcs when aggregating information from hundreds of instances. We also show, through experiments on six indigenous African languages, as well as Arabic, and Spanish, that automatic translations of English emotion lexicons can be used to generate high-quality emotion arcs in less-resource languages. This opens up avenues for work on emotions in languages from around the world; which is crucial for commerce, public policy, and health research in service of speakers often left behind. Code and resources: https://github.com/dteodore/EmotionArcs
翻訳日:2023-10-31 21:37:36 公開日:2023-10-28
# LambdaBeam: 高階関数とラムダによるニューラルプログラム検索

LambdaBeam: Neural Program Search with Higher-Order Functions and Lambdas ( http://arxiv.org/abs/2306.02049v2 )

ライセンス: Link先を確認
Kensen Shi, Hanjun Dai, Wen-Ding Li, Kevin Ellis, Charles Sutton(参考訳) 検索はプログラム合成において重要な技術であり、実行結果に基づいて特定の検索方向に焦点を当てるといった適応戦略を可能にする。 いくつかの先行研究は、ニューラルモデルがプログラム合成探索を導くのに有効であることを示した。 しかしながら、これらのアプローチの共通の欠点は、反復ループ、高階関数、あるいはラムダ関数を扱うことができないことである。 我々は、与えられたdsl内で操作を構成する任意のラムダ関数を構築できるlambdabeamと呼ばれる探索アルゴリズムを設計することで、このギャップに対処する。 我々は,ラムダ関数の実行動作に関する意味ベクトル表現を作成し,探索中に構築すべきラムダを選択するニューラルネットワークを訓練し,ループ計算を行うために高次関数に引数として渡す。 実験の結果,LambdaBeamは整数リスト操作領域において,ニューラル,シンボリック,LLMベースの手法よりも優れていた。

Search is an important technique in program synthesis that allows for adaptive strategies such as focusing on particular search directions based on execution results. Several prior works have demonstrated that neural models are effective at guiding program synthesis searches. However, a common drawback of those approaches is the inability to handle iterative loops, higher-order functions, or lambda functions, thus limiting prior neural searches from synthesizing longer and more general programs. We address this gap by designing a search algorithm called LambdaBeam that can construct arbitrary lambda functions that compose operations within a given DSL. We create semantic vector representations of the execution behavior of the lambda functions and train a neural policy network to choose which lambdas to construct during search, and pass them as arguments to higher-order functions to perform looping computations. Our experiments show that LambdaBeam outperforms neural, symbolic, and LLM-based techniques in an integer list manipulation domain.
翻訳日:2023-10-31 21:37:17 公開日:2023-10-28
# ボトルの中のメッセージ - ゴールデンレコードの最新情報

Message in a Bottle -- An Update to the Golden Record ( http://arxiv.org/abs/2306.01765v2 )

ライセンス: Link先を確認
Jonathan H. Jiang, Anamaria Berea, Heather Bowden, Prithwis Das, Kristen A. Fahy, Joseph Ginsberg, Robert Jew, Xiaoming Jiang, Arik Kershenbaum, David Kipping, Graham Lau, Karen Lewis, C. Isabel Nunez Lendo, Philip E. Rosen, Nick Searra, Stuart F. Taylor, John Traphagan(参考訳) このシリーズの最初のパートでは、"Message in a Bottle"(以下、MIAB)の基礎的な側面を掘り下げています。 この研究は、1977年にボイジャー1号と2号で打ち上げられたボイジャー・ゴールデン・レコード(ボイジャー・ゴールデン・レコード)の遺産であり、我々の世界を超えた知的種との通信を目的としている。 これらの記録は、地球と人類のスナップショットとしてだけでなく、先進的なエイリアン文明との接触を確立するという我々の欲求も継続している。 相互に理解された記号、記号、記号がないことから、ミアーブは前任者と同様に、人類の物語をカプセル化する革新的なコミュニケーション手段を設計するために科学的手法を使おうとしている。 我々の目的は、人類社会の普遍的かつ文脈的理解、地球上の生命の進化、そして我々の将来への希望と関心を提供する方法で、我々の集合的知識、感情、革新、願望を伝えることである。 この時間と宇宙旅行カプセルを通じて、私たちは、現在と将来の世代を刺激し、統一し、共通の人間体験を祝福し、保護することに努めています。

In this first part of our series, we delve into the foundational aspects of the "Message in a Bottle" (henceforth referred to as MIAB). This study stands as a continuation of the legacy set by the Voyager Golden Records launched aboard Voyager 1 and 2 in 1977, which aimed to communicate with intelligent species beyond our world. These Records continue to serve not only as a snapshot of Earth and humanity but also carry forth our desire for establishing contact with advanced alien civilizations. Given the absence of mutually understood signs, symbols, and semiotic conventions, MIAB, like its predecessor, seeks to use scientific methods to design an innovative means of communication encapsulating the story of humanity. Our aim is to convey our collective knowledge, feelings, innovations, and aspirations in a manner that offers a universal, yet contextual understanding of human society, the evolution of life on Earth, and our hopes and concerns for the future. Through this time and space traveling capsule, we also strive to inspire and unify current and future generations to celebrate and safeguard our shared human experience.
翻訳日:2023-10-31 21:36:59 公開日:2023-10-28
# 未知の介入による因果表現の非パラメトリック識別性

Nonparametric Identifiability of Causal Representations from Unknown Interventions ( http://arxiv.org/abs/2306.00542v2 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Michel Besserve, Liang Wendong, Luigi Gresele, Armin Keki\'c, Elias Bareinboim, David M. Blei, Bernhard Sch\"olkopf(参考訳) 本研究では,潜伏因果変数を推定する因果表現学習とその高次元混合による因果関係について検討する。 先行研究は、反事実的前・後的見解または時間的構造という形で、弱い監督に依存し、線形性のような制限的な仮定は混合関数や潜在因果モデルに依存するか、因果グラフや介入対象のような生成過程の部分的な知識を必要とする。 代わりに、因果モデルと混合関数の両方が非パラメトリックである一般的な設定を考える。 学習信号は、基礎となる因果モデルにおける未知の介入から生じる複数のデータセットや環境の形を取る。 我々の目標は、基礎的真理の潜在者とそれらの因果グラフの両方を、介入データから不可解であることを示す一連の曖昧さまで識別することである。 本研究では,2つの因果変数の基本的な設定について検討し,各ノード毎の観測分布と1つの完全介入が,汎用性条件に従うことを証明する。 この条件は、干渉分布と観測分布の微調整を伴うスプリアス解を除外し、非線形因果効果推論に類似した条件を反映する。 任意の数の変数に対して、ノードごとに少なくとも1組の異なる完全介入ドメインが識別可能性を保証することを示す。 さらに,潜在変数間の因果影響の強みは,すべての等価解によって保存され,推論された表現が新たなデータから因果的結論を導き出すのに適していることを示す。 本研究は、未知の介入による一般的な非パラメトリック設定に対する最初の識別可能性結果を提供し、より直接的な監督を伴わずに因果表現学習の可能性と不可能性を解明する。

We study causal representation learning, the task of inferring latent causal variables and their causal relations from high-dimensional mixtures of the variables. Prior work relies on weak supervision, in the form of counterfactual pre- and post-intervention views or temporal structure; places restrictive assumptions, such as linearity, on the mixing function or latent causal model; or requires partial knowledge of the generative process, such as the causal graph or intervention targets. We instead consider the general setting in which both the causal model and the mixing function are nonparametric. The learning signal takes the form of multiple datasets, or environments, arising from unknown interventions in the underlying causal model. Our goal is to identify both the ground truth latents and their causal graph up to a set of ambiguities which we show to be irresolvable from interventional data. We study the fundamental setting of two causal variables and prove that the observational distribution and one perfect intervention per node suffice for identifiability, subject to a genericity condition. This condition rules out spurious solutions that involve fine-tuning of the intervened and observational distributions, mirroring similar conditions for nonlinear cause-effect inference. For an arbitrary number of variables, we show that at least one pair of distinct perfect interventional domains per node guarantees identifiability. Further, we demonstrate that the strengths of causal influences among the latent variables are preserved by all equivalent solutions, rendering the inferred representation appropriate for drawing causal conclusions from new data. Our study provides the first identifiability results for the general nonparametric setting with unknown interventions, and elucidates what is possible and impossible for causal representation learning without more direct supervision.
翻訳日:2023-10-31 21:36:09 公開日:2023-10-28
# IBIAフレームワークを用いた辺縁の近似推定

Approximate inference of marginals using the IBIA framework ( http://arxiv.org/abs/2306.00335v2 )

ライセンス: Link先を確認
Shivani Bathla, Vinita Vasudevan(参考訳) 確率的グラフィカルモデル(pgm)における辺縁の正確な推論は難解であることが知られており、近似法の使用が必要となる。 既存の変分技法のほとんどはループグラフで反復的なメッセージパスを実行し、多くのベンチマークでは収束が遅い。 本稿では,インクリメンタル・ビルド・インファー近似(ibia)パラダイムに基づく辺縁推論のための新しいアルゴリズムを提案する。 我々のアルゴリズムは,PGMを有界な斜め樹林(SLCTF)の列に変換し,その辺縁を推定するためにヒューリスティックな信念更新アルゴリズムを用いる。 ベイジアンネットワークの特別の場合、IBIAにおける増分ビルドステップが変数の位相次数を使用する場合、その場合を示す。 (a)先行限界は、SLCTFおよびSLCTFの全てのCTFに一致している b) すべての証拠変数がSLCTFに追加されると、後端辺縁は一貫する。 本手法では,信念伝達ステップは非イテレーティブであり,ユーザ定義のクライクサイズ境界を用いて精度・複雑さトレードオフを制御する。 近年のUAIコンペティションによるいくつかのベンチマーク結果から,本手法は既存の変分法やサンプリング法よりも精度が良いか,あるいは同等であることが示された。

Exact inference of marginals in probabilistic graphical models (PGM) is known to be intractable, necessitating the use of approximate methods. Most of the existing variational techniques perform iterative message passing in loopy graphs which is slow to converge for many benchmarks. In this paper, we propose a new algorithm for marginal inference that is based on the incremental build-infer-approximate (IBIA) paradigm. Our algorithm converts the PGM into a sequence of linked clique tree forests (SLCTF) with bounded clique sizes, and then uses a heuristic belief update algorithm to infer the marginals. For the special case of Bayesian networks, we show that if the incremental build step in IBIA uses the topological order of variables then (a) the prior marginals are consistent in all CTFs in the SLCTF and (b) the posterior marginals are consistent once all evidence variables are added to the SLCTF. In our approach, the belief propagation step is non-iterative and the accuracy-complexity trade-off is controlled using user-defined clique size bounds. Results for several benchmark sets from recent UAI competitions show that our method gives either better or comparable accuracy than existing variational and sampling based methods, with smaller runtimes.
翻訳日:2023-10-31 21:35:40 公開日:2023-10-28
# LargeST: 大規模トラフィック予測のためのベンチマークデータセット

LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting ( http://arxiv.org/abs/2306.08259v2 )

ライセンス: Link先を確認
Xu Liu, Yutong Xia, Yuxuan Liang, Junfeng Hu, Yiwei Wang, Lei Bai, Chao Huang, Zhenguang Liu, Bryan Hooi, Roger Zimmermann(参考訳) 道路交通予測は、スマートシティのイニシアチブにおいて重要な役割を担い、トラフィックデータの非線形パターンを捉えた深層学習の力により、大きな進歩を遂げている。 しかし、現在の公開データセットで達成された有望な結果は、これらのデータセット内の制限のため、実用的なシナリオには適用できない可能性がある。 まず、制限されたサイズは、実際の交通ネットワークの規模を反映していない可能性がある。 第二に、これらのデータセットの時間的カバレッジは通常短く、長期的なパターンを研究し、深層モデルのトレーニングに十分なサンプルを取得する上でハードルとなる。 第三に、これらのデータセットはセンサーに十分なメタデータを欠いており、データの信頼性と解釈性を損なう。 これらの制限を軽減するため、LargeSTベンチマークデータセットを導入します。 カリフォルニアには合計8,600個のセンサーがあり、5年間にわたってカバーされ、包括的なメタデータを含んでいる。 最大で詳細なデータ分析を行い、データインサイトを抽出し、パフォーマンスと効率の観点からよく知られたベースラインをベンチマークし、課題と将来の研究の機会を特定します。 データセットとベースラインの実装は、https://github.com/liuxu77/ largestでリリースします。

Road traffic forecasting plays a critical role in smart city initiatives and has experienced significant advancements thanks to the power of deep learning in capturing non-linear patterns of traffic data. However, the promising results achieved on current public datasets may not be applicable to practical scenarios due to limitations within these datasets. First, the limited sizes of them may not reflect the real-world scale of traffic networks. Second, the temporal coverage of these datasets is typically short, posing hurdles in studying long-term patterns and acquiring sufficient samples for training deep models. Third, these datasets often lack adequate metadata for sensors, which compromises the reliability and interpretability of the data. To mitigate these limitations, we introduce the LargeST benchmark dataset. It encompasses a total number of 8,600 sensors in California with a 5-year time coverage and includes comprehensive metadata. Using LargeST, we perform in-depth data analysis to extract data insights, benchmark well-known baselines in terms of their performance and efficiency, and identify challenges as well as opportunities for future research. We release the datasets and baseline implementations at: https://github.com/liuxu77/LargeST.
翻訳日:2023-10-31 21:29:30 公開日:2023-10-28
# ランクへの統一オフポリシー学習:強化学習視点

Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective ( http://arxiv.org/abs/2306.07528v3 )

ライセンス: Link先を確認
Zeyu Zhang, Yi Su, Hui Yuan, Yiran Wu, Rishab Balasubramanian, Qingyun Wu, Huazheng Wang, Mengdi Wang(参考訳) Off-policy Learning to Rank (LTR)は、デプロイされたロギングポリシによって収集されたデータからランキングを最適化することを目的としている。 しかしながら、既存のオフポリシー学習とメソッドのランク付けは、ユーザがクリックデータ、すなわちクリックモデルをどのように生成するか、という強い仮定をもたらします。 本稿では,一般的な確率的クリックモデルに基づくランク付け過程をマルコフ決定過程 (MDP) として統合し,オフライン強化学習 (RL) を用いて最適なランク付けを学習する。 そこで我々は,オフポリチックLTRのオフラインRL技術を活用し,Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR)法を提案する。 MDPの専用定式化により、オフラインRLアルゴリズムは複雑なデバイアス技術やモデルの事前知識を使わずに様々なクリックモデルに適応できることを示す。 さまざまな大規模データセットの結果から、CUOLRは、さまざまなクリックモデルの下で一貫性と堅牢性を保ちながら、アルゴリズムをランク付けする最先端のオフポリシー学習を一貫して上回ります。

Off-policy Learning to Rank (LTR) aims to optimize a ranker from data collected by a deployed logging policy. However, existing off-policy learning to rank methods often make strong assumptions about how users generate the click data, i.e., the click model, and hence need to tailor their methods specifically under different click models. In this paper, we unified the ranking process under general stochastic click models as a Markov Decision Process (MDP), and the optimal ranking could be learned with offline reinforcement learning (RL) directly. Building upon this, we leverage offline RL techniques for off-policy LTR and propose the Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR) method, which could be easily applied to a wide range of click models. Through a dedicated formulation of the MDP, we show that offline RL algorithms can adapt to various click models without complex debiasing techniques and prior knowledge of the model. Results on various large-scale datasets demonstrate that CUOLR consistently outperforms the state-of-the-art off-policy learning to rank algorithms while maintaining consistency and robustness under different click models.
翻訳日:2023-10-31 21:28:54 公開日:2023-10-28
# モラルイマジネーションを通じたエンジニアリングチームの関与: it企業の責任あるイノベーションと倫理的文化変革のためのボトムアップアプローチ

Engaging Engineering Teams Through Moral Imagination: A Bottom-Up Approach for Responsible Innovation and Ethical Culture Change in Technology Companies ( http://arxiv.org/abs/2306.06901v3 )

ライセンス: Link先を確認
Benjamin Lange, Geoff Keeling, Amanda McCroskery, Ben Zevenbergen, Sandra Blascovich, Kyle Pedersen, Alison Lentz, and Blaise Aguera y Arcas(参考訳) 我々は,技術系企業のエンジニアリングチームと製品チームに対して,責任あるイノベーションの文化を促進するための"モラル・イマジネーション"手法を提案する。 当社のアプローチは、過去2年間にわたってGoogleで運用されており、組織全体で50以上のワークショップを開催しています。 当社のアプローチは,倫理意識,審議,企業の原則や倫理,プライバシレビュー手順,コンプライアンスコントロールといった技術設計における意思決定の文化を育むための,既存の形式的かつ非公式なイニシアティブを極めて補完するものです。 特に技術分野における方法論の独特な利点を特徴づける。

We propose a "Moral Imagination" methodology to facilitate a culture of responsible innovation for engineering and product teams in technology companies. Our approach has been operationalized over the past two years at Google, where we have conducted over 50 workshops with teams across the organization. We argue that our approach is a crucial complement to existing formal and informal initiatives for fostering a culture of ethical awareness, deliberation, and decision-making in technology design such as company principles, ethics and privacy review procedures, and compliance controls. We characterize some of the distinctive benefits of our methodology for the technology sector in particular.
翻訳日:2023-10-31 21:28:11 公開日:2023-10-28
# ShiftAddViT:効率的な視覚変換器に向けた乗算プリミティブの混合

ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer ( http://arxiv.org/abs/2306.06446v3 )

ライセンス: Link先を確認
Haoran You, Huihong Shi, Yipin Guo, Yingyan (Celine) Lin(参考訳) 視覚トランスフォーマー(vits)は印象的なパフォーマンスを示し、複数の視覚タスクのための統一バックボーンとなった。 しかし、ViTsの注意機構と多層パーセプトロン(MLPs)は、濃密な乗算のため、十分に効率が良くないため、コストのかかるトレーニングと推論に繋がる。 そこで本研究では,プリトレーニング済みのViTを,ビットワイズシフトや加算などの多重プリミティブの混合で再パラメータ化して,スクラッチからトレーニングを必要とせずにGPU上でのエンドツーエンドの推論高速化を実現することを目的とした,新たなタイプの乗算還元モデル($\textbf{ShiftAddViT}$)を提案する。 特に、クエリ、キー、値の$\texttt{matmuls}$は、クエリとキーをハミングスペースのバイナリコードにマッピングした後、加算カーネルを使って再パラメータ化されます。 残りのMLPまたは線形層はシフトカーネルで再パラメータ化される。 我々はTVMを利用して、GPU上でハードウェアを実際に展開するためのカスタマイズされたカーネルを実装し、最適化する。 このような注意再パラメータ化はモデル精度を維持しつつ,MDPに適用した場合の精度低下を必然的に招いた。 両世界のベストを尽くすために、我々はさらに、乗算またはプリミティブをエキスパートとして取り上げ、例えば乗算とシフト、新しい遅延対応ロードバランシング損失を設計することで、MDPを再パラメータ化するための、新たな専門家(MoE)フレームワークを提案する。 このような損失は、遅延に応じて異なる専門家に動的に入力トークンを割り当てるための一般的なルータのトレーニングに役立つ。 様々な2D/3Dトランスフォーマーベースの視覚タスクの広範囲な実験は、提案したShiftAddViTの有効性を一貫して検証し、GPUのレイテンシ低減に$\textbf{5.18$\times$}および$\textbf{42.9}$%の省エネを実現し、オリジナルまたは効率的なViTと同等の精度を維持する。

Vision Transformers (ViTs) have shown impressive performance and have become a unified backbone for multiple vision tasks. However, both the attention mechanism and multi-layer perceptrons (MLPs) in ViTs are not sufficiently efficient due to dense multiplications, leading to costly training and inference. To this end, we propose to reparameterize pre-trained ViTs with a mixture of multiplication primitives, e.g., bitwise shifts and additions, towards a new type of multiplication-reduced model, dubbed $\textbf{ShiftAddViT}$, which aims to achieve end-to-end inference speedups on GPUs without requiring training from scratch. Specifically, all $\texttt{MatMuls}$ among queries, keys, and values are reparameterized using additive kernels, after mapping queries and keys to binary codes in Hamming space. The remaining MLPs or linear layers are then reparameterized with shift kernels. We utilize TVM to implement and optimize those customized kernels for practical hardware deployment on GPUs. We find that such a reparameterization on attention maintains model accuracy, while inevitably leading to accuracy drops when being applied to MLPs. To marry the best of both worlds, we further propose a new mixture of experts (MoE) framework to reparameterize MLPs by taking multiplication or its primitives as experts, e.g., multiplication and shift, and designing a new latency-aware load-balancing loss. Such a loss helps to train a generic router for assigning a dynamic amount of input tokens to different experts according to their latency. Extensive experiments on various 2D/3D Transformer-based vision tasks consistently validate the effectiveness of our proposed ShiftAddViT, achieving up to $\textbf{5.18$\times$}$ latency reductions on GPUs and $\textbf{42.9}$% energy savings, while maintaining a comparable accuracy as original or efficient ViTs.
翻訳日:2023-10-31 21:27:06 公開日:2023-10-28
# 戦略的アップル味覚

Strategic Apple Tasting ( http://arxiv.org/abs/2306.06250v2 )

ライセンス: Link先を確認
Keegan Harris, Chara Podimata, Zhiwei Steven Wu(参考訳) アルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。 インセンティブを扱うことに加えて、多くの関心領域(例えば貸付や雇用)において、意思決定者は、エージェントに肯定的な決定を割り当てるラウンドに対する政策に関するフィードバックのみを観察する。 私たちは、この設定をapple-tastingフィードバックによるオンライン学習問題として定式化し、プリンシパルが$t$エージェントのシーケンスについて決定を下します。 我々の目標は、もしエージェントが彼らの状況を明らかにする際に真実であるならば、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。 私たちの主な結果は、エージェントのシーケンスが確率的に選択されたときに$o (\sqrt{t})$戦略的後悔をもたらす学習アルゴリズムです。 また、O(T^{(d+1)/(d+2)})$戦略的後悔($d$が文脈の次元である場合)を犠牲にして、逆長エージェントを処理できるアルゴリズムも提供します。 私たちのアルゴリズムは、プリンシパルがバンディットフィードバックを受け取る設定に容易に適応することができます -- この設定は、(インセンティブのあるエージェントを考えることによって)線形文脈バンディット問題と(部分的なフィードバックを可能にすることによって)戦略的分類問題の両方を一般化します。

Algorithmic decision-making in high-stakes domains often involves assigning decisions to agents with incentives to strategically modify their input to the algorithm. In addition to dealing with incentives, in many domains of interest (e.g. lending and hiring) the decision-maker only observes feedback regarding their policy for rounds in which they assign a positive decision to the agent; this type of feedback is often referred to as apple tasting (or one-sided) feedback. We formalize this setting as an online learning problem with apple-tasting feedback where a principal makes decisions about a sequence of $T$ agents, each of which is represented by a context that may be strategically modified. Our goal is to achieve sublinear strategic regret, which compares the performance of the principal to that of the best fixed policy in hindsight, if the agents were truthful when revealing their contexts. Our main result is a learning algorithm which incurs $O (\sqrt{T})$ strategic regret when the sequence of agents is chosen stochastically. We also give an algorithm capable of handling adversarially-chosen agents, albeit at the cost of $O(T^{(d+1)/(d+2)})$ strategic regret (where $d$ is the dimension of the context). Our algorithms can be easily adapted to the setting where the principal receives bandit feedback -- this setting generalizes both the linear contextual bandit problem (by considering agents with incentives) and the strategic classification problem (by allowing for partial feedback).
翻訳日:2023-10-31 21:26:00 公開日:2023-10-28
# mc-nn:インフルエンザaウイルス宿主および抗原型予測のためのエンドツーエンドマルチチャネルニューラルネットワークアプローチ

MC-NN: An End-to-End Multi-Channel Neural Network Approach for Predicting Influenza A Virus Hosts and Antigenic Types ( http://arxiv.org/abs/2306.05587v2 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザは公衆衛生、特に高齢者、幼児、基礎疾患を持つ人々にとって重大な脅威となる。 肺炎などの重篤な症状の出現は、インフルエンザ感染の予防の重要性を強調している。 A型インフルエンザウイルスの宿主および抗原サブタイプの正確な予測は、特に資源に制約のある地域でこの問題に対処するために不可欠である。 本研究では,ヘマグルチニンおよびノイラミニダーゼタンパク質配列からインフルエンザAウイルスの宿主および抗原サブタイプを予測するためのマルチチャネルニューラルネットワークモデルを提案する。 本モデルは,完全タンパク質配列の包括的データセットを用いて訓練し,完全および不完全配列の様々な試験データセットを用いて評価した。 その結果、インフルエンザAウイルスの宿主および抗原サブタイプを全タンパク質配列および部分タンパク質配列から予測するためのマルチチャネルニューラルネットワークの有用性と実用性を示した。

Influenza poses a significant threat to public health, particularly among the elderly, young children, and people with underlying dis-eases. The manifestation of severe conditions, such as pneumonia, highlights the importance of preventing the spread of influenza. An accurate and cost-effective prediction of the host and antigenic sub-types of influenza A viruses is essential to addressing this issue, particularly in resource-constrained regions. In this study, we propose a multi-channel neural network model to predict the host and antigenic subtypes of influenza A viruses from hemagglutinin and neuraminidase protein sequences. Our model was trained on a comprehensive data set of complete protein sequences and evaluated on various test data sets of complete and incomplete sequences. The results demonstrate the potential and practicality of using multi-channel neural networks in predicting the host and antigenic subtypes of influenza A viruses from both full and partial protein sequences.
翻訳日:2023-10-31 21:24:13 公開日:2023-10-28
# Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale from a new perspective

Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective ( http://arxiv.org/abs/2306.13092v2 )

ライセンス: Link先を確認
Zeyuan Yin and Eric Xing and Zhiqiang Shen(参考訳) 本稿では,トレーニング中のモデルと合成データの2レベル最適化を分離し,データセットのスケール,モデルアーキテクチャ,および効率的なデータセット凝縮のための画像解像度の異なる処理を行う,srewish, recovery and relabel(sre$^2$l)という新しいデータセット凝縮フレームワークを提案する。 提案手法は,多様なデータセットスケールにまたがる柔軟性を示し,合成画像の任意の解像度,低トレーニングコスト,高解像度合成によるメモリ消費,任意の評価ネットワークアーキテクチャへのスケールアップ能力など,さまざまなメリットを示す。 Tiny-ImageNetと完全なImageNet-1Kデータセットで大規模な実験が行われている。 50 IPC未満では、Tiny-ImageNetとImageNet-1Kの検証精度は42.5%と60.8%で、従来の最先端手法をそれぞれ14.5%と32.9%で上回っている。 我々の手法は、データ合成中に11.6$\times$と6.4$\times$のメモリ消費を少なくして、約52$\times$ (ConvNet-4) と16$\times$ (ResNet-18) の速度で MTT を超える。 コードと4Kリカバリ予算付き50,200 IPCのデータセットは、https://github.com/VILA-Lab/SRe2Lで公開されています。

We present a new dataset condensation framework termed Squeeze, Recover and Relabel (SRe$^2$L) that decouples the bilevel optimization of model and synthetic data during training, to handle varying scales of datasets, model architectures and image resolutions for efficient dataset condensation. The proposed method demonstrates flexibility across diverse dataset scales and exhibits multiple advantages in terms of arbitrary resolutions of synthesized images, low training cost and memory consumption with high-resolution synthesis, and the ability to scale up to arbitrary evaluation network architectures. Extensive experiments are conducted on Tiny-ImageNet and full ImageNet-1K datasets. Under 50 IPC, our approach achieves the highest 42.5% and 60.8% validation accuracy on Tiny-ImageNet and ImageNet-1K, outperforming all previous state-of-the-art methods by margins of 14.5% and 32.9%, respectively. Our approach also surpasses MTT in terms of speed by approximately 52$\times$ (ConvNet-4) and 16$\times$ (ResNet-18) faster with less memory consumption of 11.6$\times$ and 6.4$\times$ during data synthesis. Our code and condensed datasets of 50, 200 IPC with 4K recovery budget are available at https://github.com/VILA-Lab/SRe2L.
翻訳日:2023-10-31 21:15:48 公開日:2023-10-28
# LLMの認知能力を効果的に測定する:適応的テストの観点から

Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing Perspective ( http://arxiv.org/abs/2306.10512v2 )

ライセンス: Link先を確認
Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Rui Lv, Zhenya Huang, Guanhao Zhao, Zheng Zhang, Qingyang Mao, Shijin Wang, Enhong Chen(参考訳) ChatGPTのような大型言語モデル(LLM)は、人間に似た認知能力を示している。 これらの異なるモデルの能力を比較するために、異なる分野(文学、生物学、心理学など)のいくつかのベンチマーク(標準テスト質問の組)がしばしば採用され、精度、リコール、f1などの伝統的な指標によるテスト結果が報告されている。 しかし、LCMの評価方法は認知科学の観点から非効率で不正確である。 心理測定に使用されるCAT(Computerized Adaptive Testing)にヒントを得て,LLM評価のための適応テストフレームワークを提案する。 標準的なテストセットを使用し、単に精度を報告するのではなく、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。 これにより、より少ない質問を使ってモデルの能力をより正確に推定できる。 さらに重要なのは、LLMを人間と簡単に比較できることであり、人間レベルの能力を目指すNLPモデルに必須である。 診断報告によると、ChatGPTは「不注意な学生」のように振る舞うことが多く、時折質問を推測する傾向がある。 対象知識,数学的推論,プログラミングの3つの側面から,gpt4が他のモデルを大幅に上回ることができ,中学生の認知能力に到達できる,詳細な診断を行い,最新の6つの指導調整llmをランク付けした。 効率的な適応テストを使った異なるモデルの異なるテスト -- 私たちは、これは大きな言語モデルを評価するための新しい規範になる可能性があると信じています。

Large language models (LLMs), like ChatGPT, have shown some human-like cognitive abilities. For comparing these abilities of different models, several benchmarks (i.e. sets of standard test questions) from different fields (e.g., Literature, Biology and Psychology) are often adopted and the test results under traditional metrics such as accuracy, recall and F1, are reported. However, such way for evaluating LLMs can be inefficient and inaccurate from the cognitive science perspective. Inspired by Computerized Adaptive Testing (CAT) used in psychometrics, we propose an adaptive testing framework for LLM evaluation. Rather than using a standard test set and simply reporting accuracy, this approach dynamically adjusts the characteristics of the test questions, such as difficulty, based on the model's performance. This allows for a more accurate estimation of the model's abilities, using fewer questions. More importantly, it allows LLMs to be compared with humans easily, which is essential for NLP models that aim for human-level ability. Our diagnostic reports have found that ChatGPT often behaves like a ``careless student'', prone to slip and occasionally guessing the questions. We conduct a fine-grained diagnosis and rank the latest 6 instruction-tuned LLMs from three aspects of Subject Knowledge, Mathematical Reasoning, and Programming, where GPT4 can outperform other models significantly and reach the cognitive ability of middle-level students. Different tests for different models using efficient adaptive testing -- we believe this has the potential to become a new norm in evaluating large language models.
翻訳日:2023-10-31 21:13:56 公開日:2023-10-28
# 残留q-learning: 価値のないオフラインおよびオンラインポリシのカスタマイズ

Residual Q-Learning: Offline and Online Policy Customization without Value ( http://arxiv.org/abs/2306.09526v2 )

ライセンス: Link先を確認
Chenran Li, Chen Tang, Haruki Nishimura, Jean Mercat, Masayoshi Tomizuka, Wei Zhan(参考訳) 模倣学習(il)は、デモンストレーションから模倣行動を学ぶために広く使われているフレームワークである。 特に、手作り報酬関数の難しさや、その目的が人間の専門家の行動の模倣であるような複雑な現実世界のタスクの解決に魅力がある。 しかし、学習した模倣政策は、デモンストレーションの行動のみに従うことができる。 模倣ポリシーを適用する場合、さまざまな下流タスクから来るさまざまな要件を満たすためにポリシーの振る舞いをカスタマイズする必要があるかもしれません。 一方、我々はカスタマイズされたポリシーが模倣性を維持することを望んでいる。 この目的のために、ポリシーカスタマイズと呼ばれる新しい問題設定を定式化する。 学習タスクは、目標下流タスクによって課される追加要件を満たしながら、事前ポリシーの特徴を継承するポリシーを訓練するものとして定義する。 本稿では,2つの課題目標間のトレードオフを解釈・決定するための,新しい原則的アプローチを提案する。 具体的には、カスタマイズ問題をマルコフ決定過程(MDP)と組み合わせた報酬関数として定式化する。 1) 実演の本来の報酬,及び 2) ダウンストリームタスクが指定するアドオン報酬。 本稿では,従来の政策に固有の報酬や価値関数を知らずに事前政策を活用することで,MDPの定式化を図り得る新しい枠組みであるResidual Q-learningを提案する。 オフラインおよびオンラインのポリシーカスタマイズを実現するための残留Q-ラーニングアルゴリズムのファミリーを考案し,提案アルゴリズムが様々な環境におけるポリシーカスタマイズタスクを効果的に実現できることを示す。 デモビデオとコードは、私たちのWebサイト(https://sites.google.com/view/residualq-learning)で公開されている。

Imitation Learning (IL) is a widely used framework for learning imitative behavior from demonstrations. It is especially appealing for solving complex real-world tasks where handcrafting reward function is difficult, or when the goal is to mimic human expert behavior. However, the learned imitative policy can only follow the behavior in the demonstration. When applying the imitative policy, we may need to customize the policy behavior to meet different requirements coming from diverse downstream tasks. Meanwhile, we still want the customized policy to maintain its imitative nature. To this end, we formulate a new problem setting called policy customization. It defines the learning task as training a policy that inherits the characteristics of the prior policy while satisfying some additional requirements imposed by a target downstream task. We propose a novel and principled approach to interpret and determine the trade-off between the two task objectives. Specifically, we formulate the customization problem as a Markov Decision Process (MDP) with a reward function that combines 1) the inherent reward of the demonstration; and 2) the add-on reward specified by the downstream task. We propose a novel framework, Residual Q-learning, which can solve the formulated MDP by leveraging the prior policy without knowing the inherent reward or value function of the prior policy. We derive a family of residual Q-learning algorithms that can realize offline and online policy customization, and show that the proposed algorithms can effectively accomplish policy customization tasks in various environments. Demo videos and code are available on our website: https://sites.google.com/view/residualq-learning.
翻訳日:2023-10-31 21:12:49 公開日:2023-10-28
# MMD-FUSE:データ分割のない2サンプルテストのための学習とカーネルの組み合わせ

MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without Data Splitting ( http://arxiv.org/abs/2306.08777v2 )

ライセンス: Link先を確認
Felix Biggs, Antonin Schrab, Arthur Gretton(参考訳) 本稿では,最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。 有限集合の場合、これは重み付けされたソフトな最大値によってこれらのカーネルのそれぞれの下で(正規化された)MDD値を組み合わせることに還元される。 指数濃度境界は、null と alternative の下で提案する統計で証明される。 さらに、これらのカーネルをデータ依存だが順列非依存の方法で選択する方法を、適切に調整されたテストで示し、データの分割を避ける。 この手法は、一般的な置換に基づくMDDテストに広く適用され、オートエンコーダのような教師なしモデルを用いて学習した機能を持つディープカーネルの使用を含む。 我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。

We propose novel statistics which maximise the power of a two-sample test based on the Maximum Mean Discrepancy (MMD), by adapting over the set of kernels used in defining it. For finite sets, this reduces to combining (normalised) MMD values under each of these kernels via a weighted soft maximum. Exponential concentration bounds are proved for our proposed statistics under the null and alternative. We further show how these kernels can be chosen in a data-dependent but permutation-independent way, in a well-calibrated test, avoiding data splitting. This technique applies more broadly to general permutation-based MMD testing, and includes the use of deep kernels with features learnt using unsupervised models such as auto-encoders. We highlight the applicability of our MMD-FUSE test on both synthetic low-dimensional and real-world high-dimensional data, and compare its performance in terms of power against current state-of-the-art kernel tests.
翻訳日:2023-10-31 21:11:30 公開日:2023-10-28
# FedCP:条件付き政策による個人化フェデレーション学習のための特徴情報の分離

FedCP: Separating Feature Information for Personalized Federated Learning via Conditional Policy ( http://arxiv.org/abs/2307.01217v2 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, and Haibing Guan(参考訳) 近年,プライバシ保護や協調学習,病院や携帯電話などのクライアント間の統計的不均一性に対処する手段として,パーソナライズド・フェデレーション・ラーニング(pFL)が注目されている。 既存のpFL手法の多くは、クライアントレベルのモデルパラメータのグローバルな情報とパーソナライズされた情報を活用することに焦点を当てている。 これを解決するために,各サンプルに対して,グローバル情報とパーソナライズされた情報を分離し,それぞれグローバルヘッドとパーソナライズされたヘッドで処理するための条件ポリシーを生成するフェデレーション条件ポリシー(FedCP)手法を提案する。 FedCPは、既存のpFL法よりも、サンプル特異的なパーソナライズを考慮に入れやすい。 コンピュータビジョンと自然言語処理領域における大規模な実験により、FedCPは最先端の11の手法を最大6.69%上回っている。 さらに、FedCPは、あるクライアントが誤ってドロップアウトしたときにその優位性を維持している。 私たちのコードはhttps://github.com/TsingZ0/FedCPで公開されています。

Recently, personalized federated learning (pFL) has attracted increasing attention in privacy protection, collaborative learning, and tackling statistical heterogeneity among clients, e.g., hospitals, mobile smartphones, etc. Most existing pFL methods focus on exploiting the global information and personalized information in the client-level model parameters while neglecting that data is the source of these two kinds of information. To address this, we propose the Federated Conditional Policy (FedCP) method, which generates a conditional policy for each sample to separate the global information and personalized information in its features and then processes them by a global head and a personalized head, respectively. FedCP is more fine-grained to consider personalization in a sample-specific manner than existing pFL methods. Extensive experiments in computer vision and natural language processing domains show that FedCP outperforms eleven state-of-the-art methods by up to 6.69%. Furthermore, FedCP maintains its superiority when some clients accidentally drop out, which frequently happens in mobile settings. Our code is public at https://github.com/TsingZ0/FedCP.
翻訳日:2023-10-31 21:04:53 公開日:2023-10-28
# 単一光子レベルの超高速時間周波数フラクタルフーリエイメージング

Ultrafast electro-optic Time-Frequency Fractional Fourier Imaging at the Single-Photon Level ( http://arxiv.org/abs/2307.01141v2 )

ライセンス: Link先を確認
Micha{\l} Lipka and Micha{\l} Parniak(参考訳) フラクタルフーリエ変換(FRT)は位相空間における任意の角度回転(例えば時間周波数(TF)空間)に対応し、基本的に重要なフーリエ変換を一般化する。 FRTの応用は、古典的な信号処理(例えば時間相関ノイズ最適フィルタリング)から、コヒーレントな低雑音TF演算に依存する、または恩恵を受ける新しい量子技術(例えば超解像TFイメージング)まで様々である。 ここでは、FRTの多目的低雑音単一光子互換実装を示す。 光TFFRTは、スペクトル分散器、タイムレンズ、および他のスペクトル分散器のシリーズとして合成することができる。 電気光学変調器(eom, state-of-the-art electro-optic modulationor)を用いて,非線形相互作用(ウェーブミックス,クロスフェーズ変調,パラメトリックプロセスなど)に基づくオルタナティブノイズを回避した。 EOM駆動無線周波数信号の精密制御は、FRT角の高速全電子制御を可能にする。 実験では、近赤外(800nm)における11.5 ps幅のコヒーレントパルス対に対して、最大1.63 radのFRT角を示す。 明るい光と単一光子レベルの領域と、パルス分離(20psから26.67ps)の範囲において、シミュレーションおよび測定された出力スペクトルの良好な一致を観察した。 さらに、最大FRT角と帯域幅のトレードオフが確立され、現在のセットアップは最大248GHzの帯域幅を確保できる。 EOMオンチップ統合の進展に伴い、古典的および量子的両面において、全光TF処理における優れたスケーラビリティと膨大な応用を想定する。

The Fractional Fourier Transform (FRT) corresponds to an arbitrary-angle rotation in the phase space, e.g. the time-frequency (TF) space, and generalizes the fundamentally important Fourier Transform. FRT applications range from classical signal processing (e.g. time-correlated noise optimal filtering) to emerging quantum technologies (e.g. super-resolution TF imaging) which rely on or benefit from coherent low-noise TF operations. Here a versatile low-noise single-photon-compatible implementation of the FRT is presented. Optical TF FRT can be synthesized as a series of a spectral disperser, a time-lens, and another spectral disperser. Relying on the state-of-the-art electro-optic modulators (EOM) for the time-lens, our method avoids added noise inherent to the alternatives based on non-linear interactions (such as wave-mixing, cross-phase modulation, or parametric processes). Precise control of the EOM-driving radio-frequency signal enables fast all-electronic control of the FRT angle. In the experiment, we demonstrate FRT angles of up to 1.63 rad for pairs of coherent temporally separated 11.5 ps-wide pulses in the near-infrared (800 nm). We observe a good agreement between the simulated and measured output spectra in the bright-light and single-photon-level regimes, and for a range of pulse separations (20 ps to 26.67 ps). Furthermore, a tradeoff is established between the maximal FRT angle and bandwidth, with the current setup accommodating up to 248 GHz of bandwidth. With the ongoing progress in EOM on-chip integration, we envisage excellent scalability and vast applications in all-optical TF processing both in the classical and quantum regimes.
翻訳日:2023-10-31 21:04:08 公開日:2023-10-28
# JourneyDB: 生成イメージ理解のためのベンチマーク

JourneyDB: A Benchmark for Generative Image Understanding ( http://arxiv.org/abs/2307.00716v2 )

ライセンス: Link先を確認
Keqiang Sun, Junting Pan, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Limin Wang, Hongsheng Li(参考訳) 近年の視覚言語モデルの進歩はマルチモーダル理解に変化をもたらしたが、これらのモデルが生成した画像を理解する能力を持っている範囲は未だ不明である。 合成画像は、実際のデータと比較して、コンテンツとスタイルの両方において高いレベルの多様性を包含するので、モデルが完全に把握する上で大きな課題となる。 この課題を踏まえて,多モード視覚理解の文脈における生成画像の領域に対応する,journeydbと呼ばれる包括的データセットを導入する。 我々の微妙にキュレートされたデータセットは、400万の異なる高品質な生成画像で構成され、それぞれが作成に使用された対応するテキストプロンプトとペアリングされる。 さらに、新たに22のテキスト・ツー・イメージ生成モデルを用いた外部サブセットを導入することで、JourneyDBは生成された画像の理解を評価するための総合的なベンチマークとなる。 本稿のデータセットでは,コンテントとスタイル解釈の両面で生成画像理解の性能を評価するために,4つのベンチマークを考案した。 これらのベンチマークには、インバージョン、スタイル検索、画像キャプション、視覚的質問応答が含まれる。 最後に、journeydbデータセットに適用した場合、最先端のマルチモーダルモデルのパフォーマンスを評価し、生成されたコンテンツの理解における強みと制限を包括的に分析する。 提案したデータセットとベンチマークは、生成コンテンツ理解の分野におけるさらなる研究を促進することを期待する。 データセットはhttps://journeydb.github.ioで公開されている。

While recent advancements in vision-language models have had a transformative impact on multi-modal comprehension, the extent to which these models possess the ability to comprehend generated images remains uncertain. Synthetic images, in comparison to real data, encompass a higher level of diversity in terms of both content and style, thereby presenting significant challenges for the models to fully grasp. In light of this challenge, we introduce a comprehensive dataset, referred to as JourneyDB, that caters to the domain of generative images within the context of multi-modal visual understanding. Our meticulously curated dataset comprises 4 million distinct and high-quality generated images, each paired with the corresponding text prompts that were employed in their creation. Furthermore, we additionally introduce an external subset with results of another 22 text-to-image generative models, which makes JourneyDB a comprehensive benchmark for evaluating the comprehension of generated images. On our dataset, we have devised four benchmarks to assess the performance of generated image comprehension in relation to both content and style interpretation. These benchmarks encompass prompt inversion, style retrieval, image captioning, and visual question answering. Lastly, we evaluate the performance of state-of-the-art multi-modal models when applied to the JourneyDB dataset, providing a comprehensive analysis of their strengths and limitations in comprehending generated content. We anticipate that the proposed dataset and benchmarks will facilitate further research in the field of generative content understanding. The dataset is publicly available at https://journeydb.github.io.
翻訳日:2023-10-31 21:02:58 公開日:2023-10-28
# SPAE:冷凍LDMを用いた多モード生成用セマンティックピラミッドオートエンコーダ

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs ( http://arxiv.org/abs/2306.17842v3 )

ライセンス: Link先を確認
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang(参考訳) 本研究では,凍結LDMが画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを同時に実行できるようにするためのセマンティックピラミッドオートエンコーダ(SPAE)を提案する。 SPAEは、LLMの語彙から抽出された原画素と解釈可能な語彙(または単語)を変換する。 結果として得られるトークンは、視覚的再構成に必要な意味と細かな詳細の両方をキャプチャし、視覚コンテンツをLLMに理解可能な言語に効果的に翻訳し、幅広いマルチモーダルタスクを実行する権限を与える。 本手法は,パーム2とgpt3.5を用いた多種多様な画像理解と生成タスクにおける文脈内学習実験によって検証される。 本手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成する試みとして,初めて成功した試みである。

In this work, we introduce Semantic Pyramid AutoEncoder (SPAE) for enabling frozen LLMs to perform both understanding and generation tasks involving non-linguistic modalities such as images or videos. SPAE converts between raw pixels and interpretable lexical tokens (or words) extracted from the LLM's vocabulary. The resulting tokens capture both the semantic meaning and the fine-grained details needed for visual reconstruction, effectively translating the visual content into a language comprehensible to the LLM, and empowering it to perform a wide array of multimodal tasks. Our approach is validated through in-context learning experiments with frozen PaLM 2 and GPT 3.5 on a diverse set of image understanding and generation tasks. Our method marks the first successful attempt to enable a frozen LLM to generate image content while surpassing state-of-the-art performance in image understanding tasks, under the same setting, by over 25%.
翻訳日:2023-10-31 21:02:12 公開日:2023-10-28
# 丸い容量の不等式に対するニューラルネットワーク分離アルゴリズム

A Neural Separation Algorithm for the Rounded Capacity Inequalities ( http://arxiv.org/abs/2306.17283v2 )

ライセンス: Link先を確認
Hyeonah Kim and Jinkyoo Park and Changhyun Kwon(参考訳) 切削平面法は、様々な車両経路問題(vrps)の最適解を求める分岐・切削・分岐価格・切削アルゴリズムを成功させる鍵となる手法である。 様々なカットのうち、丸い容量の不等式(rcis)が最も基本的なものである。 rcisを生成するには、正確な解を得るのに時間がかかる分離問題を解く必要があるため、ヒューリスティックな手法が広く使われている。 グラフニューラルネットワーク(gnn)を用いて,厳密な分離問題の解法を学習するグラフ粗粒化を用いた,学習に基づく分離ヒューリスティックアルゴリズムを設計した。 分離アルゴリズムを切断平面法に組み込んで,最大1,000人の顧客を抱えた静電容量VRP(CVRP)の低いバウンドを求める。 CVRPSEPは,VRPの解決に使用される様々なカットのための,一般的な分離ソフトウェアパッケージである。 計算結果から,CVRPSEPは400人以上の顧客を抱える大規模問題に対して,CVRPSEPよりも低い限界が得られ,CVRPSEPは400人未満の問題に対して高い能力を示した。

The cutting plane method is a key technique for successful branch-and-cut and branch-price-and-cut algorithms that find the exact optimal solutions for various vehicle routing problems (VRPs). Among various cuts, the rounded capacity inequalities (RCIs) are the most fundamental. To generate RCIs, we need to solve the separation problem, whose exact solution takes a long time to obtain; therefore, heuristic methods are widely used. We design a learning-based separation heuristic algorithm with graph coarsening that learns the solutions of the exact separation problem with a graph neural network (GNN), which is trained with small instances of 50 to 100 customers. We embed our separation algorithm within the cutting plane method to find a lower bound for the capacitated VRP (CVRP) with up to 1,000 customers. We compare the performance of our approach with CVRPSEP, a popular separation software package for various cuts used in solving VRPs. Our computational results show that our approach finds better lower bounds than CVRPSEP for large-scale problems with 400 or more customers, while CVRPSEP shows strong competency for problems with less than 400 customers.
翻訳日:2023-10-31 21:01:55 公開日:2023-10-28
# 命令チューニングの活用可能性について

On the Exploitability of Instruction Tuning ( http://arxiv.org/abs/2306.17194v2 )

ライセンス: Link先を確認
Manli Shu, Jiongxiao Wang, Chen Zhu, Jonas Geiping, Chaowei Xiao, Tom Goldstein(参考訳) インストラクションチューニングは、大きな言語モデル(LLM)を人間の意図に合わせる効果的な手法である。 本研究では,モデル動作を意図的に変化させる訓練データに,特定の指示追従例を注入することにより,相手が指導チューニングを利用する方法を検討する。 例えば、敵は、ターゲットコンテンツに言及するトレーニング例を注入し、下流モデルからそのような行動を引き出すことによって、コンテンツ注入を達成できる。 この目的を達成するために、自動データ中毒パイプラインである \textit{AutoPoison} を提案する。 自然とコヒーレントに、oracle llmの助けを借りて、汎用的な攻撃目標を有毒データに組み込む。 コンテンツインジェクションと過剰拒否攻撃の2つの例を示し、それぞれが特定の悪用可能な振る舞いを誘導する。 データ中毒スキームの強さとステルスネスを定量化し、ベンチマークします。 以上の結果から, オートポゾンにより, 被毒例の密着性を維持しつつ, 少量のデータのみを有毒化することにより, 敵がモデルの行動を変えることが可能となった。 私たちの研究は、データ品質が命令調整モデルの振る舞いにどのように影響するかを明らかにし、llmの責任ある展開におけるデータ品質の重要性に対する認識を高めることを願っています。 コードは \url{https://github.com/azshue/autopoison} で入手できる。

Instruction tuning is an effective technique to align large language models (LLMs) with human intents. In this work, we investigate how an adversary can exploit instruction tuning by injecting specific instruction-following examples into the training data that intentionally changes the model's behavior. For example, an adversary can achieve content injection by injecting training examples that mention target content and eliciting such behavior from downstream models. To achieve this goal, we propose \textit{AutoPoison}, an automated data poisoning pipeline. It naturally and coherently incorporates versatile attack goals into poisoned data with the help of an oracle LLM. We showcase two example attacks: content injection and over-refusal attacks, each aiming to induce a specific exploitable behavior. We quantify and benchmark the strength and the stealthiness of our data poisoning scheme. Our results show that AutoPoison allows an adversary to change a model's behavior by poisoning only a small fraction of data while maintaining a high level of stealthiness in the poisoned examples. We hope our work sheds light on how data quality affects the behavior of instruction-tuned models and raises awareness of the importance of data quality for responsible deployments of LLMs. Code is available at \url{https://github.com/azshue/AutoPoison}.
翻訳日:2023-10-31 21:01:26 公開日:2023-10-28
# 知識蒸留による分子グラフニューラルネットワークの高速化

Accelerating Molecular Graph Neural Networks via Knowledge Distillation ( http://arxiv.org/abs/2306.14818v2 )

ライセンス: Link先を確認
Filip Ekstr\"om Kelvinius, Dimitar Georgiev, Artur Petrov Toshev, Johannes Gasteiger(参考訳) グラフニューラルネットワーク(GNN)の最近の進歩により、分子や分子系のより包括的なモデリングが可能となり、分子特性予測と分子シミュレーションの精度が向上した。 それにもかかわらず、この分野がより大規模で複雑なアーキテクチャへと進展しているため、最先端のGNNは、多くの大規模アプリケーションでほとんど禁止されている。 本稿では,分子GNNの高速化のための知識蒸留(KD)の有用性について検討する。 この目的のために,方向および同変gnnにおける隠れ表現の蒸留を容易にするkd戦略を考案し,エネルギーおよび力予測の回帰タスクにおけるその性能を評価する。 異なる教師の学生構成やデータセットにまたがるプロトコルを検証し、学生モデルの予測精度をアーキテクチャの変更なしに継続的に向上させることができることを示す。 さらに,本フレームワークの各種コンポーネントを包括的に最適化し,データ拡張の可能性を調べ,さらなる性能向上を図る。 全体として、教師モデルと学生モデルの予測精度のギャップを、それぞれ96.7%と62.5%のエネルギーと力の予測で埋めると同時に、より軽量なモデルの推論スループットを完全に保存する。

Recent advances in graph neural networks (GNNs) have enabled more comprehensive modeling of molecules and molecular systems, thereby enhancing the precision of molecular property prediction and molecular simulations. Nonetheless, as the field has been progressing to bigger and more complex architectures, state-of-the-art GNNs have become largely prohibitive for many large-scale applications. In this paper, we explore the utility of knowledge distillation (KD) for accelerating molecular GNNs. To this end, we devise KD strategies that facilitate the distillation of hidden representations in directional and equivariant GNNs, and evaluate their performance on the regression task of energy and force prediction. We validate our protocols across different teacher-student configurations and datasets, and demonstrate that they can consistently boost the predictive accuracy of student models without any modifications to their architecture. Moreover, we conduct comprehensive optimization of various components of our framework, and investigate the potential of data augmentation to further enhance performance. All in all, we manage to close the gap in predictive accuracy between teacher and student models by as much as 96.7% and 62.5% for energy and force prediction respectively, while fully preserving the inference throughput of the more lightweight models.
翻訳日:2023-10-31 21:00:17 公開日:2023-10-28
# 政策設計:オフライン政策最適化のための保守的テスト時間適応

Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization ( http://arxiv.org/abs/2306.14479v2 )

ライセンス: Link先を確認
Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang, Bin Wang(参考訳) 本研究では,反復的2レベルオフラインrl(価値推定とポリシ抽出)をオフライントレーニングフェーズから切り離し,非イテレーティブな2レベルパラダイムを形成し,反復的エラー伝搬を2レベルにわたって回避する。 具体的には、この非イテレーティブパラダイムは、テストで外部レベルの最適化(ポリシ抽出)を実行しながら、トレーニングにおいて内部レベルの最適化(値推定)を行うことを可能にします。 当然、このようなパラダイムは、報酬条件付きポリシーのような、前回の非決定的なオフラインRLの対応によって完全に答えられていない3つの中核的な疑問を提起する。 (q2) 安全な、信頼できる外部レベルの最適化のために転送された情報を利用する場合、注意すべきことは何か? (q3) テスト中に外部レベルの最適化を同時実行するメリットは何でしょう? モデルベース最適化(mbo)に動機づけられ、上記の質問に答えるdrop(design from policy)を提案します。 具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、MBOスコアモデル(a1)を学ぶ。 スコアモデルを外部レベルで安全に活用するために,動作の埋め込みを明示的に学習し,保守的な正規化(a2)を導入する。 テスト中、DROPはデプロイメント適応を可能にし、状態間の適応推論を可能にする(a3)。 実験により,各タスクにおけるDROPの評価を行い,従来のメソッドと比較してDROPの性能が同等か向上したことを示す。

In this work, we decouple the iterative bi-level offline RL (value estimation and policy extraction) from the offline training phase, forming a non-iterative bi-level paradigm and avoiding the iterative error propagation over two levels. Specifically, this non-iterative paradigm allows us to conduct inner-level optimization (value estimation) in training, while performing outer-level optimization (policy extraction) in testing. Naturally, such a paradigm raises three core questions that are not fully answered by prior non-iterative offline RL counterparts like reward-conditioned policy: (q1) What information should we transfer from the inner-level to the outer-level? (q2) What should we pay attention to when exploiting the transferred information for safe/confident outer-level optimization? (q3) What are the benefits of concurrently conducting outer-level optimization during testing? Motivated by model-based optimization (MBO), we propose DROP (design from policies), which fully answers the above questions. Specifically, in the inner-level, DROP decomposes offline data into multiple subsets, and learns an MBO score model (a1). To keep safe exploitation to the score model in the outer-level, we explicitly learn a behavior embedding and introduce a conservative regularization (a2). During testing, we show that DROP permits deployment adaptation, enabling an adaptive inference across states (a3). Empirically, we evaluate DROP on various tasks, showing that DROP gains comparable or better performance compared to prior methods.
翻訳日:2023-10-31 20:59:56 公開日:2023-10-28
# 半透過的最大度推定による学習記述型画像キャプション

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation ( http://arxiv.org/abs/2306.13460v3 )

ライセンス: Link先を確認
Zihao Yue, Anwen Hu, Liang Zhang, Qin Jin(参考訳) 画像キャプションは自然言語で視覚的なコンテンツを記述することを目的としている。 「絵は千語の価値ある」ため、画像には様々な正しい記述がある可能性がある。 しかし、最大確率推定を訓練対象とし、その予測がラベルとミスマッチするたびに、キャプションモデルにペナルティが課される。 例えば、ラベルよりもリッチなセマンティクスを表現する単語を予測する場合、簡潔さ最適化と呼ばれるより簡潔な表現を好むようにペナル化され最適化される。 対照的に、ラベルよりも簡潔な予測はリッチネス最適化につながる。 このような矛盾する最適化方向は、最終的にモデルが一般的な記述を生成することになる。 本研究では,簡潔さの最適化をブロックしながらリッチネスの最適化を可能にする半透過最大推定法(smile)を導入することで,より詳細なキャプションを生成することができる。 MSCOCOとFlickr30Kの2つの主流画像キャプションデータセットに対する大規模な実験により、SMILEは生成されたキャプションの記述性を著しく向上することが示された。 SMILEの動作をより深く理解するための詳細な調査も行っている。

Image captioning aims to describe visual content in natural language. As 'a picture is worth a thousand words', there could be various correct descriptions for an image. However, with maximum likelihood estimation as the training objective, the captioning model is penalized whenever its prediction mismatches with the label. For instance, when the model predicts a word expressing richer semantics than the label, it will be penalized and optimized to prefer more concise expressions, referred to as conciseness optimization. In contrast, predictions that are more concise than labels lead to richness optimization. Such conflicting optimization directions could eventually result in the model generating general descriptions. In this work, we introduce Semipermeable MaxImum Likelihood Estimation (SMILE), which allows richness optimization while blocking conciseness optimization, thus encouraging the model to generate longer captions with more details. Extensive experiments on two mainstream image captioning datasets MSCOCO and Flickr30K demonstrate that SMILE significantly enhances the descriptiveness of generated captions. We further provide in-depth investigations to facilitate a better understanding of how SMILE works.
翻訳日:2023-10-31 20:58:45 公開日:2023-10-28
# カオスを受け入れる:変動流における数値不安定の解析と診断

Embracing the chaos: analysis and diagnosis of numerical instability in variational flows ( http://arxiv.org/abs/2307.06957v2 )

ライセンス: Link先を確認
Zuheng Xu, Trevor Campbell(参考訳) 本稿では,変動流における数値不安定性がサンプリングの信頼性,密度評価,エビデンスローバウンド(elbo)推定に与える影響について検討する。 数値フローマップは正確なマップ(サンプリングに影響する)から大きく逸脱し、数値逆フローマップは、密度とelbo計算に影響を与える初期入力を正確に回復することができない。 驚くべきことに、深刻な数値不安定が存在するにもかかわらず、流れによって生じる結果は、応用に十分正確であることが多い。 本研究では, 変動流を力学系として扱い, シャドーイング理論を活用し, サンプリング誤差, 密度評価, ELBO推定の理論的保証により, この挙動を解明する。 最後に,数値的に不安定な流れによる結果の検証に使用できる診断手法を開発し,実証的に検証する。

In this paper, we investigate the impact of numerical instability on the reliability of sampling, density evaluation, and evidence lower bound (ELBO) estimation in variational flows. We first empirically demonstrate that common flows can exhibit a catastrophic accumulation of error: the numerical flow map deviates significantly from the exact map -- which affects sampling -- and the numerical inverse flow map does not accurately recover the initial input -- which affects density and ELBO computations. Surprisingly though, we find that results produced by flows are often accurate enough for applications despite the presence of serious numerical instability. In this work, we treat variational flows as dynamical systems, and leverage shadowing theory to elucidate this behavior via theoretical guarantees on the error of sampling, density evaluation, and ELBO estimation. Finally, we develop and empirically test a diagnostic procedure that can be used to validate results produced by numerically unstable flows in practice.
翻訳日:2023-10-31 20:51:49 公開日:2023-10-28
# ソーシャルメディア上の摂食障害コンテンツの同定のためのサイト非依存型マルチモーダル深層学習モデル

A Novel Site-Agnostic Multimodal Deep Learning Model to Identify Pro-Eating Disorder Content on Social Media ( http://arxiv.org/abs/2307.06775v3 )

ライセンス: Link先を確認
Jonathan Feldman(参考訳) 過去10年間で、摂食障害の診断や摂食障害による死亡が急増し、新型コロナウイルス(covid-19)のパンデミックで絶頂期を迎えた。 この大きな成長は、パンデミックのストレス要因だけでなく、摂食障害を促進するコンテンツに溢れるソーシャルメディアへの露出の増加にも起因している。 本研究の目的は、ソーシャルメディア投稿が視覚データとテキストデータの組み合わせに基づいて摂食障害を促進するかどうかを判断できるマルチモーダル深層学習モデルを構築することである。 ツイートのラベル付きデータセットがtwitterから収集され、12のディープラーニングモデルがトレーニングされ、テストされた。 モデル性能に基づいて、最も効果的なディープラーニングモデルは、RoBERTa自然言語処理モデルとMaxViT画像分類モデルのマルチモーダル融合であり、それぞれ95.9%と0.959のF1スコアを得た。 roberta and maxvit fusion modelは、ソーシャルメディアサイトtumblrとredditの投稿のラベルのないデータセットを分類するためにデプロイされ、人工知能ベースの技術を使用しない以前の研究結果と類似した結果を生み出した。 さらに、このモデルは8つのtwitterハッシュタグからの未発見ツイートの時系列分析に使われ、2014年以来、摂食障害を促進するコンテンツの相対的豊富さは、それらのコミュニティで劇的に減少していることが判明した。 この減少にもかかわらず、2018年までに、摂食障害を助長するコンテンツは、これらのハッシュタグで新たに減少または増加していた。

Over the last decade, there has been a vast increase in eating disorder diagnoses and eating disorder-attributed deaths, reaching their zenith during the Covid-19 pandemic. This immense growth derived in part from the stressors of the pandemic but also from increased exposure to social media, which is rife with content that promotes eating disorders. This study aimed to create a multimodal deep learning model that can determine if a given social media post promotes eating disorders based on a combination of visual and textual data. A labeled dataset of Tweets was collected from Twitter, upon which twelve deep learning models were trained and tested. Based on model performance, the most effective deep learning model was the multimodal fusion of the RoBERTa natural language processing model and the MaxViT image classification model, attaining accuracy and F1 scores of 95.9% and 0.959, respectively. The RoBERTa and MaxViT fusion model, deployed to classify an unlabeled dataset of posts from the social media sites Tumblr and Reddit, generated results akin to those of previous research studies that did not employ artificial intelligence-based techniques, indicating that deep learning models can develop insights congruent to those of researchers. Additionally, the model was used to conduct a timeseries analysis of yet unseen Tweets from eight Twitter hashtags, uncovering that, since 2014, the relative abundance of content that promotes eating disorders has decreased drastically within those communities. Despite this reduction, by 2018, content that promotes eating disorders had either stopped declining or increased in ampleness anew on these hashtags.
翻訳日:2023-10-31 20:51:33 公開日:2023-10-28
# スコアベース最適化による対向ロバスト性向上

Enhancing Adversarial Robustness via Score-Based Optimization ( http://arxiv.org/abs/2307.04333v3 )

ライセンス: Link先を確認
Boya Zhang, Weijian Luo, Zhihua Zhang(参考訳) 敵の攻撃は、わずかな摂動を導入することでディープニューラルネットワーク分類器を誤解させる可能性がある。 これらの攻撃の影響を軽減するアルゴリズムの開発は、人工知能の安全な利用を確保するために不可欠である。 近年の研究では、スコアベース拡散モデルが敵防御に有効であることが示唆されている。 しかし、既存の拡散ベースの防御は、計算効率が悪く最適でない拡散モデルの逆確率微分方程式の逐次シミュレーションに依存している。 本稿では,ScoreOptと呼ばれる新しい対向防御方式を提案する。これは,テスト時の対向サンプルを,スコアベースで導かれた方向の本来のクリーンデータに向けて最適化する。 我々は、CIFAR10、CIFAR100、ImageNetを含む複数のデータセットに関する包括的な実験を行う。 実験の結果,提案手法は,ロバスト性性能と推論速度の両方の観点から,既存の敵防御よりも優れていた。

Adversarial attacks have the potential to mislead deep neural network classifiers by introducing slight perturbations. Developing algorithms that can mitigate the effects of these attacks is crucial for ensuring the safe use of artificial intelligence. Recent studies have suggested that score-based diffusion models are effective in adversarial defenses. However, existing diffusion-based defenses rely on the sequential simulation of the reversed stochastic differential equations of diffusion models, which are computationally inefficient and yield suboptimal results. In this paper, we introduce a novel adversarial defense scheme named ScoreOpt, which optimizes adversarial samples at test-time, towards original clean data in the direction guided by score-based priors. We conduct comprehensive experiments on multiple datasets, including CIFAR10, CIFAR100 and ImageNet. Our experimental results demonstrate that our approach outperforms existing adversarial defenses in terms of both robustness performance and inference speed.
翻訳日:2023-10-31 20:49:18 公開日:2023-10-28
# 効果的な人間-AIコラボレーション開発における人間中心AIの適用:人間-AI共同認知システムの観点から

Applying human-centered AI in developing effective human-AI teaming: A perspective of human-AI joint cognitive systems ( http://arxiv.org/abs/2307.03913v4 )

ライセンス: Link先を確認
Wei Xu, Zaifeng Gao(参考訳) 研究と応用は、AIシステムを開発するための新しいパラダイムとして、HAT(Human-AI Teaming)を使用している。 HATは、AIが単なるツールではなく、チームメイトとして機能することを認識している。 効果的な人間-AIチームは、各メンバの既知の課題と制限を克服しつつ、人間とAIの両方のユニークな能力を活用でき、人間の能力を増強し、どちらのエンティティよりも共同パフォーマンスを高める必要がある。 National AI Research and Strategic Plan 2023アップデートは、AIシステムの独立したパフォーマンスに重点を置く研究プログラムが、動的、適応的、協力的なチームの中でAIが提供しなければならない機能を考慮するのに失敗し、人間とAIのコラボレーションとコラボレーションに関するさらなる研究を求めることを認識している。 しかし、AIが人間とチームメイトとして機能するかどうかについては議論がある。 第一の懸念は、"チーム"パラダイムを採用することは、人間中心のAI(HCAI)アプローチと矛盾するため、AIシステムのコントロールを失うことである。 本稿では、HATパラダイムと議論をさらに分析する。 具体的には,人間とAIの協調認知システム(HAIJCS)の概念枠組みを詳述し,HCAI傘の下でのHAT表現に適用する。 HAIJCSはHCAIを有効化しながらHAIを採用するのに役立つと考えている。 HAIJCSの意義と今後の課題についても論じる。 洞察:aiは新しい形の人間-機械関係の出現につながった:人間-aiチーム(hat)、人間-aiシステムにおけるパラダイムシフト、新しいデザインパラダイムとして帽子を適用する際に人間中心のai(hcai)アプローチに従うこと、効果的な人間-aiチームを作るための帽子を表現・実装するための人間-ai合同認知システム(haijcs)の概念的枠組みを提案する。

Research and application have used human-AI teaming (HAT) as a new paradigm to develop AI systems. HAT recognizes that AI will function as a teammate instead of simply a tool in collaboration with humans. Effective human-AI teams need to be capable of taking advantage of the unique abilities of both humans and AI while overcoming the known challenges and limitations of each member, augmenting human capabilities, and raising joint performance beyond that of either entity. The National AI Research and Strategic Plan 2023 update has recognized that research programs focusing primarily on the independent performance of AI systems generally fail to consider the functionality that AI must provide within the context of dynamic, adaptive, and collaborative teams and calls for further research on human-AI teaming and collaboration. However, there has been debate about whether AI can work as a teammate with humans. The primary concern is that adopting the "teaming" paradigm contradicts the human-centered AI (HCAI) approach, resulting in humans losing control of AI systems. This article further analyzes the HAT paradigm and the debates. Specifically, we elaborate on our proposed conceptual framework of human-AI joint cognitive systems (HAIJCS) and apply it to represent HAT under the HCAI umbrella. We believe that HAIJCS may help adopt HAI while enabling HCAI. The implications and future work for HAIJCS are also discussed. Insights: AI has led to the emergence of a new form of human-machine relationship: human-AI teaming (HAT), a paradigmatic shift in human-AI systems; We must follow a human-centered AI (HCAI) approach when applying HAT as a new design paradigm; We propose a conceptual framework of human-AI joint cognitive systems (HAIJCS) to represent and implement HAT for developing effective human-AI teaming
翻訳日:2023-10-31 20:49:03 公開日:2023-10-28
# オフライン強化学習のための目標条件付き予測符号化

Goal-Conditioned Predictive Coding for Offline Reinforcement Learning ( http://arxiv.org/abs/2307.03406v2 )

ライセンス: Link先を確認
Zilai Zeng, Ce Zhang, Shijie Wang, Chen Sun(参考訳) 近年,オフライン学習における教師付き学習としての意思決定の有効性が実証されている。 GPTやBERTのような強力なシーケンスモデルは、しばしば軌道を符号化するために使用される。 しかし、軌道データ上でシーケンスモデリングを行うことの利点はいまだ不明である。 そこで本研究では,シーケンス・モデリングがトラジェクトリを,ポリシー学習を促進する有用な表現に凝縮できるかどうかを検討する。 まず、軌道レベルの表現をエンコードするためにシーケンスモデルを利用し、次にエンコードされた表現を入力として、ゴール条件付きポリシーを学習する2段階のフレームワークを採用する。 この定式化により、既存の教師付きオフラインRLメソッドをフレームワークの特定のインスタンスとして考えることができる。 このフレームワーク内では、強力な軌道表現を導き、実行ポリシーをもたらすシーケンスモデリングの目的である Goal-Conditioned Predictive Coding (GCPC) を導入する。 AntMaze、FrankaKitchen、Locomotion環境に対する広範な実証評価を通じて、シーケンスモデリングが意思決定タスクに重大な影響を与えることを観察した。 さらに、GCPCは将来の軌道を符号化する目標条件付き潜在表現を学習し、3つのベンチマークの競合性能を実現する。

Recent work has demonstrated the effectiveness of formulating decision making as supervised learning on offline-collected trajectories. Powerful sequence models, such as GPT or BERT, are often employed to encode the trajectories. However, the benefits of performing sequence modeling on trajectory data remain unclear. In this work, we investigate whether sequence modeling has the ability to condense trajectories into useful representations that enhance policy learning. We adopt a two-stage framework that first leverages sequence models to encode trajectory-level representations, and then learns a goal-conditioned policy employing the encoded representations as its input. This formulation allows us to consider many existing supervised offline RL methods as specific instances of our framework. Within this framework, we introduce Goal-Conditioned Predictive Coding (GCPC), a sequence modeling objective that yields powerful trajectory representations and leads to performant policies. Through extensive empirical evaluations on AntMaze, FrankaKitchen and Locomotion environments, we observe that sequence modeling can have a significant impact on challenging decision making tasks. Furthermore, we demonstrate that GCPC learns a goal-conditioned latent representation encoding the future trajectory, which enables competitive performance on all three benchmarks.
翻訳日:2023-10-31 20:48:03 公開日:2023-10-28
# deepfakebench: deepfake検出の包括的なベンチマーク

DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection ( http://arxiv.org/abs/2307.01426v2 )

ライセンス: Link先を確認
Zhiyuan Yan, Yong Zhang, Xinhang Yuan, Siwei Lyu, Baoyuan Wu(参考訳) ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。 この問題は不公平なパフォーマンス比較と、潜在的に誤解を招く結果につながる。 具体的には、データ処理パイプラインに均一性がないため、検出モデルに対する一貫性のないデータ入力が発生する。 さらに、実験的な設定には顕著な違いがあり、評価戦略とメトリクスには標準化が欠けている。 このギャップを埋めるために、deepfakebenchと呼ばれるdeepfake検出のための最初の包括的なベンチマークを提示します。 1)全検出器間で一貫した入力を確保する統一データ管理システム 2)最先端手法実装のための統合フレームワーク、及び 3)透明性と再現性を促進するための標準化された評価指標とプロトコル。 拡張可能なモジュールベースのコードベースを備えたdeepfakebenchには、15の最先端検出方法、9のdeepfakeデータセット、一連のdeepfake検出評価プロトコルと分析ツール、そして包括的な評価が含まれている。 さらに、様々な視点(データ拡張、バックボーンなど)からの評価を広範囲に分析した新たな洞察を提供する。 われわれの努力が今後の研究を促進し、このますます重要な領域におけるイノベーションを育むことを願っている。 ベンチマークのコード、評価、分析はすべてhttps://github.com/SCLBD/DeepfakeBench.comで公開されています。

A critical yet frequently overlooked challenge in the field of deepfake detection is the lack of a standardized, unified, comprehensive benchmark. This issue leads to unfair performance comparisons and potentially misleading results. Specifically, there is a lack of uniformity in data processing pipelines, resulting in inconsistent data inputs for detection models. Additionally, there are noticeable differences in experimental settings, and evaluation strategies and metrics lack standardization. To fill this gap, we present the first comprehensive benchmark for deepfake detection, called DeepfakeBench, which offers three key contributions: 1) a unified data management system to ensure consistent input across all detectors, 2) an integrated framework for state-of-the-art methods implementation, and 3) standardized evaluation metrics and protocols to promote transparency and reproducibility. Featuring an extensible, modular-based codebase, DeepfakeBench contains 15 state-of-the-art detection methods, 9 deepfake datasets, a series of deepfake detection evaluation protocols and analysis tools, as well as comprehensive evaluations. Moreover, we provide new insights based on extensive analysis of these evaluations from various perspectives (e.g., data augmentations, backbones). We hope that our efforts could facilitate future research and foster innovation in this increasingly critical domain. All codes, evaluations, and analyses of our benchmark are publicly available at https://github.com/SCLBD/DeepfakeBench.
翻訳日:2023-10-31 20:47:09 公開日:2023-10-28
# 適応主成分回帰とパネルデータへの応用

Adaptive Principal Component Regression with Applications to Panel Data ( http://arxiv.org/abs/2307.01357v2 )

ライセンス: Link先を確認
Anish Agarwal, Keegan Harris, Justin Whitehouse, Zhiwei Steven Wu(参考訳) 主成分回帰(プリンシパル・コンポーネント・レグレッション、英: principal component regression, PCR)は、観測された共変体がランダムノイズで劣化する線形回帰設定の一般化である。 オンライン(正規化)pcrに対して,データが適応的に収集される場合,最初の時間一様有限サンプル保証を提供する。 固定設計設定におけるpcr分析手法は, オンライン設定に容易には拡張できないため, 現代のマルティンゲール濃度からエラーイン変数設定への適応に依拠している。 本研究では,介入が適応的に割り当てられた場合のパネルデータ設定における実験設計のためのフレームワークを提供する。 提案手法は,適応的介入割当ポリシーによって収集される合成制御と合成介入フレームワークの一般化と考えることができる。

Principal component regression (PCR) is a popular technique for fixed-design error-in-variables regression, a generalization of the linear regression setting in which the observed covariates are corrupted with random noise. We provide the first time-uniform finite sample guarantees for online (regularized) PCR whenever data is collected adaptively. Since the proof techniques for analyzing PCR in the fixed design setting do not readily extend to the online setting, our results rely on adapting tools from modern martingale concentration to the error-in-variables setting. As an application of our bounds, we provide a framework for experiment design in panel data settings when interventions are assigned adaptively. Our framework may be thought of as a generalization of the synthetic control and synthetic interventions frameworks, where data is collected via an adaptive intervention assignment policy.
翻訳日:2023-10-31 20:46:48 公開日:2023-10-28
# 文脈帯域問題における人選好からの政策学習の有益性

Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems ( http://arxiv.org/abs/2307.12975v2 )

ライセンス: Link先を確認
Xiang Ji, Huazheng Wang, Minshuo Chen, Tuo Zhao, Mengdi Wang(参考訳) 現実世界の意思決定問題では、報酬関数はエンジニアリングや学習を必要とすることが多い。 一般的なアプローチは、トレーニングに報酬機能を学ぶために人間のフィードバックを活用することだ。 最も簡単な方法は、人間に絶対的なスケールでステートアクションペアのレーティングを提供して、これらのレーティングを直接報酬サンプルとすることである。 もう一つの一般的な方法は、人間の好みによって少数の状態対応ペアをランク付けし、これらの嗜好データから報酬関数を学習することである。 近年,InstructGPTなどの経験的応用において,嗜好に基づく手法が大きな成功を収めている。 本研究では、オフラインの文脈的帯域におけるこれらの人間のフィードバックアプローチの理論的比較を開発し、フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。 そこで本研究では,モデルの観点から,嗜好に基づく手法の実証的成功に関する理論的説明を求める。

For a real-world decision-making problem, the reward function often needs to be engineered or learned. A popular approach is to utilize human feedback to learn a reward function for training. The most straightforward way to do so is to ask humans to provide ratings for state-action pairs on an absolute scale and take these ratings as reward samples directly. Another popular way is to ask humans to rank a small set of state-action pairs by preference and learn a reward function from these preference data. Recently, preference-based methods have demonstrated substantial success in empirical applications such as InstructGPT. In this work, we develop a theoretical comparison between these human feedback approaches in offline contextual bandits and show how human bias and uncertainty in feedback modelings can affect the theoretical guarantees of these approaches. Through this, our results seek to provide a theoretical explanation for the empirical successes of preference-based methods from a modeling perspective.
翻訳日:2023-10-31 20:39:05 公開日:2023-10-28
# インテリジェントリモートセンシング画像品質検査システム

An Intelligent Remote Sensing Image Quality Inspection System ( http://arxiv.org/abs/2307.11965v3 )

ライセンス: Link先を確認
Yijiong Yu, Tao Wang, Kang Ran, Chang Li and Hao Wu(参考訳) 品質問題の存在が避けられないため、リモートセンシング画像の品質検査は、その取得と適用の間には必然的なステップである。 しかし、従来の手動検査は低効率である。 そこで我々は,SwinV2による画像分類を行い,Segformerによるセマンティックセグメンテーションなどの最も適切な手法を用いて品質問題をローカライズする,複数の高度なコンピュータビジョンモデルからなる,新しいディープラーニングベースの2段階インテリジェントシステムを提案する。 その結果,提案手法は従来の手法よりも優れた性能と効率性を示した。 さらに,リモートセンシング画像品質検査にマルチモーダルモデルを適用した最初の調査を行った。

Due to the inevitable presence of quality problems, quality inspection of remote sensing images is indeed an indispensable step between the acquisition and the application of them. However, traditional manual inspection suffers from low efficiency. Hence, we propose a novel deep learning-based two-step intelligent system consisting of multiple advanced computer vision models, which first performs image classification by SwinV2 and then accordingly adopts the most appropriate method, such as semantic segmentation by Segformer, to localize the quality problems. Results demonstrate that the proposed method exhibits excellent performance and efficiency, surpassing traditional methods. Furthermore, we conduct an initial exploration of applying multimodal models to remote sensing image quality inspection.
翻訳日:2023-10-31 20:38:33 公開日:2023-10-28
# HIQL: オフラインのゴールコンディションRLと遅延状態のアクション

HIQL: Offline Goal-Conditioned RL with Latent States as Actions ( http://arxiv.org/abs/2307.11949v3 )

ライセンス: Link先を確認
Seohong Park, Dibya Ghosh, Benjamin Eysenbach, Sergey Levine(参考訳) 教師なし事前学習はコンピュータビジョンと自然言語処理の基盤となっている。 強化学習(RL)において、ゴール条件付きRLは、大量のラベルなし(リワードフリー)データを利用するための類似した自己教師付きアプローチを提供する可能性がある。 しかし, 多様なオフラインデータから直接学習できるゴール条件付きRLの効率的なアルゴリズムの構築は困難であり, 遠方目標の正確な値関数を正確に推定することは困難である。 それでも、目標達成問題は、遠くの目標に達するには、まず近いサブゴールを通過する必要がある構造を示す。 この構造は非常に有用であり、近くの目標に対する行動の質を評価することは、通常より遠い目標よりも容易である。 この考えに基づき、オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。 1つのアクションフリーバリュー関数を使用して、この構造を活用可能な2つのポリシーを学習する。 状態をアクションとして扱うハイレベルポリシと、このサブゴールに到達するためのアクションを予測する低レベルポリシ(潜在表現)です。 分析とディダクティックな例を通して,この階層的分解により,推定値関数の雑音に対して頑健になることを示す。 そこで,本手法をオフラインゴール取得ベンチマークに適用し,従来の手法を精査し,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に活用できることを示す。 私たちのコードはhttps://seohong.me/projects/hiql/で利用可能です。

Unsupervised pre-training has recently become the bedrock for computer vision and natural language processing. In reinforcement learning (RL), goal-conditioned RL can potentially provide an analogous self-supervised approach for making use of large quantities of unlabeled (reward-free) data. However, building effective algorithms for goal-conditioned RL that can learn directly from diverse offline data is challenging, because it is hard to accurately estimate the exact value function for faraway goals. Nonetheless, goal-reaching problems exhibit structure, such that reaching distant goals entails first passing through closer subgoals. This structure can be very useful, as assessing the quality of actions for nearby goals is typically easier than for more distant goals. Based on this idea, we propose a hierarchical algorithm for goal-conditioned RL from offline data. Using one action-free value function, we learn two policies that allow us to exploit this structure: a high-level policy that treats states as actions and predicts (a latent representation of) a subgoal and a low-level policy that predicts the action for reaching this subgoal. Through analysis and didactic examples, we show how this hierarchical decomposition makes our method robust to noise in the estimated value function. We then apply our method to offline goal-reaching benchmarks, showing that our method can solve long-horizon tasks that stymie prior methods, can scale to high-dimensional image observations, and can readily make use of action-free data. Our code is available at https://seohong.me/projects/hiql/
翻訳日:2023-10-31 20:38:22 公開日:2023-10-28
# Black-Box Adviceを超える:Q値予測付きMDPのための学習拡張アルゴリズム

Beyond Black-Box Advice: Learning-Augmented Algorithms for MDPs with Q-Value Predictions ( http://arxiv.org/abs/2307.10524v2 )

ライセンス: Link先を確認
Tongxin Li, Yiheng Lin, Shaolei Ren and Adam Wierman(参考訳) 単軌道時間変化マルコフ決定過程(MDP)の文脈における一貫性と堅牢性の間のトレードオフを、信頼できない機械学習アドバイスを用いて検討する。 私たちの作業は、アドバイスの生成方法に関する追加情報が得られる設定を考慮し、ブラックボックスソースからのアドバイスを取り扱う典型的なアプローチから外れています。 連続的および離散的状態/作用空間を含む一般MDPモデルの下でQ値のアドバイスを与えられた第一種一貫性とロバスト性トレードオフを証明する。 以上の結果から,Q値アドバイスを利用することで,機械学習によるアドバイスとロバストなベースラインを動的に追求することが可能となり,ほぼ最適な性能保証が得られ,ブラックボックスアドバイスのみで得られるものが改善されることが示唆された。

We study the tradeoff between consistency and robustness in the context of a single-trajectory time-varying Markov Decision Process (MDP) with untrusted machine-learned advice. Our work departs from the typical approach of treating advice as coming from black-box sources by instead considering a setting where additional information about how the advice is generated is available. We prove a first-of-its-kind consistency and robustness tradeoff given Q-value advice under a general MDP model that includes both continuous and discrete state/action spaces. Our results highlight that utilizing Q-value advice enables dynamic pursuit of the better of machine-learned advice and a robust baseline, thus result in near-optimal performance guarantees, which provably improves what can be obtained solely with black-box advice.
翻訳日:2023-10-31 20:37:57 公開日:2023-10-28
# ゼロ膨張型保険債権に対するグラディエントブースティングの強化とCatBoost, XGBoost, LightGBMの比較分析

Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM ( http://arxiv.org/abs/2307.07771v2 )

ライセンス: Link先を確認
Banghee So(参考訳) 不動産・カジュアルティー(P&C)保険業界は、過剰なゼロの正のクレームの高度に右折した分布のため、クレーム予測モデルの開発において課題に直面している。 これを解決するために、アクチュアリ科学研究者は従来のカウントモデルとバイナリモデルを組み合わせた「ゼロインフレード」モデルを採用した。 本稿では,ゼロインフレーションテレマティクスデータを含む保険請求データを処理し,請求頻度モデルを構築するためのブースティングアルゴリズムについて検討する。 XGBoost、LightGBM、CatBoostの3つの人気勾配向上ライブラリを評価し、保険請求データをトレーニングし、アクチュアリル周波数モデルを適用するのに最も適したライブラリを比較した。 2つの異なるデータセットの包括的分析を通じて、予測性能に基づいて自動クレーム頻度モデルを開発するのに、CatBoostが最適であると判断する。 さらに,0-inflated Poisson boosted tree modelを新たに提案し,インフレーション確率$p$と分布平均$\mu$の関係を仮定した。 このモデルは特定のcatboostツールを利用することができ、テレマティクスデータを使用する際の周波数モデルにおける様々なリスク特徴の効果や相互作用を調べるのがより簡単で便利です。

The property and casualty (P&C) insurance industry faces challenges in developing claim predictive models due to the highly right-skewed distribution of positive claims with excess zeros. To address this, actuarial science researchers have employed "zero-inflated" models that combine a traditional count model and a binary model. This paper investigates the use of boosting algorithms to process insurance claim data, including zero-inflated telematics data, to construct claim frequency models. Three popular gradient boosting libraries - XGBoost, LightGBM, and CatBoost - are evaluated and compared to determine the most suitable library for training insurance claim data and fitting actuarial frequency models. Through a comprehensive analysis of two distinct datasets, it is determined that CatBoost is the best for developing auto claim frequency models based on predictive performance. Furthermore, we propose a new zero-inflated Poisson boosted tree model, with variation in the assumption about the relationship between inflation probability $p$ and distribution mean $\mu$, and find that it outperforms others depending on data characteristics. This model enables us to take advantage of particular CatBoost tools, which makes it easier and more convenient to investigate the effects and interactions of various risk features on the frequency model when using telematics data.
翻訳日:2023-10-31 20:35:30 公開日:2023-10-28
# min-max多重販売マン問題に対するハイブリッド遺伝的アルゴリズム

A Hybrid Genetic Algorithm for the min-max Multiple Traveling Salesman Problem ( http://arxiv.org/abs/2307.07120v3 )

ライセンス: Link先を確認
Sasan Mahmoudinazlou and Changhyun Kwon(参考訳) 本稿では,長期ツアーの長さを最小化するために,Multiple Traveling Salesman Problem (mTSP) を解くハイブリッド遺伝的アルゴリズムを提案する。 遺伝的アルゴリズムは、TSPシーケンスを個々の表現として利用し、動的プログラミングアルゴリズムを用いて、その個人を評価し、与えられた都市のシーケンスに対して最適なmTSPソリューションを求める。 新たなクロスオーバーオペレーターは、2人の親からの同様のツアーを組み合わせるように設計されており、人口に対して大きな多様性を提供する。 生成した子孫のいくつかは、交差のない解を得るためにツアー間の交差点を検出して除去する。 これはmin-max mTSPに特に有用である。 生成した子孫は、自己適応型ランダム局所探索と完全近傍探索により改善される。 我々のアルゴリズムは、文献にある複数のベンチマークセットに対して、同様のカットオフ時間しきい値で、すべての既存のアルゴリズムを平均で上回る。 さらに、4つのベンチマークセットで899ドルのインスタンスのうち21ドルで、最もよく知られたソリューションを改善します。

This paper proposes a hybrid genetic algorithm for solving the Multiple Traveling Salesman Problem (mTSP) to minimize the length of the longest tour. The genetic algorithm utilizes a TSP sequence as the representation of each individual, and a dynamic programming algorithm is employed to evaluate the individual and find the optimal mTSP solution for the given sequence of cities. A novel crossover operator is designed to combine similar tours from two parents and offers great diversity for the population. For some of the generated offspring, we detect and remove intersections between tours to obtain a solution with no intersections. This is particularly useful for the min-max mTSP. The generated offspring are also improved by a self-adaptive random local search and a thorough neighborhood search. Our algorithm outperforms all existing algorithms on average, with similar cutoff time thresholds, when tested against multiple benchmark sets found in the literature. Additionally, we improve the best-known solutions for $21$ out of $89$ instances on four benchmark sets.
翻訳日:2023-10-31 20:34:21 公開日:2023-10-28
# 行為の安定化: 双方向操作のコーディネートを学ぶ

Stabilize to Act: Learning to Coordinate for Bimanual Manipulation ( http://arxiv.org/abs/2309.01087v2 )

ライセンス: Link先を確認
Jennifer Grannen, Yilin Wu, Brandon Vu, Dorsa Sadigh(参考訳) 現実世界における豊かで巧妙な操作の鍵は、両手でコントロールを調整できることだ。 しかし、両立ロボットシステムによって与えられる約束は膨大であるが、二重アーム自律システムのための制御ポリシーを構築することは、本質的に困難をもたらす。 そのような難しさの1つは双対作用空間の高次元性であり、モデルベース法とデータ駆動法の両方に複雑さをもたらす。 人間からインスピレーションを得て、新しい役割割当フレームワークを提案することで、この課題に対処します。 安定化アームは、実行中のアームがタスクを実行する間、環境をシンプルにするためにオブジェクトを保持します。 我々は,このフレームワークを,学習した安定化位置の更新と環境の維持,そして実証から学んだ行動ポリシーによるタスク達成を,学習した安定化分類器(BUDS)を用いて交互に行うBimanUal Dexterity from Stabilization (BUDS)でインスタンス化する。 本研究は,実世界のロボットにおいて,ジッピングジャケットや野菜の切断など,複雑度の異なる4つの作業に対して,BUDSを評価した。 20のデモしかなければ、BUDSはタスクスイート全体で76.9%のタスク成功を達成し、52.7%の成功率を持つクラス内の配布外オブジェクトに一般化する。 BUDSは構造化されていないベースラインよりも56.0%成功しており、複雑なタスクに必要な精度のためにBC安定化ポリシーを学ぶ。 補足資料とビデオはhttps://sites.google.com/view/stabilizetoactで見ることができる。

Key to rich, dexterous manipulation in the real world is the ability to coordinate control across two hands. However, while the promise afforded by bimanual robotic systems is immense, constructing control policies for dual arm autonomous systems brings inherent difficulties. One such difficulty is the high-dimensionality of the bimanual action space, which adds complexity to both model-based and data-driven methods. We counteract this challenge by drawing inspiration from humans to propose a novel role assignment framework: a stabilizing arm holds an object in place to simplify the environment while an acting arm executes the task. We instantiate this framework with BimanUal Dexterity from Stabilization (BUDS), which uses a learned restabilizing classifier to alternate between updating a learned stabilization position to keep the environment unchanged, and accomplishing the task with an acting policy learned from demonstrations. We evaluate BUDS on four bimanual tasks of varying complexities on real-world robots, such as zipping jackets and cutting vegetables. Given only 20 demonstrations, BUDS achieves 76.9% task success across our task suite, and generalizes to out-of-distribution objects within a class with a 52.7% success rate. BUDS is 56.0% more successful than an unstructured baseline that instead learns a BC stabilizing policy due to the precision required of these complex tasks. Supplementary material and videos can be found at https://sites.google.com/view/stabilizetoact .
翻訳日:2023-10-31 20:27:52 公開日:2023-10-28
# 拡散モデルを用いた反復多粒画像編集

Iterative Multi-granular Image Editing using Diffusion Models ( http://arxiv.org/abs/2309.00613v2 )

ライセンス: Link先を確認
K J Joseph, Prateksha Udhayanan, Tripti Shukla, Aishwarya Agarwal, Srikrishna Karanam, Koustava Goswami, Balaji Vasan Srinivasan(参考訳) テキスト誘導画像合成の最近の進歩は、創造的なプロフェッショナルが芸術的かつ美的な視覚的資産を生み出す方法を大きく変えた。 そのような創造的な取り組みを完全に支援するためには、プロセスは以下の能力を持つべきである。 1)世代を反復的に編集し 2)所望の変化(グローバル,ローカル,あるいはその中間)の空間的到達度を制御する。 我々は,この実用的問題設定を反復的多面的編集として定式化する。 画像合成と編集のための拡散ベースのモデルにはかなりの進歩があったが、それらはすべて1つのショット(反復編集機能がない)であり、自然にマルチグラニュラー制御(すなわち、ローカルからグローバルへの編集のスペクトル全体をカバーする)を与えない。 これらの欠点を克服するために, EMILIE: Iterative Multi-granular Image Editorを提案する。 emilie氏は新しい潜在反復戦略を導入し、反復的な編集を容易にするために事前訓練された拡散モデルを再利用した。 これはマルチグラニュラー制御のための勾配制御操作によって補完される。 新たに提案した設定を評価するためのベンチマークデータセットを提案する。 我々は、EMILIEの課題に適応した最近の最先端アプローチに対して、徹底的かつ質的に定量的に評価を行う。 この新しく特定された実用的な問題設定に私たちの仕事が注目されることを願っています。

Recent advances in text-guided image synthesis has dramatically changed how creative professionals generate artistic and aesthetically pleasing visual assets. To fully support such creative endeavors, the process should possess the ability to: 1) iteratively edit the generations and 2) control the spatial reach of desired changes (global, local or anything in between). We formalize this pragmatic problem setting as Iterative Multi-granular Editing. While there has been substantial progress with diffusion-based models for image synthesis and editing, they are all one shot (i.e., no iterative editing capabilities) and do not naturally yield multi-granular control (i.e., covering the full spectrum of local-to-global edits). To overcome these drawbacks, we propose EMILIE: Iterative Multi-granular Image Editor. EMILIE introduces a novel latent iteration strategy, which re-purposes a pre-trained diffusion model to facilitate iterative editing. This is complemented by a gradient control operation for multi-granular control. We introduce a new benchmark dataset to evaluate our newly proposed setting. We conduct exhaustive quantitatively and qualitatively evaluation against recent state-of-the-art approaches adapted to our task, to being out the mettle of EMILIE. We hope our work would attract attention to this newly identified, pragmatic problem setting.
翻訳日:2023-10-31 20:27:26 公開日:2023-10-28
# 衣服交換者再識別のための意味認識一貫性ネットワーク

Semantic-aware Consistency Network for Cloth-changing Person Re-Identification ( http://arxiv.org/abs/2308.14113v2 )

ライセンス: Link先を確認
Peini Guo, Hong Liu, Jianbing Wu, Guoquan Wang and Tao Wang(参考訳) 服を交換する人物再識別(cc-reid)は、衣服が変わった場合、複数の監視カメラでターゲットの人物を検索することを目的としている。 CC-ReIDの最近の進歩にもかかわらず、既存のアプローチは、衣服関連領域に一貫して焦点を合わせるための効果的な制約がないため、服のバリエーションの干渉によって妨げられている。 この問題に対処するために,効率的な一貫性制約を提案することで,識別関連セマンティック・コンシステンシー・ネットワーク(SCNet)を提案する。 具体的には,衣服領域の画素を消去することにより,衣料変動からの干渉を明示的に緩和する黒衣画像を生成する。 また、この細粒度識別情報を十分に活用するために、提案する部分的マッチング損失を利用して頭部情報を強調してソフトアテンションマップを学習するヘッドエンハンスメントモジュールを導入する。 さらに,高レベルのアイデンティティ関連セマンティックな特徴の学習を容易にするために,セマンティックな一貫性の喪失を設計し,セマンティックに一貫性のない布の無関係な領域にモデルを集中させる。 整合性制約を用いることで,提案モデルでは,ブラッククロース画像の生成や,推論段階でのヘッド領域の特定に補助的なセグメンテーションモジュールを必要としない。 布を交換する4つのRe-IDデータセット(LTCC、PRCC、Vc-Clothes、DeepChange)の大規模な実験により、提案したSCNetは、最先端のアプローチよりも大幅に改善されていることが示された。 私たちのコードは、https://github.com/Gpn-star/SCNet.comで利用可能です。

Cloth-changing Person Re-Identification (CC-ReID) is a challenging task that aims to retrieve the target person across multiple surveillance cameras when clothing changes might happen. Despite recent progress in CC-ReID, existing approaches are still hindered by the interference of clothing variations since they lack effective constraints to keep the model consistently focused on clothing-irrelevant regions. To address this issue, we present a Semantic-aware Consistency Network (SCNet) to learn identity-related semantic features by proposing effective consistency constraints. Specifically, we generate the black-clothing image by erasing pixels in the clothing area, which explicitly mitigates the interference from clothing variations. In addition, to fully exploit the fine-grained identity information, a head-enhanced attention module is introduced, which learns soft attention maps by utilizing the proposed part-based matching loss to highlight head information. We further design a semantic consistency loss to facilitate the learning of high-level identity-related semantic features, forcing the model to focus on semantically consistent cloth-irrelevant regions. By using the consistency constraint, our model does not require any extra auxiliary segmentation module to generate the black-clothing image or locate the head region during the inference stage. Extensive experiments on four cloth-changing person Re-ID datasets (LTCC, PRCC, Vc-Clothes, and DeepChange) demonstrate that our proposed SCNet makes significant improvements over prior state-of-the-art approaches. Our code is available at: https://github.com/Gpn-star/SCNet.
翻訳日:2023-10-31 20:25:29 公開日:2023-10-28
# 知識駆動型CoT:知識集約型質問応答のためのLLMにおける忠実推論

Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering ( http://arxiv.org/abs/2308.13259v2 )

ライセンス: Link先を確認
Keheng Wang, Feiyu Duan, Sirui Wang, Peiguang Li, Yunsen Xian, Chuantao Yin, Wenge Rong, Zhang Xiong(参考訳) Chain-of-Thought(CoT)を備えたLarge Language Model(LLM)は、さまざまな下流タスクで顕著な推論能力を示している。 それでも、幻覚や外部の知識にアクセスできないため、LLMは、特にKBQAのような知識集約的なタスクに答える文脈において、誤った、または不誠実な中間推論ステップを伴うことが多い。 この問題を軽減するために,外部知識との相互作用を通じてCoTの推論トレースを検証・修正するKD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。 具体的には、LLMのCoT合理化過程を構造化多重ラウンドQA形式に定式化する。 各ラウンドにおいて、LLMは外部知識を取得し、得られた正確な答えに基づいて忠実な推論トレースを生成するQAシステムと相互作用する。 LLMの構造的CoT推論はKBQA CoTコレクションによって促進され、インコンテキスト学習のデモンストレーションとして機能し、ロバストレトリバーのトレーニングにフィードバック強化として利用することができる。 webqsp と complexwebquestion データセットに関する広範な実験により、タスク解決推論生成における提案する kd-cot の有効性が示され、これは絶対成功率 8.0% と 5.1% のバニラコット icl を上回る。 さらに,提案手法は,知識を検索するための最先端のベースラインを向上し,ヒット・リコール性能を大幅に向上させる。 私たちのコードとデータはhttps://github.com/AdelWang/KD-CoT/tree/mainで公開されています。

Equipped with Chain-of-Thought (CoT), Large language models (LLMs) have shown impressive reasoning ability in various downstream tasks. Even so, suffering from hallucinations and the inability to access external knowledge, LLMs often come with incorrect or unfaithful intermediate reasoning steps, especially in the context of answering knowledge-intensive tasks such as KBQA. To alleviate this issue, we propose a framework called Knowledge-Driven Chain-of-Thought (KD-CoT) to verify and modify reasoning traces in CoT via interaction with external knowledge, and thus overcome the hallucinations and error propagation. Concretely, we formulate the CoT rationale process of LLMs into a structured multi-round QA format. In each round, LLMs interact with a QA system that retrieves external knowledge and produce faithful reasoning traces based on retrieved precise answers. The structured CoT reasoning of LLMs is facilitated by our developed KBQA CoT collection, which serves as in-context learning demonstrations and can also be utilized as feedback augmentation to train a robust retriever. Extensive experiments on WebQSP and ComplexWebQuestion datasets demonstrate the effectiveness of proposed KD-CoT in task-solving reasoning generation, which outperforms the vanilla CoT ICL with an absolute success rate of 8.0% and 5.1%. Furthermore, our proposed feedback-augmented retriever outperforms the state-of-the-art baselines for retrieving knowledge, achieving significant improvement in Hit and recall performance. Our code and data are released on https://github.com/AdelWang/KD-CoT/tree/main.
翻訳日:2023-10-31 20:24:58 公開日:2023-10-28
# 効率的なフレーム補間のための不確実性誘導空間プルーニングアーキテクチャ

Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame Interpolation ( http://arxiv.org/abs/2307.16555v4 )

ライセンス: Link先を確認
Ri Cheng, Xuhao Jiang, Ruian He, Shili Zhou, Weimin Tan, Bo Yan(参考訳) ビデオフレーム補間(VFI)モデルは、すべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。 動的空間プルーニング法を用いて冗長な計算をスキップできるが,vfiタスクの容易な領域を監視せずに適切に特定することはできない。 本稿では,フレーム補間を動的に行うために冗長計算を省略する不確実性誘導型空間プラニング(UGSP)アーキテクチャを提案する。 特に、不確実性の低い画素は、望ましくない視覚的結果をもたらすことなく計算を削減できる、容易な領域を示す。 そこで我々は,不確実なマスクラベルを用いてUGSPを誘導し,容易な領域を適切に配置する。 さらに,UGSPの性能向上のために,補助的な非刈取ブランチを活用する自己コントラストトレーニング戦略を提案する。 大規模な実験によると、UGSPはパフォーマンスを維持しているが、Vimeo90K/UCF101/MiddleBuryデータセットを使用せずにベースラインと比較してFLOPを34%/52%/30%削減する。 さらに,本手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。

The video frame interpolation (VFI) model applies the convolution operation to all locations, leading to redundant computations in regions with easy motion. We can use dynamic spatial pruning method to skip redundant computation, but this method cannot properly identify easy regions in VFI tasks without supervision. In this paper, we develop an Uncertainty-Guided Spatial Pruning (UGSP) architecture to skip redundant computation for efficient frame interpolation dynamically. Specifically, pixels with low uncertainty indicate easy regions, where the calculation can be reduced without bringing undesirable visual results. Therefore, we utilize uncertainty-generated mask labels to guide our UGSP in properly locating the easy region. Furthermore, we propose a self-contrast training strategy that leverages an auxiliary non-pruning branch to improve the performance of our UGSP. Extensive experiments show that UGSP maintains performance but reduces FLOPs by 34%/52%/30% compared to baseline without pruning on Vimeo90K/UCF101/MiddleBury datasets. In addition, our method achieves state-of-the-art performance with lower FLOPs on multiple benchmarks.
翻訳日:2023-10-31 20:22:26 公開日:2023-10-28
# SpikingNeRF:バイオインスパイアされたニューラルネットワークを現実世界で見る

SpikingNeRF: Making Bio-inspired Neural Networks See through the Real World ( http://arxiv.org/abs/2309.10987v2 )

ライセンス: Link先を確認
Xingting Yao, Qinghao Hu, Tielong Liu, Zitao Mo, Zeyu Zhu, Zhengyang Zhuge, Jian Cheng(参考訳) スパイキングニューラルネットワーク(SNN)は、その有望なエネルギー効率を活用し、生物学的に妥当な知性としてその可能性を活用するために、数多くのタスクに取り組んできた。 一方、Neural Radiance Fields(NeRF)は、大量のエネルギーを消費する高品質な3Dシーンをレンダリングするが、バイオインスパイアされたアプローチで省エネソリューションを掘り下げる作業はほとんどない。 本稿では,放射光線をsnnの時間次元と整合させ,snnを放射場の再構成に自然に適応させるspikingnerfを提案する。 したがって、計算はスパイクベースで乗算のない方法に変わり、エネルギー消費を減少させる。 SpikingNeRFでは、光線上の各サンプリング点が特定の時間ステップに一致し、ボクセルグリッドも維持されるハイブリッドな方法で表現される。 ボクセルグリッドに基づいて、よりよいトレーニングと推論のためにマスキングするかどうかのサンプルポイントが決定される。 しかし、この操作には不規則な時間的長さも伴う。 本稿では,正則テンソルのような正則時間長を維持するためにマスキング試料に取り組むための時間的パディング戦略と,ハードウェアフレンドリーな計算のための密度の高いデータ構造を形成する時間的凝縮戦略を提案する。 各種データセットに対する大規模な実験により, 提案手法は平均70.79 %のエネルギー消費を削減し, ANNベースラインと同等の合成品質が得られることが示された。

Spiking neural networks (SNNs) have been thriving on numerous tasks to leverage their promising energy efficiency and exploit their potentialities as biologically plausible intelligence. Meanwhile, the Neural Radiance Fields (NeRF) render high-quality 3D scenes with massive energy consumption, but few works delve into the energy-saving solution with a bio-inspired approach. In this paper, we propose SpikingNeRF, which aligns the radiance ray with the temporal dimension of SNN, to naturally accommodate the SNN to the reconstruction of Radiance Fields. Thus, the computation turns into a spike-based, multiplication-free manner, reducing the energy consumption. In SpikingNeRF, each sampled point on the ray is matched onto a particular time step, and represented in a hybrid manner where the voxel grids are maintained as well. Based on the voxel grids, sampled points are determined whether to be masked for better training and inference. However, this operation also incurs irregular temporal length. We propose the temporal padding strategy to tackle the masked samples to maintain regular temporal length, i.e., regular tensors, and the temporal condensing strategy to form a denser data structure for hardware-friendly computation. Extensive experiments on various datasets demonstrate that our method reduces the 70.79\% energy consumption on average and obtains comparable synthesis quality with the ANN baseline.
翻訳日:2023-10-31 20:15:57 公開日:2023-10-28
# Virchow:100万ドルのデジタル病理モデル

Virchow: A Million-Slide Digital Pathology Foundation Model ( http://arxiv.org/abs/2309.07778v4 )

ライセンス: Link先を確認
Eugene Vorontsov, Alican Bozkurt, Adam Casson, George Shaikovski, Michal Zelechowski, Siqi Liu, Philippe Mathieu, Alexander van Eck, Donghun Lee, Julian Viret, Eric Robert, Yi Kan Wang, Jeremy D. Kunz, Matthew C. H. Lee, Jan Bernhard, Ran A. Godrich, Gerard Oakley, Ewan Millar, Matthew Hanna, Juan Retamero, William A. Moye, Razik Yousfi, Christopher Kanan, David Klimstra, Brandon Rothrock, Thomas J. Fuchs(参考訳) 計算病理学は人工知能を使用して、スライド画像全体の分析を通じて精密医療と意思決定支援システムを可能にする。 がんの診断と治療に革命をもたらす可能性がある。 しかし、この目的に対する大きな課題は、多くの特定の計算病理タスクにおいて、データの量は開発に不十分であることである。 この課題に対処するため、計算病理学のための6億2200万のパラメータディープニューラルネットワーク基盤モデルであるVirchowを開発した。 virchowは自己教師付き学習を用いて150万ヘマトキシリンとエオシンを訓練し、様々な組織群からスライド画像全体を染色した。 タイルレベルのパンカンサー検出やサブタイピング、スライドレベルのバイオマーカー予測などの下流タスクで評価されると、Virchowは、トレーニング済みデータと同じ人口から引き出された内部データセットと、外部の公開データセットの両方で、最先端のシステムよりも優れている。 Virchowは膵管タイル分類では93%の精度で,大腸微小静脈不安定症では0.983,乳癌では0.967であった。 パフォーマンスの向上は、大量の病理画像データセットの事前トレーニングの重要性を強調しており、さらに大きなデータセットの事前トレーニングは、薬物結果予測などの限られたトレーニングデータが利用できる多くの高インパクトアプリケーションの性能向上を継続する可能性があることを示唆している。

Computational pathology uses artificial intelligence to enable precision medicine and decision support systems through the analysis of whole slide images. It has the potential to revolutionize the diagnosis and treatment of cancer. However, a major challenge to this objective is that for many specific computational pathology tasks the amount of data is inadequate for development. To address this challenge, we created Virchow, a 632 million parameter deep neural network foundation model for computational pathology. Using self-supervised learning, Virchow is trained on 1.5 million hematoxylin and eosin stained whole slide images from diverse tissue groups, which is orders of magnitude more data than previous works. When evaluated on downstream tasks including tile-level pan-cancer detection and subtyping and slide-level biomarker prediction, Virchow outperforms state-of-the-art systems both on internal datasets drawn from the same population as the pretraining data as well as external public datasets. Virchow achieves 93% balanced accuracy for pancancer tile classification, and AUCs of 0.983 for colon microsatellite instability status prediction and 0.967 for breast CDH1 status prediction. The gains in performance highlight the importance of pretraining on massive pathology image datasets, suggesting pretraining on even larger datasets could continue improving performance for many high-impact applications where limited amounts of training data are available, such as drug outcome prediction.
翻訳日:2023-10-31 20:13:57 公開日:2023-10-28
# ATTA:セグメンテーションにおけるアウト・オブ・ディストリビューション検出のための異常認識テスト時間適応

ATTA: Anomaly-aware Test-Time Adaptation for Out-of-Distribution Detection in Segmentation ( http://arxiv.org/abs/2309.05994v2 )

ライセンス: Link先を確認
Zhitong Gao, Shipeng Yan, Xuming He(参考訳) 密集型アウト・オブ・ディストリビューション(OOD)検出の最近の進歩は、トレーニングとテストデータセットが同様のドメインを共有するシナリオに主に焦点を合わせており、ドメイン間のシフトが存在しないことを前提としている。 しかし、現実の状況では、ドメインシフトはしばしばアウト・オブ・ディストリビューション(OOD)検出モデルの精度に大きく影響する。 本稿では,ドメインシフトとセマンティックシフトを共同で処理する2レベルood検出フレームワークを提案する。 第1レベルは、グローバル低レベル機能を利用することで画像に領域シフトが存在するかどうかを区別し、第2レベルは、高密度高レベル特徴マップを用いて意味的シフトを持つ画素を識別する。 このようにして、モデルを未認識領域に選択的に適応させ、新しいクラスを検出するモデルの能力を高めることができる。 提案手法の有効性を検証するため,様々なベースラインモデルで一貫した性能改善を観測し,有意な領域シフトを持つものを含む複数のoodセグメンテーションベンチマークを検証した。 コードは${\href{https://github.com/gaozhitong/ATTA}{https://github.com/gaozhitong/ATTA}}$で入手できる。

Recent advancements in dense out-of-distribution (OOD) detection have primarily focused on scenarios where the training and testing datasets share a similar domain, with the assumption that no domain shift exists between them. However, in real-world situations, domain shift often exits and significantly affects the accuracy of existing out-of-distribution (OOD) detection models. In this work, we propose a dual-level OOD detection framework to handle domain shift and semantic shift jointly. The first level distinguishes whether domain shift exists in the image by leveraging global low-level features, while the second level identifies pixels with semantic shift by utilizing dense high-level feature maps. In this way, we can selectively adapt the model to unseen domains as well as enhance model's capacity in detecting novel classes. We validate the efficacy of our proposed method on several OOD segmentation benchmarks, including those with significant domain shifts and those without, observing consistent performance improvements across various baseline models. Code is available at ${\href{https://github.com/gaozhitong/ATTA}{https://github.com/gaozhitong/ATTA}}$.
翻訳日:2023-10-31 20:13:06 公開日:2023-10-28
# 暗号トランザクションネットワーク上での不正アカウント検出に有効なマルチグラフニューラルネットワーク

Effective Multi-Graph Neural Networks for Illicit Account Detection on Cryptocurrency Transaction Networks ( http://arxiv.org/abs/2309.02460v2 )

ライセンス: Link先を確認
Zhihao Ding, Jieming Shi, Qing Li, Jiannong Cao(参考訳) オンライン金融市場で極めて重要な暗号通貨の取引ネットワークにおける不正アカウント検出について検討する。 暗号通貨に対する不正行為の急増は、通常のユーザーから何十億もの損失をもたらした。 既存のソリューションは、手作りの機能を得るために退屈な機能エンジニアリングに依存しているか、あるいは暗号トランザクションデータのリッチなセマンティクスを十分に活用するのに不適当である。 本稿では、エッジ属性を持つ有向多重グラフ上の分類タスクとして不正アカウント検出問題を定式化し、大規模トランザクションネットワーク上で不正アカウントを効果的に検出する新しいマルチグラフニューラルネットワークモデルであるDIAMを提案する。 まず、diamには、エッジ属性と有向エッジシーケンス依存性の両方を考慮して、並列エッジの固有トランザクションパターンを保存する効果的なノード表現を自動的に学習するedge2seqモジュールが含まれている。 マルチグラフトポロジを利用すると、DIAMは新しいMultigraph Discrepancy(MGD)モジュールとよく設計されたメッセージパッシング機構を使用して、アテンションメカニズムによってサポートされている正常ノードと不正ノード間の不一致の特徴をキャプチャする。 すべてのテクニックを組み立てると、DIAMはエンドツーエンドでトレーニングされます。 大規模な実験は、ビットコインとイーサリアムの4つの暗号通貨データセット上の14の既存のソリューションと比較し、DIAMが不正なアカウントを正確に検出し、効率的であることを証明する。 例えば、2000万のノードと203万のエッジを持つBitcoinデータセットでは、DIAMはF1スコア96.55%を獲得し、F1スコア83.92%よりも大幅に高い。 コードはhttps://github.com/tommydzh/diamで入手できる。

We study illicit account detection on transaction networks of cryptocurrencies that are increasi_testngly important in online financial markets. The surge of illicit activities on cryptocurrencies has resulted in billions of losses from normal users. Existing solutions either rely on tedious feature engineering to get handcrafted features, or are inadequate to fully utilize the rich semantics of cryptocurrency transaction data, and consequently, yield sub-optimal performance. In this paper, we formulate the illicit account detection problem as a classification task over directed multigraphs with edge attributes, and present DIAM, a novel multi-graph neural network model to effectively detect illicit accounts on large transaction networks. First, DIAM includes an Edge2Seq module that automatically learns effective node representations preserving intrinsic transaction patterns of parallel edges, by considering both edge attributes and directed edge sequence dependencies. Then utilizing the multigraph topology, DIAM employs a new Multigraph Discrepancy (MGD) module with a well-designed message passing mechanism to capture the discrepant features between normal and illicit nodes, supported by an attention mechanism. Assembling all techniques, DIAM is trained in an end-to-end manner. Extensive experiments, comparing against 14 existing solutions on 4 large cryptocurrency datasets of Bitcoin and Ethereum, demonstrate that DIAM consistently achieves the best performance to accurately detect illicit accounts, while being efficient. For instance, on a Bitcoin dataset with 20 million nodes and 203 million edges, DIAM achieves F1 score 96.55%, significantly higher than the F1 score 83.92% of the best competitor. The code is available at https://github.com/TommyDzh/DIAM.
翻訳日:2023-10-31 20:10:15 公開日:2023-10-28
# データ可用性に制限のあるMILPソリューションのためのディープインスタンス生成フレームワーク

A Deep Instance Generative Framework for MILP Solvers Under Limited Data Availability ( http://arxiv.org/abs/2310.02807v2 )

ライセンス: Link先を確認
Zijie Geng, Xijun Li, Jie Wang, Xiao Li, Yongdong Zhang, Feng Wu(参考訳) 過去数年間、組合せ最適化(CO)問題、特に混合整数線形プログラム(MILP)に対処するために機械学習(ML)技術の使用が爆発的に増加した。 成果にもかかわらず、実世界のインスタンスの可用性が限られていることは、しばしば最適化された決定とバイアスド・ソルバ・アセスメントにつながり、一連の合成milpインスタンス生成技術が動機となる。 しかし、既存のメソッドは専門家が設計した定式化に大きく依存するか、現実のインスタンスのリッチな特徴を捉えるのに苦労する。 そこで本研究では,MILPインスタンスの深層生成フレームワークであるG2MILPを提案する。 特に、G2MILPはMILPインスタンスを二部グラフとして表現し、マスク付き変分オートエンコーダを用いて元のグラフの一部を反復的に破壊し、置き換えて新しいグラフを生成する。 G2MILPの魅力は、現実のデータセットの構造と計算硬度を同時に保ちながら、事前のエキスパート設計による定式化なしに、斬新で現実的なMILPインスタンスを生成することができることである。 したがって、生成されたインスタンスは、限られたデータ可用性の下でMILPソルバを強化するための下流タスクを容易にすることができる。 生成されたMILPインスタンスの品質を評価するためのベンチマークスイートを設計する。 実験により,本手法は実世界のデータセットによく似た構造と計算硬度の両方を生成できることを示した。 製品はhttps://miralab-ustc.github.io/L2O-G2MILPで公開される。

In the past few years, there has been an explosive surge in the use of machine learning (ML) techniques to address combinatorial optimization (CO) problems, especially mixed-integer linear programs (MILPs). Despite the achievements, the limited availability of real-world instances often leads to sub-optimal decisions and biased solver assessments, which motivates a suite of synthetic MILP instance generation techniques. However, existing methods either rely heavily on expert-designed formulations or struggle to capture the rich features of real-world instances. To tackle this problem, we propose G2MILP, the first deep generative framework for MILP instances. Specifically, G2MILP represents MILP instances as bipartite graphs, and applies a masked variational autoencoder to iteratively corrupt and replace parts of the original graphs to generate new ones. The appealing feature of G2MILP is that it can learn to generate novel and realistic MILP instances without prior expert-designed formulations, while preserving the structures and computational hardness of real-world datasets, simultaneously. Thus the generated instances can facilitate downstream tasks for enhancing MILP solvers under limited data availability. We design a suite of benchmarks to evaluate the quality of the generated MILP instances. Experiments demonstrate that our method can produce instances that closely resemble real-world datasets in terms of both structures and computational hardness. The deliverables are released at https://miralab-ustc.github.io/L2O-G2MILP.
翻訳日:2023-10-31 20:03:15 公開日:2023-10-28
# 適応線形モデルの統計的限界:低次元推定と推論

Statistical Limits of Adaptive Linear Models: Low-Dimensional Estimation and Inference ( http://arxiv.org/abs/2310.00532v2 )

ライセンス: Link先を確認
Licong Lin, Mufang Ying, Suvrojit Ghosh, Koulik Khamaru, Cun-Hui Zhang(参考訳) 統計における推定と推論は、データが適応的に収集されるときに重大な課題をもたらす。 線形モデルにおいても、通常の最小方形 (OLS) 推定器は単一の座標推定に対して漸近正規性を示すことができず、膨張誤差を持つ。 この問題は、最近のminimaxlowboundによって強調されている。これは、1つの座標を推定する誤差を、データが任意に適応できる場合に、i.i.dの場合と比較して、$\sqrt{d}$という倍数で拡大できることを示している。 本研究では,データ収集における適応度が,高次元線形モデルにおける低次元パラメータ成分の推定性能に与える影響について検討する。 低次元パラメータ成分の推定誤差がi.i.d.設定のそれと一致するデータ収集機構の条件を,適応度に依存する因子まで同定する。 中心データ上のOLSやOLSは、このマッチングエラーを実現できることを示す。 さらに, 2段階適応線形推定方程式(tale)を解いて, 単一座標推定のための新しい推定器を提案する。 データ収集における適応性の弱い形式の下で,提案する推定器の漸近正規性を確立する。

Estimation and inference in statistics pose significant challenges when data are collected adaptively. Even in linear models, the Ordinary Least Squares (OLS) estimator may fail to exhibit asymptotic normality for single coordinate estimation and have inflated error. This issue is highlighted by a recent minimax lower bound, which shows that the error of estimating a single coordinate can be enlarged by a multiple of $\sqrt{d}$ when data are allowed to be arbitrarily adaptive, compared with the case when they are i.i.d. Our work explores this striking difference in estimation performance between utilizing i.i.d. and adaptive data. We investigate how the degree of adaptivity in data collection impacts the performance of estimating a low-dimensional parameter component in high-dimensional linear models. We identify conditions on the data collection mechanism under which the estimation error for a low-dimensional parameter component matches its counterpart in the i.i.d. setting, up to a factor that depends on the degree of adaptivity. We show that OLS or OLS on centered data can achieve this matching error. In addition, we propose a novel estimator for single coordinate inference via solving a Two-stage Adaptive Linear Estimating equation (TALE). Under a weaker form of adaptivity in data collection, we establish an asymptotic normality property of the proposed estimator.
翻訳日:2023-10-31 20:01:53 公開日:2023-10-28
# 拡張視覚質問応答検索のための細粒度遅延対話型マルチモーダル検索

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering ( http://arxiv.org/abs/2309.17133v2 )

ライセンス: Link先を確認
Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne(参考訳) 知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。 KB-VQAに取り組む強力なフレームワークであるRetrieval-Augmented Visual Question Answering (RA-VQA)は、まずDense Passage Retrieval (DPR)で関連ドキュメントを取得し、その後、それらを使用して質問に答える。 本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。 1)画像からテキストへの変換によって得られた画像表現は不完全で不正確であり、(2)クエリとドキュメント間の関連スコアは1次元の埋め込みで計算され、よりきめ細かな関連性には敏感である。 FLMRは、画像からテキストへの変換を補完する画像表現を、単純なアライメントネットワークを通じて既存のテキストベースレトリバーと整列した視覚モデルを用いて取得することで、これらの制限を克服する。 flmrはまた、多次元埋め込みを使って画像や質問をエンコードし、クエリとドキュメント間のきめ細かい関連性を捉える。 FLMRはRA-VQAレトリバーのPRRecall@5を約8倍改善する。 最後に、RA-VQAと最先端の2つの大規模マルチモーダル/言語モデルを用いて、OK-VQAデータセットで$\sim61\%$VQAスコアを得る。

Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to utilize knowledge from external knowledge bases to answer visually-grounded questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong framework to tackle KB-VQA, first retrieves related documents with Dense Passage Retrieval (DPR) and then uses them to answer questions. This paper proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major limitations in RA-VQA's retriever: (1) the image representations obtained via image-to-text transforms can be incomplete and inaccurate and (2) relevance scores between queries and documents are computed with one-dimensional embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes these limitations by obtaining image representations that complement those from the image-to-text transforms using a vision model aligned with an existing text-based retriever through a simple alignment network. FLMR also encodes images and questions using multi-dimensional embeddings to capture finer-grained relevance between queries and documents. FLMR significantly improves the original RA-VQA retriever's PRRecall@5 by approximately 8\%. Finally, we equipped RA-VQA with two state-of-the-art large multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA dataset.
翻訳日:2023-10-31 20:01:32 公開日:2023-10-28
# LagrangeBench - ラグランジアン流体力学ベンチマークスイート

LagrangeBench: A Lagrangian Fluid Mechanics Benchmarking Suite ( http://arxiv.org/abs/2309.16342v2 )

ライセンス: Link先を確認
Artur P. Toshev, Gianluca Galletti, Fabian Fritz, Stefan Adami, Nikolaus A. Adams(参考訳) 機械学習はグリッドベースのPDEモデリングに様々な科学的応用で成功している。 しかし、自由曲面や複素物理学の問題に対する好ましいアプローチであるラグランジュ粒子の離散化に基づく学習されたPDE解法は、いまだほとんど探索されていない。 本稿では,ラグランジュ粒子問題に対する最初のベンチマークスイートであるLagrangeBenchについて紹介する。 特に、私たちの貢献は、 (a) テイラー・グリーン渦・蓋駆動キャビティ・逆ポアゼイユ流・ダム破砕を含む平滑粒子流体力学(SPH)法により生成された流体力学データセット(3次元で4つ,3次元で3つ) b) 様々な訓練戦略と近隣3つの探索ルーチンを備えた効率的なJAXベースのAPI (c) GNSやSEGNNのような確立されたグラフニューラルネットワーク(GNN)をベースラインで実装したJAX。 最後に、学習されたサーロゲートの性能を測定するために、確立された位置誤差を超えて、粒子分布の運動エネルギーmseやシンクホーン距離などの物理指標を導入する。 私たちのコードベースはhttps://github.com/tumaer/lagrangebenchで利用可能です。

Machine learning has been successfully applied to grid-based PDE modeling in various scientific applications. However, learned PDE solvers based on Lagrangian particle discretizations, which are the preferred approach to problems with free surfaces or complex physics, remain largely unexplored. We present LagrangeBench, the first benchmarking suite for Lagrangian particle problems, focusing on temporal coarse-graining. In particular, our contribution is: (a) seven new fluid mechanics datasets (four in 2D and three in 3D) generated with the Smoothed Particle Hydrodynamics (SPH) method including the Taylor-Green vortex, lid-driven cavity, reverse Poiseuille flow, and dam break, each of which includes different physics like solid wall interactions or free surface, (b) efficient JAX-based API with various recent training strategies and three neighbor search routines, and (c) JAX implementation of established Graph Neural Networks (GNNs) like GNS and SEGNN with baseline results. Finally, to measure the performance of learned surrogates we go beyond established position errors and introduce physical metrics like kinetic energy MSE and Sinkhorn distance for the particle distribution. Our codebase is available at https://github.com/tumaer/lagrangebench .
翻訳日:2023-10-31 20:01:03 公開日:2023-10-28
# species196: きめ細かな種認識のための100万個の半教師付きデータセット

Species196: A One-Million Semi-supervised Dataset for Fine-grained Species Recognition ( http://arxiv.org/abs/2309.14183v3 )

ライセンス: Link先を確認
Wei He, Kai Han, Ying Nie, Chengcheng Wang, Yunhe Wang(参考訳) 基礎視覚モデルの開発は、一般的な視覚認識を高いレベルに押し上げたが、侵入種分類のような特殊な領域におけるきめ細かい認識にはうまく対応できない。 外来種の同定と管理は、社会的・生態学的価値が強い。 現在、ほとんどの侵入種データセットは規模が限られており、限られた範囲の種をカバーしており、深層学習に基づく侵略バイオメトリックスシステムの開発を制限している。 この領域のギャップを埋めるために,196カテゴリーの侵入種からなる大規模半教師付きデータセットである species196 を導入した。 専門家レベルの正確な注釈種196-l、侵入種種196-uのラベルなし画像1.2mの19k以上の画像を収集する。 データセットは、既存のモデルとアルゴリズムをベンチマークするための4つの実験的な設定、すなわち、教師付き学習、半教師付き学習、自己教師付き事前学習、大規模マルチモーダルモデルのゼロショット推論能力を提供する。 これら4つの学習パラダイムの今後の研究を促進するために,提案したデータセットの代表的な手法を実証研究する。 データセットはhttps://species-dataset.github.io/で公開されている。

The development of foundation vision models has pushed the general visual recognition to a high level, but cannot well address the fine-grained recognition in specialized domain such as invasive species classification. Identifying and managing invasive species has strong social and ecological value. Currently, most invasive species datasets are limited in scale and cover a narrow range of species, which restricts the development of deep-learning based invasion biometrics systems. To fill the gap of this area, we introduced Species196, a large-scale semi-supervised dataset of 196-category invasive species. It collects over 19K images with expert-level accurate annotations Species196-L, and 1.2M unlabeled images of invasive species Species196-U. The dataset provides four experimental settings for benchmarking the existing models and algorithms, namely, supervised learning, semi-supervised learning, self-supervised pretraining and zero-shot inference ability of large multi-modal models. To facilitate future research on these four learning paradigms, we conduct an empirical study of the representative methods on the introduced dataset. The dataset is publicly available at https://species-dataset.github.io/.
翻訳日:2023-10-31 19:59:58 公開日:2023-10-28
# ロバストな分散学習:データ不均一性下での厳密なエラー境界とブレークダウンポイント

Robust Distributed Learning: Tight Error Bounds and Breakdown Point under Data Heterogeneity ( http://arxiv.org/abs/2309.13591v2 )

ライセンス: Link先を確認
Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Rafa\"el Pinot, Geovani Rizk(参考訳) 逆境マシンに抵抗するように設計された堅牢な分散学習アルゴリズムの基礎となる理論は、データが均質であるときに経験的観察と一致する。 しかし、実際のシナリオの規範であるデータ不均質性の下では、学習誤差の限界は本質的に空白であり、経験的観察と非常に一致しない。 これは、考慮される異質性モデルがあまりにも制限的であり、最小二乗回帰のような基本的な学習タスクを対象としないためである。 本稿では,より現実的な不均一性モデル,すなわち(G,B)-段階的な相似性について考察し,既存の理論よりも学習問題を扱えることを示す。 特に,不均質性下の分解点が古典分数1/2よりも低いことを示す。 また、分散学習アルゴリズムの学習誤差に新たな低い境界があることも証明する。 我々は,分散勾配降下のロバストな変種に対するアッパーバウンドを導出し,理論と実践の間のギャップを経験的に減少させることを示した。

The theory underlying robust distributed learning algorithms, designed to resist adversarial machines, matches empirical observations when data is homogeneous. Under data heterogeneity however, which is the norm in practical scenarios, established lower bounds on the learning error are essentially vacuous and greatly mismatch empirical observations. This is because the heterogeneity model considered is too restrictive and does not cover basic learning tasks such as least-squares regression. We consider in this paper a more realistic heterogeneity model, namely (G,B)-gradient dissimilarity, and show that it covers a larger class of learning problems than existing theory. Notably, we show that the breakdown point under heterogeneity is lower than the classical fraction 1/2. We also prove a new lower bound on the learning error of any distributed learning algorithm. We derive a matching upper bound for a robust variant of distributed gradient descent, and empirically show that our analysis reduces the gap between theory and practice.
翻訳日:2023-10-31 19:58:35 公開日:2023-10-28
# 『Kelly is a Warm Person, Joseph is a Role Model』 LLM-Generated Reference Letters におけるジェンダーバイアス

"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters ( http://arxiv.org/abs/2310.09219v2 )

ライセンス: Link先を確認
Yixin Wan, George Pu, Jiao Sun, Aparna Garimella, Kai-Wei Chang, Nanyun Peng(参考訳) 大規模言語モデル(LLM)は、リコメンデーションレターなどの専門文書など、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。 利便性をもたらすが、このアプリケーションには前例のない公平性の懸念もある。 モデル生成参照文字は、プロのシナリオでユーザーが直接使用することもある。 これらのモデル構築された文字に根底にあるバイアスが存在する場合、精査なしで使用すると、女性の応募者にとってのアプリケーション成功率を妨害するなど、直接的な社会的害につながる可能性がある。 この差し迫った問題を踏まえると、この実世界のユースケースにおいて公平性の問題と関連する損害を包括的に研究する必要がある。 本稿では,llm生成基準文字における性別バイアスを批判的に検討する。 社会科学の知見からインスピレーションを得て,(1)言語スタイルバイアス,(2)語彙コンテンツバイアスという2次元のバイアスを顕示する評価手法を設計した。 さらに,モデルの幻覚バイアスを解析することにより,バイアス伝播の程度について検討する。 2つのLLMsChatGPTとAlpacaのベンチマーク評価により,LLM生成レコメンデーションレコメンデーションレターに有意な性別バイアスが認められた。 本研究は, LLM の使用を精査せずに警告するだけでなく, LLM 生成専門文書における隠れバイアスや害を徹底的に研究することの重要性も明らかにした。

Large Language Models (LLMs) have recently emerged as an effective tool to assist individuals in writing various types of content, including professional documents such as recommendation letters. Though bringing convenience, this application also introduces unprecedented fairness concerns. Model-generated reference letters might be directly used by users in professional scenarios. If underlying biases exist in these model-constructed letters, using them without scrutinization could lead to direct societal harms, such as sabotaging application success rates for female applicants. In light of this pressing issue, it is imminent and necessary to comprehensively study fairness issues and associated harms in this real-world use case. In this paper, we critically examine gender biases in LLM-generated reference letters. Drawing inspiration from social science findings, we design evaluation methods to manifest biases through 2 dimensions: (1) biases in language style and (2) biases in lexical content. We further investigate the extent of bias propagation by analyzing the hallucination bias of models, a term that we define to be bias exacerbation in model-hallucinated contents. Through benchmarking evaluation on 2 popular LLMs- ChatGPT and Alpaca, we reveal significant gender biases in LLM-generated recommendation letters. Our findings not only warn against using LLMs for this application without scrutinization, but also illuminate the importance of thoroughly studying hidden biases and harms in LLM-generated professional documents.
翻訳日:2023-10-31 19:51:08 公開日:2023-10-28
# 科学技術問題解決におけるChatGPTの可能性と落とし穴の検討

Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving ( http://arxiv.org/abs/2310.08773v2 )

ライセンス: Link先を確認
Karen D. Wang, Eric Burkholder, Carl Wieman, Shima Salehi, Nick Haber(参考訳) この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。 ChatGPT (GPT-4) は、カレッジレベルの工学物理学コースから合計40の問題を解くためにクエリーされた。 これらの問題は、問題の解決に必要なデータがすべて提供された、十分に特定された問題から、必要なデータがすべて与えられていない、不特定な実世界の問題まで及んだ。 その結果,chatgptは62.5%の問題点を解決できたが,その精度は8.3%に低下した。 モデルの不正確なソリューションの分析により、3つの異なる障害モードが明らかになった。 1)物理世界の正確なモデルの構築に失敗したこと。 2)データの欠落について合理的な前提を定めていないこと、及び 3)計算誤差。 この研究は、STEM教育を強化するためにLLMを付加した教材の活用方法に示唆を与える。 この洞察はまた、AIの強みと限界に関する幅広い議論に寄与し、この技術を活用することを目指す教育者と、問題解決と意思決定のための人間とAIのコラボレーションフレームワークを研究する研究者の両方に役立ちます。

The study explores the capabilities of OpenAI's ChatGPT in solving different types of physics problems. ChatGPT (with GPT-4) was queried to solve a total of 40 problems from a college-level engineering physics course. These problems ranged from well-specified problems, where all data required for solving the problem was provided, to under-specified, real-world problems where not all necessary data were given. Our findings show that ChatGPT could successfully solve 62.5% of the well-specified problems, but its accuracy drops to 8.3% for under-specified problems. Analysis of the model's incorrect solutions revealed three distinct failure modes: 1) failure to construct accurate models of the physical world, 2) failure to make reasonable assumptions about missing data, and 3) calculation errors. The study offers implications for how to leverage LLM-augmented instructional materials to enhance STEM education. The insights also contribute to the broader discourse on AI's strengths and limitations, serving both educators aiming to leverage the technology and researchers investigating human-AI collaboration frameworks for problem-solving and decision-making.
翻訳日:2023-10-31 19:50:41 公開日:2023-10-28
# 低ランク強化学習のためのスペクトル入射行列推定

Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning ( http://arxiv.org/abs/2310.06793v2 )

ライセンス: Link先を確認
Stefan Stojanovic, Yassir Jedra, Alexandre Proutiere(参考訳) 低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。 低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。 いずれの場合も,行列の各エントリは重要な情報を持ち,入力誤りの少ない推定方法を模索する。 重要なことに、これらの手法は利用可能なデータ(例えば、MDPでは、データはシステムトラジェクトリから構成される)に固有の相関に適合する必要がある。 簡単なスペクトルベースの行列推定手法の性能について検討し、行列の特異部分空間を効率よく回収し、ほぼ最小の入力誤差を示すことを示した。 低ランク行列推定におけるこれらの新しい結果は、下層の低ランク構造を完全に活用する強化学習アルゴリズムを考案することができる。 低ランク帯域問題に対する後悔最小化アルゴリズムと、低ランクMPPにおける報酬なしRLのための最良のポリシー識別アルゴリズムの2つの例を提供する。 どちらのアルゴリズムも最先端のパフォーマンス保証を提供する。

We study matrix estimation problems arising in reinforcement learning (RL) with low-rank structure. In low-rank bandits, the matrix to be recovered specifies the expected arm rewards, and for low-rank Markov Decision Processes (MDPs), it may for example characterize the transition kernel of the MDP. In both cases, each entry of the matrix carries important information, and we seek estimation methods with low entry-wise error. Importantly, these methods further need to accommodate for inherent correlations in the available data (e.g. for MDPs, the data consists of system trajectories). We investigate the performance of simple spectral-based matrix estimation approaches: we show that they efficiently recover the singular subspaces of the matrix and exhibit nearly-minimal entry-wise error. These new results on low-rank matrix estimation make it possible to devise reinforcement learning algorithms that fully exploit the underlying low-rank structure. We provide two examples of such algorithms: a regret minimization algorithm for low-rank bandit problems, and a best policy identification algorithm for reward-free RL in low-rank MDPs. Both algorithms yield state-of-the-art performance guarantees.
翻訳日:2023-10-31 19:48:50 公開日:2023-10-28
# 逆ロバスト一般化のためのpac-ベイズスペクトル正規化境界

PAC-Bayesian Spectrally-Normalized Bounds for Adversarially Robust Generalization ( http://arxiv.org/abs/2310.06182v2 )

ライセンス: Link先を確認
Jiancong Xiao, Ruoyu Sun, Zhi- Quan Luo(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。 敵の攻撃に対する防御アルゴリズムを確立するためには、敵の堅牢な一般化が不可欠である。 したがって、ロバスト一般化の理論的保証を研究することは興味深い。 本稿では,PAC-Bayesアプローチ(Neyshabur et al., 2017)に基づくノルムベースの複雑性に焦点を当てた。 主な課題は、標準設定に縛られた重みの摂動である主要な要素を堅牢な設定に拡張することである。 既存の試みは追加の強い仮定に大きく依存しており、ゆるい境界に繋がる。 本稿では,この問題に対処し,dnnに束縛されたスペクトル正規化ロバスト一般化を提案する。 既存の境界と比較すると、我々の境界には2つの大きな利点がある: 第一に、それは追加の仮定に依存しない。 第二に、標準一般化の境界に沿って、かなり厳密である。 したがって,本研究では,標準一般化限界とロバスト一般化境界のミスマッチ項は,ロバスト一般化の貧弱さに寄与しないという,ロバスト一般化の理解に関する異なる視点を提供する。 その代わり、これらの相違は数学的な問題によるものである。 最後に、一般の$$\ell_p$攻撃と他のニューラルネットワークアーキテクチャに対する敵対的堅牢性に対して、主要な結果を拡張する。

Deep neural networks (DNNs) are vulnerable to adversarial attacks. It is found empirically that adversarially robust generalization is crucial in establishing defense algorithms against adversarial attacks. Therefore, it is interesting to study the theoretical guarantee of robust generalization. This paper focuses on norm-based complexity, based on a PAC-Bayes approach (Neyshabur et al., 2017). The main challenge lies in extending the key ingredient, which is a weight perturbation bound in standard settings, to the robust settings. Existing attempts heavily rely on additional strong assumptions, leading to loose bounds. In this paper, we address this issue and provide a spectrally-normalized robust generalization bound for DNNs. Compared to existing bounds, our bound offers two significant advantages: Firstly, it does not depend on additional assumptions. Secondly, it is considerably tighter, aligning with the bounds of standard generalization. Therefore, our result provides a different perspective on understanding robust generalization: The mismatch terms between standard and robust generalization bounds shown in previous studies do not contribute to the poor robust generalization. Instead, these disparities solely due to mathematical issues. Finally, we extend the main result to adversarial robustness against general non-$\ell_p$ attacks and other neural network architectures.
翻訳日:2023-10-31 19:48:30 公開日:2023-10-28
# DORIS-MAE:マルチレベルアスペクトベースのクエリを用いた科学的文書検索

DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries ( http://arxiv.org/abs/2310.04678v3 )

ライセンス: Link先を確認
Jianyou Wang, Kaicheng Wang, Xiaoyue Wang, Prudhviraj Naidu, Leon Bergen, Ramamohan Paturi(参考訳) 科学的研究において、複雑な多面的クエリに基づいて関連文書を効果的に検索する能力は重要である。 既存の評価データセットは、主に複雑なクエリを効果的に表現するリソースのアノテートに必要な高コストと労力のために制限されている。 そこで本稿では,科学研究におけるユーザクエリの複雑な性質を扱うために,マルチレベルアスペクトベースのquEries (DORIS-MAE) を用いた科学文書検索手法を提案する。 我々は,コンピュータ科学の分野において,100件の人間による複雑なクエリケースからなるベンチマークデータセットを開発した。 複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。 anno-gptは、専門家レベルのデータセットアノテーションタスクにおける大規模言語モデル(llm)のパフォーマンスを検証するためのスケーラブルなフレームワークである。 DORIS-MAEデータセットのLCMアノテーションは、品質を損なうことなく500倍のコスト削減を実現した。 さらに、これらの複雑なクエリの多層構造のため、DORIS-MAEデータセットは追加のアノテーションを必要とせずに4,000以上のサブクエリテストケースに拡張できる。 DORIS-MAEの検索手法を17種類評価し,従来のデータセットと比較して顕著な性能低下を観測した。 これは科学研究において、複雑で多面的なクエリを扱うためのより良いアプローチの必要性を強調している。 データセットとコードベースはhttps://github.com/Real-Doris-Mae/Doris-Mae-Datasetで公開しています。

In scientific research, the ability to effectively retrieve relevant documents based on complex, multifaceted queries is critical. Existing evaluation datasets for this task are limited, primarily due to the high cost and effort required to annotate resources that effectively represent complex queries. To address this, we propose a novel task, Scientific DOcument Retrieval using Multi-level Aspect-based quEries (DORIS-MAE), which is designed to handle the complex nature of user queries in scientific research. We developed a benchmark dataset within the field of computer science, consisting of 100 human-authored complex query cases. For each complex query, we assembled a collection of 100 relevant documents and produced annotated relevance scores for ranking them. Recognizing the significant labor of expert annotation, we also introduce Anno-GPT, a scalable framework for validating the performance of Large Language Models (LLMs) on expert-level dataset annotation tasks. LLM annotation of the DORIS-MAE dataset resulted in a 500x reduction in cost, without compromising quality. Furthermore, due to the multi-tiered structure of these complex queries, the DORIS-MAE dataset can be extended to over 4,000 sub-query test cases without requiring additional annotation. We evaluated 17 recent retrieval methods on DORIS-MAE, observing notable performance drops compared to traditional datasets. This highlights the need for better approaches to handle complex, multifaceted queries in scientific research. Our dataset and codebase are available at https://github.com/Real-Doris-Mae/Doris-Mae-Dataset.
翻訳日:2023-10-31 19:48:11 公開日:2023-10-28
# RTDK-BO:Reinforced Transformer Deep kernelを用いた高次元ベイズ最適化

RTDK-BO: High Dimensional Bayesian Optimization with Reinforced Transformer Deep kernels ( http://arxiv.org/abs/2310.03912v3 )

ライセンス: Link先を確認
Alexander Shmakov, Avisek Naug, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna Gutierrez, Ashwin Ramesh Babu, Antonio Guillen and Soumyendu Sarkar(参考訳) gaussian process (gp) surrogates によって導かれたベイズ最適化 (bo) は、効率的で高次元のブラックボックス最適化のための貴重な技術であり、産業設計や科学計算のような多くの応用に固有の重要な問題である。 近年、単機能最適化と多目的最適化の両方において最適化性能を向上させるために強化学習(RL)を導入している。 しかし、数発のテクニックでさえ、密接に関連する目的間で共有される類似性を活用できない。 本稿では,近年のDeep Kernel Learning(DKL)とアテンションベースのTransformerモデルを組み合わせて,GPサロゲートとメタラーニングのモデリング能力を向上させる。 本稿では,dklに注意機構を組み込んで,boプロセス中に収集した文脈情報に適応させる新しいメタラーニングboサロゲート改善手法を提案する。 このトランスフォーマーディープカーネルと,連続的ソフトアクタ-クリティック強化学習を訓練した学習獲得関数を組み合わせることで,探索を支援する。 この強化変圧器ディープカーネル(rtdk-bo)アプローチは、最先端の結果を連続的な高次元最適化問題に導く。

Bayesian Optimization (BO), guided by Gaussian process (GP) surrogates, has proven to be an invaluable technique for efficient, high-dimensional, black-box optimization, a critical problem inherent to many applications such as industrial design and scientific computing. Recent contributions have introduced reinforcement learning (RL) to improve the optimization performance on both single function optimization and \textit{few-shot} multi-objective optimization. However, even few-shot techniques fail to exploit similarities shared between closely related objectives. In this paper, we combine recent developments in Deep Kernel Learning (DKL) and attention-based Transformer models to improve the modeling powers of GP surrogates with meta-learning. We propose a novel method for improving meta-learning BO surrogates by incorporating attention mechanisms into DKL, empowering the surrogates to adapt to contextual information gathered during the BO process. We combine this Transformer Deep Kernel with a learned acquisition function trained with continuous Soft Actor-Critic Reinforcement Learning to aid in exploration. This Reinforced Transformer Deep Kernel (RTDK-BO) approach yields state-of-the-art results in continuous high-dimensional optimization problems.
翻訳日:2023-10-31 19:46:49 公開日:2023-10-28
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル

PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v4 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna Guti\'errez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar(参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。 高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。 この追求における重要な課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルな熱データセンターモデルがないことである。 データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。 本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。 ベクトル化熱計算を用いることで、pydcmのオーダーは現在のエネルギーとモデリングの実装よりも30倍速くなり、cpuの数とサブリニアにスケールできる。 また、pydcmは、gymnasiumラッパーを介して深層強化学習を使用してデータセンターの冷却を最適化し、様々なデータセンター設計プロトタイプをテストするユーザフレンドリーなプラットフォームを提供する。

The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes.
翻訳日:2023-10-31 19:46:26 公開日:2023-10-28
# フラグメントに基づく分子グラフの事前学習と微調整

Fragment-based Pretraining and Finetuning on Molecular Graphs ( http://arxiv.org/abs/2310.03274v2 )

ライセンス: Link先を確認
Kha-Dinh Luong, Ambuj Singh(参考訳) 分子グラフ上の特性予測はグラフニューラルネットワークの重要な応用である。 近年、未ラベルの分子データが多くなり、化学領域におけるGNNの自己教師型学習が急速に進展している。 本研究では,ノードレベルとグラフレベルの事前学習の限界を克服するために,フラグメントレベルでの事前学習GNNを提案する。 主要地層採掘に関する最近の研究の成果を引用し, 大規模プレトレーニングデータセットから有意なフラグメントのコンパクトな語彙を求める。 抽出した語彙から,いくつかのフラグメントベースのコントラスト型および予測型事前学習タスクを導入する。 コントラスト学習タスクは、分子グラフ上の1つと分子内の高次接続を表すフラグメントグラフの2つのgnnを共同で事前学習する。 フラグメント埋め込みと対応する原子の分子グラフからの集約埋め込みの一貫性を強制することにより、埋め込みが複数の解像度で構造情報をキャプチャすることを保証する。 フラグメントグラフの構造情報は、グラフレベルの予測事前学習のための補助ラベルを抽出するためにさらに活用される。 下流の予測には, 事前学習した分子型およびフラグメント型gnnを併用し, 微調整時のフラグメント情報を活用する。 グラフフラグメントに基づく事前学習(GraphFP)では,8つの共通分子ベンチマークのうち5つのパフォーマンスが向上し,少なくとも11.5%の長範囲生物学的ベンチマークのパフォーマンスが向上する。 コードは、https://github.com/lvkd84/GraphFP.comで入手できる。

Property prediction on molecular graphs is an important application of Graph Neural Networks. Recently, unlabeled molecular data has become abundant, which facilitates the rapid development of self-supervised learning for GNNs in the chemical domain. In this work, we propose pretraining GNNs at the fragment level, a promising middle ground to overcome the limitations of node-level and graph-level pretraining. Borrowing techniques from recent work on principal subgraph mining, we obtain a compact vocabulary of prevalent fragments from a large pretraining dataset. From the extracted vocabulary, we introduce several fragment-based contrastive and predictive pretraining tasks. The contrastive learning task jointly pretrains two different GNNs: one on molecular graphs and the other on fragment graphs, which represents higher-order connectivity within molecules. By enforcing consistency between the fragment embedding and the aggregated embedding of the corresponding atoms from the molecular graphs, we ensure that the embeddings capture structural information at multiple resolutions. The structural information of fragment graphs is further exploited to extract auxiliary labels for graph-level predictive pretraining. We employ both the pretrained molecular-based and fragment-based GNNs for downstream prediction, thus utilizing the fragment information during finetuning. Our graph fragment-based pretraining (GraphFP) advances the performances on 5 out of 8 common molecular benchmarks and improves the performances on long-range biological benchmarks by at least 11.5%. Code is available at: https://github.com/lvkd84/GraphFP.
翻訳日:2023-10-31 19:46:06 公開日:2023-10-28
# ドメイン認識フェデレーション学習のためのデュアルプロンプトチューニング

Dual Prompt Tuning for Domain-Aware Federated Learning ( http://arxiv.org/abs/2310.03103v2 )

ライセンス: Link先を確認
Guoyizhe Wei, Feng Wang, Anshul Shah, Rama Chellappa(参考訳) フェデレートラーニング(Federated Learning)は、複数のクライアントがローカルデータで共有モデルを共同でトレーニングできる分散機械学習パラダイムである。 それでも、従来の連合学習アルゴリズムは、クライアント間のユビキタスなドメインシフトのために、うまく一般化できないことが多い。 本研究では、各クライアントのトレーニングデータが異なるドメインから派生する、挑戦的で現実的なフェデレート学習シナリオについて考察する。 本稿では,素早い学習技術を活用したドメインシフトの課題に対処し,Fed-DPT(Federated Dual Prompt Tuning)と呼ばれる新しい手法を提案する。 具体的には、feed-dptは事前訓練されたビジョン言語モデルを採用し、視覚とテキストの両方のプロンプトチューニングを適用して分散データに対するドメイン適応を促進する。 Fed-DPTの大規模な実験は、ドメイン対応のフェデレーション学習においてその顕著な効果を示した。 事前トレーニングされたCLIPモデル(イメージエンコーダとしてのViT-Base)により、提案されたFed-DPTは、DomainNetデータセットの6つのドメインの平均精度を68.4%向上し、オリジナルのCLIPを14.8%向上させた。

Federated learning is a distributed machine learning paradigm that allows multiple clients to collaboratively train a shared model with their local data. Nonetheless, conventional federated learning algorithms often struggle to generalize well due to the ubiquitous domain shift across clients. In this work, we consider a challenging yet realistic federated learning scenario where the training data of each client originates from different domains. We address the challenges of domain shift by leveraging the technique of prompt learning, and propose a novel method called Federated Dual Prompt Tuning (Fed-DPT). Specifically, Fed-DPT employs a pre-trained vision-language model and then applies both visual and textual prompt tuning to facilitate domain adaptation over decentralized data. Extensive experiments of Fed-DPT demonstrate its significant effectiveness in domain-aware federated learning. With a pre-trained CLIP model (ViT-Base as image encoder), the proposed Fed-DPT attains 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.
翻訳日:2023-10-31 19:45:41 公開日:2023-10-28
# ヘイトスピーチ検出のためのllmの探索:強みと脆弱性

Probing LLMs for hate speech detection: strengths and vulnerabilities ( http://arxiv.org/abs/2310.12860v2 )

ライセンス: Link先を確認
Sarthak Roy, Ashish Harshavardhan, Animesh Mukherjee and Punyajoy Saha(参考訳) 近年,ソーシャルメディアや研究者が,大規模な言語モデルを用いて憎悪や有害な言語を検出する取り組みを行っている。 しかし、これらの研究は、検出プロセスで説明、追加の文脈、被害者のコミュニティ情報を使うことを意図していない。 我々は、異なるプロンプト変動、入力情報を活用し、大きな言語モデルをゼロショット設定で評価する(文脈内サンプルを追加せずに)。 我々は3つの大きな言語モデル(GPT-3.5、text-davinci、Flan-T5)と3つのデータセットHateXplain、暗黙の憎しみ、ToxicSpansを選択します。 パイプラインのターゲット情報を含む平均すると、データセット全体のベースライン上でのモデルパフォーマンスが大幅に向上する(約20~30%)。 また、データセットをまたいだベースライン上でパイプライン(約10~20%)に合理性/説明を加えるという、かなりの効果があります。 さらに,このような大規模言語モデルに失敗するエラー事例の類型化についても述べる。 (i)分類・分類 (ii)決定の理由を説明する。 このような脆弱な点は、これらのモデルの'jailbreak'プロンプトを自動で構成し、そのようなプロンプトに対してモデルを堅牢にするためには、業界規模のセーフガード技術を開発する必要がある。

Recently efforts have been made by social media platforms as well as researchers to detect hateful or toxic language using large language models. However, none of these works aim to use explanation, additional context and victim community information in the detection process. We utilise different prompt variation, input information and evaluate large language models in zero shot setting (without adding any in-context examples). We select three large language models (GPT-3.5, text-davinci and Flan-T5) and three datasets - HateXplain, implicit hate and ToxicSpans. We find that on average including the target information in the pipeline improves the model performance substantially (~20-30%) over the baseline across the datasets. There is also a considerable effect of adding the rationales/explanations into the pipeline (~10-20%) over the baseline across the datasets. In addition, we further provide a typology of the error cases where these large language models fail to (i) classify and (ii) explain the reason for the decisions they take. Such vulnerable points automatically constitute 'jailbreak' prompts for these models and industry scale safeguard techniques need to be developed to make the models robust against such prompts.
翻訳日:2023-10-31 19:37:33 公開日:2023-10-28
# 4K4D:4K解像度でのリアルタイム4Dビュー合成

4K4D: Real-Time 4D View Synthesis at 4K Resolution ( http://arxiv.org/abs/2310.11448v3 )

ライセンス: Link先を確認
Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに合成することを目的とする。 近年,動的ビュー合成法によっては印象的なレンダリング品質が示されている。 しかし、高解像度画像のレンダリングでは、その速度は限られている。 この問題を解決するため、4k4dは、ハードウェアラスタライズをサポートし、前例のないレンダリング速度を実現する4dポイントクラウド表現である。 我々の表現は、4D機能グリッド上に構築されており、ポイントは自然に正規化され、堅牢に最適化できる。 さらに,効率を保ちつつレンダリング品質を大幅に向上させるハイブリッドな外観モデルを設計した。 さらに,rgbビデオから提案モデルを効果的に学習するための微分可能な奥行き剥離アルゴリズムを開発した。 実験では,rtx 4090 gpuを用いた4k解像度で,dnaレンダリングデータセット上で400fps以上,enerf-outdoorデータセットで80fps以上,rtx 4090 gpuで4k解像度でレンダリングできることを示した。 プロジェクトページはhttps://zju3dv.github.io/4k4d/で閲覧できます。

This paper targets high-fidelity and real-time view synthesis of dynamic 3D scenes at 4K resolution. Recently, some methods on dynamic view synthesis have shown impressive rendering quality. However, their speed is still limited when rendering high-resolution images. To overcome this problem, we propose 4K4D, a 4D point cloud representation that supports hardware rasterization and enables unprecedented rendering speed. Our representation is built on a 4D feature grid so that the points are naturally regularized and can be robustly optimized. In addition, we design a novel hybrid appearance model that significantly boosts the rendering quality while preserving efficiency. Moreover, we develop a differentiable depth peeling algorithm to effectively learn the proposed model from RGB videos. Experiments show that our representation can be rendered at over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x faster than previous methods and achieves the state-of-the-art rendering quality. Our project page is available at https://zju3dv.github.io/4k4d/.
翻訳日:2023-10-31 19:35:41 公開日:2023-10-28
# ViSoBERT:ベトナムのソーシャルメディアテキスト処理のための事前学習言語モデル

ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing ( http://arxiv.org/abs/2310.11166v2 )

ライセンス: Link先を確認
Quoc-Nam Nguyen, Thang Chau Phan, Duc-Vu Nguyen, Kiet Van Nguyen(参考訳) 資源豊富な言語として知られる英語と中国語は、自然言語処理タスクのためのトランスフォーマーベースの言語モデルの発展を目撃している。 ベトナムには約1億人がベトナム語を話すが、PhoBERT、ViBERT、vELECTRAといった事前訓練されたモデルは、POSタグ付けや名前付きエンティティ認識などベトナムの一般的なNLPタスクでうまく機能している。 これらの事前訓練された言語モデルは依然としてベトナムのソーシャルメディアに限られている。 本稿では,ベトナム語ソーシャルメディアテキストを対象としたモノリンガル事前学習型言語モデルViSoBERTについて,XLM-Rアーキテクチャを用いた高品質かつ多様なベトナム語ソーシャルメディアテキストの大規模コーパスで事前学習を行った。 さらに,ベトナムのソーシャルメディア上で,感情認識,ヘイトスピーチ検出,感情分析,スパムレビュー検出,ヘイトスピーチスパン検出という,5つの重要な自然言語下流タスクに関する事前学習モデルを探索した。 我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回っている。 私たちのViSoBERTモデルは研究目的でのみ利用可能です。

English and Chinese, known as resource-rich languages, have witnessed the strong development of transformer-based language models for natural language processing tasks. Although Vietnam has approximately 100M people speaking Vietnamese, several pre-trained models, e.g., PhoBERT, ViBERT, and vELECTRA, performed well on general Vietnamese NLP tasks, including POS tagging and named entity recognition. These pre-trained language models are still limited to Vietnamese social media tasks. In this paper, we present the first monolingual pre-trained language model for Vietnamese social media texts, ViSoBERT, which is pre-trained on a large-scale corpus of high-quality and diverse Vietnamese social media texts using XLM-R architecture. Moreover, we explored our pre-trained model on five important natural language downstream tasks on Vietnamese social media texts: emotion recognition, hate speech detection, sentiment analysis, spam reviews detection, and hate speech spans detection. Our experiments demonstrate that ViSoBERT, with far fewer parameters, surpasses the previous state-of-the-art models on multiple Vietnamese social media tasks. Our ViSoBERT model is available only for research purposes.
翻訳日:2023-10-31 19:35:07 公開日:2023-10-28
# 量子ゲートの高次保護-動的疎結合と協調したハミルトン工学

Higher-order protection of quantum gates: Hamiltonian engineering coordinated with dynamical decoupling ( http://arxiv.org/abs/2310.10991v2 )

ライセンス: Link先を確認
P. Z. Zhao, Sirui Liu, Jiangbin Gong(参考訳) 動的デカップリングは、量子記憶と量子ゲートの保護に向けた活発なアプローチである。 動的疎結合操作は系の時間進化に干渉する可能性があるため、量子ゲートの保護は量子状態のそれよりも困難である。 本研究では,量子ゲートの高次保護の実現に向けて,単純だが一般的なアプローチを提案する。 我々のアプローチの中心的な考え方は、量子記憶の保護のために提案された高階の動的疎結合配列と協調して量子ゲートハミルトンを設計することである。 図示のために提示した計算例では、特定の時間に外部駆動場の位相をクエンチするだけで必要な工学を実装できる。

Dynamical decoupling represents an active approach towards the protection of quantum memories and quantum gates. Because dynamical decoupling operations can interfere with system's own time evolution, the protection of quantum gates is more challenging than that of quantum states. In this work, we put forward a simple but general approach towards the realization of higher-order protection of quantum gates. The central idea of our approach is to engineer (hence regain the control of) the quantum gate Hamiltonian in coordination with higher-order dynamical decoupling sequences originally proposed for the protection of quantum memories. In our computational examples presented for illustration, the required engineering can be implemented by only quenching the phase of an external driving field at particular times.
翻訳日:2023-10-31 19:34:24 公開日:2023-10-28
# unk-vqa:マルチモーダル大規模モデルの回避能力に関するデータセットとプローブ

UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention Ability ( http://arxiv.org/abs/2310.10942v2 )

ライセンス: Link先を確認
Yanyang Guo and Fangkai Jiao and Zhiqi Shen and Liqiang Nie and Mohan Kankanhalli(参考訳) 信頼できるAIシステムを構築するためには、VQA(Visual Question Answering)モデルに、解決不可能な質問に答えることを控えるよう教える必要がある。 現存する研究は、VQAの様々な側面を探求してきたが、この特質を幾らか無視した。 本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。 データセットは、モデルが知らない問題に対処するように設計されている。 この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。 具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。 これはつまり、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離します。 そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,それらの重要な制限を見出す。 また,これらの疑問に対処するための簡単な手法も提案する。 このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとなり、それによってAIシステムの信頼性が向上すると考えています。 我々は、この領域のさらなる探索を容易にするために、 \href{https://github.com/guoyang9/UNK-VQA}{dataset} を利用可能にした。

Teaching Visual Question Answering (VQA) models to refrain from answering unanswerable questions is necessary for building a trustworthy AI system. Existing studies, though have explored various aspects of VQA but somewhat ignored this particular attribute. This paper aims to bridge the research gap by contributing a comprehensive dataset, called UNK-VQA. The dataset is specifically designed to address the challenge of questions that models do not know. To this end, we first augment the existing data via deliberate perturbations on either the image or question. In specific, we carefully ensure that the question-image semantics remain close to the original unperturbed distribution. By this means, the identification of unanswerable questions becomes challenging, setting our dataset apart from others that involve mere image replacement. We then extensively evaluate the zero- and few-shot performance of several emerging multi-modal large models and discover their significant limitations when applied to our dataset. Additionally, we also propose a straightforward method to tackle these unanswerable questions. This dataset, we believe, will serve as a valuable benchmark for enhancing the abstention capability of VQA models, thereby leading to increased trustworthiness of AI systems. We have made the \href{https://github.com/guoyang9/UNK-VQA}{dataset} available to facilitate further exploration in this area.
翻訳日:2023-10-31 19:34:13 公開日:2023-10-28
# unitime:クロスドメイン時系列予測のための言語統合モデル

UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series Forecasting ( http://arxiv.org/abs/2310.09751v2 )

ライセンス: Link先を確認
Xu Liu, Junfeng Hu, Yuan Li, Shizhe Diao, Yuxuan Liang, Bryan Hooi, Roger Zimmermann(参考訳) 多変量時系列予測は、現代のウェブ技術において重要な役割を果たす。 特定の時系列アプリケーションドメイン専用のモデルを作成する従来の手法とは対照的に、本研究ではドメイン境界を超越する統一モデルパラダイムを提唱する。 しかし、効果的なクロスドメインモデルを学ぶことは以下の課題を示している。 まず、様々なドメインはデータ特性の相違、例えば変数の数、これらの要因に柔軟性のない制約を課す既存のモデルのハードルを示す。 第2に、このモデルは様々な領域からデータを区別する上で困難に直面する可能性がある。 第3に、時系列領域の様々な収束率もまた、経験的性能を損なう可能性がある。 これらの課題に対処するため,ドメイン間時系列学習に有効なUniTimeを提案する。 具体的には、UniTimeは様々な特性を持つデータに柔軟に対応できる。 また、ドメイン命令とLanguage-TS Transformerを使用して識別情報を提供し、2つのモダリティを調整する。 さらにUniTimeは、ドメイン収束速度の不均衡の問題を軽減するためにマスキングを使用している。 我々は,UniTimeの最先端予測性能およびゼロショット転送性向上における有効性を示す。

Multivariate time series forecasting plays a pivotal role in contemporary web technologies. In contrast to conventional methods that involve creating dedicated models for specific time series application domains, this research advocates for a unified model paradigm that transcends domain boundaries. However, learning an effective cross-domain model presents the following challenges. First, various domains exhibit disparities in data characteristics, e.g., the number of variables, posing hurdles for existing models that impose inflexible constraints on these factors. Second, the model may encounter difficulties in distinguishing data from various domains, leading to suboptimal performance in our assessments. Third, the diverse convergence rates of time series domains can also result in compromised empirical performance. To address these issues, we propose UniTime for effective cross-domain time series learning. Concretely, UniTime can flexibly adapt to data with varying characteristics. It also uses domain instructions and a Language-TS Transformer to offer identification information and align two modalities. In addition, UniTime employs masking to alleviate domain convergence speed imbalance issues. Our extensive experiments demonstrate the effectiveness of UniTime in advancing state-of-the-art forecasting performance and zero-shot transferability.
翻訳日:2023-10-31 19:33:31 公開日:2023-10-28
# パラメタライズドグラフの分布を持つグラフニューラルネットワーク

Graph Neural Networks with a Distribution of Parametrized Graphs ( http://arxiv.org/abs/2310.16401v2 )

ライセンス: Link先を確認
See Hian Lee, Feng Ji, Kelin Xia and Wee Peng Tay(参考訳) 従来、グラフニューラルネットワークは単一の観測グラフを使用して訓練されてきた。 しかし、観測されたグラフは1つしか実現できない。 多くの応用において、グラフは誤ったエッジや欠落、情報的価値の少ないエッジ重みなど不確実性に遭遇する可能性がある。 これらの課題に対処し、以前に観測されたグラフになかった追加情報をキャプチャするために、複数のグラフをパラメータ化し生成するための潜在変数を導入する。 複数のグラフに基づく期待最大化(EM)フレームワークにおいて,ネットワークパラメータの最大推定値を得る。 具体的には,マルコフ連鎖モンテカルロ法 (MCMC) を用いてグラフの分布を反復的に決定し,PAC-ベイジアン理論の原理を取り入れた。 数値実験により、異種グラフのノード分類と化学データセットのグラフ回帰におけるベースラインモデルに対する性能改善が示されている。

Traditionally, graph neural networks have been trained using a single observed graph. However, the observed graph represents only one possible realization. In many applications, the graph may encounter uncertainties, such as having erroneous or missing edges, as well as edge weights that provide little informative value. To address these challenges and capture additional information previously absent in the observed graph, we introduce latent variables to parameterize and generate multiple graphs. We obtain the maximum likelihood estimate of the network parameters in an Expectation-Maximization (EM) framework based on the multiple graphs. Specifically, we iteratively determine the distribution of the graphs using a Markov Chain Monte Carlo (MCMC) method, incorporating the principles of PAC-Bayesian theory. Numerical experiments demonstrate improvements in performance against baseline models on node classification for heterogeneous graphs and graph regression on chemistry datasets.
翻訳日:2023-10-31 19:26:33 公開日:2023-10-28
# 深い統合的な説明

Deep Integrated Explanations ( http://arxiv.org/abs/2310.15368v2 )

ライセンス: Link先を確認
Oren Barkan, Yehonatan Elisha, Jonathan Weill, Yuval Asher, Amit Eshel, Noam Koenigstein(参考訳) 本稿では,視覚モデルを説明する普遍的手法であるDeep Integrated Explanations (DIX)を提案する。 DIXは、モデルの中間表現から情報を統合することで説明写像を生成し、対応する勾配と結合する。 多様なタスク,データセット,モデル構成にまたがる客観的および主観的評価の広範な配列を通じて,現状の手法を超越しつつ,忠実で正確な説明図を生成する上でのDIXの有効性を示す。

This paper presents Deep Integrated Explanations (DIX) - a universal method for explaining vision models. DIX generates explanation maps by integrating information from the intermediate representations of the model, coupled with their corresponding gradients. Through an extensive array of both objective and subjective evaluations spanning diverse tasks, datasets, and model configurations, we showcase the efficacy of DIX in generating faithful and accurate explanation maps, while surpassing current state-of-the-art methods.
翻訳日:2023-10-31 19:25:35 公開日:2023-10-28
# コンフォーメータに基づくエンドツーエンド音声認識のためのキーフレーム機構

Key Frame Mechanism For Efficient Conformer Based End-to-end Speech Recognition ( http://arxiv.org/abs/2310.14954v2 )

ライセンス: Link先を確認
Peng Fan, Changhao Shan, Sining Sun, Qing Yang, Jianwei Zhang(参考訳) 近年,エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのConformerは,最先端の性能を実現している。 Conformerブロックは、グローバル情報をキャプチャする自己認識メカニズムと、ローカル情報をキャプチャする畳み込みニューラルネットワークを活用して、パフォーマンスが改善される。 しかし、コンフォーメータベースモデルは、計算複雑性が入力シーケンスの長さと2乗的に増加するにつれて、自己着脱機構の問題に遭遇する。 従来のCTC(Connectionist Temporal Classification)にヒントを得て,コンバータエンコーダのダウンサンプリング手順のガイダンスとして中間CTC出力を導入した。 非ブランク出力のフレームをキーフレームとして定義する。 具体的には,キーフレームを用いたセルフアテンション機構の計算量を削減する新しい手法であるkfsa(key frame-based self-attention)機構を提案する。 提案手法の構造は2つのエンコーダからなる。 初期エンコーダに続いて、ラベルフレームを計算するための中間CTC損失関数を導入し、KFSAの鍵フレームと空白フレームを抽出する。 さらに,高次元音響特徴を直接操作し,ブランクラベルに対応するフレームをドロップするkfds(key frame-based downsampling)機構を導入し,第2エンコーダへの入力として新たな音響特徴列を生成する。 提案手法を用いることで,vanilla conformer や efficient conformer などの類似作業と同等あるいは高い性能を実現する。 提案手法は,モデルトレーニングや推論において60\%以上の無駄なフレームを排除し,推論速度を大幅に向上させる。 この作業コードは{https://github.com/scufan1990/key-frame-mechanism-for- efficient-conformer}で利用可能である。

Recently, Conformer as a backbone network for end-to-end automatic speech recognition achieved state-of-the-art performance. The Conformer block leverages a self-attention mechanism to capture global information, along with a convolutional neural network to capture local information, resulting in improved performance. However, the Conformer-based model encounters an issue with the self-attention mechanism, as computational complexity grows quadratically with the length of the input sequence. Inspired by previous Connectionist Temporal Classification (CTC) guided blank skipping during decoding, we introduce intermediate CTC outputs as guidance into the downsampling procedure of the Conformer encoder. We define the frame with non-blank output as key frame. Specifically, we introduce the key frame-based self-attention (KFSA) mechanism, a novel method to reduce the computation of the self-attention mechanism using key frames. The structure of our proposed approach comprises two encoders. Following the initial encoder, we introduce an intermediate CTC loss function to compute the label frame, enabling us to extract the key frames and blank frames for KFSA. Furthermore, we introduce the key frame-based downsampling (KFDS) mechanism to operate on high-dimensional acoustic features directly and drop the frames corresponding to blank labels, which results in new acoustic feature sequences as input to the second encoder. By using the proposed method, which achieves comparable or higher performance than vanilla Conformer and other similar work such as Efficient Conformer. Meantime, our proposed method can discard more than 60\% useless frames during model training and inference, which will accelerate the inference speed significantly. This work code is available in {https://github.com/scufan1990/Key-Frame-Mechanism-For-Efficient-Conformer}
翻訳日:2023-10-31 19:24:18 公開日:2023-10-28
# セグメンテーション系列の学習による言語モデルの入力コンテキストの拡張

Extending Input Contexts of Language Models through Training on Segmented Sequences ( http://arxiv.org/abs/2310.14633v2 )

ライセンス: Link先を確認
Petros Karypis, Julian McAuley, George Karypis(参考訳) 長い入力で言語モデルを効果的にトレーニングすることは、多くの技術的課題をもたらす。 コストを考慮すると、言語モデルは長いシーケンスに適応する前に一定のシーケンス長で事前学習される。 セグメンテーションシーケンスのトレーニングによるモデルの長い入力への適応法と絶対位置埋め込みの拡張のための補間ベース手法について検討する。 我々は,事前学習したモデルの入力コンテキストサイズを,アーキテクチャ上の変更やメモリコストを伴わずに拡張する訓練手法を開発した。 長い入力からセグメントをサブサンプリングすることで、モデルは元の位置を維持しながら新しい位置の相互作用を学ぶことができる。 本手法は,入力コンテキストを拡張することで絶対位置埋め込みを訓練したモデルと,訓練よりも長いシーケンスのパープレキシティを示す一般的な相対位置埋め込み法の両方にメリットがある。 提案手法は,入力コンテキストを4倍に拡張し,パープレキシティを向上できることを示す。

Effectively training language models on long inputs poses many technical challenges. As a cost consideration, languages models are pretrained on a fixed sequence length before being adapted to longer sequences. We explore various methods for adapting models to longer inputs by training on segmented sequences and an interpolation-based method for extending absolute positional embeddings. We develop a training procedure to extend the input context size of pretrained models with no architectural changes and no additional memory costs than training on the original input lengths. By sub-sampling segments from long inputs while maintaining their original position the model is able to learn new positional interactions. Our method benefits both models trained with absolute positional embeddings, by extending their input contexts, as well as popular relative positional embedding methods showing a reduced perplexity on sequences longer than they were trained on. We demonstrate our method can extend input contexts by a factor of 4x while improving perplexity.
翻訳日:2023-10-31 19:23:31 公開日:2023-10-28
# EDGE++: EDGEのトレーニングとサンプリングの改善

EDGE++: Improved Training and Sampling of EDGE ( http://arxiv.org/abs/2310.14441v2 )

ライセンス: Link先を確認
Mingyang Wu, Xiaohui Chen, Li-Ping Liu(参考訳) 最近、netgan、cell、 variational graph autoencoderなどのディープニューラルネットワークモデルが進歩しているが、大きなグラフを生成する上でキーグラフ統計を複製する上での限界に直面している。 拡散に基づく手法は有望な代替手段として登場したが、そのほとんどは計算効率と生成性能に課題を呈している。 EDGEは大規模ネットワークのモデリングに有効であるが、現在のデノナイジングアプローチは非効率であり、しばしばその生成過程における無駄な計算資源と潜在的なミスマッチにつながる。 本稿では,これらの問題に対処するためのEDGEモデルの改良を提案する。 具体的には、各時刻におけるアクティブノード数を最適化し、メモリ消費を大幅に削減する等級別ノイズスケジュールを導入する。 さらに、生成過程を微調整し、合成されたネットワークと真のネットワークの類似性をよりよく制御できる改良されたサンプリング方式を提案する。 実験の結果,提案手法は効率を向上させるだけでなく,生成したグラフの精度も向上し,グラフ生成タスクに堅牢でスケーラブルなソリューションを提供することがわかった。

Recently developed deep neural models like NetGAN, CELL, and Variational Graph Autoencoders have made progress but face limitations in replicating key graph statistics on generating large graphs. Diffusion-based methods have emerged as promising alternatives, however, most of them present challenges in computational efficiency and generative performance. EDGE is effective at modeling large networks, but its current denoising approach can be inefficient, often leading to wasted computational resources and potential mismatches in its generation process. In this paper, we propose enhancements to the EDGE model to address these issues. Specifically, we introduce a degree-specific noise schedule that optimizes the number of active nodes at each timestep, significantly reducing memory consumption. Additionally, we present an improved sampling scheme that fine-tunes the generative process, allowing for better control over the similarity between the synthesized and the true network. Our experimental results demonstrate that the proposed modifications not only improve the efficiency but also enhance the accuracy of the generated graphs, offering a robust and scalable solution for graph generation tasks.
翻訳日:2023-10-31 19:23:06 公開日:2023-10-28
# 対照的に、医療用時系列の階層的コントラストフレームワーク

Contrast Everything: A Hierarchical Contrastive Framework for Medical Time-Series ( http://arxiv.org/abs/2310.14017v3 )

ライセンス: Link先を確認
Yihe Wang, Yu Han, Haishuai Wang, Xiang Zhang(参考訳) コントラスト表現学習は、労働集約的、ドメイン特化的、希少な専門家アノテーションへの依存を軽減するため、医療時系列分析において重要である。 しかし、既存のコントラスト学習手法は主に1つのデータレベルに焦点を当てており、医療時系列の複雑な性質を完全に活用できない。 この問題に対処するために,医療時系列におけるデータコンピテンシーを生かした,革新的な階層型フレームワークCOMETを提案する。 我々の綿密に設計されたモデルは、観察、サンプル、トライアル、患者レベルという4つの潜在的なレベルからデータ一貫性を体系的にキャプチャする。 複数のレベルで対照的な損失を発生させることで、包括的なデータの一貫性を保ち、情報利用を自己管理的に最大化する効果的な表現を学習することができる。 患者に依存しない環境で実験を行う。 心筋梗塞の心電図信号やアルツハイマー病やパーキンソン病の脳波信号を含む3種類のデータセットを用いて6つの基準値と比較した。 その結果、COMETはすべてのベースラインを一貫して上回り、特に10%と1%のラベル付きデータセットで設定されている。 これらの結果は,医療時系列におけるコントラスト表現学習技術の進歩における我々の枠組みの意義を裏付けるものである。 ソースコードはhttps://github.com/DL4mHealth/COMETで入手できる。

Contrastive representation learning is crucial in medical time series analysis as it alleviates dependency on labor-intensive, domain-specific, and scarce expert annotations. However, existing contrastive learning methods primarily focus on one single data level, which fails to fully exploit the intricate nature of medical time series. To address this issue, we present COMET, an innovative hierarchical framework that leverages data consistencies at all inherent levels in medical time series. Our meticulously designed model systematically captures data consistency from four potential levels: observation, sample, trial, and patient levels. By developing contrastive loss at multiple levels, we can learn effective representations that preserve comprehensive data consistency, maximizing information utilization in a self-supervised manner. We conduct experiments in the challenging patient-independent setting. We compare COMET against six baselines using three diverse datasets, which include ECG signals for myocardial infarction and EEG signals for Alzheimer's and Parkinson's diseases. The results demonstrate that COMET consistently outperforms all baselines, particularly in setup with 10% and 1% labeled data fractions across all datasets. These results underscore the significant impact of our framework in advancing contrastive representation learning techniques for medical time series. The source code is available at https://github.com/DL4mHealth/COMET.
翻訳日:2023-10-31 19:21:37 公開日:2023-10-28
# PERF: 単一パノラマからのパノラマ性神経放射場

PERF: Panoramic Neural Radiance Field from a Single Panorama ( http://arxiv.org/abs/2310.16831v2 )

ライセンス: Link先を確認
Guangcong Wang and Peng Wang and Zhaoxi Chen and Wenping Wang and Chen Change Loy and Ziwei Liu(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,マルチビュー画像を用いた新規なビュー合成において大きな進歩を遂げている。 最近では、NeRFを1枚の画像から3D先行画像で訓練しようとする研究もある。 彼らは主に、少数の閉塞を伴う限られた視野にフォーカスしており、大規模な閉塞を伴う現実世界の360度パノラマシナリオに拡張性を大幅に制限している。 本稿では,パノラマからパノラマ性神経放射場を学習する360度新鮮視合成フレームワークPERFを提案する。 特にPERFは、高価な退屈な画像収集なしで複雑なシーンで3Dローミングができる。 この目的を達成するために,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBD塗装法とプログレッシブ塗工工法を提案する。 具体的には,まず1つのパノラマを初期化としてパノラマ深度マップを推定し,ボリュームレンダリングで可視3D領域を再構成する。 次に,RGB 安定拡散モデルと単眼深度推定器から得られたランダムビューから RGB 画像と深度マップを完結する NeRF に協調的な RGBD 塗装手法を導入する。 最後に,新たにサンプリングされたビューと参照ビューとの間の不整合な幾何学を避けるために,塗装と消去の戦略を導入する。 2つのコンポーネントは、統一最適化フレームワークでNeRFの学習に統合され、有望な結果が得られる。 レプリカに関する広範囲な実験と新しいデータセットperf-in-the-wildは、最先端メソッドよりもperfが優れていることを示している。 PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。 プロジェクトページとコードはhttps://perf-project.github.io/とhttps://github.com/perf-project/perfで入手できる。

Neural Radiance Field (NeRF) has achieved substantial progress in novel view synthesis given multi-view images. Recently, some works have attempted to train a NeRF from a single image with 3D priors. They mainly focus on a limited field of view with a few occlusions, which greatly limits their scalability to real-world 360-degree panoramic scenarios with large-size occlusions. In this paper, we present PERF, a 360-degree novel view synthesis framework that trains a panoramic neural radiance field from a single panorama. Notably, PERF allows 3D roaming in a complex scene without expensive and tedious image collection. To achieve this goal, we propose a novel collaborative RGBD inpainting method and a progressive inpainting-and-erasing method to lift up a 360-degree 2D scene to a 3D scene. Specifically, we first predict a panoramic depth map as initialization given a single panorama and reconstruct visible 3D regions with volume rendering. Then we introduce a collaborative RGBD inpainting approach into a NeRF for completing RGB images and depth maps from random views, which is derived from an RGB Stable Diffusion model and a monocular depth estimator. Finally, we introduce an inpainting-and-erasing strategy to avoid inconsistent geometry between a newly-sampled view and reference views. The two components are integrated into the learning of NeRFs in a unified optimization framework and achieve promising results. Extensive experiments on Replica and a new dataset PERF-in-the-wild demonstrate the superiority of our PERF over state-of-the-art methods. Our PERF can be widely used for real-world applications, such as panorama-to-3D, text-to-3D, and 3D scene stylization applications. Project page and code are available at https://perf-project.github.io/ and https://github.com/perf-project/PeRF.
翻訳日:2023-10-31 19:10:27 公開日:2023-10-28
# 非エルミートフォトニクスにおける例外点:応用と最近の展開

Exceptional points in non-Hermitian Photonics: Applications and Recent Developments ( http://arxiv.org/abs/2310.16699v2 )

ライセンス: Link先を確認
Haiyu Meng, Yee Sin Ang, Ching Hua Lee(参考訳) 例外点は、特に非エルミートフォトニクスにおいて、最近かなりの関心を集めている非エルミート帯域の複素分岐特異点である。 本稿では, 導波路, フォトニック結晶, ファブリペロ共振器, プラズモニック系などの非ヘルミティアンフォトニックプラットフォームにおける最近の進展を概観し, 近未来における非ヘルミティアンフォトニクスの発展に光非線形性と例外境界状態が与える影響について考察する。

Exceptional points are complex branching singularities of non-Hermitian bands that have lately attracted considerable interest, particularly in non-Hermitian photonics. In this article, we review some recent developments in non-Hermitian photonic platforms such as waveguides, photonic crystals, Fabry-Perot resonators and plasmonic systems, and suggest how optical non-linearities and exceptional bound states can significantly impact the development of non-Hermitian photonics in the near future.
翻訳日:2023-10-31 19:09:04 公開日:2023-10-28
# AirFL-Mem:長期記憶によるコミュニケーション学習トレードオフの改善

AirFL-Mem: Improving Communication-Learning Trade-Off by Long-Term Memory ( http://arxiv.org/abs/2310.16606v2 )

ライセンス: Link先を確認
Haifeng Wen, Hong Xing, Osvaldo Simeone(参考訳) フェデレーション学習(fl)に固有のコミュニケーションボトルネックに対処するために、airfl(over-the-air fl)が有望なソリューションとして浮上した。 本稿では,emph{long-term}メモリ機構を実装して,ディープフェージングの影響を軽減する新しいスキームであるairfl-memを提案する。 コンバージェンス境界は、長期記憶、および短期記憶を持つ既存のairfl変種、一般の非凸目的のために提供される。 この理論は、AirFL-Memが理想的なコミュニケーションを伴うフェデレーション平均化(FedAvg)と同じ収束率を示し、既存のスキームの性能は一般的にエラーフロアによって制限されていることを示している。 理論的な結果は、レイリーフェージングチャネルの存在下での電力制御に用いられる遮断しきい値に対する新しい凸最適化戦略を提案するためにも活用されている。 実験結果は,深部フェージングの軽減に長期記憶機構の利点を確認し,解析の妥当性を検証した。

Addressing the communication bottleneck inherent in federated learning (FL), over-the-air FL (AirFL) has emerged as a promising solution, which is, however, hampered by deep fading conditions. In this paper, we propose AirFL-Mem, a novel scheme designed to mitigate the impact of deep fading by implementing a \emph{long-term} memory mechanism. Convergence bounds are provided that account for long-term memory, as well as for existing AirFL variants with short-term memory, for general non-convex objectives. The theory demonstrates that AirFL-Mem exhibits the same convergence rate of federated averaging (FedAvg) with ideal communication, while the performance of existing schemes is generally limited by error floors. The theoretical results are also leveraged to propose a novel convex optimization strategy for the truncation threshold used for power control in the presence of Rayleigh fading channels. Experimental results validate the analysis, confirming the advantages of a long-term memory mechanism for the mitigation of deep fading.
翻訳日:2023-10-31 19:08:51 公開日:2023-10-28
# 果樹学習のためのエンドツーエンド特徴選択手法

End-to-end Feature Selection Approach for Learning Skinny Trees ( http://arxiv.org/abs/2310.18542v1 )

ライセンス: Link先を確認
Shibal Ibrahim and Kayhan Behdin and Rahul Mazumder(参考訳) ジョイント特徴選択とツリーアンサンブル学習は難しい課題である。 人気のツリーアンサンブルツールキットであるグラディエントブーストツリー(Gradient Boosted Trees)やランダムフォレスト(Random Forests)は、特徴的重要性に基づいた機能選択をサポートする。 本研究では,Skinny Treesを提案する。Skinny Treesは,木組における特徴選択のためのツールキットであり,特徴選択と木組学習を同時に行う。 これは、 Group $\ell_0 - \ell_2$ regularization を持つ微分可能木の特徴選択を考えるエンドツーエンド最適化アプローチに基づいている。 一階の近位法で最適化し、非凸および非スムース目的に対する収束保証を与える。 興味深いことに、疎密な正規化スケジューリングはバニラ近位法よりも表現力とスパーサーツリーアンサンブルをもたらす可能性がある。 15の合成および実世界のデータセットでは、Skinny Treesは1.5\times$ -620\times$フィーチャー圧縮レートを達成でき、パフォーマンスを損なうことなく、高密度ツリーよりも10\times$高速な推論が可能になる。 スキニーツリーは多くの既存のツールキットよりも優れた機能選択を導いており、例えば、aucのパフォーマンスで機能予算が25\%、スキニーツリーがlightgbmより10.2\%$(最大37.7\%$)、ランダムフォレストが3\%$(最大12.5\%$)である。

Joint feature selection and tree ensemble learning is a challenging task. Popular tree ensemble toolkits e.g., Gradient Boosted Trees and Random Forests support feature selection post-training based on feature importances, which are known to be misleading, and can significantly hurt performance. We propose Skinny Trees: a toolkit for feature selection in tree ensembles, such that feature selection and tree ensemble learning occurs simultaneously. It is based on an end-to-end optimization approach that considers feature selection in differentiable trees with Group $\ell_0 - \ell_2$ regularization. We optimize with a first-order proximal method and present convergence guarantees for a non-convex and non-smooth objective. Interestingly, dense-to-sparse regularization scheduling can lead to more expressive and sparser tree ensembles than vanilla proximal method. On 15 synthetic and real-world datasets, Skinny Trees can achieve $1.5\times$ - $620\times$ feature compression rates, leading up to $10\times$ faster inference over dense trees, without any loss in performance. Skinny Trees lead to superior feature selection than many existing toolkits e.g., in terms of AUC performance for $25\%$ feature budget, Skinny Trees outperforms LightGBM by $10.2\%$ (up to $37.7\%$), and Random Forests by $3\%$ (up to $12.5\%$).
翻訳日:2023-10-31 18:11:21 公開日:2023-10-28
# recontab:表データのための正規化コントラスト表現学習

ReConTab: Regularized Contrastive Representation Learning for Tabular Data ( http://arxiv.org/abs/2310.18541v1 )

ライセンス: Link先を確認
Suiyao Chen, Jing Wu, Naira Hovakimyan, Handong Yao(参考訳) 表現学習は、さまざまな領域において重要な機械学習技術の1つである。 高品質な特徴の獲得を通じて、事前訓練された埋め込みは入力空間の冗長性を著しく低減し、分類、回帰、検出などの下流パターン認識タスクの恩恵を受ける。 それでも、表データの領域では、機能エンジニアリングと選択は手作業による介入に大きく依存しており、時間を要するプロセスとドメインの専門知識を必要とします。 この課題に対して,正規化コントラスト学習を備えた深層自動表現学習フレームワークReConTabを導入する。 ReConTabはどんな種類のモデリングタスクにも依存せず、モデル入力から同じ原特徴に基づいて非対称のオートエンコーダを構築し、低次元の代表埋め込みを生成する。 具体的には、生の特徴選択に正規化技術を適用する。 一方、ReConTabはコントラスト学習を利用して、下流のタスクに最も関連する情報を抽出する。 広範囲な実世界のデータセットで実施した実験は、フレームワークの性能を実証し、実質的で堅牢なパフォーマンス改善をもたらす。 さらに,xgboostやランダムフォレストといった従来の手法の性能を向上させることにより,事前学習した組込みが容易に適応可能な機能としてシームレスに統合できることを実証した。

Representation learning stands as one of the critical machine learning techniques across various domains. Through the acquisition of high-quality features, pre-trained embeddings significantly reduce input space redundancy, benefiting downstream pattern recognition tasks such as classification, regression, or detection. Nonetheless, in the domain of tabular data, feature engineering and selection still heavily rely on manual intervention, leading to time-consuming processes and necessitating domain expertise. In response to this challenge, we introduce ReConTab, a deep automatic representation learning framework with regularized contrastive learning. Agnostic to any type of modeling task, ReConTab constructs an asymmetric autoencoder based on the same raw features from model inputs, producing low-dimensional representative embeddings. Specifically, regularization techniques are applied for raw feature selection. Meanwhile, ReConTab leverages contrastive learning to distill the most pertinent information for downstream tasks. Experiments conducted on extensive real-world datasets substantiate the framework's capacity to yield substantial and robust performance improvements. Furthermore, we empirically demonstrate that pre-trained embeddings can seamlessly integrate as easily adaptable features, enhancing the performance of various traditional methods such as XGBoost and Random Forest.
翻訳日:2023-10-31 18:10:50 公開日:2023-10-28
# 多層皮膚病変分類のための自己教師付きマルチモダリティ学習

Self-Supervised Multi-Modality Learning for Multi-Label Skin Lesion Classification ( http://arxiv.org/abs/2310.18583v1 )

ライセンス: Link先を確認
Hao Wang, Euijoon Ahn, Lei Bi, Jinman Kim(参考訳) 皮膚病変の臨床的診断には、皮膚内視鏡的および臨床的モダリティの分析が含まれる。 皮膚内視鏡像は表面構造を詳細に把握し,臨床像は相補的なマクロ画像を提供する。 メラノーマの視覚診断は、異なる視覚特性を識別する7点チェックリストにも基づいている。 近年,畳み込みニューラルネットワーク(cnns)などの教師付き学習手法が,皮膚内視鏡的・臨床的モダリティ(マルチモダリティ)の両方を用いた優れた性能を示している。 チェックリスト内の7つの異なる視覚的属性も、診断をさらに改善するために使用される。 しかし、これらの手法の性能は、大規模ラベル付きデータの可用性に依存している。 アノテーション付きデータセットの取得は、複数の属性をアノテートするよりも、高価で時間のかかる作業である。 この制限を克服するために,多モード皮膚病変分類のための自己教師付き学習(SSL)アルゴリズムを提案する。 本アルゴリズムは,異なる視点から両眼視像と臨床像の類似性を最大化することにより,マルチモーダリティ学習を実現する。 さらに,クラスタリング解析により7つの属性を表す擬似複数ラベルを生成する。 また,各擬似ラベル埋め込みを改良し,擬似複数ラベル間の相互関係を捉えるラベル対応モジュールを提案する。 7点皮膚病変データセットを用いて本アルゴリズムの有効性を検証した。 以上の結果から,我々のアルゴリズムは最先端のSSLよりも優れた性能を示した。

The clinical diagnosis of skin lesion involves the analysis of dermoscopic and clinical modalities. Dermoscopic images provide a detailed view of the surface structures whereas clinical images offer a complementary macroscopic information. The visual diagnosis of melanoma is also based on seven-point checklist which involves identifying different visual attributes. Recently, supervised learning approaches such as convolutional neural networks (CNNs) have shown great performances using both dermoscopic and clinical modalities (Multi-modality). The seven different visual attributes in the checklist are also used to further improve the the diagnosis. The performances of these approaches, however, are still reliant on the availability of large-scaled labeled data. The acquisition of annotated dataset is an expensive and time-consuming task, more so with annotating multi-attributes. To overcome this limitation, we propose a self-supervised learning (SSL) algorithm for multi-modality skin lesion classification. Our algorithm enables the multi-modality learning by maximizing the similarities between paired dermoscopic and clinical images from different views. In addition, we generate surrogate pseudo-multi-labels that represent seven attributes via clustering analysis. We also propose a label-relation-aware module to refine each pseudo-label embedding and capture the interrelationships between pseudo-multi-labels. We validated the effectiveness of our algorithm using well-benchmarked seven-point skin lesion dataset. Our results show that our algorithm achieved better performances than other state-of-the-art SSL counterparts.
翻訳日:2023-10-31 18:00:02 公開日:2023-10-28
# 中間層復号化によるLCM推論の高速化

Accelerating LLM Inference by Enabling Intermediate Layer Decoding ( http://arxiv.org/abs/2310.18581v1 )

ライセンス: Link先を確認
Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著なパフォーマンスを達成しているが、その大きなサイズは推論を遅く、計算的に高価にし、リソース制約のある実世界のアプリケーションに実用的な課題をもたらす。 そこで本研究では,テキストを効率的に生成するための中間層復号化を実現する手法として,llmを命令する手法を提案する。 具体的には、LITE (InTermediate layErs) から追加の明示的なLossesを付加した LLM を指導し、最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。 生成品質を維持しながら推論の効率を向上させる中間層からトークンレベルで「動的信頼性に基づく早期退避」を行う。 広範に使用されているalpacaデータセット上でllama-2モデルをインストラクションチューニングし,vicuna,wizardlm,koala,self-instructの4つの異なるヒトインストラクションテストセットについて規則的に評価した。 我々は,「動的早期退避」は,応答の生成品質を維持しつつ,一貫したコスト改善(平均37.86%)を実現することを示す。 さらに、出力の意味的類似性の比較や、出力で生成されたトークン数の比較による効率改善の解剖など、いくつかの重要な側面から結果を徹底的に分析する。 まとめると,本研究は,LLM推論の効率向上に寄与し,生成品質を維持しつつ,その普及に向けた重要なステップとなる。

Large Language Models (LLMs) have achieved remarkable performance across a wide variety of natural language tasks; however, their large size makes their inference slow and computationally expensive which poses a practical challenge for resource constrained real-world applications. Focusing on this problem, we propose to instruction tune LLMs in a way that enables intermediate layer decoding for efficiently generating text, but importantly without compromising the quality of the generation. Specifically, we instruction tune LLMs with additional explicit Losses from the InTermediate layErs (LITE) and show that it enables these layers to acquire 'good' generation ability without affecting the generation ability of the final layer. We perform 'dynamic confidence-based early exiting' at token level from the intermediate layers which improves the efficiency of inference while maintaining the generation quality. We conduct comprehensive experiments by instruction tuning LLaMA-2 models on the widely used Alpaca dataset and holistically evaluate on four different human-instruction test sets: Vicuna, WizardLM, Koala, and Self-Instruct. We show that 'dynamic early exiting' achieves consistent and considerable cost improvements (37.86% on average) while maintaining the generation quality of the responses. We further conduct a thorough analysis of the results over several important aspects, such as comparing the semantic similarity of the outputs and dissecting the efficiency improvements by comparing the number of tokens generated in the output. In summary, our work contributes to improving the efficiency of LLM inference while maintaining the generation quality, a crucial step en route to enabling their widespread adoption.
翻訳日:2023-10-31 17:59:42 公開日:2023-10-28
# $\mathcal{PT}=対称非エルミタン相互作用を用いた修正vdPオシレータの正規化群アプローチ

Renormalization Group Approach for Modified vdP Oscillator with $\mathcal{PT}$ Symmetric Non-Hermitian Interaction ( http://arxiv.org/abs/2310.18576v1 )

ライセンス: Link先を確認
Biswajit Bhowmick, Rohit Mahendra Shinde, Bhabani Prasad Mandal(参考訳) 我々は、よく知られた2d vdP発振器の修正版と、新しい非エルミート相互作用を考える。 通常の摂動的アプローチは、古典解が長期の極限で発散するにつれて、システムの古典力学を与えることができない。 この種の発散は、量子場理論や臨界現象で起こるものと類似している。 力学系におけるRenormalization Group (RG) 法は, 2d vdP発振器の摂動溶液中の散逸を除去するために用いられ, 数値計算と整合性を示す物理的に許容できる解を提供する。 さらに、非エルミート量子力学の枠組みにおけるモデルを調べ、システムにおける$\mathcal{PT}$相転移を示す。

We consider a modified version of the well-known 2d vdP oscillator with a new non-Hermitian interaction. The usual perturbative approach fails to provide the classical dynamics of the system as the classical solutions become divergent in the long time limit. These kinds of divergences are similar to what occurs in quantum field theory and critical phenomena. The Renormalization Group (RG) technique for the dynamical system has been used to eliminate the divergences in the perturbative solution of the 2d vdP oscillator and to provide a physically acceptable solution which is shown to be consistent with numerical study. We further investigate the model in the framework of non-Hermitian quantum mechanics to show the $\mathcal{PT}$ phase transition in the system.
翻訳日:2023-10-31 17:59:13 公開日:2023-10-28
# 制御可能な機械学習によるプライバシ、ユーティリティ、効率性のトリレンマを破る

Breaking the Trilemma of Privacy, Utility, Efficiency via Controllable Machine Unlearning ( http://arxiv.org/abs/2310.18574v1 )

ライセンス: Link先を確認
Zheyuan Liu, Guangyao Dou, Yijun Tian, Chunhui Zhang, Eli Chien, Ziwei Zhu(参考訳) 機械学習(mu)アルゴリズムは,データプライバシ規制の強制的な遵守によって,ますます重要になっている。 MUの主な目的は、特定のデータサンプルがスクラッチから再トレーニングすることなく、特定のモデルに与える影響を削除することである。 そのため、既存の手法はユーザーのプライバシー保護の最大化に重点を置いている。 しかし、現実世界のWebベースアプリケーションごとに、さまざまなプライバシー規制がある。 プライバシ、モデルユーティリティ、実行時の効率のトレードオフの全範囲を探索することは、実践的な未学習シナリオでは不可欠である。 さらに、上記のトレードオフをシンプルに制御したMUアルゴリズムの設計は望ましいが、固有の複雑な相互作用のため難しい。 この課題に対処するために、MUの校正を容易にするために設計された新しいフレームワークであるConMU(Controlable Machine Unlearning)を提案する。 conmuフレームワークには3つの統合モジュールが含まれている。ランタイム効率とモデル一般化を調和させる重要なデータ選択モジュール、プライバシとモデル一般化のバランスをとるプログレッシブガウス機構モジュール、プライバシとランタイム効率のトレードオフを制御するアンラーニングプロキシである。 様々なベンチマークデータセットに関する包括的実験により,制御機構のロバストな適応性と,確立されたアンラーニング手法に対する優越性が実証された。 ConMUはプライバシ-ユーティリティ-効率トレードオフの全範囲を探求し、実践者がさまざまな現実世界の規則を説明できるようにする。 ソースコードはhttps://github.com/guangyaodou/conmu.com/。

Machine Unlearning (MU) algorithms have become increasingly critical due to the imperative adherence to data privacy regulations. The primary objective of MU is to erase the influence of specific data samples on a given model without the need to retrain it from scratch. Accordingly, existing methods focus on maximizing user privacy protection. However, there are different degrees of privacy regulations for each real-world web-based application. Exploring the full spectrum of trade-offs between privacy, model utility, and runtime efficiency is critical for practical unlearning scenarios. Furthermore, designing the MU algorithm with simple control of the aforementioned trade-off is desirable but challenging due to the inherent complex interaction. To address the challenges, we present Controllable Machine Unlearning (ConMU), a novel framework designed to facilitate the calibration of MU. The ConMU framework contains three integral modules: an important data selection module that reconciles the runtime efficiency and model generalization, a progressive Gaussian mechanism module that balances privacy and model generalization, and an unlearning proxy that controls the trade-offs between privacy and runtime efficiency. Comprehensive experiments on various benchmark datasets have demonstrated the robust adaptability of our control mechanism and its superiority over established unlearning methods. ConMU explores the full spectrum of the Privacy-Utility-Efficiency trade-off and allows practitioners to account for different real-world regulations. Source code available at: https://github.com/guangyaodou/ConMU.
翻訳日:2023-10-31 17:58:57 公開日:2023-10-28
# G-同変ネットワークにおけるロバストG-不変性の一般的な枠組み

A General Framework for Robust G-Invariance in G-Equivariant Networks ( http://arxiv.org/abs/2310.18564v1 )

ライセンス: Link先を確認
Sophia Sanborn, Nina Miolane(参考訳) 本稿では,グループ同変畳み込みニューラルネットワーク(G$-CNNs)におけるロバストなグループ不変性を実現するための一般的な手法を紹介し,これをG$-三重相関(G$-TC)層と呼ぶ。 このアプローチは群上の三重相関の理論を利用しており、これも完備である唯一の低次多項式不変写像である。 マックスなど多くのよく使われる不変写像は不完全であり、それらは群構造と信号構造の両方を取り除く。 対照的に、完全な不変量は、信号の構造に関する全ての情報を保存しながら、グループの作用による変動のみを除去する。 三重相関の完全性は、分散ベースの逆攻撃に対する耐性において観察できる、強い堅牢性を持つ$g$-tc層を内包する。 さらに,標準的なMax$G$-Poolingを$G$-CNNアーキテクチャで比較すると,分類精度が向上することがわかった。 任意の離散群に対して、その群の積構造を定義するテーブルのみを必要とする汎用的かつ効率的な実装を提供する。 可換群と非可換群の両方で定義される$so(2)$, $o(2)$, $so(3)$, $o(3)$, and $o(3)$ (循環型$c8$, dihedral $d16$, chiral octahedral $o$, full octahedral $o_h$ groups) - $\mathbb{r}^2$および$\mathbb{r}^3$ - $g$-mnistおよび$g$-modelnet10データセット上で作用する。

We introduce a general method for achieving robust group-invariance in group-equivariant convolutional neural networks ($G$-CNNs), which we call the $G$-triple-correlation ($G$-TC) layer. The approach leverages the theory of the triple-correlation on groups, which is the unique, lowest-degree polynomial invariant map that is also complete. Many commonly used invariant maps - such as the max - are incomplete: they remove both group and signal structure. A complete invariant, by contrast, removes only the variation due to the actions of the group, while preserving all information about the structure of the signal. The completeness of the triple correlation endows the $G$-TC layer with strong robustness, which can be observed in its resistance to invariance-based adversarial attacks. In addition, we observe that it yields measurable improvements in classification accuracy over standard Max $G$-Pooling in $G$-CNN architectures. We provide a general and efficient implementation of the method for any discretized group, which requires only a table defining the group's product structure. We demonstrate the benefits of this method for $G$-CNNs defined on both commutative and non-commutative groups - $SO(2)$, $O(2)$, $SO(3)$, and $O(3)$ (discretized as the cyclic $C8$, dihedral $D16$, chiral octahedral $O$ and full octahedral $O_h$ groups) - acting on $\mathbb{R}^2$ and $\mathbb{R}^3$ on both $G$-MNIST and $G$-ModelNet10 datasets.
翻訳日:2023-10-31 17:58:32 公開日:2023-10-28
# クロスパーソン活動認識のためのテスト時間最適化

Optimization-Free Test-Time Adaptation for Cross-Person Activity Recognition ( http://arxiv.org/abs/2310.18562v1 )

ライセンス: Link先を確認
Shuoyuan Wang, Jindong Wang, HuaJun Xi, Bob Zhang, Lei Zhang, Hongxin Wei(参考訳) ヒューマンアクティビティ認識(har)モデルは、個人間のアクティビティパターンの分布の変化により、現実世界のアプリケーションでパフォーマンス低下に苦しむことが多い。 テスト時間適応(TTA)は、テストストリームを利用してリアルタイム推論の予測を調整することを目的とした、新たな学習パラダイムである。 しかし、最適化に基づくTTAアルゴリズムの計算コストが高いため、リソース制約のあるエッジデバイス上での動作は困難である。 本稿では,センサベースHARのためのOFTTA(Optimization-Free Test-Time Adaptation)フレームワークを提案する。 OFTTAは最適化のない方法で特徴抽出器と線形分類器を同時に調整する。 特徴抽出器として,従来のバッチ正規化(CBN)層を置き換えるために,EDTN(Exponential DecayTest-time Normalization)を提案する。 EDTNはCBNとテストタイムバッチ正規化(TBN)を組み合わせて、ドメインシフトに対する信頼性のある特徴を抽出する。 分類器では,維持支援セットで計算した特徴量とプロトタイプの距離を計算し,予測値の調整を行う。 さらに、サポートセットの更新は擬似ラベルに基づいており、これはEDTNによって抽出された信頼できる機能の恩恵を受けることができる。 3つの公開対人HARデータセットと2つの異なるTTA設定に関する大規模な実験は、OFTTAが分類性能と計算効率の両方において最先端のTTAアプローチより優れていることを示した。 最後に,提案するofttaがエッジデバイス上で優れていることを検証し,実際のアプリケーションへのデプロイが可能であることを示す。 私たちのコードは \href{https://github.com/Claydon-Wang/OFTTA}{this https URL} で利用可能です。

Human Activity Recognition (HAR) models often suffer from performance degradation in real-world applications due to distribution shifts in activity patterns across individuals. Test-Time Adaptation (TTA) is an emerging learning paradigm that aims to utilize the test stream to adjust predictions in real-time inference, which has not been explored in HAR before. However, the high computational cost of optimization-based TTA algorithms makes it intractable to run on resource-constrained edge devices. In this paper, we propose an Optimization-Free Test-Time Adaptation (OFTTA) framework for sensor-based HAR. OFTTA adjusts the feature extractor and linear classifier simultaneously in an optimization-free manner. For the feature extractor, we propose Exponential DecayTest-time Normalization (EDTN) to replace the conventional batch normalization (CBN) layers. EDTN combines CBN and Test-time batch Normalization (TBN) to extract reliable features against domain shifts with TBN's influence decreasing exponentially in deeper layers. For the classifier, we adjust the prediction by computing the distance between the feature and the prototype, which is calculated by a maintained support set. In addition, the update of the support set is based on the pseudo label, which can benefit from reliable features extracted by EDTN. Extensive experiments on three public cross-person HAR datasets and two different TTA settings demonstrate that OFTTA outperforms the state-of-the-art TTA approaches in both classification performance and computational efficiency. Finally, we verify the superiority of our proposed OFTTA on edge devices, indicating possible deployment in real applications. Our code is available at \href{https://github.com/Claydon-Wang/OFTTA}{this https URL}.
翻訳日:2023-10-31 17:57:51 公開日:2023-10-28
# グループ情報のないグループロバスト分類

Group Robust Classification Without Any Group Information ( http://arxiv.org/abs/2310.18555v1 )

ライセンス: Link先を確認
Christos Tsirigotis, Joao Monteiro, Pau Rodriguez, David Vazquez, Aaron Courville(参考訳) 経験的リスク最小化(experience risk minimization, erm)は、トレーニングデータのスプリアス相関に敏感である。 既存の文献では、グループバランスや最悪のグループ精度の最大化に重点を置いているが、これらの評価は高価なバイアスアノテーションによって妨げられている。 本研究は,群ロバスト性に対する現在のバイアス非教師付きアプローチが,最適な性能を達成するためにグループ情報に依存し続けることを主張する。 まず、これらの手法は、訓練中にすべてのグループの組み合わせが表現されることを暗黙的に仮定する。 そこで本研究では,MPI3Dデータセット上での系統的一般化タスクを導入し,観測された属性値の組み合わせが欠落している場合に,現在のアルゴリズムがERMベースラインを改善できないことを明らかにする。 第二に、バイアスラベルは依然として効果的なモデル選択に不可欠であり、現実のシナリオにおけるこれらの手法の実用性を制限する。 そこで本研究では,これらの制約に対処するために,偏りのないモデルの学習と検証のための修正手法を提案する。 我々は,事前学習した自己教師付きモデルを用いてバイアス情報を確実に抽出し,検証基準とロジット調整トレーニングロスの統合を可能にする。 我々の合成および実世界のタスクに関する経験的分析は、我々のアプローチが特定された課題を克服し、常に堅牢な精度を向上し、最先端の手法と競合する、あるいは性能に優れる性能を得る証拠となる。

Empirical risk minimization (ERM) is sensitive to spurious correlations in the training data, which poses a significant risk when deploying systems trained under this paradigm in high-stake applications. While the existing literature focuses on maximizing group-balanced or worst-group accuracy, estimating these accuracies is hindered by costly bias annotations. This study contends that current bias-unsupervised approaches to group robustness continue to rely on group information to achieve optimal performance. Firstly, these methods implicitly assume that all group combinations are represented during training. To illustrate this, we introduce a systematic generalization task on the MPI3D dataset and discover that current algorithms fail to improve the ERM baseline when combinations of observed attribute values are missing. Secondly, bias labels are still crucial for effective model selection, restricting the practicality of these methods in real-world scenarios. To address these limitations, we propose a revised methodology for training and validating debiased models in an entirely bias-unsupervised manner. We achieve this by employing pretrained self-supervised models to reliably extract bias information, which enables the integration of a logit adjustment training loss with our validation criterion. Our empirical analysis on synthetic and real-world tasks provides evidence that our approach overcomes the identified challenges and consistently enhances robust accuracy, attaining performance which is competitive with or outperforms that of state-of-the-art methods, which, conversely, rely on bias labels for validation.
翻訳日:2023-10-31 17:57:25 公開日:2023-10-28
# Regret-to-Confidence-Set変換による(マルチノミカル)ロジスティック帯域のレgret境界の改善

Improved Regret Bounds of (Multinomial) Logistic Bandits via Regret-to-Confidence-Set Conversion ( http://arxiv.org/abs/2310.18554v1 )

ライセンス: Link先を確認
Junghyun Lee, Se-Young Yun, Kwang-Sung Jun(参考訳) ロジスティック・バンディット(英: Logistic bandit)は、ユーザの選択をモデル化するためのユビキタスなフレームワークである。 ここで、$\theta_\star \in \mathbb{R}^d$は未知のパラメータベクトルであり、例えば$S$が大きければ特に問題となる。 本研究では,オンライン学習アルゴリズムの\textit{existence} のみに基づいた凸信頼セットを構築することを可能にする,新しい手法である「r2cs」を用いて,$s$ への依存度を向上させる。 r2csを用いることで、ロジスティックバンドイットにおける後悔に縛られた w.r.t. $s$ の厳格な改善と計算可能性の維持と、$d$ や $t$ といった他の要因への依存が得られる。 我々は,ロジスティック・バンディットに対する新たな信頼度を,新たなマルティンゲール濃度のステップで解析し,さらにS$を回避した。 次に,この分析を多項ロジスティック・バンディットに拡張し,同様の改善を加え,R2CSの有効性を示した。 r2csを(多項)ロジスティックモデルに適用する一方で、r2csは独立した関心を持つ様々なモデルに使用できる信頼セットを開発するための一般的なアプローチである。

Logistic bandit is a ubiquitous framework of modeling users' choices, e.g., click vs. no click for advertisement recommender system. We observe that the prior works overlook or neglect dependencies in $S \geq \lVert \theta_\star \rVert_2$, where $\theta_\star \in \mathbb{R}^d$ is the unknown parameter vector, which is particularly problematic when $S$ is large, e.g., $S \geq d$. In this work, we improve the dependency on $S$ via a novel approach called {\it regret-to-confidence set conversion (R2CS)}, which allows us to construct a convex confidence set based on only the \textit{existence} of an online learning algorithm with a regret guarantee. Using R2CS, we obtain a strict improvement in the regret bound w.r.t. $S$ in logistic bandits while retaining computational feasibility and the dependence on other factors such as $d$ and $T$. We apply our new confidence set to the regret analyses of logistic bandits with a new martingale concentration step that circumvents an additional factor of $S$. We then extend this analysis to multinomial logistic bandits and obtain similar improvements in the regret, showing the efficacy of R2CS. While we applied R2CS to the (multinomial) logistic model, R2CS is a generic approach for developing confidence sets that can be used for various models, which can be of independent interest.
翻訳日:2023-10-31 17:56:56 公開日:2023-10-28
# 機械学習原子論シミュレーションモデルにおける基準点の役割

The Role of Reference Points in Machine-Learned Atomistic Simulation Models ( http://arxiv.org/abs/2310.18552v1 )

ライセンス: Link先を確認
Xiangyun Lei, Weike Ye, Joseph Montoya, Tim Mueller, Linda Hung, Jens Hummelshoej(参考訳) 本稿では、従来の原子中心機械学習力場(mlff)モデルに内在する限界を克服するために設計された、新しい一般化された枠組みである化学環境モデリング理論(cemt)を紹介する。 CEMTは、参照ポイントをモデル領域内に存在するようにすることで柔軟性と適応性を向上し、様々なモデルアーキテクチャの研究を可能にした。 ガウス多極関数 (GMP) を用いて, 有限差分グリッド中心モデルやボンド中心モデルを含む, 異なる基準点集合を持つモデルを用いて, 異なる基準点上に構築されたモデルに固有の能力のばらつきを分析する。 その結果,非原子中心の力覚訓練における参照点の可能性が示唆され,予測精度,推論速度,学習効率の変動が明らかになった。 最後に、CEMTと実空間自由有限要素密度汎関数理論(FE-DFT)のユニークな接続を確立し、データ効率とロバスト性の向上を含む。 これは、空間分解されたエネルギー密度とFE-DFT計算からの電荷密度の活用を可能にするとともに、既知の量子力学法則をMLモデルのアーキテクチャに統合するための重要なステップとなる。

This paper introduces the Chemical Environment Modeling Theory (CEMT), a novel, generalized framework designed to overcome the limitations inherent in traditional atom-centered Machine Learning Force Field (MLFF) models, widely used in atomistic simulations of chemical systems. CEMT demonstrated enhanced flexibility and adaptability by allowing reference points to exist anywhere within the modeled domain and thus, enabling the study of various model architectures. Utilizing Gaussian Multipole (GMP) featurization functions, several models with different reference point sets, including finite difference grid-centered and bond-centered models, were tested to analyze the variance in capabilities intrinsic to models built on distinct reference points. The results underscore the potential of non-atom-centered reference points in force training, revealing variations in prediction accuracy, inference speed and learning efficiency. Finally, a unique connection between CEMT and real-space orbital-free finite element Density Functional Theory (FE-DFT) is established, and the implications include the enhancement of data efficiency and robustness. It allows the leveraging of spatially-resolved energy densities and charge densities from FE-DFT calculations, as well as serving as a pivotal step towards integrating known quantum-mechanical laws into the architecture of ML models.
翻訳日:2023-10-31 17:56:27 公開日:2023-10-28
# ハイパースペクトル画像分類のための多スケールスペクトル空間畳み込み変換器

MultiScale Spectral-Spatial Convolutional Transformer for Hyperspectral Image Classification ( http://arxiv.org/abs/2310.18550v1 )

ライセンス: Link先を確認
Zhiqiang Gong, Xian Zhou, Wen Yao(参考訳) グローバルな情報をキャプチャする強力な能力のため、Transformerはハイパースペクトル画像分類のためのCNNの代替アーキテクチャとなっている。 しかし、一般変換器は、高スペクトル画像のマルチスケール空間情報を無視しながら、大域的なスペクトル情報を主に考慮している。 本稿では,超スペクトル画像分類のためのマルチスケールスペクトル空間畳み込みトランス(multiscaleformer)を提案する。 まず,マルチスケール空間パッチを用いて空間変換器を定式化し,各画素における各バンドのマルチスケール空間表現を生成する。 次に、所定の画素内のすべてのバンドの空間表現をトークンとして利用し、スペクトル変換器を定式化し、各画素のマルチスケールスペクトル空間表現を生成する。 また、MultiFormerではスペクトル空間CAFモジュールを改良し、層間スペクトルと空間情報を融合させる。 そこで提案したMultiFormerは,マルチスケールのスペクトル空間情報をキャプチャし,ハイパースペクトル画像分類のための他のほとんどのアーキテクチャよりも優れた性能を提供する。 実世界のデータセットを用いて実験を行い,提案手法の有効性を比較検討した。

Due to the powerful ability in capturing the global information, Transformer has become an alternative architecture of CNNs for hyperspectral image classification. However, general Transformer mainly considers the global spectral information while ignores the multiscale spatial information of the hyperspectral image. In this paper, we propose a multiscale spectral-spatial convolutional Transformer (MultiscaleFormer) for hyperspectral image classification. First, the developed method utilizes multiscale spatial patches as tokens to formulate the spatial Transformer and generates multiscale spatial representation of each band in each pixel. Second, the spatial representation of all the bands in a given pixel are utilized as tokens to formulate the spectral Transformer and generate the multiscale spectral-spatial representation of each pixel. Besides, a modified spectral-spatial CAF module is constructed in the MultiFormer to fuse cross-layer spectral and spatial information. Therefore, the proposed MultiFormer can capture the multiscale spectral-spatial information and provide better performance than most of other architectures for hyperspectral image classification. Experiments are conducted over commonly used real-world datasets and the comparison results show the superiority of the proposed method.
翻訳日:2023-10-31 17:56:04 公開日:2023-10-28
# ハイパースペクトル画像分類のための逆学習による深部内在分解

Deep Intrinsic Decomposition with Adversarial Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2310.18549v1 )

ライセンス: Link先を確認
Zhiqiang Gong, Xian Zhou, Wen Yao(参考訳) 畳み込みニューラルネットワーク(CNN)は、高スペクトル画像分類のための識別的特徴を抽出する強力な能力を示している。 しかし、cnnの一般的なディープラーニング手法は、クラス内分散を増大させクラス間分散を減少させる複雑な環境因子の影響を無視している。 これにより、識別的特徴の抽出が困難になる。 本研究は,環境要因が分類性能に与える影響を軽減すべく,超スペクトル画像分類のためのadverdecomという,逆学習を伴う新しい深部内在分解法を開発した。 まず,ハイパースペクトル画像(HyperNet)の生成ネットワークを構築し,その画像から環境関連特徴とカテゴリ関連特徴を抽出する。 そして、異なる環境カテゴリーを識別するために識別ネットワークを構築する。 最後に、敵対学習のための環境・カテゴリー共同学習損失を開発し、深層モデルの識別的特徴を学習させる。 実世界のデータセットを3つに分けて実験を行い,提案手法の優れていることを示す。 提案手法と他の比較手法の実装は再現性のためにhttps://github.com/shendu-sw/Adversarial Learning Intrinsic Decompositionにアクセスできる。

Convolutional neural networks (CNNs) have been demonstrated their powerful ability to extract discriminative features for hyperspectral image classification. However, general deep learning methods for CNNs ignore the influence of complex environmental factor which enlarges the intra-class variance and decreases the inter-class variance. This multiplies the difficulty to extract discriminative features. To overcome this problem, this work develops a novel deep intrinsic decomposition with adversarial learning, namely AdverDecom, for hyperspectral image classification to mitigate the negative impact of environmental factors on classification performance. First, we develop a generative network for hyperspectral image (HyperNet) to extract the environmental-related feature and category-related feature from the image. Then, a discriminative network is constructed to distinguish different environmental categories. Finally, a environmental and category joint learning loss is developed for adversarial learning to make the deep model learn discriminative features. Experiments are conducted over three commonly used real-world datasets and the comparison results show the superiority of the proposed method. The implementation of the proposed method and other compared methods could be accessed at https://github.com/shendu-sw/Adversarial Learning Intrinsic Decomposition for the sake of reproducibility.
翻訳日:2023-10-31 17:55:47 公開日:2023-10-28
# MEDAVET:交通の空間的・時間的構造に基づく交通車両異常検出機構

MEDAVET: Traffic Vehicle Anomaly Detection Mechanism based on spatial and temporal structures in vehicle traffic ( http://arxiv.org/abs/2310.18548v1 )

ライセンス: Link先を確認
Ana Rosal\'ia Huam\'an Reyna, Alex Josu\'e Fl\'orez Farf\'an, Geraldo Pereira Rocha Filho, Sandra Sampaio, Robson de Grande, Luis Hideo, Vasconcelos Nakamura, Rodolfo Ipolito Meneguette(参考訳) 現在、監視や車両追跡といった人間にとって退屈な作業を支援するコンピュータービジョンシステムがあります。 この分析の重要な部分は、トラフィック異常を特定することである。 ある異常は、高速道路で異常なことが起こったことを教えてくれます。 本稿では,高速道路の交通異常を検出するためにコンピュータビジョンを用いた車両追跡をモデル化することを目的とする。 交通の検知・追跡・分析のステップとして,都市交通映像からの車両の検出,二部グラフを用いた車両の追跡,移動領域の最小化のための凸殻アルゴリズムを開発した。 最後に、異常検出のために、2つのデータ構造を用いて異常の開始と終了を検出する。 1つ目は、道路で長時間停車する車両をグループ化するQuadTree、もう1つは閉鎖されている車両にアプローチするQuadTreeである。 実験の結果,トラック4テストセットでは,f1スコア85.7%,平均2乗誤差25.432で許容できることがわかった。

Currently, there are computer vision systems that help us with tasks that would be dull for humans, such as surveillance and vehicle tracking. An important part of this analysis is to identify traffic anomalies. An anomaly tells us that something unusual has happened, in this case on the highway. This paper aims to model vehicle tracking using computer vision to detect traffic anomalies on a highway. We develop the steps of detection, tracking, and analysis of traffic: the detection of vehicles from video of urban traffic, the tracking of vehicles using a bipartite graph and the Convex Hull algorithm to delimit moving areas. Finally for anomaly detection we use two data structures to detect the beginning and end of the anomaly. The first is the QuadTree that groups vehicles that are stopped for a long time on the road and the second that approaches vehicles that are occluded. Experimental results show that our method is acceptable on the Track4 test set, with an F1 score of 85.7% and a mean squared error of 25.432.
翻訳日:2023-10-31 17:55:28 公開日:2023-10-28
# punica:マルチテナントloraサービス

Punica: Multi-Tenant LoRA Serving ( http://arxiv.org/abs/2310.18547v1 )

ライセンス: Link先を確認
Lequn Chen (1), Zihao Ye (1), Yongji Wu (2), Danyang Zhuo (2), Luis Ceze (1), Arvind Krishnamurthy (1) ((1) University of Washington, (2) Duke University)(参考訳) 低ランク適応(LoRA)は、特定のドメインに事前訓練されたモデルを適用するための重要かつ一般的な方法となっている。 我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。 Punicaには、異なるLoRAモデルのGPU操作のバッチ化を可能にする新しいCUDAカーネル設計が含まれている。 これにより、複数の異なるLoRAモデルを提供する場合、GPUは基礎となるトレーニング済みモデルのコピーのみを保持することができ、メモリと計算の両方の観点からGPU効率を大幅に向上する。 スケジューラは、共有GPUクラスタでワークロードを提供するマルチテナントLoRAを統合します。 固定サイズのgpuクラスタでは,複数のloraモデルに対して,トークン毎に2msのレイテンシを付加しながら,最先端のllmサービスシステムと比較して12倍のスループットを実現している。 punicaはhttps://github.com/punica-ai/punicaでオープンソースである。

Low-rank adaptation (LoRA) has become an important and popular method to adapt pre-trained models to specific domains. We present Punica, a system to serve multiple LoRA models in a shared GPU cluster. Punica contains a new CUDA kernel design that allows batching of GPU operations for different LoRA models. This allows a GPU to hold only a single copy of the underlying pre-trained model when serving multiple, different LoRA models, significantly enhancing GPU efficiency in terms of both memory and computation. Our scheduler consolidates multi-tenant LoRA serving workloads in a shared GPU cluster. With a fixed-sized GPU cluster, our evaluations show that Punica achieves 12x higher throughput in serving multiple LoRA models compared to state-of-the-art LLM serving systems while only adding 2ms latency per token. Punica is open source at https://github.com/punica-ai/punica .
翻訳日:2023-10-31 17:55:10 公開日:2023-10-28
# 事象関係グラフに基づく陰謀理論ニュースの同定

Identifying Conspiracy Theories News based on Event Relation Graph ( http://arxiv.org/abs/2310.18545v1 )

ライセンス: Link先を確認
Yuanyuan Lei, Ruihong Huang(参考訳) 陰謀説は、誤報の一種として、不合理または悪意のある方法で出来事や状況を説明する物語である。 これまでのほとんどの研究はソーシャルメディアの短いテキストで陰謀論を検討したが、長いニュース文書ではそのような誤報に限定的に注意が向けられた。 本稿では,ニュース記事が陰謀論を含むか否かを判断することを目的とする。 共謀の物語は、無関係な出来事を混ぜ合わせるか、あるいは異例な出来事間の関係の分布を示すことによって構成できる。 物語における出来事の文脈的理解を得ることは陰謀論の検出に不可欠である。 そこで本稿では,イベントがノードである各記事にイベント関係グラフを組み込むとともに,イベント関係の共通タイプであるコリファレンス,時間関係,因果関係,サブイベント関係の4つをエッジとする。 次に、イベント関係グラフを共起理論の同定に2つの方法に統合する: イベント認識言語モデルの開発により、ソフトラベルによるイベントとイベント関係の知識により、基本的な言語モデルを強化し、さらに、ハードラベルに基づくグラフ埋め込みを導出するように、異種グラフ注意ネットワークが設計されている。 大規模ベンチマークデータセットにおける実験は, 事象関係グラフに基づくアプローチが共謀理論の同定の正確性とリコールの両方を改善し, 未知のメディアソースを一般化することを示した。

Conspiracy theories, as a type of misinformation, are narratives that explains an event or situation in an irrational or malicious manner. While most previous work examined conspiracy theory in social media short texts, limited attention was put on such misinformation in long news documents. In this paper, we aim to identify whether a news article contains conspiracy theories. We observe that a conspiracy story can be made up by mixing uncorrelated events together, or by presenting an unusual distribution of relations between events. Achieving a contextualized understanding of events in a story is essential for detecting conspiracy theories. Thus, we propose to incorporate an event relation graph for each article, in which events are nodes, and four common types of event relations, coreference, temporal, causal, and subevent relations, are considered as edges. Then, we integrate the event relation graph into conspiracy theory identification in two ways: an event-aware language model is developed to augment the basic language model with the knowledge of events and event relations via soft labels; further, a heterogeneous graph attention network is designed to derive a graph embedding based on hard labels. Experiments on a large benchmark dataset show that our approach based on event relation graph improves both precision and recall of conspiracy theory identification, and generalizes well for new unseen media sources.
翻訳日:2023-10-31 17:54:56 公開日:2023-10-28
# 細粒度プロパガンダ識別のための談話構造

Discourse Structures Guided Fine-grained Propaganda Identification ( http://arxiv.org/abs/2310.18544v1 )

ライセンス: Link先を確認
Yuanyuan Lei, Ruihong Huang(参考訳) プロパガンダ(英: Propaganda)は、一般的には政治的目的をもって大衆を扇動または誤解させる偽りの物語の一形態である。 本稿では,政治ニュースにおけるプロパガンダを,文レベルとトークンレベルという2つのきめ細かいレベルで識別することを目的とする。 提案するプロパガンダの内容は, 因果関係に起因する文や, 近隣の文と対照的な文に埋もれやすいこと, また, 今後の予測に関する意見評価, 投機, 議論で見られることが観察された。 そこで本稿では,プロパガンダ発見のための局所的およびグローバル的言論構造を取り入れた教師モデルを構築し,周辺文間のpdtb型言論関係と,ニュース記事における文の共通言論役割を識別する。 さらに,教師が予測する確率を付加的特徴として用いるか,あるいは知識蒸留の枠組みで指導を行うかして,プロパガンダ識別のための2種類の談話構造を組み込む手法を考案する。 ベンチマークデータセットにおける実験は、談話構造からのガイダンスを活用することで、プロパガンダコンテンツ識別の正確性とリコールの両方を著しく改善できることを示している。

Propaganda is a form of deceptive narratives that instigate or mislead the public, usually with a political purpose. In this paper, we aim to identify propaganda in political news at two fine-grained levels: sentence-level and token-level. We observe that propaganda content is more likely to be embedded in sentences that attribute causality or assert contrast to nearby sentences, as well as seen in opinionated evaluation, speculation and discussions of future expectation. Hence, we propose to incorporate both local and global discourse structures for propaganda discovery and construct two teacher models for identifying PDTB-style discourse relations between nearby sentences and common discourse roles of sentences in a news article respectively. We further devise two methods to incorporate the two types of discourse structures for propaganda identification by either using teacher predicted probabilities as additional features or soliciting guidance in a knowledge distillation framework. Experiments on the benchmark dataset demonstrate that leveraging guidance from discourse structures can significantly improve both precision and recall of propaganda content identification.
翻訳日:2023-10-31 17:54:32 公開日:2023-10-28
# Recommender システムへの埋め込み: 調査

Embedding in Recommender Systems: A Survey ( http://arxiv.org/abs/2310.18608v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Maolin Wang, Xinjian Zhao, Jiansheng Li, Shucheng Zhou, Dawei Yin, Qing Li, Jiliang Tang, Ruocheng Guo(参考訳) レコメンダシステムは、多くのオンラインプラットフォームで不可欠なコンポーネントとなり、ユーザにパーソナライズされたレコメンデーションを提供している。 重要な側面は、ユーザやアイテムIDのような高次元の離散的な特徴を低次元の連続ベクトルに隠蔽し、レコメンデーション性能を高める技術である。 埋め込み技術の適用は複雑なエンティティ関係を捉え、実質的な研究を促している。 本稿では,レコメンダシステムにおける埋め込み技術に関する最近の文献の概要について述べる。 この調査では、協調フィルタリング、自己教師付き学習、グラフベースのテクニックなどの埋め込み手法を取り上げている。 協調フィルタリングは、ユーザの好みを捉え、スパースデータに優れた埋め込みを生成する。 自己管理手法は、様々なタスクにコントラスト学習または生成学習を利用する。 node2vecのようなグラフベースのテクニックは、ネットワークリッチな環境で複雑な関係を利用する。 メソッドの埋め込みに固有のスケーラビリティの課題に対処するため、調査はレコメンデーションシステムの分野で革新的な方向に向かいます。 これらの方向は性能の向上と計算複雑性の低減を目標とし、レコメンダシステムの改善への道を開く。 これらの革新的なアプローチの中で、このサーベイでAuto Machine Learning(AutoML)、ハッシュ技術、量子化技術を紹介する。 我々は,様々なアーキテクチャと技術について議論し,これらの側面における課題と今後の方向性を強調する。 本調査は,この急速に発展する分野における最先端技術の概要を包括的に把握し,レコメンデーションシステム分野で働く研究者や実践者にとって有用な資源となることを目的としている。

Recommender systems have become an essential component of many online platforms, providing personalized recommendations to users. A crucial aspect is embedding techniques that coverts the high-dimensional discrete features, such as user and item IDs, into low-dimensional continuous vectors and can enhance the recommendation performance. Applying embedding techniques captures complex entity relationships and has spurred substantial research. In this survey, we provide an overview of the recent literature on embedding techniques in recommender systems. This survey covers embedding methods like collaborative filtering, self-supervised learning, and graph-based techniques. Collaborative filtering generates embeddings capturing user-item preferences, excelling in sparse data. Self-supervised methods leverage contrastive or generative learning for various tasks. Graph-based techniques like node2vec exploit complex relationships in network-rich environments. Addressing the scalability challenges inherent to embedding methods, our survey delves into innovative directions within the field of recommendation systems. These directions aim to enhance performance and reduce computational complexity, paving the way for improved recommender systems. Among these innovative approaches, we will introduce Auto Machine Learning (AutoML), hash techniques, and quantization techniques in this survey. We discuss various architectures and techniques and highlight the challenges and future directions in these aspects. This survey aims to provide a comprehensive overview of the state-of-the-art in this rapidly evolving field and serve as a useful resource for researchers and practitioners working in the area of recommender systems.
翻訳日:2023-10-31 17:45:52 公開日:2023-10-28
# どこ行ってたの? ポイント・オブ・インテリジェンス勧告におけるプライバシリスクの検討

Where have you been? A Study of Privacy Risk for Point-of-Interest Recommendation ( http://arxiv.org/abs/2310.18606v1 )

ライセンス: Link先を確認
Kunlin Cai, Jinghuai Zhang, Will Shand, Zhiqing Hong, Guang Wang, Desheng Zhang, Jianfeng Chi, Yuan Tian(参考訳) 位置情報ベースのサービス(LBS)が普及するにつれて、LBSユーザに利便性を高める機械学習(ML)モデルを構築するために、人間のモビリティデータの収集がますます広まりつつある。 しかし、この種のデータには、自宅や職場など、ユーザのアイデンティティに関連する機密情報が含まれている可能性があるため、プライバシー漏洩のリスクが伴う。 以前の作業では、トランスミッションやリリース前のモビリティデータプライバシ保護に重点を置いており、モビリティデータベースのMLモデルのプライバシリスク評価を欠いている。 移動データに基づくMLモデルにおけるプライバシー漏洩をよりよく理解し、定量化するために、最も広く使われている移動データベースのMLモデルの一つであるPOIレコメンデーションモデルに適した、データ抽出とメンバーシップ推論攻撃を含むプライバシー攻撃スイートを設計する。 攻撃スイートにおけるこれらの攻撃は、異なる敵の知識を前提として、モビリティデータから異なる種類の機密情報を抽出することを目的としており、POI勧告モデルに対する全体的なプライバシーリスク評価を提供する。 2つの実世界のモビリティデータセットを用いた実験により、現在のPOIレコメンデーションモデルが攻撃に対して脆弱であることを実証した。 また、プライバシー攻撃の影響を受けやすいモビリティデータの種類を理解するために、ユニークな知見も提示する。 最後に,これらの攻撃に対する防御性を評価し,今後の方向性と課題を強調する。

As location-based services (LBS) have grown in popularity, the collection of human mobility data has become increasingly extensive to build machine learning (ML) models offering enhanced convenience to LBS users. However, the convenience comes with the risk of privacy leakage since this type of data might contain sensitive information related to user identities, such as home/work locations. Prior work focuses on protecting mobility data privacy during transmission or prior to release, lacking the privacy risk evaluation of mobility data-based ML models. To better understand and quantify the privacy leakage in mobility data-based ML models, we design a privacy attack suite containing data extraction and membership inference attacks tailored for point-of-interest (POI) recommendation models, one of the most widely used mobility data-based ML models. These attacks in our attack suite assume different adversary knowledge and aim to extract different types of sensitive information from mobility data, providing a holistic privacy risk assessment for POI recommendation models. Our experimental evaluation using two real-world mobility datasets demonstrates that current POI recommendation models are vulnerable to our attacks. We also present unique findings to understand what types of mobility data are more susceptible to privacy attacks. Finally, we evaluate defenses against these attacks and highlight future directions and challenges.
翻訳日:2023-10-31 17:45:31 公開日:2023-10-28
# TorchDEQ: 深い平衡モデルのためのライブラリ

TorchDEQ: A Library for Deep Equilibrium Models ( http://arxiv.org/abs/2310.18605v1 )

ライセンス: Link先を確認
Zhengyang Geng, J. Zico Kolter(参考訳) Deep Equilibrium (DEQ) Modelsは、ニューラルネットワークの固定点に入力をマッピングする暗黙のモデルの新たなクラスであり、ディープラーニングコミュニティへの関心が高まっている。 しかし、DECモデルのトレーニングと適用は現在、様々な技術が文献に散在しているアドホックな方法で行われている。 本稿では,deqsを体系的に再検討して,最小限のコードとベストプラクティスで複数のドメイン上でdeqsを定義,トレーニング,推測できるpytorchベースのライブラリであるtorchdeqを提案する。 TorchDEQを使って、異なるドメインにまたがる6つの暗黙のモデルをサポートする ``DEQ Zoo'' を構築します。 すべてのモデルでベストプラクティスを取り入れた共同フレームワークを開発することで、DEC Zoo内の6つのプロジェクトすべてにわたる10のデータセット上でのDECのパフォーマンス、トレーニングの安定性、効率を大幅に改善しました。 TorchDEQ と DEQ Zoo は \href{https://github.com/locuslab/torchdeq}{opensource} としてリリースされた。

Deep Equilibrium (DEQ) Models, an emerging class of implicit models that maps inputs to fixed points of neural networks, are of growing interest in the deep learning community. However, training and applying DEQ models is currently done in an ad-hoc fashion, with various techniques spread across the literature. In this work, we systematically revisit DEQs and present TorchDEQ, an out-of-the-box PyTorch-based library that allows users to define, train, and infer using DEQs over multiple domains with minimal code and best practices. Using TorchDEQ, we build a ``DEQ Zoo'' that supports six published implicit models across different domains. By developing a joint framework that incorporates the best practices across all models, we have substantially improved the performance, training stability, and efficiency of DEQs on ten datasets across all six projects in the DEQ Zoo. TorchDEQ and DEQ Zoo are released as \href{https://github.com/locuslab/torchdeq}{open source}.
翻訳日:2023-10-31 17:45:05 公開日:2023-10-28
# 文書レベルの関係抽出を支援するanaphor

Anaphor Assisted Document-Level Relation Extraction ( http://arxiv.org/abs/2310.18604v1 )

ライセンス: Link先を確認
Chonggang Lu, Richong Zhang, Kai Sun, Jaein Kim, Cunwang Zhang, Yongyi Mao(参考訳) 文書レベルの関係抽出(DocRE)は、文書内の複数の文に分散されたエンティティ間の関係を識別する。 既存の方法は、エンティティの内部構造とエンティティ間の外部相互作用をモデル化する異種文書グラフの構築に焦点を当てている。 しかし、既存の方法には2つの欠点がある。 一方、アナポーは、エンティティ間の関係を識別する推論において重要な役割を果たすが、これらの手法によって無視される。 一方,これらの手法は,文書や文を中間ノードとして利用することにより,暗黙的に相互関係性を実現する。 このようなアプローチは、異なる文にわたるエンティティ間のきめ細かい相互作用を学ぶのに困難であり、結果として準最適性能をもたらす。 これらの課題に対処するため,DocREタスクのためのAnaphor-Assisted (AA)フレームワークを提案する。 広範に使用されているデータセットの実験結果から,本モデルが新たな最先端性能を実現することを示す。

Document-level relation extraction (DocRE) involves identifying relations between entities distributed in multiple sentences within a document. Existing methods focus on building a heterogeneous document graph to model the internal structure of an entity and the external interaction between entities. However, there are two drawbacks in existing methods. On one hand, anaphor plays an important role in reasoning to identify relations between entities but is ignored by these methods. On the other hand, these methods achieve cross-sentence entity interactions implicitly by utilizing a document or sentences as intermediate nodes. Such an approach has difficulties in learning fine-grained interactions between entities across different sentences, resulting in sub-optimal performance. To address these issues, we propose an Anaphor-Assisted (AA) framework for DocRE tasks. Experimental results on the widely-used datasets demonstrate that our model achieves a new state-of-the-art performance.
翻訳日:2023-10-31 17:44:45 公開日:2023-10-28
# 大規模言語モデルはより優れたアドバイザ - テキスト分類器に対するクリーンラベルバックドア生成攻撃を探求する

Large Language Models Are Better Adversaries: Exploring Generative Clean-Label Backdoor Attacks Against Text Classifiers ( http://arxiv.org/abs/2310.18603v1 )

ライセンス: Link先を確認
Wencong You, Zayd Hammoudeh, Daniel Lowd(参考訳) バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。 我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。 私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。 また,LLMBkdと既存のテキストバックドア攻撃の有効性を向上させるための毒素選択手法を提案する。 最後に、反ドートトレーニング例を通じてバックドア攻撃を軽減するためのベースラインディフェンスであるreactについて説明する。 私たちの評価は、llmbkdの有効性と効率を示し、モデルトレーニングなしで、幅広いスタイルで一貫して高い攻撃成功率を達成しています。

Backdoor attacks manipulate model predictions by inserting innocuous triggers into training and test data. We focus on more realistic and more challenging clean-label attacks where the adversarial training examples are correctly labeled. Our attack, LLMBkd, leverages language models to automatically insert diverse style-based triggers into texts. We also propose a poison selection technique to improve the effectiveness of both LLMBkd as well as existing textual backdoor attacks. Lastly, we describe REACT, a baseline defense to mitigate backdoor attacks via antidote training examples. Our evaluations demonstrate LLMBkd's effectiveness and efficiency, where we consistently achieve high attack success rates across a wide range of styles with little effort and no model training.
翻訳日:2023-10-31 17:44:30 公開日:2023-10-28
# オンライン意思決定仲介

Online Decision Mediation ( http://arxiv.org/abs/2310.18601v1 )

ライセンス: Link先を確認
Daniel Jarrett, Alihan H\"uy\"uk, Mihaela van der Schaar(参考訳) 決定支援アシスタントの学習は、(oracle)専門家の行動と(不完全な)人間の行動の間の仲介役として機能する。 アルゴリズムは、それぞれの時間に、落下可能なエージェントによって選択されたアクションを観察し、そのエージェントの決定を *accept* するか、[intervene* with an alternative] か *request* かを判断する。 例えば、臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多いため、現実の意思決定支援は監視と予測に限られることが多い。 代わりに、そのような仲介者は、人間のミスと専門家のフィードバックの間の効率的なインターフェースを提供しながら、前者(純粋に規範的)と後者(純粋に記述的)のアプローチの間の慎重なバランスを取ることになる。 本研究ではまず,まず,ゼロから仲介者の方針を同時に学習し,評価する*オンライン意思決定仲介*のシーケンシャルな問題を,まず形式化します。各ラウンドにおいて,託宣に先んじることによってエラーのリスクを回避しますが,事前のペナルティを生じさせ,それ以外は隠された専門家の行動が新たなトレーニングデータポイントとして明らかになります。 第2に,一般化誤差の(将来の)改善に対して,損失項のトレードオフを求める解をモチベーション化し,提案する。 最後に,様々なデータセットに対する実験や感性を通じて,仲介者ポリシー,学習モデル,意思決定システム全体に対する評価基準の適用性に対して,一貫した利得を示す。

Consider learning a decision support assistant to serve as an intermediary between (oracle) expert behavior and (imperfect) human behavior: At each time, the algorithm observes an action chosen by a fallible agent, and decides whether to *accept* that agent's decision, *intervene* with an alternative, or *request* the expert's opinion. For instance, in clinical diagnosis, fully-autonomous machine behavior is often beyond ethical affordances, thus real-world decision support is often limited to monitoring and forecasting. Instead, such an intermediary would strike a prudent balance between the former (purely prescriptive) and latter (purely descriptive) approaches, while providing an efficient interface between human mistakes and expert feedback. In this work, we first formalize the sequential problem of *online decision mediation* -- that is, of simultaneously learning and evaluating mediator policies from scratch with *abstentive feedback*: In each round, deferring to the oracle obviates the risk of error, but incurs an upfront penalty, and reveals the otherwise hidden expert action as a new training data point. Second, we motivate and propose a solution that seeks to trade off (immediate) loss terms against (future) improvements in generalization error; in doing so, we identify why conventional bandit algorithms may fail. Finally, through experiments and sensitivities on a variety of datasets, we illustrate consistent gains over applicable benchmarks on performance measures with respect to the mediator policy, the learned model, and the decision-making system as a whole.
翻訳日:2023-10-31 17:44:19 公開日:2023-10-28
# MILDSum: インドにおける訴訟判決の多言語要約のためのベンチマークデータセット

MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of Indian Legal Case Judgments ( http://arxiv.org/abs/2310.18600v1 )

ライセンス: Link先を確認
Debtanu Datta, Shubham Soni, Rajdeep Mukherjee, Saptarshi Ghosh(参考訳) 判例判断の自動要約は事実上重要な問題であり、多くの国でかなりの研究努力が寄せられている。 インド司法裁判所の文脈では、さらに複雑さが増し、インドの判例判断は主に複雑な英語で書かれているが、インドの人口の大部分は英語の命令を欠いている。 したがって、公正な司法アクセスを確保するために、インドの言語で法的文書を要約することが不可欠である。 先行研究は、主に原文言語における判例判断の要約に焦点を当てているが、本研究は、英語の法文書をヒンディー語に言語横断的に要約する先駆的な試みである。 我々は、英語の著名なインド人裁判所から3,122件の判例判決と、法律実務者が起草した英語とヒンディー語の両方の要約からなる、最初の高品質な法定コーパスを構築した。 コーパスにおける多種多様な要約手法の性能をベンチマークし、法域における言語間要約のさらなる研究の必要性を実証する。

Automatic summarization of legal case judgments is a practically important problem that has attracted substantial research efforts in many countries. In the context of the Indian judiciary, there is an additional complexity -- Indian legal case judgments are mostly written in complex English, but a significant portion of India's population lacks command of the English language. Hence, it is crucial to summarize the legal documents in Indian languages to ensure equitable access to justice. While prior research primarily focuses on summarizing legal case judgments in their source languages, this study presents a pioneering effort toward cross-lingual summarization of English legal documents into Hindi, the most frequently spoken Indian language. We construct the first high-quality legal corpus comprising of 3,122 case judgments from prominent Indian courts in English, along with their summaries in both English and Hindi, drafted by legal practitioners. We benchmark the performance of several diverse summarization approaches on our corpus and demonstrate the need for further research in cross-lingual summarization in the legal domain.
翻訳日:2023-10-31 17:43:50 公開日:2023-10-28
# リスク分散マッチングによるドメインの一般化

Domain Generalisation via Risk Distribution Matching ( http://arxiv.org/abs/2310.18598v1 )

ライセンス: Link先を確認
Toan Nguyen, Kien Do, Bao Duong, Thin Nguyen(参考訳) 本稿では,リスク分布を利用してドメインを特徴付け,ドメイン不変性を実現する新しい手法を提案する。 その結果,リスク分布はトレーニング領域間の差異を効果的に強調し,その複雑さを明らかにした。 テストでは、同様の、あるいは潜在的に大きな、リスク分布のばらつきを観察することができる。 したがって,訓練領域間のリスク分布の相違を最小限に抑えることは,dgに対する頑健な不変性をもたらすという説得力のある提案を提案する。 この概念の背後にある重要な根拠は、ドメイン不変あるいは安定な特徴に基づいて訓練されたモデルが、一貫して様々なドメインにまたがる同様のリスク分布を生み出す可能性があることである。 この考え方に基づいて,リスク分散マッチング(RDM)を提案する。 RDMは、最大平均誤差距離(MMD)を用いて、トレーニング領域間のリスク分布のばらつきを最小限にすることを目的としている。 しかし、ドメイン数が増加すると、分散の直接最適化はMDD計算の線形成長をもたらし、効率が悪くなる。 代わりに、最悪の場合領域とすべての領域からの集約分布の2つの分布を整合させることで、1mmd計算のみを必要とする近似を提案する。 特に、この手法は計算効率が向上しつつ、分布分散の最適化を経験的に上回っている。 従来のDGマッチングアルゴリズムとは異なり、RDMはスカラーリスク分布に集中し、特徴マッチングや勾配マッチングで見られる高次元課題の落とし穴を埋めることにより、その有効性を向上している。 標準ベンチマークデータセットに対する広範な実験により、RDMは最先端DG法よりも優れた一般化能力を示すことが示された。

We propose a novel approach for domain generalisation (DG) leveraging risk distributions to characterise domains, thereby achieving domain invariance. In our findings, risk distributions effectively highlight differences between training domains and reveal their inherent complexities. In testing, we may observe similar, or potentially intensifying in magnitude, divergences between risk distributions. Hence, we propose a compelling proposition: Minimising the divergences between risk distributions across training domains leads to robust invariance for DG. The key rationale behind this concept is that a model, trained on domain-invariant or stable features, may consistently produce similar risk distributions across various domains. Building upon this idea, we propose Risk Distribution Matching (RDM). Using the maximum mean discrepancy (MMD) distance, RDM aims to minimise the variance of risk distributions across training domains. However, when the number of domains increases, the direct optimisation of variance leads to linear growth in MMD computations, resulting in inefficiency. Instead, we propose an approximation that requires only one MMD computation, by aligning just two distributions: that of the worst-case domain and the aggregated distribution from all domains. Notably, this method empirically outperforms optimising distributional variance while being computationally more efficient. Unlike conventional DG matching algorithms, RDM stands out for its enhanced efficacy by concentrating on scalar risk distributions, sidestepping the pitfalls of high-dimensional challenges seen in feature or gradient matching. Our extensive experiments on standard benchmark datasets demonstrate that RDM shows superior generalisation capability over state-of-the-art DG methods.
翻訳日:2023-10-31 17:43:30 公開日:2023-10-28
# フェアストリーミングの主成分分析:統計的・アルゴリズム的視点

Fair Streaming Principal Component Analysis: Statistical and Algorithmic Viewpoint ( http://arxiv.org/abs/2310.18593v1 )

ライセンス: Link先を確認
Junghyun Lee, Hanseul Cho, Se-Young Yun, Chulhee Yun(参考訳) フェア・プリンシパル・コンポーネント・アナリシス (fair principal component analysis, pca) は、pcaを実行し、その結果の表現を公平にすることを目的とした問題設定である。 理論的には、学習性の観点からは、公正なPCAの統計的基盤は存在せず、実際、メモリの制限により、データ全体への完全なアクセスに明示的に依存しているため、既存のアプローチを利用できない。 理論的な面では、fair pca は \emph{probably almost fair and optimal} (pafo) 学習可能性と呼ばれる新しい概念を用いて厳密に定式化される。 実用面では,近年のメモリ制限に対処するストリーミングアルゴリズムの進歩により,メモリ効率の高いアルゴリズムであるフェアノイズパワー法(FNPM)とともに,'emph{fair streaming PCA} と呼ばれる新しい設定を提案する。 すると、pafo-learnabilityという観点でその {\it statistical} の保証が与えられ、これは公正なpca文献において最初のものである。 最後に,実世界のデータセット上でのアルゴリズムの有効性とメモリ効率を検証する。

Fair Principal Component Analysis (PCA) is a problem setting where we aim to perform PCA while making the resulting representation fair in that the projected distributions, conditional on the sensitive attributes, match one another. However, existing approaches to fair PCA have two main problems: theoretically, there has been no statistical foundation of fair PCA in terms of learnability; practically, limited memory prevents us from using existing approaches, as they explicitly rely on full access to the entire data. On the theoretical side, we rigorously formulate fair PCA using a new notion called \emph{probably approximately fair and optimal} (PAFO) learnability. On the practical side, motivated by recent advances in streaming algorithms for addressing memory limitation, we propose a new setting called \emph{fair streaming PCA} along with a memory-efficient algorithm, fair noisy power method (FNPM). We then provide its {\it statistical} guarantee in terms of PAFO-learnability, which is the first of its kind in fair PCA literature. Lastly, we verify the efficacy and memory efficiency of our algorithm on real-world datasets.
翻訳日:2023-10-31 17:43:04 公開日:2023-10-28
# 逆決定モデル:行動の解釈可能な表現の学習

Inverse Decision Modeling: Learning Interpretable Representations of Behavior ( http://arxiv.org/abs/2310.18591v1 )

ライセンス: Link先を確認
Daniel Jarrett, Alihan H\"uy\"uk, Mihaela van der Schaar(参考訳) 決定分析は、意思決定プロセスのモデリングと強化を扱う。 行動を改善する上での最大の課題は、そもそも既存の行動の透明な説明を得ることである。 本稿では、逐次的決定行動のパラメータ化表現を学習するフレームワークである逆決定モデリングの表現的統一的な視点を開発する。 まず、制御行動の共通クラスを仮定して前方問題(規範的標準として)を定式化する。 第2に、逆問題(記述モデルとして)を形式化し、模倣/逆学習に関する既存の作業を一般化すると同時に、行動表現におけるより広範な研究のクラスを開く。 最後に、このアプローチを例(逆有界有理制御)でインスタンス化し、この構造が(境界付き)合理性の(解釈可能な)表現をどのように学習できるかを示します。

Decision analysis deals with modeling and enhancing decision processes. A principal challenge in improving behavior is in obtaining a transparent description of existing behavior in the first place. In this paper, we develop an expressive, unifying perspective on inverse decision modeling: a framework for learning parameterized representations of sequential decision behavior. First, we formalize the forward problem (as a normative standard), subsuming common classes of control behavior. Second, we use this to formalize the inverse problem (as a descriptive model), generalizing existing work on imitation/reward learning -- while opening up a much broader class of research problems in behavior representation. Finally, we instantiate this approach with an example (inverse bounded rational control), illustrating how this structure enables learning (interpretable) representations of (bounded) rationality -- while naturally capturing intuitive notions of suboptimal actions, biased beliefs, and imperfect knowledge of environments.
翻訳日:2023-10-31 17:42:42 公開日:2023-10-28
# 早期試薬による蒸留液中の飽和バイアスの仲介

Using Early Readouts to Mediate Featural Bias in Distillation ( http://arxiv.org/abs/2310.18590v1 )

ライセンス: Link先を確認
Rishabh Tiwari, Durga Sivasubramanian, Anmol Mekala, Ganesh Ramakrishnan, Pradeep Shenoy(参考訳) ディープネットワークは、現実世界の教師付き学習タスクにおいて、スプリアスな特徴ラベル相関を学習する傾向がある。 この脆弱性は、学生モデルが対応する教師モデルよりも表現能力の低い場合の蒸留で増大する。 多くの場合、特定のスプリアス相関の知識は、インスタンスの重み付けと学習プロセスの再バランスに使用される。 我々は,従来のネットワーク層からの表現を用いてラベルを予測しようとする,新しい早期読み出し機構を提案する。 これらの早期の読み出しは,信頼度の高い不正確な予測の形で問題インスタンスやグループを自動的に識別する。 これらの信号を利用して、インスタンスレベルで蒸留損失を変調することで、ベンチマークデータセット全体にわたるグループフェアネス測定だけでなく、学生モデルの全体的な精度も大幅に改善できます。 また,管理と蒸留における機能学習の役割に関する洞察を与える二次分析も提供する。

Deep networks tend to learn spurious feature-label correlations in real-world supervised learning tasks. This vulnerability is aggravated in distillation, where a student model may have lesser representational capacity than the corresponding teacher model. Often, knowledge of specific spurious correlations is used to reweight instances & rebalance the learning process. We propose a novel early readout mechanism whereby we attempt to predict the label using representations from earlier network layers. We show that these early readouts automatically identify problem instances or groups in the form of confident, incorrect predictions. Leveraging these signals to modulate the distillation loss on an instance level allows us to substantially improve not only group fairness measures across benchmark datasets, but also overall accuracy of the student model. We also provide secondary analyses that bring insight into the role of feature learning in supervision and distillation.
翻訳日:2023-10-31 17:42:24 公開日:2023-10-28
# 複数のビジュアライゼーションを用いた原型的概念の照明

This Looks Like Those: Illuminating Prototypical Concepts Using Multiple Visualizations ( http://arxiv.org/abs/2310.18589v1 )

ライセンス: Link先を確認
Chiyu Ma, Brandon Zhao, Chaofan Chen, Cynthia Rudin(参考訳) 本稿では,深層学習とケースベース推論を組み合わせた画像分類法であるProtoConceptsを提案する。 プロトタイプベースの画像分類における既存の作業は、プロトタイプの部品を発見し、これらのプロトタイプから証拠を組み合わせて最終分類をすることで、テストイメージを識別する ` This looks that''' 推論プロセスを使用している。 しかし、既存のプロトタイプ部分ベース画像分類器はすべて、1対1の比較のみを提供しており、1つのトレーニング画像パッチがプロトタイプとして機能し、テスト画像の一部と比較する。 これらの単像比較では、比較される概念(例えば、色や形を比較するのは「?」など)を特定することはしばしば困難である。 提案手法はプロトタイプベースネットワークのアーキテクチャを改良し,複数のイメージパッチを用いて視覚化したプロトタイプの概念を学習する。 同じプロトタイプの複数の視覚化を行うことで、プロトタイプがキャプチャしたコンセプト(例えば、‘テストイメージと関連するトレーニングパッチはすべて同じ青’')をより容易に識別し、よりリッチで解釈可能な視覚的説明を作成することができます。 実験により,我々の `This' 推論プロセスは,ベンチマークデータセットにおいて同等の精度を達成しつつ,既存のプロトタイプ画像分類網の幅広い変更に適用可能であることが示された。

We present ProtoConcepts, a method for interpretable image classification combining deep learning and case-based reasoning using prototypical parts. Existing work in prototype-based image classification uses a ``this looks like that'' reasoning process, which dissects a test image by finding prototypical parts and combining evidence from these prototypes to make a final classification. However, all of the existing prototypical part-based image classifiers provide only one-to-one comparisons, where a single training image patch serves as a prototype to compare with a part of our test image. With these single-image comparisons, it can often be difficult to identify the underlying concept being compared (e.g., ``is it comparing the color or the shape?''). Our proposed method modifies the architecture of prototype-based networks to instead learn prototypical concepts which are visualized using multiple image patches. Having multiple visualizations of the same prototype allows us to more easily identify the concept captured by that prototype (e.g., ``the test image and the related training patches are all the same shade of blue''), and allows our model to create richer, more interpretable visual explanations. Our experiments show that our ``this looks like those'' reasoning process can be applied as a modification to a wide range of existing prototypical image classification networks while achieving comparable accuracy on benchmark datasets.
翻訳日:2023-10-31 17:42:11 公開日:2023-10-28
# コード翻訳のための事前学習モデルの構文的逆ロバスト性の評価と改善

Assessing and Improving Syntactic Adversarial Robustness of Pre-trained Models for Code Translation ( http://arxiv.org/abs/2310.18587v1 )

ライセンス: Link先を確認
Guang Yang, Yu Zhou, Xiangyu Zhang, Xiang Chen, Tingting Han, Taolue Chen(参考訳) コンテキスト: 事前訓練されたモデル(PTM)は、自動コード翻訳において大きな可能性を示している。 しかし、翻訳タスクにおけるこれらのモデルの脆弱性は、特に構文の観点からは、広く研究されていない。 目的: このギャップを埋めるために, コード翻訳における PTM の構文的対角性を評価するための新しいアプローチである CoTR を提案する。 方法:CoTRはCoTR-AとCoTR-Dの2つのコンポーネントから構成される。 CoTR-Aはプログラムを変換することで逆例を生成する一方、CoTR-Dはモデルの堅牢性と一般化能力を改善するために意味的距離に基づくサンプリングデータ拡張法と逆トレーニング法を提案する。 Pass@1メトリックは、コード翻訳タスクに適しており、現実世界のシナリオでより正確な評価を提供するPTMのパフォーマンスを評価するために、CoTRによって使用される。 結果: CoTRの有効性は,実世界のJavaからPythonへのデータセットの実験を通じて評価される。 その結果,CoTR-Aは既存のPTMの性能を大幅に低下させることができる一方で,CoTR-DはPTMの堅牢性を効果的に向上することがわかった。 結論:本研究では,コード翻訳タスクにおいて,大規模言語モデルを含む現在のPTMの限界を明らかにする。 これは、コード翻訳タスクにおけるPTMの堅牢性を高める効果的なソリューションとしてのCoTRの可能性を強調している。

Context: Pre-trained models (PTMs) have demonstrated significant potential in automatic code translation. However, the vulnerability of these models in translation tasks, particularly in terms of syntax, has not been extensively investigated. Objective: To fill this gap, our study aims to propose a novel approach CoTR to assess and improve the syntactic adversarial robustness of PTMs in code translation. Method: CoTR consists of two components: CoTR-A and CoTR-D. CoTR-A generates adversarial examples by transforming programs, while CoTR-D proposes a semantic distance-based sampling data augmentation method and adversarial training method to improve the model's robustness and generalization capabilities. The Pass@1 metric is used by CoTR to assess the performance of PTMs, which is more suitable for code translation tasks and offers a more precise evaluation in real world scenarios. Results: The effectiveness of CoTR is evaluated through experiments on real world Java to Python datasets. The results demonstrate that CoTR-A can significantly reduce the performance of existing PTMs, while CoTR-D effectively improves the robustness of PTMs. Conclusion: Our study identifies the limitations of current PTMs, including large language models, in code translation tasks. It highlights the potential of CoTR as an effective solution to enhance the robustness of PTMs for code translation tasks.
翻訳日:2023-10-31 17:41:50 公開日:2023-10-28
# カーネルガウス混合モデルの最適輸送

Optimal Transport for Kernel Gaussian Mixture Models ( http://arxiv.org/abs/2310.18586v1 )

ライセンス: Link先を確認
Jung Hun Oh, Rena Elkin, Anish Kumar Simhal, Jiening Zhu, Joseph O Deasy, Allen Tannenbaum(参考訳) 最適質量輸送(OMT)からのワッサーシュタイン距離は、2つの確率分布間の距離の自然な測度を提供する多くの応用を持つ強力な数学的ツールである。 ガウス混合やガウス混合のような広く用いられている確率モデルにOMTを組み込む方法は、実データセットの複雑なマルチモーダル密度をモデル化する能力を高めるために開発された。 しかし、再現されたカーネルヒルベルト空間(RKHS)におけるOMT問題の研究はほとんど行われておらず、カーネルのトリックを利用して入力データを高次元の特徴空間に明示的にマッピングする必要がない。 本稿では,カーネルトリック,すなわちカーネルガウス混合モデルを用いて,RKHS内の2つのガウス混合間の距離を計算するためのワッサーシュタイン型計量を提案する。

The Wasserstein distance from optimal mass transport (OMT) is a powerful mathematical tool with numerous applications that provides a natural measure of the distance between two probability distributions. Several methods to incorporate OMT into widely used probabilistic models, such as Gaussian or Gaussian mixture, have been developed to enhance the capability of modeling complex multimodal densities of real datasets. However, very few studies have explored the OMT problems in a reproducing kernel Hilbert space (RKHS), wherein the kernel trick is utilized to avoid the need to explicitly map input data into a high-dimensional feature space. In the current study, we propose a Wasserstein-type metric to compute the distance between two Gaussian mixtures in a RKHS via the kernel trick, i.e., kernel Gaussian mixture models.
翻訳日:2023-10-31 17:41:27 公開日:2023-10-28
# 反復統合属性による視覚的説明

Visual Explanations via Iterated Integrated Attributions ( http://arxiv.org/abs/2310.18585v1 )

ライセンス: Link先を確認
Oren Barkan, Yehonatan Elisha, Yuval Asher, Amit Eshel, Noam Koenigstein(参考訳) 視覚モデルの予測を説明する汎用的な手法として,Iterated Integrated Attributions (IIA)を提案する。 IIAは、入力画像、モデルによって生成された内部表現、およびそれらの勾配を反復的に統合し、精密で集中した説明図を生成する。 各種タスク,データセット,ネットワークアーキテクチャの包括的な評価を通じて,IIAの有効性を示す。 iiaが正確な説明マップを作成し、他の最先端の説明技術よりも優れていることを示した。

We introduce Iterated Integrated Attributions (IIA) - a generic method for explaining the predictions of vision models. IIA employs iterative integration across the input image, the internal representations generated by the model, and their gradients, yielding precise and focused explanation maps. We demonstrate the effectiveness of IIA through comprehensive evaluations across various tasks, datasets, and network architectures. Our results showcase that IIA produces accurate explanation maps, outperforming other state-of-the-art explanation techniques.
翻訳日:2023-10-31 17:41:12 公開日:2023-10-28
# 電気インピーダンストモグラフィー:Deep LearningとAnalytic-based Approachの比較研究

Electrical Impedance Tomography: A Fair Comparative Study on Deep Learning and Analytic-based Approaches ( http://arxiv.org/abs/2310.18636v1 )

ライセンス: Link先を確認
Derick Nganyu Tanyu, Jianfeng Ning, Andreas Hauptmann, Bangti Jin, Peter Maass(参考訳) 電気インピーダンストモグラフィー(eit)は、医療診断、産業モニタリング、環境研究など様々な応用を含む強力なイメージング技術である。 EIT逆問題(EIT inverse problem)とは、物体の内部伝導率分布を、その境界で測定した値から推定することである。 画像再構成には高度な計算手法が必要である。 近年、分析ベースのアプローチとディープラーニングの革新によって、大きな進歩が見られた。 本稿では,現代の深層学習戦略と古典的分析手法の相互作用に着目し,EIT逆問題の解法を検討する。 4つの最先端ディープラーニングアルゴリズムを厳密に検討し、深層ニューラルネットワークの表現能力を利用して複雑な導電率分布を再構成する。 並行して、数学的定式化と正規化技術に根ざした2つの解析ベースの手法は、その強みと限界のために解剖される。 これらの手法は、実世界の複雑さを反映した様々なシナリオを含む様々な数値実験を通じて評価される。 これらの手法の有効性を評価するために、一連のパフォーマンス指標が使用される。 これらのメトリクスは、本質的な特徴をキャプチャし、複雑な導電パターンを記述できる方法の微妙な理解を提供する。 この研究の新たな特徴は、テクスチャ化された包摂を模倣する不均一性のレベルを導入する、可変導電性シナリオの組み入れである。 この均一導電性仮定からの離脱は、組織や材料が空間的に異なる電気的性質を示す現実的なシナリオを模倣する。 それぞれのメソッドがこのような可変導電性シナリオにどのように反応するかを探求することで、ロバスト性と適応性を理解するための道を開く。

Electrical Impedance Tomography (EIT) is a powerful imaging technique with diverse applications, e.g., medical diagnosis, industrial monitoring, and environmental studies. The EIT inverse problem is about inferring the internal conductivity distribution of an object from measurements taken on its boundary. It is severely ill-posed, necessitating advanced computational methods for accurate image reconstructions. Recent years have witnessed significant progress, driven by innovations in analytic-based approaches and deep learning. This review explores techniques for solving the EIT inverse problem, focusing on the interplay between contemporary deep learning-based strategies and classical analytic-based methods. Four state-of-the-art deep learning algorithms are rigorously examined, harnessing the representational capabilities of deep neural networks to reconstruct intricate conductivity distributions. In parallel, two analytic-based methods, rooted in mathematical formulations and regularisation techniques, are dissected for their strengths and limitations. These methodologies are evaluated through various numerical experiments, encompassing diverse scenarios that reflect real-world complexities. A suite of performance metrics is employed to assess the efficacy of these methods. These metrics collectively provide a nuanced understanding of the methods' ability to capture essential features and delineate complex conductivity patterns. One novel feature of the study is the incorporation of variable conductivity scenarios, introducing a level of heterogeneity that mimics textured inclusions. This departure from uniform conductivity assumptions mimics realistic scenarios where tissues or materials exhibit spatially varying electrical properties. Exploring how each method responds to such variable conductivity scenarios opens avenues for understanding their robustness and adaptability.
翻訳日:2023-10-31 17:34:19 公開日:2023-10-28
# 構造と表現の因果不整合のためのSSLフレームワーク

SSL Framework for Causal Inconsistency between Structures and Representations ( http://arxiv.org/abs/2310.18634v1 )

ライセンス: Link先を確認
Hang Chen and Xinyu Yang and Keqing Du(参考訳) ディープラーニングと因果発見のクロスポーリゼーションは、画像やビデオ、テキストといった非統計データ形式における因果関係を解明しようとする、急成長する研究分野を触媒している。 このようなデータはしばしば'不定値データ'と命名され、因果構造と表現との間に独特の矛盾を示し、従来のデータ形式では一般的ではない。 本研究では,不定値データに適した介入戦略を理論的に開発し,因果一貫性条件(ccc)を導出する。 さらに,介入を「ビュー」,CCCを「哲学」とみなす自己教師型学習(SSL)フレームワークを設計し,SSM(Supervised Specialized Models)とLLM(Large Language Models)の2つの実装例を示した。 純粋不整合性の発現を評価するため,第1次高品質因果対話データセットCausalogueを作成した。 他の3つの下流タスクでも評価が行われる。 本手法の有効性を実証し, CCCが様々な分野でどのような役割を果たせるかを明らかにした。

The cross-pollination of deep learning and causal discovery has catalyzed a burgeoning field of research seeking to elucidate causal relationships within non-statistical data forms like images, videos, and text. Such data, often being named `indefinite data', exhibit unique challenges-inconsistency between causal structure and representation, which are not common in conventional data forms. To tackle this issue, we theoretically develop intervention strategies suitable for indefinite data and derive causal consistency condition (CCC). Moreover, we design a self-supervised learning (SSL) framework that considers interventions as `views' and CCC as a `philosophy' with two implement examples on Supervised Specialized Models (SSMs) and Large Language Models (LLMs), respectively. To evaluate pure inconsistency manifestations, we have prepared the first high-quality causal dialogue dataset-Causalogue. Evaluations are also performed on three other downstream tasks. Extensive experimentation has substantiated the efficacy of our methodology, illuminating how CCC could potentially play an influential role in various fields.
翻訳日:2023-10-31 17:33:53 公開日:2023-10-28
# 罠をセットする:ハニーポットによる事前訓練された言語モデルにおけるバックドアの捕獲と破棄

Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots ( http://arxiv.org/abs/2310.18633v1 )

ライセンス: Link先を確認
Ruixiang Tang, Jiayi Yuan, Yiming Li, Zirui Liu, Rui Chen, Xia Hu(参考訳) 自然言語処理の分野では、ローカルサンプルを用いた事前学習言語モデル(plm)の微調整が一般的である。 最近の研究では、バックドア攻撃に対するplmの感受性が明らかにされ、敵はいくつかのトレーニングサンプルを操作して悪意のある予測行動を組み込むことができる。 本研究の目的は,微調整データセットが有毒サンプルを含む場合でもバックドアフリーモデルを生成するバックドア耐性チューニング手順を開発することである。 この目的のために,バックドア情報のみを吸収するように設計されたオリジナルのPLMにハニーポットモジュールを提案し,統合する。 我々の設計は、PLMの下位層表現は、元のタスクに関する最小限の情報を持ちながら十分なバックドア特徴を持っているという観察に動機づけられている。 その結果,幹網の微細調整過程におけるバックドア生成を抑制するため,ハニーポットモジュールが取得した情報に罰則を課すことができる。 ベンチマークデータセットで実施した総合実験では,防御戦略の有効性と堅牢性が実証された。 これらの結果は,従来の最先端手法と比較して,攻撃成功率が10\%から40\%に大幅に低下したことを示している。

In the field of natural language processing, the prevalent approach involves fine-tuning pretrained language models (PLMs) using local samples. Recent research has exposed the susceptibility of PLMs to backdoor attacks, wherein the adversaries can embed malicious prediction behaviors by manipulating a few training samples. In this study, our objective is to develop a backdoor-resistant tuning procedure that yields a backdoor-free model, no matter whether the fine-tuning dataset contains poisoned samples. To this end, we propose and integrate a honeypot module into the original PLM, specifically designed to absorb backdoor information exclusively. Our design is motivated by the observation that lower-layer representations in PLMs carry sufficient backdoor features while carrying minimal information about the original tasks. Consequently, we can impose penalties on the information acquired by the honeypot module to inhibit backdoor creation during the fine-tuning process of the stem network. Comprehensive experiments conducted on benchmark datasets substantiate the effectiveness and robustness of our defensive strategy. Notably, these results indicate a substantial reduction in the attack success rate ranging from 10\% to 40\% when compared to prior state-of-the-art methods.
翻訳日:2023-10-31 17:33:33 公開日:2023-10-28
# 風力予測のための説明可能なモデリング:例外精度のガラスボックスアプローチ

Explainable Modeling for Wind Power Forecasting: A Glass-Box Approach with Exceptional Accuracy ( http://arxiv.org/abs/2310.18629v1 )

ライセンス: Link先を確認
Wenlong Liao, Fernando Port\'e-Agel, Jiannong Fang, Birgitte Bak-Jensen, Guangchun Ruan, Zhe Yang(参考訳) 機械学習モデル(例えばニューラルネットワーク)は風力発電予測において高い精度を達成するが、通常は解釈不可能なブラックボックスと見なされる。 この問題に対処するため,風力予測における異常精度と透明性を組み合わせたガラスボックス手法を提案する。 具体的には、予測モデル内の形状関数を作成するために、高度な人工知能手法(例えば勾配促進)が革新的に採用されている。 これらの関数は、風力出力と入力特徴の間の複雑な非線形関係を効果的にマッピングする。 さらに、入力特徴間の相互依存や相乗関係を適切にキャプチャする相互作用項を組み込むことにより、予測モデルが強化される。 シミュレーションの結果,提案手法は風力予測の結果を大域的および実例的に効果的に解釈できることがわかった。 さらに、ほとんどのベンチマークモデルを上回っ、最高のパフォーマンスのニューラルネットワークに匹敵するパフォーマンスを示す。 この透明性と高精度の二重強度は、信頼できる風力予測のための魅力的な選択として提案されたガラスボックスアプローチを位置づけている。

Machine learning models (e.g., neural networks) achieve high accuracy in wind power forecasting, but they are usually regarded as black boxes that lack interpretability. To address this issue, the paper proposes a glass-box approach that combines exceptional accuracy with transparency for wind power forecasting. Specifically, advanced artificial intelligence methods (e.g., gradient boosting) are innovatively employed to create shape functions within the forecasting model. These functions effectively map the intricate non-linear relationships between wind power output and input features. Furthermore, the forecasting model is enriched by incorporating interaction terms that adeptly capture interdependencies and synergies among the input features. Simulation results show that the proposed glass-box approach effectively interprets the results of wind power forecasting from both global and instance perspectives. Besides, it outperforms most benchmark models and exhibits comparable performance to the best-performing neural networks. This dual strength of transparency and high accuracy positions the proposed glass-box approach as a compelling choice for reliable wind power forecasting.
翻訳日:2023-10-31 17:33:12 公開日:2023-10-28
# パーソナライズド蒸留:コード生成のための適応学習によるオープンソースLLMの活用

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation ( http://arxiv.org/abs/2310.18628v1 )

ライセンス: Link先を確認
Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty(参考訳) 強力なオープンソース LLM (ChatGPT, GPT-4) の出現に伴い, オープンソース LLM のキャパビエをより小さな LLM に蒸留することへの関心が高まっている。 従来の蒸留法は通常、ChatGPTが生徒モデルが学ぶための一連の指示と答えを生成するように促す。 しかし、このような標準的な蒸留法は学生モデルの利点や条件を無視している。 近代的指導原理に触発されて, 学生が最初に課題を解決しようとする個人化蒸留プロセスを設計し, 教師は生徒が改善するための適応的改良を提供する。 教師の事前の指導を受ける代わりに、個人化された蒸留は生徒のモデルに対する個人的学習を可能にする。 コード生成では、パーソナライズド蒸留は、データの3分の1しか標準蒸留に勝っていない。 データ収集コストを4~6ドルとする2.5~3kの個人化例で、codegen-mono-16bを7%増やして36.4%pass@1、starcoderを12.2%増やし、humanevalで45.8%pass@1になります。

With the rise of powerful closed-sourced LLMs (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced LLMs to smaller open-sourced LLMs. Previous distillation methods usually prompt ChatGPT to generate a set of instructions and answers, for the student model to learn. However, such standard distillation approach neglects the merits and conditions of the student model. Inspired by modern teaching principles, we design a personalised distillation process, in which the student attempts to solve a task first, then the teacher provides an adaptive refinement for the student to improve. Instead of feeding the student with teacher's prior, personalised distillation enables personalised learning for the student model, as it only learns on examples it makes mistakes upon and learns to improve its own solution. On code generation, personalised distillation consistently outperforms standard distillation with only one third of the data. With only 2.5-3K personalised examples that incur a data-collection cost of 4-6$, we boost CodeGen-mono-16B by 7% to achieve 36.4% pass@1 and StarCoder by 12.2% to achieve 45.8% pass@1 on HumanEval.
翻訳日:2023-10-31 17:32:58 公開日:2023-10-28
# 非エルミタンスキン効果と双方向スキン効果に対する内部対称性の時間反転$^\dagger$対称性による制約

Constraints of Internal Symmetry on Non-Hermitian Skin Effect and Bidirectional Skin Effect Under Time-reversal$^\dagger$ Symmetry ( http://arxiv.org/abs/2310.18627v1 )

ライセンス: Link先を確認
Shu-Xuan Wang(参考訳) 非エルミート皮膚効果は非エルミート系における基本的な現象であり、多くの固有状態が境界で局在できることを意味する。 本稿では,任意の次元における非エルミート皮膚効果に関するすべての内部対称性の制約を体系的に検討する。 強力なアメーバの定式化を応用し,様々な内部対称性と非エルミート皮膚効果の挙動とを総称的に対応させる。 特に、時間反転=^\dagger$対称性を持つ非エルミート系では、固有状態はアメーバの定式化を超越した反対の境界で同時に局所化することができ、現象の双方向スキン効果を導出する。 我々の研究は、内部対称性から非エルミート皮膚効果への全体的な展望を提供する。

Non-Hermitian skin effect is a basic phenomenon in non-Hermitian system, which means that an extensive number of eigenstates can be localized at the boundary. In this Letter, we systematically investigate the constraints from all internal symmetries on the non-Hermitian skin effect in arbitrary dimensions. By adopting the powerful Amoeba formulation, we build a generic correspondence between the various internal symmetries and the behavior of the non-Hermitian skin effect. Notably, we find that, for non-Hermitian systems with the time-reversal$^\dagger$ symmetry, the eigenstates can simultaneously localize at opposite boundaries, which is beyond the Amoeba formulation, and we dub the phenomenon bidirectional skin effect. Our work provides an overall perspective from the internal symmetry to the non-Hermitian skin effect.
翻訳日:2023-10-31 17:32:33 公開日:2023-10-28
# 画像分類器ロバストネスのためのカスタマイズ可能な歪み付きベンチマーク生成フレームワーク

Benchmark Generation Framework with Customizable Distortions for Image Classifier Robustness ( http://arxiv.org/abs/2310.18626v1 )

ライセンス: Link先を確認
Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Zachariah Carmichael, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna, Gutierrez Antonio Guillen, and Avisek Naug(参考訳) 本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。 当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。 このベンチマークは、様々な歪みレベルのデータセットを生成し、異なる画像分類器の堅牢性を評価する。 以上の結果から,ResNet-50,Inception-V3,VGG-16などの画像分類モデルを用いて,我々のフレームワークが生成した敵対的サンプルは,他のモデルに有効で転送可能であることが示された。 これらの失敗は、これらのモデルが最先端技術を用いて敵に再訓練されたとしても起こり、我々の敵のサンプルの一般化可能性を示す。 我々は,CIFAR-10 や ImageNet の最先端ベンチマーク手法と比較して,純$L_2$歪みの競争性能を向上するが,非自然的アーティファクトやカラーブリードを導入することなく,ガウスノイズなどの単純な歪みで,このような結果が得られることを示す。 これは、モデルベース強化学習(RL)エージェントと、モデルを摂動に敏感にするために画像の深い木探索を1段階の分析と動作に還元する技術によって実現されている。 複数のクラスに対して歪みの選択や分類確率しきい値の設定の柔軟性は,アルゴリズムによる監査に適している。

We present a novel framework for generating adversarial benchmarks to evaluate the robustness of image classification models. Our framework allows users to customize the types of distortions to be optimally applied to images, which helps address the specific distortions relevant to their deployment. The benchmark can generate datasets at various distortion levels to assess the robustness of different image classifiers. Our results show that the adversarial samples generated by our framework with any of the image classification models, like ResNet-50, Inception-V3, and VGG-16, are effective and transferable to other models causing them to fail. These failures happen even when these models are adversarially retrained using state-of-the-art techniques, demonstrating the generalizability of our adversarial samples. We achieve competitive performance in terms of net $L_2$ distortion compared to state-of-the-art benchmark techniques on CIFAR-10 and ImageNet; however, we demonstrate our framework achieves such results with simple distortions like Gaussian noise without introducing unnatural artifacts or color bleeds. This is made possible by a model-based reinforcement learning (RL) agent and a technique that reduces a deep tree search of the image for model sensitivity to perturbations, to a one-level analysis and action. The flexibility of choosing distortions and setting classification probability thresholds for multiple classes makes our framework suitable for algorithmic audits.
翻訳日:2023-10-31 17:32:17 公開日:2023-10-28
# ニューラルセルオートマタによる任意拡張型環境発電機

Arbitrarily Scalable Environment Generators via Neural Cellular Automata ( http://arxiv.org/abs/2310.18622v1 )

ライセンス: Link先を確認
Yulun Zhang, Matthew C. Fontaine, Varun Bhatt, Stefanos Nikolaidis, Jiaoyang Li(参考訳) 本研究では,マルチロボットシステムのスループットを向上させるために,任意に大規模環境を生成する問題について検討する。 先行研究では、自動倉庫の環境を最適化する効果的な方法として品質多様性アルゴリズム(QD)を提案する。 しかし、これらのアプローチは比較的小さな環境のみを最適化し、現実の倉庫サイズを複製するという点では不足している。 この課題は、環境が大きくなるにつれて検索空間が指数関数的に増加することから生じる。 さらに、従来の方法はシミュレーションで最大350個のロボットでしかテストされておらず、実用的な倉庫では数千個のロボットを収容できる。 本稿では,環境を最適化する代わりに,QDアルゴリズムを用いてNCA(Neural Cellular Automata)環境ジェネレータの最適化を提案する。 我々は、小さな環境でQDアルゴリズムを用いたNAAジェネレータの集合を訓練し、テスト時に発電機から任意に大きな環境を生成する。 NCA環境ジェネレータは, 環境サイズに関わらず一貫した規則化されたパターンを維持し, 最大2,350個のロボットを持つ2つの異なる領域におけるマルチロボットシステムのスケーラビリティを著しく向上させる。 さらに,本手法は単一エージェント強化学習ポリシーを,類似したパターンを持つ大規模環境に任意に拡張することを示した。 ソースコードは \url{https://github.com/lunjohnzhang/warehouse_env_gen_nca_public} にある。

We study the problem of generating arbitrarily large environments to improve the throughput of multi-robot systems. Prior work proposes Quality Diversity (QD) algorithms as an effective method for optimizing the environments of automated warehouses. However, these approaches optimize only relatively small environments, falling short when it comes to replicating real-world warehouse sizes. The challenge arises from the exponential increase in the search space as the environment size increases. Additionally, the previous methods have only been tested with up to 350 robots in simulations, while practical warehouses could host thousands of robots. In this paper, instead of optimizing environments, we propose to optimize Neural Cellular Automata (NCA) environment generators via QD algorithms. We train a collection of NCA generators with QD algorithms in small environments and then generate arbitrarily large environments from the generators at test time. We show that NCA environment generators maintain consistent, regularized patterns regardless of environment size, significantly enhancing the scalability of multi-robot systems in two different domains with up to 2,350 robots. Additionally, we demonstrate that our method scales a single-agent reinforcement learning policy to arbitrarily large environments with similar patterns. We include the source code at \url{https://github.com/lunjohnzhang/warehouse_env_gen_nca_public}.
翻訳日:2023-10-31 17:31:50 公開日:2023-10-28
# ODM3D:半改良単分子物体検出のための前景空間の緩和

ODM3D: Alleviating Foreground Sparsity for Enhanced Semi-Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2310.18620v1 )

ライセンス: Link先を確認
Weijia Zhang, Dongnan Liu, Chao Ma, Weidong Cai(参考訳) モノキュラー3dオブジェクト検出(m3od)は、単一のrgb画像に暗黙的な深さの手がかりがないため、自動運転において本質的に困難なタスクである。 本稿では,半教師付き学習によるラベルなしデータの豊富活用により,現在性能の低い単眼的3d物体検出器の高速化に努める。 提案するODM3Dフレームワークは,トレーニング中にLiDARドメインの知識を単分子検出器に注入するために,様々なレベルでのクロスモーダルな知識蒸留を行う。 既存手法の準最適トレーニングの主要因として前景空間を同定することにより,LiDAR点に埋め込まれた正確な位置情報を利用して,提案したBEV占有誘導マスクを介して,より前景収容的で効率的な蒸留が可能となり,知識伝達とM3OD性能が著しく向上した。 さらに,既存のGTサンプリング技術が手作業で失敗する理由を考察した上で,実効的なRGB-LiDARジョイントラーニングのための新たなクロスモーダルオブジェクト指向データ拡張戦略を設計する。 本手法は,BEVおよび3次元検出測定値において,既存の単分子法および半教師付き法をはるかに上回り,KITTIバリデーションおよびテストベンチマークにおいて第1位にランクインする。

Monocular 3D object detection (M3OD) is a significant yet inherently challenging task in autonomous driving due to absence of implicit depth cues in a single RGB image. In this paper, we strive to boost currently underperforming monocular 3D object detectors by leveraging an abundance of unlabelled data via semi-supervised learning. Our proposed ODM3D framework entails cross-modal knowledge distillation at various levels to inject LiDAR-domain knowledge into a monocular detector during training. By identifying foreground sparsity as the main culprit behind existing methods' suboptimal training, we exploit the precise localisation information embedded in LiDAR points to enable more foreground-attentive and efficient distillation via the proposed BEV occupancy guidance mask, leading to notably improved knowledge transfer and M3OD performance. Besides, motivated by insights into why existing cross-modal GT-sampling techniques fail on our task at hand, we further design a novel cross-modal object-wise data augmentation strategy for effective RGB-LiDAR joint learning. Our method ranks 1st in both KITTI validation and test benchmarks, significantly surpassing all existing monocular methods, supervised or semi-supervised, on both BEV and 3D detection metrics.
翻訳日:2023-10-31 17:31:27 公開日:2023-10-28
# 大規模空間決定のための間接的スーパービジョンとしての高密度検索

Dense Retrieval as Indirect Supervision for Large-space Decision Making ( http://arxiv.org/abs/2310.18619v1 )

ライセンス: Link先を確認
Nan Xu, Fei Wang, Mingtao Dong, Muhao Chen(参考訳) 多くの識別的自然言語理解(NLU)タスクには大きなラベル空間がある。 このような大規模な意思決定プロセスを学ぶことは、ラベルごとのトレーニングインスタンスの欠如と、多くのきめ細かいラベルの選択が難しいため、特に難しい。 オープンドメインQAにおける経路探索のための高密度検索手法に着想を得て,大空間の識別的NLUタスクを学習・検索タスクとして再構成し,Dense Decision Retrieval (DDR) という新しいソリューションを提案する。 細かい決定をlogitとして予測する代わりに、ddrは決定シソーラスから検索することで予測を学ぶデュアルエンコーダアーキテクチャを採用している。 このアプローチは, 深度検索のための学習資源から得られるリッチな間接的な監視信号を活用するだけでなく, 大規模決定空間を意味的に意味のある表現で予測の一般化性を向上させる。 決定空間を数百から数百のスケールで評価した場合、DDRは2つの極端な多ラベル分類タスクに対して27.54%のP@1、F1の1.17%の超微粒なエンティティタイピング、および3つの数発の意図分類タスクに対して平均1.26%の精度で強いベースラインをはるかに上回る。 コードとリソースはhttps://github.com/luka-group/DDRで入手できる。

Many discriminative natural language understanding (NLU) tasks have large label spaces. Learning such a process of large-space decision making is particularly challenging due to the lack of training instances per label and the difficulty of selection among many fine-grained labels. Inspired by dense retrieval methods for passage finding in open-domain QA, we propose a reformulation of large-space discriminative NLU tasks as a learning-to-retrieve task, leading to a novel solution named Dense Decision Retrieval (DDR ). Instead of predicting fine-grained decisions as logits, DDR adopts a dual-encoder architecture that learns to predict by retrieving from a decision thesaurus. This approach not only leverages rich indirect supervision signals from easy-to-consume learning resources for dense retrieval, it also leads to enhanced prediction generalizability with a semantically meaningful representation of the large decision space. When evaluated on tasks with decision spaces ranging from hundreds to hundred-thousand scales, DDR outperforms strong baselines greatly by 27.54% in P@1 on two extreme multi-label classification tasks, 1.17% in F1 score ultra-fine entity typing, and 1.26% in accuracy on three few-shot intent classification tasks on average. Code and resources are available at https://github.com/luka-group/DDR
翻訳日:2023-10-31 17:31:03 公開日:2023-10-28
# 悲観的オフポリシー多目的最適化

Pessimistic Off-Policy Multi-Objective Optimization ( http://arxiv.org/abs/2310.18617v1 )

ライセンス: Link先を確認
Shima Alizadeh, Aniruddha Bhargava, Karthick Gopalswamy, Lalit Jain, Branislav Kveton, and Ge Liu(参考訳) 多目的最適化は、複数の矛盾する目的が最適化される意思決定問題の一種である。 既存のポリシーによって収集されたデータから多目的ポリシーをオフラインで最適化する。 本稿では,多目的ポリシー値に対する悲観的推定器を提案する。 推定器は逆確率スコア(IPS)に基づいており、理論と実験の両方において単純なIPS推定器によって改善される。 我々の分析は一般的に、IPS推定器や最適化方法を超えて適用されます。 悲観的推定器は政策勾配によって最適化でき、我々のすべての実験でうまく機能する。

Multi-objective optimization is a type of decision making problems where multiple conflicting objectives are optimized. We study offline optimization of multi-objective policies from data collected by an existing policy. We propose a pessimistic estimator for the multi-objective policy values that can be easily plugged into existing formulas for hypervolume computation and optimized. The estimator is based on inverse propensity scores (IPS), and improves upon a naive IPS estimator in both theory and experiments. Our analysis is general, and applies beyond our IPS estimators and methods for optimizing them. The pessimistic estimator can be optimized by policy gradients and performs well in all of our experiments.
翻訳日:2023-10-31 17:30:35 公開日:2023-10-28
# 未知の非定常性下での時間的不連続表現学習

Temporally Disentangled Representation Learning under Unknown Nonstationarity ( http://arxiv.org/abs/2310.18615v1 )

ライセンス: Link先を確認
Xiangchen Song, Weiran Yao, Yewen Fan, Xinshuai Dong, Guangyi Chen, Juan Carlos Niebles, Eric Xing, Kun Zhang(参考訳) 時系列データに対する教師なし因果表現学習では,時間的構造を活用し,因果関連潜在変数の不連続化に対する強い識別性が確立されている。 しかし、非定常環境では、既存の作業は、観測された補助変数(例えば、クラスラベルやドメインインデックス)をサイド情報として利用したり、単純化された潜時因果ダイナミクスを仮定することによってのみ問題に対処する。 どちらもメソッドを限られたシナリオに制限する。 本研究では,非定常条件下での時間的遅延因果関係過程下でのマルコフの仮定をさらに検討し,穏やかな条件下では,独立な潜在成分を非線形混合から置換および成分変換まで,補助変数の観察を伴わずに回復できることを示した。 次に, NCTRLを導入し, 時間遅れの因果変数を再構成し, 測定された逐次データのみからそれらの関係を同定する。 実験により, 遅延因果関係の信頼性を実証し, 非定常性を適切に利用できない既存のベースラインを著しく上回り, その結果, 分布変化を識別できないことを示した。

In unsupervised causal representation learning for sequential data with time-delayed latent causal influences, strong identifiability results for the disentanglement of causally-related latent variables have been established in stationary settings by leveraging temporal structure. However, in nonstationary setting, existing work only partially addressed the problem by either utilizing observed auxiliary variables (e.g., class labels and/or domain indexes) as side information or assuming simplified latent causal dynamics. Both constrain the method to a limited range of scenarios. In this study, we further explored the Markov Assumption under time-delayed causally related process in nonstationary setting and showed that under mild conditions, the independent latent components can be recovered from their nonlinear mixture up to a permutation and a component-wise transformation, without the observation of auxiliary variables. We then introduce NCTRL, a principled estimation framework, to reconstruct time-delayed latent causal variables and identify their relations from measured sequential data only. Empirical evaluations demonstrated the reliable identification of time-delayed latent causal influences, with our methodology substantially outperforming existing baselines that fail to exploit the nonstationarity adequately and then, consequently, cannot distinguish distribution shifts.
翻訳日:2023-10-31 17:30:25 公開日:2023-10-28
# 階層的相互情報分析:野生におけるマルチビュークラスタリングに向けて

Hierarchical Mutual Information Analysis: Towards Multi-view Clustering in The Wild ( http://arxiv.org/abs/2310.18614v1 )

ライセンス: Link先を確認
Jiatai Wang, Zhiwei Xu, Xuewen Yang, Xin Wang(参考訳) マルチビュークラスタリング(MVC)は、異なるソースによって生成された教師なしビューから共通のセマンティクスを探索することができるため、実用的なコンピュータビジョンの応用に広く利用されている。 時空間的非同期性のため、マルチビューデータはビューの欠如に苦しめられ、現実世界のアプリケーションでは一致しないため、一貫性のある表現を学ぶことは困難である。 上記の問題に対処するために、データリカバリとアライメントを階層的に一貫した方法で融合し、異なるビュー間の相互情報を最大化し、潜在空間の一貫性を確保するディープMVCフレームワークを提案する。 より具体的には、まず、インスタンスレベルのアライメントを達成しながら、欠落したビューを埋めるためにデュアル予測を利用し、次にクラスレベルのアライメントを達成するためにコントラスト的再構成を取ります。 私たちの知る限りでは、欠如したデータ問題と無関係なデータ問題と異なる学習パラダイムを別々に扱う最初の試みとなるでしょう。 公開データセットに対する大規模な実験により,ビュー不足やアンアライメントの場合にも,マルチビュークラスタリングにおける最先端手法を著しく上回ることが示された。

Multi-view clustering (MVC) can explore common semantics from unsupervised views generated by different sources, and thus has been extensively used in applications of practical computer vision. Due to the spatio-temporal asynchronism, multi-view data often suffer from view missing and are unaligned in real-world applications, which makes it difficult to learn consistent representations. To address the above issues, this work proposes a deep MVC framework where data recovery and alignment are fused in a hierarchically consistent way to maximize the mutual information among different views and ensure the consistency of their latent spaces. More specifically, we first leverage dual prediction to fill in missing views while achieving the instance-level alignment, and then take the contrastive reconstruction to achieve the class-level alignment. To the best of our knowledge, this could be the first successful attempt to handle the missing and unaligned data problem separately with different learning paradigms. Extensive experiments on public datasets demonstrate that our method significantly outperforms state-of-the-art methods on multi-view clustering even in the cases of view missing and unalignment.
翻訳日:2023-10-31 17:30:01 公開日:2023-10-28
# ニューラルネットワークに基づく回帰のための効率的なカーネルサロゲート

Efficient kernel surrogates for neural network-based regression ( http://arxiv.org/abs/2310.18612v1 )

ライセンス: Link先を確認
Saad Qadeer, Andrew Engel, Adam Tsou, Max Vargas, Panos Stinis, and Tony Chiang(参考訳) さまざまな学習タスクを実行するという大きな約束にもかかわらず、Deep Neural Networks(DNN)の有効性と限界に関する理論的理解は、これまでのところ実践者を追い抜いている。 これは、学習した関数の閉形式を決定することができないことによるものであり、トレーニングデータへの正確な依存を評価し、未知のデータセットに対する一般化特性を研究するのが困難である。 近年の研究では、無限幅制限のランダム初期化DNNが、既知の閉形式を持つニューラルタンジェントカーネル(NTK)に依存するカーネルマシンに収束していることが示されている。 これらの結果は、経験的カーネルマシンが有限幅DNNのサロゲートとしても機能することを示す。 しかし、完全なntkを組み立てる計算コストが高いため、このアプローチは実現不可能となり、低コストな近似の必要性が高まった。 本研究は, NTK に対する効率的な近似である Conjugate Kernel (CK) の性能について検討し, ほぼ同様の結果を得た。 滑らかな関数の回帰問題とロジスティック回帰を用いた分類では、CK性能がNTKよりもわずかに劣っていることが示され、ある場合にはより優れていることが示されている。 特に、相対的なテスト損失のバウンダリを確立し、数値的なテストで検証し、カーネルの正則性を性能の重要な決定要因として特定する。 NTKの代わりにCKを使用するための理論的基盤を提供するのに加えて,本フレームワークは様々な近似の堅牢性を理解するための洞察を提供し,低コストでDNN精度を向上させるためのレシピを提案する。 本稿では,従来の手法と処方則を用いて分類タスクの性能を比較することで,基礎モデルGPT-2にこれを実証する。

Despite their immense promise in performing a variety of learning tasks, a theoretical understanding of the effectiveness and limitations of Deep Neural Networks (DNNs) has so far eluded practitioners. This is partly due to the inability to determine the closed forms of the learned functions, making it harder to assess their precise dependence on the training data and to study their generalization properties on unseen datasets. Recent work has shown that randomly initialized DNNs in the infinite width limit converge to kernel machines relying on a Neural Tangent Kernel (NTK) with known closed form. These results suggest, and experimental evidence corroborates, that empirical kernel machines can also act as surrogates for finite width DNNs. The high computational cost of assembling the full NTK, however, makes this approach infeasible in practice, motivating the need for low-cost approximations. In the current work, we study the performance of the Conjugate Kernel (CK), an efficient approximation to the NTK that has been observed to yield fairly similar results. For the regression problem of smooth functions and classification using logistic regression, we show that the CK performance is only marginally worse than that of the NTK and, in certain cases, is shown to be superior. In particular, we establish bounds for the relative test losses, verify them with numerical tests, and identify the regularity of the kernel as the key determinant of performance. In addition to providing a theoretical grounding for using CKs instead of NTKs, our framework provides insights into understanding the robustness of the various approximants and suggests a recipe for improving DNN accuracy inexpensively. We present a demonstration of this on the foundation model GPT-2 by comparing its performance on a classification task using a conventional approach and our prescription.
翻訳日:2023-10-31 17:29:40 公開日:2023-10-28
# 量子アドバンテージによる光範囲測定

Optical ranging with quantum advantage ( http://arxiv.org/abs/2310.18610v1 )

ライセンス: Link先を確認
Sankar Davuluri (1), Greeshma Gopinath (1) and Matt J. Woolley (2) ((1) BITS Pilani, Hyderabad Campus, 500078, India, (2) School of Engineering and Technology, UNSW Canberra, Canberra, Australian Capital Territory, Australia)(参考訳) 量子照明技術は、ノイズの多い環境に存在する低反射目標から反射されるアイドラーとプローブのジョイント測定を必要とする。 共同測定は、ターゲットの位置を事前に知ることでのみ可能である。 本稿では, 絡み合いとクロス相関ホモダイン測定を用いて, この制限を克服する。 この手法は、アイドラーの量子記憶や、目標距離に関する事前の知識を必要としない。 相互相関測定により,アイドラーと環境との相関はゼロであるため,この手法は環境騒音に完全に影響を受けない。 標的の低反射率はホモダインの基準場(非絡み合い)の強度を増大させることで否定される。 ヒューリスティックな議論に基づいて、この手法の最適適用のための目標反射率の低い境界について述べる。

The quantum illumination technique requires joint measurement between the idler and the probe reflected from the low-reflective target present in a noisy environment. The joint measurement is only possible with prior knowledge about the target's location. The technique in this article overcomes this limitation by using entanglement and a cross-correlated homodyne measurement. This technique does not require quantum storage of the idler and prior knowledge about the target's distance. The cross-correlation measurement makes this technique completely immune to environmental noise, as the correlation between the idler and the environment is zero. The low reflectivity of the target is negated by increasing the intensity of the reference fields (non-entangled) in the homodyne. Based on heuristic arguments, a lower bound of the target's reflectivity for optimum application of this technique is described.
翻訳日:2023-10-31 17:29:12 公開日:2023-10-28
# ASTormer: テキストからSQLへのAST構造対応トランスフォーマーデコーダ

ASTormer: An AST Structure-aware Transformer Decoder for Text-to-SQL ( http://arxiv.org/abs/2310.18662v1 )

ライセンス: Link先を確認
Ruisheng Cao, Hanchong Zhang, Hongshen Xu, Jieyu Li, Da Ma, Lu Chen and Kai Yu(参考訳) Text-to-SQLは、ユーザの発話と対応するデータベーススキーマから実行可能なSQLプログラムを生成することを目的としている。 出力SQLの整合性を確保するために、ある顕著なアプローチは文法ベースの繰り返しデコーダを採用し、同等のSQL抽象構文木(AST)を生成する。 しかし、従来の手法は主にRNN系列デコーダを使用していた。 1)時間がかかり非効率である 2) 構造的先行性はほとんどない。 本研究では,従来のRNN細胞を置き換えるためのAST構造対応トランスフォーマーデコーダ(ASTormer)を提案する。 木内のノードタイプや位置などの構造的知識は、絶対位置埋め込みと相対位置埋め込みの両方を通じてデコーダにシームレスに組み込まれる。 また,適応ノードの選択を考慮した場合であっても,異なるトラバース順序に対応できる。 5つのテキスト-SQLベンチマークの大規模な実験は、競合するベースラインと比較して構造化デコーダの有効性と効率を実証している。

Text-to-SQL aims to generate an executable SQL program given the user utterance and the corresponding database schema. To ensure the well-formedness of output SQLs, one prominent approach adopts a grammar-based recurrent decoder to produce the equivalent SQL abstract syntax tree (AST). However, previous methods mainly utilize an RNN-series decoder, which 1) is time-consuming and inefficient and 2) introduces very few structure priors. In this work, we propose an AST structure-aware Transformer decoder (ASTormer) to replace traditional RNN cells. The structural knowledge, such as node types and positions in the tree, is seamlessly incorporated into the decoder via both absolute and relative position embeddings. Besides, the proposed framework is compatible with different traversing orders even considering adaptive node selection. Extensive experiments on five text-to-SQL benchmarks demonstrate the effectiveness and efficiency of our structured decoder compared to competitive baselines.
翻訳日:2023-10-31 17:21:47 公開日:2023-10-28
# 一般地理空間人工知能の基礎モデル

Foundation Models for Generalist Geospatial Artificial Intelligence ( http://arxiv.org/abs/2310.18660v1 )

ライセンス: Link先を確認
Johannes Jakubik, Sujit Roy, C. E. Phillips, Paolo Fraccaro, Denys Godwin, Bianca Zadrozny, Daniela Szwarcman, Carlos Gomes, Gabby Nyirjesy, Blair Edwards, Daiki Kimura, Naomi Simumba, Linsong Chu, S. Karthik Mukkavilli, Devyani Lambhate, Kamal Das, Ranjini Bangalore, Dario Oliveira, Michal Muszynski, Kumar Ankur, Muthukumaran Ramasubramanian, Iksha Gurung, Sam Khallaghi, Hanxi (Steve) Li, Michael Cecil, Maryam Ahmadi, Fatemeh Kordi, Hamed Alemohammad, Manil Maskey, Raghu Ganti, Kommy Weldemariam, Rahul Ramachandran(参考訳) 高度に適応可能で再利用可能な人工知能(AI)モデルの開発における重要な進歩は、地球科学とリモートセンシングに大きな影響を与えると期待されている。 ファンデーションモデルは、セルフスーパービジョンを通じて大きなラベル付きデータセット上で事前トレーニングされ、小さなラベル付きデータセットでさまざまな下流タスクのために微調整される。 本稿では,広域空間データに基づく基礎モデルの効率的な事前学習と微調整のための第1種フレームワークを提案する。 我々は、この枠組みを利用して、harmonized landsat-sentinel 2 (hls)データセットから1tb以上のマルチスペクトル衛星画像に事前学習されたトランスフォーマティブベースの地理空間基礎モデルprithviを開発した。 本研究は,多時期雲間隙計算,洪水マッピング,山火事跡のセグメンテーション,多時期作物のセグメンテーションを含む基礎モデルに関する過去の研究で取り組まなかった,地球観測タスクに対する我々のフレームワークの有効性を実証するものである。 実験では,事前学習したモデルが,ランダム初期化重みの活用と比較して微調整過程を加速することを示した。 さらに、プレトレーニングされたプリスヴィは、構造的類似度指数において最大5pp(または5.7%)の条件付きGANモデルよりも優れた条件付きGANモデルとよく比較される。 最後に,地球観測の分野でラベル付きデータの可用性が限られているため,モデルを精錬するためのラベル付きデータの量を徐々に削減し,データの効率を評価するとともに,モデルの精度に影響を与えずにデータを大幅に低減できることを示す。 事前訓練された1億のパラメータモデルとそれに対応する微調整ワークフローが、Hugging Faceを通じて、グローバル地球科学コミュニティへのオープンソースコントリビューションとして公開された。

Significant progress in the development of highly adaptable and reusable Artificial Intelligence (AI) models is expected to have a significant impact on Earth science and remote sensing. Foundation models are pre-trained on large unlabeled datasets through self-supervision, and then fine-tuned for various downstream tasks with small labeled datasets. This paper introduces a first-of-a-kind framework for the efficient pre-training and fine-tuning of foundational models on extensive geospatial data. We have utilized this framework to create Prithvi, a transformer-based geospatial foundational model pre-trained on more than 1TB of multispectral satellite imagery from the Harmonized Landsat-Sentinel 2 (HLS) dataset. Our study demonstrates the efficacy of our framework in successfully fine-tuning Prithvi to a range of Earth observation tasks that have not been tackled by previous work on foundation models involving multi-temporal cloud gap imputation, flood mapping, wildfire scar segmentation, and multi-temporal crop segmentation. Our experiments show that the pre-trained model accelerates the fine-tuning process compared to leveraging randomly initialized weights. In addition, pre-trained Prithvi compares well against the state-of-the-art, e.g., outperforming a conditional GAN model in multi-temporal cloud imputation by up to 5pp (or 5.7%) in the structural similarity index. Finally, due to the limited availability of labeled data in the field of Earth observation, we gradually reduce the quantity of available labeled data for refining the model to evaluate data efficiency and demonstrate that data can be decreased significantly without affecting the model's accuracy. The pre-trained 100 million parameter model and corresponding fine-tuning workflows have been released publicly as open source contributions to the global Earth sciences community through Hugging Face.
翻訳日:2023-10-31 17:21:32 公開日:2023-10-28
# 決定性から決定性へ:大規模言語モデルによる論理推論能力の強化

From Indeterminacy to Determinacy: Augmenting Logical Reasoning Capabilities with Large Language Models ( http://arxiv.org/abs/2310.18659v1 )

ライセンス: Link先を確認
Hongda Sun, Weikai Xu, Wei Liu, Jian Luan, Bin Wang, Shuo Shang, Ji-Rong Wen, Rui Yan(参考訳) LLMの最近の進歩は推論タスクのランドスケープに革命をもたらした。 人間の推論をエミュレートするLLMの機能を強化するために、以前の研究は連鎖や木、グラフといった特定の思考構造を用いた推論ステップのモデリングに重点を置いていた。 しかし、LSMベースの推論は3つの課題に直面し続けている。 1) 各種業務に適切な推論構造を選択すること 2) 既知の条件を十分に効果的に活用し,新たな洞察を導き出す。 3) 歴史的推論経験の影響を考慮する。 これらの課題に対処するため,不定の前提から不定の前提への転換過程として推論過程を定式化する新しい推論フレームワークであるDetermLRを提案する。 このプロセスは、決定的前提の漸進的な蓄積によって特徴付けられ、結論は徐々に明確に近づきつつある。 DetermLRには3つの重要なコンポーネントがある。 1) 前提識別: 前提を2つの異なるタイプに分類する。 これにより、LLMは特定のタスクの複雑さに合わせて推論構造をカスタマイズできる。 2)優先順位付けと探索の優先順位付け:各前提の目標との関係を定量的に評価し、新たな洞察を探求するためのより関連する前提を優先順位付けする。 3)推論メモリを用いた反復処理:我々は,利用可能な前提と推論パスの記憶と抽出を自動化する推論メモリモジュールを導入し,より正確な前提優先順位付けのために,過去の推論詳細を保存する。 総合的な実験の結果,determlrはlogiqa, proofwriter, folio, logicaldeductionの4つの難しい論理推論タスクにおいて,すべてのベースラインを上回っている。 DetermLRは、訪問状態が少なくても推論性能が向上し、論理推論タスクに対処する際の効率性と有効性を強調している。

Recent advances in LLMs have revolutionized the landscape of reasoning tasks. To enhance the capabilities of LLMs to emulate human reasoning, prior works focus on modeling reasoning steps using specific thought structures like chains, trees, or graphs. However, LLM-based reasoning continues to encounter three challenges: 1) Selecting appropriate reasoning structures for various tasks; 2) Exploiting known conditions sufficiently and efficiently to deduce new insights; 3) Considering the impact of historical reasoning experience. To address these challenges, we propose DetermLR, a novel reasoning framework that formulates the reasoning process as a transformational journey from indeterminate premises to determinate ones. This process is marked by the incremental accumulation of determinate premises, making the conclusion progressively closer to clarity. DetermLR includes three essential components: 1) Premise identification: We categorize premises into two distinct types: determinate and indeterminate. This empowers LLMs to customize reasoning structures to match the specific task complexities. 2) Premise prioritization and exploration: We leverage quantitative measurements to assess the relevance of each premise to the target, prioritizing more relevant premises for exploring new insights. 3) Iterative process with reasoning memory: We introduce a reasoning memory module to automate storage and extraction of available premises and reasoning paths, preserving historical reasoning details for more accurate premise prioritization. Comprehensive experimental results show that DetermLR outperforms all baselines on four challenging logical reasoning tasks: LogiQA, ProofWriter, FOLIO, and LogicalDeduction. DetermLR can achieve better reasoning performance while requiring fewer visited states, highlighting its superior efficiency and effectiveness in tackling logical reasoning tasks.
翻訳日:2023-10-31 17:21:01 公開日:2023-10-28
# Med-DANet V2: 効率的な医用ボリュームセグメンテーションのための柔軟な動的アーキテクチャ

Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical Volumetric Segmentation ( http://arxiv.org/abs/2310.18656v1 )

ライセンス: Link先を確認
Haoran Shen, Yifu Zhang, Wenxuan Wang, Chen Chen, Jing Liu, Shanshan Song, Jiangyun Li(参考訳) 近年の研究では、3次元医用画像(例えばCTやMRI)のセグメンテーションの計算効率がスライスワイズ複雑性に基づく動的推論によって著しく向上できることが示されている。 先駆的な研究として,前定義したモデルバンクから適切な2d候補モデルを動的に選択することで,医療用ボリュームセグメンテーションのための動的アーキテクチャネットワーク(すなわちmed-danet)が良好な精度と効率のトレードオフを達成している。 しかし、不完全なデータ分析、高いトレーニングコスト、Med-DANetの2段階パイプラインの問題はさらに改善する必要がある。 そこで本研究では,データ自体とモデル構造の両方の観点から,動的推論フレームワークの統一的な定式化について検討する。 提案手法は,入力ボリュームの各スライスに対して,決定ネットワークと作物位置ネットワークが生成するポリシーに基づいて,セグメント化のための重要な前景領域を動的に選択する。 さらに,動的アーキテクチャ適応のためのセグメンテーションモデル(U-Netなど)に段階的量子化セレクタを挿入することを提案する。 brats 2019 と 2020 の広範な実験により,従来の最先端手法と同等あるいは優れた性能を,モデル複雑性をはるかに少なく達成できることが示されている。 従来のMed-DANetとTransBTSの動的および静的アーキテクチャと比較すると,BraTS 2019では,モデル効率が最大4.1倍,17.3倍向上し,セグメンテーション結果に匹敵する結果が得られた。

Recent works have shown that the computational efficiency of 3D medical image (e.g. CT and MRI) segmentation can be impressively improved by dynamic inference based on slice-wise complexity. As a pioneering work, a dynamic architecture network for medical volumetric segmentation (i.e. Med-DANet) has achieved a favorable accuracy and efficiency trade-off by dynamically selecting a suitable 2D candidate model from the pre-defined model bank for different slices. However, the issues of incomplete data analysis, high training costs, and the two-stage pipeline in Med-DANet require further improvement. To this end, this paper further explores a unified formulation of the dynamic inference framework from the perspective of both the data itself and the model structure. For each slice of the input volume, our proposed method dynamically selects an important foreground region for segmentation based on the policy generated by our Decision Network and Crop Position Network. Besides, we propose to insert a stage-wise quantization selector to the employed segmentation model (e.g. U-Net) for dynamic architecture adapting. Extensive experiments on BraTS 2019 and 2020 show that our method achieves comparable or better performance than previous state-of-the-art methods with much less model complexity. Compared with previous methods Med-DANet and TransBTS with dynamic and static architecture respectively, our framework improves the model efficiency by up to nearly 4.1 and 17.3 times with comparable segmentation results on BraTS 2019.
翻訳日:2023-10-31 17:20:30 公開日:2023-10-28
# 複合産業システムにおける因果発見:時系列ベンチマーク

Causal discovery in a complex industrial system: A time series benchmark ( http://arxiv.org/abs/2310.18654v1 )

ライセンス: Link先を確認
S{\o}ren Wengel Mogensen and Karin Rathsman and Per Nilsson(参考訳) 因果発見は、観測データからグラフで表される因果構造を出力する。 時系列データには様々な方法があるが、実データ上でそれらを現実的なユースケースとして評価することは困難であり、出力を比較できる既知の因果グラフは極めて稀である。 本稿では,ヨーロッパスポーラレーション源の産業サブシステムから得られたデータセットと,専門家の知識から構築した因果グラフについて述べる。 これは複雑なシステムの時系列観測から因果発見のためのテストベッドを提供し、因果発見方法論の開発に役立ちます。

Causal discovery outputs a causal structure, represented by a graph, from observed data. For time series data, there is a variety of methods, however, it is difficult to evaluate these on real data as realistic use cases very rarely come with a known causal graph to which output can be compared. In this paper, we present a dataset from an industrial subsystem at the European Spallation Source along with its causal graph which has been constructed from expert knowledge. This provides a testbed for causal discovery from time series observations of complex systems, and we believe this can help inform the development of causal discovery methodology.
翻訳日:2023-10-31 17:20:03 公開日:2023-10-28
# リモートセンシングにおける自己教師付き学習のための特徴誘導マスク自動エンコーダ

Feature Guided Masked Autoencoder for Self-supervised Learning in Remote Sensing ( http://arxiv.org/abs/2310.18653v1 )

ライセンス: Link先を確認
Yi Wang, Hugo Hern\'andez Hern\'andez, Conrad M Albrecht, Xiao Xiang Zhu(参考訳) Masked AutoEncoder (MAE) のようなマスク付き画像モデリングによって導かれる自己教師型学習は、リモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。 しかし、MAEはピクセルの詳細に過度にフォーカスする傾向にあり、特にノイズの多いSAR画像において、意味理解のためのモデルの能力を制限する。 本稿では,MAE再構成ターゲットの改良として,分光・空間リモートセンシング画像の特徴について検討する。 まず,様々な画像特徴の再構成について検討を行い,いずれも生の画素と同等かそれ以上の性能を示す。 このような観測に基づいて、多スペクトル画像の向き付けされた画像のヒストグラム(HOG)と正規化差分指標(NDI)の組み合わせを再構成し、SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。 3つの下流タスクの実験結果は、特定のSAR画像の強化を伴うFG-MAEの有効性を示している。 さらに,fg-maeの高精度なスケーラビリティを実証し,中分解能sarおよびマルチスペクトル画像のための第1シリーズの事前学習視覚トランスフォーマをリリースする。

Self-supervised learning guided by masked image modelling, such as Masked AutoEncoder (MAE), has attracted wide attention for pretraining vision transformers in remote sensing. However, MAE tends to excessively focus on pixel details, thereby limiting the model's capacity for semantic understanding, in particular for noisy SAR images. In this paper, we explore spectral and spatial remote sensing image features as improved MAE-reconstruction targets. We first conduct a study on reconstructing various image features, all performing comparably well or better than raw pixels. Based on such observations, we propose Feature Guided Masked Autoencoder (FG-MAE): reconstructing a combination of Histograms of Oriented Graidents (HOG) and Normalized Difference Indices (NDI) for multispectral images, and reconstructing HOG for SAR images. Experimental results on three downstream tasks illustrate the effectiveness of FG-MAE with a particular boost for SAR imagery. Furthermore, we demonstrate the well-inherited scalability of FG-MAE and release a first series of pretrained vision transformers for medium resolution SAR and multispectral images.
翻訳日:2023-10-31 17:19:53 公開日:2023-10-28
# EHRXQA:胸部X線画像を用いた電子健康記録用マルチモーダル質問回答データセット

EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images ( http://arxiv.org/abs/2310.18652v1 )

ライセンス: Link先を確認
Seongsu Bae, Daeun Kyung, Jaehee Ryu, Eunbyeol Cho, Gyubok Lee, Sunjun Kweon, Jungwoo Oh, Lei Ji, Eric I-Chao Chang, Tackeun Kim, Edward Choi(参考訳) 電子健康記録(ehrs)は、様々なマルチモーダル形式で患者の医療履歴を含んでいるが、現在のehr質問応答(qa)システムにおいて、画像とテーブルモダリティをまたいだ共同推論の可能性を見落としていることが多い。 本稿では,構造化EHRと胸部X線画像を組み合わせた新しいマルチモーダル質問応答データセットであるEHRXQAを紹介する。 データセットを開発するために、まず2つのユニモーダルリソースを構築します。 1)MIMIC-CXR-VQAデータセット、新たに作成した医用視覚質問応答(VQA)ベンチマーク、特にERH QAにおける画像モダリティの増大を目的とした。 2) EHRSQL(MIMIC-IV)は、以前に確立されたテーブルベースのEHR QAデータセットのリファッショニング版である。 これら2つのユニモーダルリソースを統合することで、ユニモーダルおよびクロスモーダル推論の両方を必要とするマルチモーダル EHR QAデータセットの構築に成功した。 EHRにおけるマルチモーダル質問の独特な課題に対処するために,外部VQA APIを備えたNeuralSQLベースの戦略を提案する。 この先駆的な取り組みは、マルチモーダルなEHRソースとの関わりを強化し、我々のデータセットは、臨床意思決定や研究のような現実の医療シナリオにおける進歩を触媒できると考えている。 EHRXQAはhttps://github.com/baeseongsu/ehrxqa.comで入手できる。

Electronic Health Records (EHRs), which contain patients' medical histories in various multi-modal formats, often overlook the potential for joint reasoning across imaging and table modalities underexplored in current EHR Question Answering (QA) systems. In this paper, we introduce EHRXQA, a novel multi-modal question answering dataset combining structured EHRs and chest X-ray images. To develop our dataset, we first construct two uni-modal resources: 1) The MIMIC- CXR-VQA dataset, our newly created medical visual question answering (VQA) benchmark, specifically designed to augment the imaging modality in EHR QA, and 2) EHRSQL (MIMIC-IV), a refashioned version of a previously established table-based EHR QA dataset. By integrating these two uni-modal resources, we successfully construct a multi-modal EHR QA dataset that necessitates both uni-modal and cross-modal reasoning. To address the unique challenges of multi-modal questions within EHRs, we propose a NeuralSQL-based strategy equipped with an external VQA API. This pioneering endeavor enhances engagement with multi-modal EHR sources and we believe that our dataset can catalyze advances in real-world medical scenarios such as clinical decision-making and research. EHRXQA is available at https://github.com/baeseongsu/ehrxqa.
翻訳日:2023-10-31 17:19:31 公開日:2023-10-28
# 局所的自己監督型視覚表現学習

Local-Global Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2310.18651v1 )

ライセンス: Link先を確認
Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi(参考訳) 自己教師付き表現学習法は主に画像レベルのインスタンス識別に焦点をあてる。 本研究は,既存の手法にパッチレベルの識別を組み込むことによる,局所的およびグローバル的な視覚特徴を同時に見ることにより,学習表現の品質を向上させることによる潜在的メリットを検討する。 このアイデアに向けて、画像の拡張ビューにまたがって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。 その後、拡張ビューはViT(Vision Transformer)をバックボーンとする自己教師型学習フレームワークに入力される。 その結果、イメージレベルとパッチレベルの両方の表現が生成される。 提案するパッチマッチングアルゴリズムを利用して,clsトークンだけでなく,対応するパッチ間の表現距離を最小化する。 その結果、このモデルは画像全体とより詳細な詳細の両方をより包括的に理解するようになる。 提案手法を小規模,中規模,大規模データセットで事前学習する。 本手法は,画像分類と下流タスクの両方において,最先端のイメージレベル表現学習手法を上回ることができることを示す。 キーワード:自己監督学習、視覚表現、局所言語表現学習、パッチワイズ表現学習、視覚変換器(ViT)

Self-supervised representation learning methods mainly focus on image-level instance discrimination. This study explores the potential benefits of incorporating patch-level discrimination into existing methods to enhance the quality of learned representations by simultaneously looking at local and global visual features. Towards this idea, we present a straightforward yet effective patch-matching algorithm that can find the corresponding patches across the augmented views of an image. The augmented views are subsequently fed into a self-supervised learning framework employing Vision Transformer (ViT) as its backbone. The result is the generation of both image-level and patch-level representations. Leveraging the proposed patch-matching algorithm, the model minimizes the representation distance between not only the CLS tokens but also the corresponding patches. As a result, the model gains a more comprehensive understanding of both the entirety of the image as well as its finer details. We pretrain the proposed method on small, medium, and large-scale datasets. It is shown that our approach could outperform state-of-the-art image-level representation learning methods on both image classification and downstream tasks. Keywords: Self-Supervised Learning; Visual Representations; Local-Global Representation Learning; Patch-Wise Representation Learning; Vision Transformer (ViT)
翻訳日:2023-10-31 17:19:03 公開日:2023-10-28
# ソフトウェア工学のための生成型人工知能 --研究課題

Generative Artificial Intelligence for Software Engineering -- A Research Agenda ( http://arxiv.org/abs/2310.18648v1 )

ライセンス: Link先を確認
Anh Nguyen-Duc, Beatriz Cabrero-Daniel, Adam Przybylek, Chetan Arora, Dron Khanna, Tomas Herda, Usman Rafiq, Jorge Melegati, Eduardo Guerra, Kai-Kristian Kemell, Mika Saari, Zheying Zhang, Huy Le, Tho Quan, Pekka Abrahamsson(参考訳) Generative Artificial Intelligence(GenAI)ツールは、ソフトウェア開発においてますます普及し、さまざまな管理および技術プロジェクト活動の支援を提供している。 これらのツールの有名な例としては、OpenAIs ChatGPT、GitHub Copilot、Amazon CodeWhispererがある。 最近の多くの出版物はGenAIの応用を探求し評価しているが、現在の開発、アプリケーション、制限、オープンな課題に関する包括的理解は、多くの人にとってまだ不明である。 特に、実用的なソフトウェアエンジニアリングのシナリオにおけるGenAI技術の現状の全体像は持っていません。 ソフトウェア工学のためのgenaiの研究課題を開発するために,文献レビューとフォーカスグループを5ヶ月間実施した。 ソフトウェア工学の11の領域で78のオープンリサーチ質問(rqs)を特定した。 この結果から,GenAIを部分的自動化に適用し,すべてのソフトウェア開発活動における意思決定を支援することが可能であることが示唆された。 現在の文献は、ソフトウェア実装、品質保証、ソフトウェアメンテナンスに偏っているが、要件工学、ソフトウェア設計、ソフトウェア工学教育といった他の分野には、さらなる研究の注意が必要である。 GenAIを実装する際の一般的な考慮事項は、業界レベルの評価、信頼性と正確性、データアクセシビリティ、透明性、技術に関連する持続可能性といった点である。 GenAIは、ソフトウェア工学の分野に大きな変化をもたらしている。 しかし、この話題の研究状況はまだ未熟である。 我々は,本研究課題が研究者と実践者の両方に現在の応用を知らせ,今後の研究を導く上で,意義と実践的価値を持っていると信じている。

Generative Artificial Intelligence (GenAI) tools have become increasingly prevalent in software development, offering assistance to various managerial and technical project activities. Notable examples of these tools include OpenAIs ChatGPT, GitHub Copilot, and Amazon CodeWhisperer. Although many recent publications have explored and evaluated the application of GenAI, a comprehensive understanding of the current development, applications, limitations, and open challenges remains unclear to many. Particularly, we do not have an overall picture of the current state of GenAI technology in practical software engineering usage scenarios. We conducted a literature review and focus groups for a duration of five months to develop a research agenda on GenAI for Software Engineering. We identified 78 open Research Questions (RQs) in 11 areas of Software Engineering. Our results show that it is possible to explore the adoption of GenAI in partial automation and support decision-making in all software development activities. While the current literature is skewed toward software implementation, quality assurance and software maintenance, other areas, such as requirements engineering, software design, and software engineering education, would need further research attention. Common considerations when implementing GenAI include industry-level assessment, dependability and accuracy, data accessibility, transparency, and sustainability aspects associated with the technology. GenAI is bringing significant changes to the field of software engineering. Nevertheless, the state of research on the topic still remains immature. We believe that this research agenda holds significance and practical value for informing both researchers and practitioners about current applications and guiding future research.
翻訳日:2023-10-31 17:18:48 公開日:2023-10-28
# 前向きアルゴリズムにおける睡眠不足

Sleep Deprivation in the Forward-Forward Algorithm ( http://arxiv.org/abs/2310.18647v1 )

ライセンス: Link先を確認
Mircea-Tudor Lic\u{a}, David Dinucu-Jianu(参考訳) 本稿では,睡眠の文脈における生物学的観点から,フォワードフォワードアルゴリズムにおける2つの前方パスの分離を検討することを目的とする。 睡眠と覚醒のギャップの大きさはアルゴリズムの学習能力に影響を与え、睡眠不足による壊滅的な影響を減らす上で負のデータの重要性を強調する。

This paper aims to explore the separation of the two forward passes in the Forward-Forward algorithm from a biological perspective in the context of sleep. We show the size of the gap between the sleep and awake phase influences the learning capabilities of the algorithm and highlight the importance of negative data in diminishing the devastating effects of sleep deprivation.
翻訳日:2023-10-31 17:18:24 公開日:2023-10-28
# 機械学習による農業商品価格予測 : 最近の研究動向

Predicting Agricultural Commodities Prices with Machine Learning: A Review of Current Research ( http://arxiv.org/abs/2310.18646v1 )

ライセンス: Link先を確認
Nhat-Quang Tran, Anna Felipe, Thanh Nguyen Ngoc, Tom Huynh, Quang Tran, Arthur Tang, Thuy Nguyen(参考訳) 農業価格の予測は農家、政策立案者、その他の農業分野の利害関係者にとって重要である。 しかし、農業市場の複雑でダイナミックな性質から、これは困難な課題である。 機械学習アルゴリズムは、精度、リアルタイム予測、カスタマイズ、統合を改善して、農業価格予測に革命をもたらす可能性がある。 本稿では,農業価格予測のための機械学習アルゴリズムに関する最近の研究を概説する。 発展途上国における農業の重要性と、価格の下落に伴う問題について議論する。 次に、農業価格予測の課題を特定し、機械学習アルゴリズムがより良い予測をどのようにサポートするかを強調する。 次に,最近の研究の包括的分析を行い,機械学習技術の強みと弱みについて論じる。 機械学習は農業価格予測に革命をもたらす可能性があると結論づけるが、このアプローチに関連する限界と課題に対処するためには、さらなる研究が不可欠である。

Agricultural price prediction is crucial for farmers, policymakers, and other stakeholders in the agricultural sector. However, it is a challenging task due to the complex and dynamic nature of agricultural markets. Machine learning algorithms have the potential to revolutionize agricultural price prediction by improving accuracy, real-time prediction, customization, and integration. This paper reviews recent research on machine learning algorithms for agricultural price prediction. We discuss the importance of agriculture in developing countries and the problems associated with crop price falls. We then identify the challenges of predicting agricultural prices and highlight how machine learning algorithms can support better prediction. Next, we present a comprehensive analysis of recent research, discussing the strengths and weaknesses of various machine learning techniques. We conclude that machine learning has the potential to revolutionize agricultural price prediction, but further research is essential to address the limitations and challenges associated with this approach.
翻訳日:2023-10-31 17:18:18 公開日:2023-10-28
# 2量子状態によるステアリングエリプソイド動物園の実験的検証

Experimental verification of the steering ellipsoid zoo via two-qubit states ( http://arxiv.org/abs/2310.18645v1 )

ライセンス: Link先を確認
Kai Xu, Lijun Liu, Ning-Ning Wang, Chao Zhang, Yun-Feng Huang, Bi-Heng Liu, Shuming Cheng, Chuan-Feng Li, Guang-Can Guo(参考訳) 量子ステアリング楕円体(Quantum steering ellipsoid)は、ブロッホ図における別の相関量子ビットの測定によって操れる全ての量子ビット状態の集合を視覚化する。 局所的還元状態とともに、基礎となる2量子状態の忠実な幾何学的特徴を提供し、ほとんどすべての非古典的状態特徴がその幾何学的性質に反映できる。 その結果、幾何学的性質の異なる様々な種類の量子楕円体が楕円体動物園を形成し、多くの偏光パス光子状態の測定によって実験的に検証される。 高忠実な2量子状態を生成することにより、対応する楕円体が絡み合いの存在、一方方向アインシュタイン-ポドルスキー-ローゼンステアリング、不協和性および操舵不完全性を証明するために構成される。 また, 測定方向としてイコサヘドロンの12個の頂点を用い, ステアリング楕円体が再構成可能であることを実験的に検証した。 本研究は, 量子ステアリング楕円体を用いたマルチキュービットシステムの非古典的特徴を明らかにした。

Quantum steering ellipsoid visualizes the set of all qubit states that can be steered by measuring on another correlated qubit in the Bloch picture. Together with local reduced states, it provides a faithful geometric characterization of the underlying two-qubit state so that almost all nonclassical state features can be reflected in its geometric properties. Consequently, the various types of quantum ellipsoids with different geometric properties form an ellipsoid zoo, which, in this work, is experimentally verified via measurements on many polarization-path photonic states. By generating two-qubit states with high fidelity, the corresponding ellipsoids are constructed to certify the presence of entanglement, one-way Einstein-Podolsky-Rosen steering, discord, and steering incompleteness. It is also experimentally verified that the steering ellipsoid can be reconstructed from using the twelve vertices of the icosahedron as measurement directions. Our results aid progress in applying the quantum steering ellipsoid to reveal nonclassical features of the multi-qubit system.
翻訳日:2023-10-31 17:18:06 公開日:2023-10-28
# 基礎モデルを用いた医用画像のワンショット定位とセグメンテーション

One-shot Localization and Segmentation of Medical Images with Foundation Models ( http://arxiv.org/abs/2310.18642v1 )

ライセンス: Link先を確認
Deepa Anand, Gurunath Reddy M, Vanika Singhal, Dattesh D. Shanbhag, Shriram KS, Uday Patil, Chitresh Bhushan, Kavitha Manickam, Dawei Gui, Rakesh Mullick, Avinash Gopal, Parminder Bhatia, Taha Kass-Hout(参考訳) 視覚変換器 (ViT) と安定拡散 (SD) モデルの最近の進歩は、画像のリッチな意味的特徴を捉える能力によって、自然画像上の画像対応タスクに利用されている。 本稿では,自然画像のみに特化して訓練された各種事前学習型VIT(DINO, DINOv2, SAM, CLIP)とSDモデルを用いて,医用画像の対応問題を解く能力について検討する。 多くの研究がドメイン内トレーニングに取り組んできたが、自然画像に基づいて訓練されたモデルは、様々なメーカーから得られた様々なモダリティ(CT,MR,Ultrasound)、複数の解剖学的領域(脳、胸骨、腹部、肢)、および様々なタスクにわたる医療画像に優れたパフォーマンスを提供できることを示した。 さらに,テンプレート画像に対する対応を利用して,segment anything(sam)モデルが単一ショットセグメンテーションに到達するように促し,単一の画像のみを参照として,タスク間で62%~90%のサイス範囲を達成する。 また,本手法は,最近提案された少数ショットセグメンテーション手法であるUniverSeg(Dice range 47%-80%)を,医用画像モダリティにおける意味セグメンテーションタスク(7点中6点)のほとんどで上回っていることを示す。

Recent advances in Vision Transformers (ViT) and Stable Diffusion (SD) models with their ability to capture rich semantic features of the image have been used for image correspondence tasks on natural images. In this paper, we examine the ability of a variety of pre-trained ViT (DINO, DINOv2, SAM, CLIP) and SD models, trained exclusively on natural images, for solving the correspondence problems on medical images. While many works have made a case for in-domain training, we show that the models trained on natural images can offer good performance on medical images across different modalities (CT,MR,Ultrasound) sourced from various manufacturers, over multiple anatomical regions (brain, thorax, abdomen, extremities), and on wide variety of tasks. Further, we leverage the correspondence with respect to a template image to prompt a Segment Anything (SAM) model to arrive at single shot segmentation, achieving dice range of 62%-90% across tasks, using just one image as reference. We also show that our single-shot method outperforms the recently proposed few-shot segmentation method - UniverSeg (Dice range 47%-80%) on most of the semantic segmentation tasks(six out of seven) across medical imaging modalities.
翻訳日:2023-10-31 17:17:44 公開日:2023-10-28
# 半教師セマンティクスセグメンテーションのための臨時教師の切り替え

Switching Temporary Teachers for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2310.18640v1 )

ライセンス: Link先を確認
Jaemin Na, Jung-Woo Ha, Hyung Jin Chang, Dongyoon Han, Wonjun Hwang(参考訳) 半教師付きセマンティックセグメンテーションで一般的な教師/学生のフレームワークは、主に指数的移動平均(EMA)を用いて、学生の量に基づいて教師の重みを更新する。 しかし、EMAのアップデートは教師と生徒の重みが組み合わされ、潜在的なパフォーマンスボトルネックを引き起こすという問題を引き起こす。 さらに、この問題はセグメンテーションマスクのようなより複雑なラベルを用いたトレーニングではより深刻になるが、注釈付きデータはほとんどない。 本稿では,学生のカップリング問題を軽減するために,2つの臨時教員を兼ねた,シンプルで効果的な方法であるデュアル教師を紹介する。 一時的な教師は交代で働き、徐々に改善され、教師と生徒が過度に近づきすぎるのを防ぐ。 特に、臨時教員は、学生モデルを訓練し、各時代ごとに学生モデルの異なる特徴を維持するために、定期的に擬似ラベルを生成する。 その結果、Dual TeacherはPASCAL VOC、Cityscapes、ADE20Kベンチマークで、最先端の手法よりも非常に短いトレーニング時間で競合性能を達成した。 さらに,本手法はモデルに依存しず,CNNモデルとTransformerモデルの両方と互換性があることを示す。 コードは \url{https://github.com/naver-ai/dual-teacher} で入手できる。

The teacher-student framework, prevalent in semi-supervised semantic segmentation, mainly employs the exponential moving average (EMA) to update a single teacher's weights based on the student's. However, EMA updates raise a problem in that the weights of the teacher and student are getting coupled, causing a potential performance bottleneck. Furthermore, this problem may become more severe when training with more complicated labels such as segmentation masks but with few annotated data. This paper introduces Dual Teacher, a simple yet effective approach that employs dual temporary teachers aiming to alleviate the coupling problem for the student. The temporary teachers work in shifts and are progressively improved, so consistently prevent the teacher and student from becoming excessively close. Specifically, the temporary teachers periodically take turns generating pseudo-labels to train a student model and maintain the distinct characteristics of the student model for each epoch. Consequently, Dual Teacher achieves competitive performance on the PASCAL VOC, Cityscapes, and ADE20K benchmarks with remarkably shorter training times than state-of-the-art methods. Moreover, we demonstrate that our approach is model-agnostic and compatible with both CNN- and Transformer-based models. Code is available at \url{https://github.com/naver-ai/dual-teacher}.
翻訳日:2023-10-31 17:17:15 公開日:2023-10-28
# プラスティックで安定なexemplar-freeインクリメンタル学習に向けて:累積パラメータ平均化を用いたデュアルリーナーフレームワーク

Towards Plastic and Stable Exemplar-Free Incremental Learning: A Dual-Learner Framework with Cumulative Parameter Averaging ( http://arxiv.org/abs/2310.18639v1 )

ライセンス: Link先を確認
Wenju Sun, Qingyong Li, Wen Wang, Yangli-ao Geng(参考訳) 可塑性と安定性のジレンマはインクリメンタルラーニング(IL:Incrmental Learning)において重要な課題であり、特に新しいタスクの学習において、古いタスクのサンプルへのアクセスが厳格に禁じられている事例では顕著である。 この問題の直接的な解決策は、STL(Single Task Learning)として知られるタスク毎に独立したモデルを学習し、保存することである。 stlのタスク数によるモデルストレージの線形成長にもかかわらず、これらのモデルパラメータの平均化は、すべてのタスクにまたがる知識を保存できることを実証的に発見しました。 この観測に触発されて、累積パラメータ平均化(DLCPA)を用いたDual-Learnerフレームワークを提案する。 DLCPAは、新しいタスク知識の獲得に焦点を当てたプラスチック学習者と、すべての学習知識を蓄積する安定した学習者である。 プラスチック学習者からの知識は累積パラメータ平均化により安定学習者に伝達される。 さらに、いくつかのタスク固有の分類器は、安定学習者と連携して最終予測を行う。 具体的には、新しいタスクを学ぶとき、これらのモジュールは循環的に更新される。 i) プラスチック学習者は,当初,教師付き損失に加えて自己教師付き損失を用いて最適化され,特徴抽出の堅牢性が向上する。 二 安定学習者は、その作業面での一般化を維持するために累積パラメータ平均的にプラスチック学習者に対して更新される。 三 タスク固有の分類器は、安定した学習者に合わせて最適化される。 CIFAR-100 と Tiny-ImageNet の実験結果から,DLCPA は Task-IL と Class-IL の両設定において,最先端の既定ベースラインよりも優れていた。

The dilemma between plasticity and stability presents a significant challenge in Incremental Learning (IL), especially in the exemplar-free scenario where accessing old-task samples is strictly prohibited during the learning of a new task. A straightforward solution to this issue is learning and storing an independent model for each task, known as Single Task Learning (STL). Despite the linear growth in model storage with the number of tasks in STL, we empirically discover that averaging these model parameters can potentially preserve knowledge across all tasks. Inspired by this observation, we propose a Dual-Learner framework with Cumulative Parameter Averaging (DLCPA). DLCPA employs a dual-learner design: a plastic learner focused on acquiring new-task knowledge and a stable learner responsible for accumulating all learned knowledge. The knowledge from the plastic learner is transferred to the stable learner via cumulative parameter averaging. Additionally, several task-specific classifiers work in cooperation with the stable learner to yield the final prediction. Specifically, when learning a new task, these modules are updated in a cyclic manner: i) the plastic learner is initially optimized using a self-supervised loss besides the supervised loss to enhance the feature extraction robustness; ii) the stable learner is then updated with respect to the plastic learner in a cumulative parameter averaging manner to maintain its task-wise generalization; iii) the task-specific classifier is accordingly optimized to align with the stable learner. Experimental results on CIFAR-100 and Tiny-ImageNet show that DLCPA outperforms several state-of-the-art exemplar-free baselines in both Task-IL and Class-IL settings.
翻訳日:2023-10-31 17:16:52 公開日:2023-10-28
# 触媒の組合せ一般化に向けて-コーン・シャム電荷密度アプローチ

Towards Combinatorial Generalization for Catalysts: A Kohn-Sham Charge-Density Approach ( http://arxiv.org/abs/2310.18702v1 )

ライセンス: Link先を確認
Phillip Pope and David Jacobs(参考訳) コーン・シャム方程式は、新しい触媒の発見など、多くの重要な応用をもたらす。 触媒モデリングに関する最近の機械学習の研究は、エネルギーの予測に焦点を絞っているが、まだ大きな分散の一般化は示されていない。 ここでは、コーン・シャム電荷密度のポイントワイズ学習に基づく別のアプローチを検討する。 電荷密度を持つバルク触媒の新しいデータセットでは、密度モデルが列車時に見られない元素の組み合わせで新しい構造に一般化できることが示される。 二元系および三元系テストケースの80%以上が密度汎関数理論の標準ベースラインよりも高速に収束し、独立利害関係にある収束に要するイテレーション数が平均13%減少することを示した。 以上の結果から,密度学習が実現可能な代替手段であり,アプリケーションにとって重要な特性である組合せ一般化への一歩として,推論コストの増大が示唆された。

The Kohn-Sham equations underlie many important applications such as the discovery of new catalysts. Recent machine learning work on catalyst modeling has focused on prediction of the energy, but has so far not yet demonstrated significant out-of-distribution generalization. Here we investigate another approach based on the pointwise learning of the Kohn-Sham charge-density. On a new dataset of bulk catalysts with charge densities, we show density models can generalize to new structures with combinations of elements not seen at train time, a form of combinatorial generalization. We show that over 80% of binary and ternary test cases achieve faster convergence than standard baselines in Density Functional Theory, amounting to an average reduction of 13% in the number of iterations required to reach convergence, which may be of independent interest. Our results suggest that density learning is a viable alternative, trading greater inference costs for a step towards combinatorial generalization, a key property for applications.
翻訳日:2023-10-31 17:09:03 公開日:2023-10-28
# 重み付きリワード付き一般化線形帯域の効率的なアルゴリズム

Efficient Algorithms for Generalized Linear Bandits with Heavy-tailed Rewards ( http://arxiv.org/abs/2310.18701v1 )

ライセンス: Link先を確認
Bo Xue, Yimu Wang, Yuanyu Wan, Jinfeng Yi, Lijun Zhang(参考訳) 本論文は, 1+\epsilon)$-th moment が約 $\epsilon\in (0,1]$ に対して有界である重み付き報酬を伴う一般化線形バンディットの問題を考察する。 一般化線形バンディットの手法は存在するが、その多くは境界付きまたはサブゲージの報酬に焦点を当てており、金融市場やウェブ広告のような多くの現実世界のシナリオには適していない。 この問題に対処するために,断線と平均値に基づく2つの新しいアルゴリズムを提案する。 これらのアルゴリズムは、ほぼ最適の後悔値が$\widetilde{o}(dt^{\frac{1}{1+\epsilon}})$となり、ここで$d$は文脈情報の次元であり、$t$は時間軸である。 我々のトランケーションベースのアルゴリズムはオンライン学習をサポートし、既存のトランケーションベースのアプローチと区別する。 さらに、平均mediansベースのアルゴリズムは、1エポックあたりの報酬として$o(\log t)$と1エスミメータしか必要とせず、より実用的になります。 さらに,我々のアルゴリズムは,$\epsilon=1$の既存アルゴリズムと比較して,対数係数による後悔境界を改善する。 数値実験の結果,アルゴリズムのメリットが確認された。

This paper investigates the problem of generalized linear bandits with heavy-tailed rewards, whose $(1+\epsilon)$-th moment is bounded for some $\epsilon\in (0,1]$. Although there exist methods for generalized linear bandits, most of them focus on bounded or sub-Gaussian rewards and are not well-suited for many real-world scenarios, such as financial markets and web-advertising. To address this issue, we propose two novel algorithms based on truncation and mean of medians. These algorithms achieve an almost optimal regret bound of $\widetilde{O}(dT^{\frac{1}{1+\epsilon}})$, where $d$ is the dimension of contextual information and $T$ is the time horizon. Our truncation-based algorithm supports online learning, distinguishing it from existing truncation-based approaches. Additionally, our mean-of-medians-based algorithm requires only $O(\log T)$ rewards and one estimator per epoch, making it more practical. Moreover, our algorithms improve the regret bounds by a logarithmic factor compared to existing algorithms when $\epsilon=1$. Numerical experimental results confirm the merits of our algorithms.
翻訳日:2023-10-31 17:08:46 公開日:2023-10-28
# 時空間予測学習のための三重項注意トランスフォーマ

Triplet Attention Transformer for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2310.18698v1 )

ライセンス: Link先を確認
Xuesong Nie, Xi Chen, Haoyuan Jin, Zhihang Zhu, Yunfeng Yan and Donglian Qi(参考訳) 時空間予測学習は、モデルが歴史的なシーケンスに基づいて将来のシーケンスを予測することによって、時間的パターンと時間的パターンの両方を学習できる自己教師あり学習パラダイムを提供する。 主流のメソッドは再帰的なユニットによって支配されているが、並列化の欠如や、現実のシナリオでは過小評価されることが多い。 計算効率を維持しつつ予測品質を向上させるために,フレーム間ダイナミクスとフレーム内静的特徴の両方をキャプチャする,革新的な三重項注意トランスを提案する。 具体的には、Triplet Attention Module (TAM) が組み込まれており、時間次元、空間次元、チャネル次元における自己アテンション機構を探索することで、従来のリカレントユニットを置き換える。 この構成では: (i) 時間トークンは、フレーム間の抽象表現を含み、固有の時間的依存関係のキャプチャを容易にする。 (ii)空間的およびチャネル的注意が組み合わさって、空間的およびチャネル的次元にわたってきめ細かい相互作用を行うことにより、フレーム内表現を洗練する。 時間的,空間的,チャネルレベルでの注意を交互に行うことで,より複雑な短時空間的および長距離時空間的依存関係を学ぶことができる。 大規模実験では, 移動物体軌道予測, 交通流予測, 走行シーン予測, 人体モーションキャプチャなど, 複数シナリオの検査において, 既存のリカレント法およびリカレントフリー法を上回る性能を示す。

Spatiotemporal predictive learning offers a self-supervised learning paradigm that enables models to learn both spatial and temporal patterns by predicting future sequences based on historical sequences. Mainstream methods are dominated by recurrent units, yet they are limited by their lack of parallelization and often underperform in real-world scenarios. To improve prediction quality while maintaining computational efficiency, we propose an innovative triplet attention transformer designed to capture both inter-frame dynamics and intra-frame static features. Specifically, the model incorporates the Triplet Attention Module (TAM), which replaces traditional recurrent units by exploring self-attention mechanisms in temporal, spatial, and channel dimensions. In this configuration: (i) temporal tokens contain abstract representations of inter-frame, facilitating the capture of inherent temporal dependencies; (ii) spatial and channel attention combine to refine the intra-frame representation by performing fine-grained interactions across spatial and channel dimensions. Alternating temporal, spatial, and channel-level attention allows our approach to learn more complex short- and long-range spatiotemporal dependencies. Extensive experiments demonstrate performance surpassing existing recurrent-based and recurrent-free methods, achieving state-of-the-art under multi-scenario examination including moving object trajectory prediction, traffic flow prediction, driving scene prediction, and human motion capture.
翻訳日:2023-10-31 17:08:23 公開日:2023-10-28
# 言語カテゴリの合同符号化のためのLLMの提案

Probing LLMs for Joint Encoding of Linguistic Categories ( http://arxiv.org/abs/2310.18696v1 )

ライセンス: Link先を確認
Giulio Starace, Konstantinos Papakostas, Rochelle Choenni, Apostolos Panagiotopoulos, Matteo Rosati, Alina Leidinger, Ekaterina Shutova(参考訳) 大規模言語モデル(LLM)は、事前訓練中に習得された汎用言語知識のため、様々なNLPタスクにおいて優れたパフォーマンスを示す。 既存のモデル解釈可能性の研究(Tenney et al., 2019)では、LLM層に言語階層が出現し、下位層は構文的タスクの解決に適しており、より上位層はセマンティック処理に使用されることを示唆している。 しかし、異なる言語現象のエンコーディングがモデル内でどのように相互作用するか、言語関連カテゴリの処理が同じ共有モデル表現に依存する程度についてはほとんど知られていない。 本稿では,LLMにおける言語カテゴリの共用符号化をテストするためのフレームワークを提案する。 構文に焦点をあてて,同一のクラス(pos(part-of-speech)クラス)と異なるレベルの言語階層(posクラスと関連する構文依存関係)の共用エンコーディングの証拠を見いだした。 我々の言語間実験は、同じパターンが多言語LLMの言語にまたがっていることを示している。

Large Language Models (LLMs) exhibit impressive performance on a range of NLP tasks, due to the general-purpose linguistic knowledge acquired during pretraining. Existing model interpretability research (Tenney et al., 2019) suggests that a linguistic hierarchy emerges in the LLM layers, with lower layers better suited to solving syntactic tasks and higher layers employed for semantic processing. Yet, little is known about how encodings of different linguistic phenomena interact within the models and to what extent processing of linguistically-related categories relies on the same, shared model representations. In this paper, we propose a framework for testing the joint encoding of linguistic categories in LLMs. Focusing on syntax, we find evidence of joint encoding both at the same (related part-of-speech (POS) classes) and different (POS classes and related syntactic dependency relations) levels of linguistic hierarchy. Our cross-lingual experiments show that the same patterns hold across languages in multilingual LLMs.
翻訳日:2023-10-31 17:07:56 公開日:2023-10-28
# フォトニック結晶空洞を用いた効率的な一重項スピン量子ビットの光子界面へのモデリング

Modeling of an efficient singlet-triplet spin qubit to photon interface assisted by a photonic crystal cavity ( http://arxiv.org/abs/2310.18690v1 )

ライセンス: Link先を確認
Kui Wu, Sebastian Kindel, Thomas Descamps, Tobias Hangleiter, Jan Christoph M\"uller, Rebecca Rodrigo, Florian Merget, Hendrik Bluhm, and Jeremy Witzens(参考訳) フォトニック量子ビットの助けを借りて、遠方の半導体スピン量子ビット間の効率的な相互接続は、将来の量子通信応用にエキサイティングな新しい可能性をもたらす。 本稿では、一重項スピン量子ビットとフォトニック量子ビットの間の新しい界面の抽出効率を最適化する。 The interface is based on a 220 nm thick GaAs/AlGaAs heterostructure membrane and consists of a gate-defined double quantum dot (GDQD) supporting a singlet-triplet qubit, an optically active quantum dot (OAQD) consisting of a gate-defined exciton trap, a photonic crystal cavity providing in-plane optical confinement and efficient out-coupling to an ideal free space Gaussian beam while accommodating the gate wiring of the GDQD and OAQD, and a bottom gold reflector to recycle photons and increase the optical extraction efficiency. 全ての必須成分は、GaAs/AlGaAsヘテロ構造膜上にリソグラフィで定義および決定的に作製することができ、オンチップ統合のスケーラビリティを大幅に向上させる。 シミュレーションによれば、この界面は、反射体と膜の間の空間を埋めるSiO2層を仮定して、自由空間ガウスビームに28.7%の結合効率を提供する。 フォトニック結晶の下方にこのSiO2層をアンダーカットすることでさらに性能を向上させることができる。 この場合、全体の効率は48.5%と計算される。

Efficient interconnection between distant semiconductor spin qubits with the help of photonic qubits would offer exciting new prospects for future quantum communication applications. In this paper, we optimize the extraction efficiency of a novel interface between a singlet-triplet spin qubit and a photonic qubit. The interface is based on a 220 nm thick GaAs/AlGaAs heterostructure membrane and consists of a gate-defined double quantum dot (GDQD) supporting a singlet-triplet qubit, an optically active quantum dot (OAQD) consisting of a gate-defined exciton trap, a photonic crystal cavity providing in-plane optical confinement and efficient out-coupling to an ideal free space Gaussian beam while accommodating the gate wiring of the GDQD and OAQD, and a bottom gold reflector to recycle photons and increase the optical extraction efficiency. All essential components can be lithographically defined and deterministically fabricated on the GaAs/AlGaAs heterostructure membrane, which greatly increases the scalability of on-chip integration. According to our simulations, the interface provides an overall coupling efficiency of 28.7% into a free space Gaussian beam, assuming an SiO2 interlayer filling the space between the reflector and the membrane. The performance can be further increased by undercutting this SiO2 interlayer below the photonic crystal. In this case, the overall efficiency is calculated to be 48.5%.
翻訳日:2023-10-31 17:07:37 公開日:2023-10-28
# 医用画像の基礎モデル : 包括的調査と今後の展望

Foundational Models in Medical Imaging: A Comprehensive Survey and Future Vision ( http://arxiv.org/abs/2310.18689v1 )

ライセンス: Link先を確認
Bobby Azad, Reza Azad, Sania Eskandari, Afshin Bozorgpour, Amirhossein Kazerouni, Islem Rekik, Dorit Merhof(参考訳) 基盤モデル、幅広い下流タスクに適応した大規模で事前学習されたディープラーニングモデル、近年、これらのモデルの台頭に伴うパラダイムシフト中のさまざまなディープラーニング問題において、大きな関心を集めている。 異なるモダリティ間のギャップを埋めるために、大規模なデータセットでトレーニングされた基礎モデルは、コンテキスト推論、一般化、テスト時の迅速な機能を促進する。 これらのモデルの予測は、広範囲なラベル付きデータや再学習を必要とせず、プロンプトと呼ばれるタスク固有のヒントでモデル入力を増強することで、新しいタスクに対して調整することができる。 コンピュータビジョンの進歩に乗じて、医療画像はこれらのモデルに対する関心も高まっている。 本調査は, この方向を探索する研究者を支援するため, 医用画像領域における基礎モデルの概要を概観する。 具体的には,基礎モデルの基礎となる基本概念を提示することによって,探索を開始する。 その後,医学領域における基礎モデルの方法論的分類法を提案し,トレーニング戦略を中心に構築された分類体系を提案するとともに,応用領域,画像モダリティ,特定の臓器,これらのモデルに不可欠なアルゴリズムなどの追加のファセットを取り入れた。 さらに,選択したアプローチの実践事例を強調し,これらの大規模事前学習モデルの機会,応用,今後の方向性について考察し,医用画像の解析を行う。 また,医療画像における基礎モデルに関連する課題と研究経路についても考察した。 これらは、解釈可能性、データ管理、計算要件、文脈理解の微妙な問題といった領域を包含している。

Foundation models, large-scale, pre-trained deep-learning models adapted to a wide range of downstream tasks have gained significant interest lately in various deep-learning problems undergoing a paradigm shift with the rise of these models. Trained on large-scale dataset to bridge the gap between different modalities, foundation models facilitate contextual reasoning, generalization, and prompt capabilities at test time. The predictions of these models can be adjusted for new tasks by augmenting the model input with task-specific hints called prompts without requiring extensive labeled data and retraining. Capitalizing on the advances in computer vision, medical imaging has also marked a growing interest in these models. To assist researchers in navigating this direction, this survey intends to provide a comprehensive overview of foundation models in the domain of medical imaging. Specifically, we initiate our exploration by providing an exposition of the fundamental concepts forming the basis of foundation models. Subsequently, we offer a methodical taxonomy of foundation models within the medical domain, proposing a classification system primarily structured around training strategies, while also incorporating additional facets such as application domains, imaging modalities, specific organs of interest, and the algorithms integral to these models. Furthermore, we emphasize the practical use case of some selected approaches and then discuss the opportunities, applications, and future directions of these large-scale pre-trained models, for analyzing medical images. In the same vein, we address the prevailing challenges and research pathways associated with foundational models in medical imaging. These encompass the areas of interpretability, data management, computational requirements, and the nuanced issue of contextual comprehension.
翻訳日:2023-10-31 17:07:18 公開日:2023-10-28
# clairvoyance: 医療時系列用パイプラインツールキット

Clairvoyance: A Pipeline Toolkit for Medical Time Series ( http://arxiv.org/abs/2310.18688v1 )

ライセンス: Link先を確認
Daniel Jarrett, Jinsung Yoon, Ioana Bica, Zhaozhi Qian, Ari Ercole, Mihaela van der Schaar(参考訳) 時系列学習は、データ駆動*臨床的意思決定サポート*のパンとバターであり、ml研究の最近の爆発は、さまざまな医療環境で大きな可能性を証明している。 それらは、データを前処理するコンポーネント間の設計選択と相互作用を伴い、欠落した値を阻害し、特徴の選択、問題予測、不確実性の推定、モデルの解釈を伴います。 電子カルテデータの指数関数的増加にもかかわらず、臨床研究と意思決定支援のためのmlの可能性と実現された利用の間には顕著なギャップがある。 特に、実世界のプロジェクトライフサイクルのオーケストレーションは、エンジニアリング(すなわち、構築が難しい)、評価(すなわち、評価が難しい)、効率(すなわち、最適化が難しい)において課題を提起します。 これらの問題に同時に対処するために設計されたClairvoyanceは、統合されたエンドツーエンドのAutoMLフレンドリーなパイプラインを提案している。 (i)ソフトウェアツールキット (ii)経験的基準、及び (iii)最適化のためのインターフェース。 究極の目標は,複雑な推論ワークフローを用いた透過的かつ再現可能な実験を促進し,(1)パーソナライズされた予測,(2)治療効果推定,(3)情報獲得のための統合経路を提供することです。 外来患者,一般病棟,集中治療施設における実世界のデータ例を例示し,ケアジャーニーにおけるコアタスクに対するパイプラインパラダイムの適用性について紹介する。 我々の知る限りでは、Clirvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。

Time-series learning is the bread and butter of data-driven *clinical decision support*, and the recent explosion in ML research has demonstrated great potential in various healthcare settings. At the same time, medical time-series problems in the wild are challenging due to their highly *composite* nature: They entail design choices and interactions among components that preprocess data, impute missing values, select features, issue predictions, estimate uncertainty, and interpret models. Despite exponential growth in electronic patient data, there is a remarkable gap between the potential and realized utilization of ML for clinical research and decision support. In particular, orchestrating a real-world project lifecycle poses challenges in engineering (i.e. hard to build), evaluation (i.e. hard to assess), and efficiency (i.e. hard to optimize). Designed to address these issues simultaneously, Clairvoyance proposes a unified, end-to-end, autoML-friendly pipeline that serves as a (i) software toolkit, (ii) empirical standard, and (iii) interface for optimization. Our ultimate goal lies in facilitating transparent and reproducible experimentation with complex inference workflows, providing integrated pathways for (1) personalized prediction, (2) treatment-effect estimation, and (3) information acquisition. Through illustrative examples on real-world data in outpatient, general wards, and intensive-care settings, we illustrate the applicability of the pipeline paradigm on core tasks in the healthcare journey. To the best of our knowledge, Clairvoyance is the first to demonstrate viability of a comprehensive and automatable pipeline for clinical time-series ML.
翻訳日:2023-10-31 17:06:50 公開日:2023-10-28
# ランダム意図優先による教師なし行動抽出

Unsupervised Behavior Extraction via Random Intent Priors ( http://arxiv.org/abs/2310.18687v1 )

ライセンス: Link先を確認
Hao Hu, Yiqin Yang, Jianing Ye, Ziqing Mai, Chongjie Zhang(参考訳) 報酬のないデータは豊富であり、人間の行動に関する豊富な事前知識を含んでいるが、オフライン強化学習(rl)アルゴリズムではうまく活用されていない。 本稿では,オフラインの報酬のないデータセットから,多様な報酬を通じて有用な行動を抽出するための教師なしアプローチであるUBERを提案する。 UBERは、与えられた事前分布からサンプリングされた異なる擬似回帰を異なるエージェントに割り当て、様々な振る舞いの集合を抽出し、新しいタスクの学習を容易にするために候補ポリシーとして再利用する。 おそらく驚くべきことに、ランダムなニューラルネットワークから生成される報酬は、エキスパートに近い、多様で有用な行動を引き出すのに十分である。 我々は、報酬関数に対するランダムな事前利用を正当化するための実証的証拠と理論的証拠の両方を提供する。 複数のベンチマークの実験では、UBERがオンラインRLのサンプル効率を高め、既存のベースラインを上回る、効果的で多様な振る舞いセットを学習する能力を示している。 人間の監督への依存を減らすことで、UBERは十分な報酬のないデータを持つ現実世界のシナリオに適用性を広げる。

Reward-free data is abundant and contains rich prior knowledge of human behaviors, but it is not well exploited by offline reinforcement learning (RL) algorithms. In this paper, we propose UBER, an unsupervised approach to extract useful behaviors from offline reward-free datasets via diversified rewards. UBER assigns different pseudo-rewards sampled from a given prior distribution to different agents to extract a diverse set of behaviors, and reuse them as candidate policies to facilitate the learning of new tasks. Perhaps surprisingly, we show that rewards generated from random neural networks are sufficient to extract diverse and useful behaviors, some even close to expert ones. We provide both empirical and theoretical evidence to justify the use of random priors for the reward function. Experiments on multiple benchmarks showcase UBER's ability to learn effective and diverse behavior sets that enhance sample efficiency for online RL, outperforming existing baselines. By reducing reliance on human supervision, UBER broadens the applicability of RL to real-world scenarios with abundant reward-free data.
翻訳日:2023-10-31 17:06:21 公開日:2023-10-28
# レビュー者のlock hornが語る: 科学的な査読の不一致を見つける

When Reviewers Lock Horn: Finding Disagreement in Scientific Peer Reviews ( http://arxiv.org/abs/2310.18685v1 )

ライセンス: Link先を確認
Sandeep Kumar, Tirthankar Ghosal, Asif Ekbal(参考訳) 今日まで、科学出版企業の有効性は、ピアレビュープロセスの強みに基本的に依存している。 ジャーナル編集者または会議議長は、主に専門家の審査員の評価に依存し、合意点と意見の相違点を特定し、論文を受理するか拒否するかについて公平で情報的な決定を下そうとする。 しかし、特にトップクラスの人工知能(ai)カンファレンスにおいて、レビューを必要とする応募が急増する中、編集者/議長は、レビュワーの不一致を軽減するために、重要な、時にはストレスの多い努力を投資している。 本稿では,ある記事に対するレビュアー間の矛盾を自動的に識別する新しいタスクを提案する。 この目的のために、オープンレビューベースのiclrおよびneuripsカンファレンスから約8.5kの論文(約2万5000のレビューペアが50万近いレビューペアコメントを含む)に包括的なレビューペア矛盾データセットであるcontrasciviewを紹介する。 さらに,レビューペアから矛盾文を検出するベースラインモデルを提案する。 我々の知る限りでは、ピアレビュアー間の不一致を自動的に識別する最初の試みを行う。 さらなる調査のためにデータセットとコードを公開します。

To this date, the efficacy of the scientific publishing enterprise fundamentally rests on the strength of the peer review process. The journal editor or the conference chair primarily relies on the expert reviewers' assessment, identify points of agreement and disagreement and try to reach a consensus to make a fair and informed decision on whether to accept or reject a paper. However, with the escalating number of submissions requiring review, especially in top-tier Artificial Intelligence (AI) conferences, the editor/chair, among many other works, invests a significant, sometimes stressful effort to mitigate reviewer disagreements. Here in this work, we introduce a novel task of automatically identifying contradictions among reviewers on a given article. To this end, we introduce ContraSciView, a comprehensive review-pair contradiction dataset on around 8.5k papers (with around 28k review pairs containing nearly 50k review pair comments) from the open review-based ICLR and NeurIPS conferences. We further propose a baseline model that detects contradictory statements from the review pairs. To the best of our knowledge, we make the first attempt to identify disagreements among peer reviewers automatically. We make our dataset and code public for further investigations.
翻訳日:2023-10-31 17:06:03 公開日:2023-10-28
# DySurv: ICUにおける生存予測のための動的ディープラーニングモデル

DySurv: Dynamic Deep Learning Model for Survival Prediction in the ICU ( http://arxiv.org/abs/2310.18681v1 )

ライセンス: Link先を確認
Munib Mesinovic, Peter Watkinson, Tingting Zhu(参考訳) 生存率分析は、icuのようなクリティカルケアの場合、動的死亡リスク予測の強力なツールとなり得る、イベントまでの時間分布を近似するのに役立つ。 古典的なcoxモデルを超えて、ディープラーニングのテクニックは過去数年間にわたって、統計的な方法から多くの制約を緩和するために活用されてきた。 本研究では,ICUにおける死亡リスクを動的に推定するために,患者の電子的健康記録からの静的および時系列測定を組み合わせた条件付き自動エンコーダDySurvを提案する。 DySurvは、他のディープラーニング手法を含む既存の手法よりも優れており、MIMIC-IVの現実世界の患者データベース上で評価されている。 DySurvの予測能力は一貫しており、サバイバル推定は、マルチタスクケースにおける条件付き変分推論に基づく動的ディープラーニングモデルがサバイバル分析の堅牢なモデルであるという考えを支持する様々なデータセットに分散している。

Survival analysis helps approximate underlying distributions of time-to-events which in the case of critical care like in the ICU can be a powerful tool for dynamic mortality risk prediction. Extending beyond the classical Cox model, deep learning techniques have been leveraged over the last years relaxing the many constraints of their counterparts from statistical methods. In this work, we propose a novel conditional variational autoencoder-based method called DySurv which uses a combination of static and time-series measurements from patient electronic health records in estimating risk of death dynamically in the ICU. DySurv has been tested on standard benchmarks where it outperforms most existing methods including other deep learning methods and we evaluate it on a real-world patient database from MIMIC-IV. The predictive capacity of DySurv is consistent and the survival estimates remain disentangled across different datasets supporting the idea that dynamic deep learning models based on conditional variational inference in multi-task cases can be robust models for survival analysis.
翻訳日:2023-10-31 17:05:38 公開日:2023-10-28
# N-Critics: 批判の集まりを伴う大規模言語モデルの自己精製

N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics ( http://arxiv.org/abs/2310.18679v1 )

ライセンス: Link先を確認
Sajad Mousavi, Ricardo Luna Guti\'errez, Desik Rengarajan, Vineet Gundecha, Ashwin Ramesh Babu, Avisek Naug, Antonio Guillen, Soumyendu Sarkar(参考訳) 本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。 この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。 人間の行動からインスピレーションを得て、llmが複雑なトピックに対する理解を深めるために、しばしば自己回帰に関わり、他者からのインプットを求める人に見られる自己修正過程をエミュレートできるかどうかを探求する。 我々のアプローチはモデルに依存しないものであり、公正性、偏見、堅牢性に対処することで、信頼性を高めるために様々な領域に適用することができる。 我々はLSMの性能改善を継続的に観察し、毒性を低減し、事実の誤りを修正する。

We propose a self-correction mechanism for Large Language Models (LLMs) to mitigate issues such as toxicity and fact hallucination. This method involves refining model outputs through an ensemble of critics and the model's own feedback. Drawing inspiration from human behavior, we explore whether LLMs can emulate the self-correction process observed in humans who often engage in self-reflection and seek input from others to refine their understanding of complex topics. Our approach is model-agnostic and can be applied across various domains to enhance trustworthiness by addressing fairness, bias, and robustness concerns. We consistently observe performance improvements in LLMs for reducing toxicity and correcting factual errors.
翻訳日:2023-10-31 17:05:22 公開日:2023-10-28
# 異常検出のためのエネルギーモデル:マニフォールド拡散回収手法

Energy-Based Models for Anomaly Detection: A Manifold Diffusion Recovery Approach ( http://arxiv.org/abs/2310.18677v1 )

ライセンス: Link先を確認
Sangwoong Yoon, Young-Uk Jin, Yung-Kyun Noh, Frank C. Park(参考訳) 本稿では,データ内の低次元構造を利用した異常検出のための新しいエネルギーベースモデル(EBM)のトレーニング手法を提案する。 提案アルゴリズムであるManifold Projection-Diffusion Recovery (MPDR)は、トレーニングデータセットを近似した低次元多様体に沿ったデータポイントを摂動する。 そして、ebmを訓練して元のデータを復元する確率を最大化する。 このトレーニングは、従来のEMMトレーニングのようにMCMCを介して負のサンプルを生成するが、多様体の近くに集中した異なる分布から発生する。 その結果得られる負のサンプルは非常に有益であり、データの変化の関連するモードを反映している。 MPDRのエネルギー関数は、トレーニングデータ分布の正確な境界を効果的に学習し、分布外サンプルの検出に優れる。 実験結果から,MPDRは画像,ベクトル,音響信号などの多様なデータ型を含む様々な異常検出タスクに対して高い性能を示すことがわかった。

We present a new method of training energy-based models (EBMs) for anomaly detection that leverages low-dimensional structures within data. The proposed algorithm, Manifold Projection-Diffusion Recovery (MPDR), first perturbs a data point along a low-dimensional manifold that approximates the training dataset. Then, EBM is trained to maximize the probability of recovering the original data. The training involves the generation of negative samples via MCMC, as in conventional EBM training, but from a different distribution concentrated near the manifold. The resulting near-manifold negative samples are highly informative, reflecting relevant modes of variation in data. An energy function of MPDR effectively learns accurate boundaries of the training data distribution and excels at detecting out-of-distribution samples. Experimental results show that MPDR exhibits strong performance across various anomaly detection tasks involving diverse data types, such as images, vectors, and acoustic signals.
翻訳日:2023-10-31 17:05:08 公開日:2023-10-28
# 注意型特徴蒸留による光学的リモートセンシング画像の効率的な物体検出

Efficient Object Detection in Optical Remote Sensing Imagery via Attention-based Feature Distillation ( http://arxiv.org/abs/2310.18676v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Jocelyn Chanussot, Huiyu Zhou, Yue Lu(参考訳) 近年,リモートセンシングにおいて効率的な物体検出手法が注目されている。 深層畳み込みネットワークは検出精度が優れていることが多いが、リソース限定エッジデバイスへの展開は困難である。 知識蒸留(KD)は、精度を維持しながらモデルを軽量にするので、この問題に対処するための戦略である。 しかし、既存のオブジェクト検出のためのKD法には2つの制約がある。 まず、潜在的に重要な背景情報を捨て、近くのフォアグラウンド地域だけを蒸留する。 第二に、学生検出器が教師検出器からローカル情報を取得する能力を制限するグローバルコンテキストにのみ依存する。 上記の課題に対処するために,教師検出器から局所情報とグローバル情報の両方を蒸留する新しいKDアプローチである,注意に基づく特徴蒸留(AFD)を提案する。 局所蒸留を促進するために, 背景要素と前景要素を効果的に区別するマルチインテンス注意機構を導入する。 このアプローチは、教師検出器によって特定されるように、学生検出器が関連するチャネルとピクセルに集中するように促す。 局所蒸留はグローバル情報に乏しいため,様々な画素間の関係を再構築し,教師から学生検出器に渡すために注意深いグローバル蒸留が提案されている。 AFDの性能を2つの公開航空画像ベンチマークで評価し、オブジェクト検出におけるAFDが他の最先端モデルの性能を効率よく達成できることを示す。

Efficient object detection methods have recently received great attention in remote sensing. Although deep convolutional networks often have excellent detection accuracy, their deployment on resource-limited edge devices is difficult. Knowledge distillation (KD) is a strategy for addressing this issue since it makes models lightweight while maintaining accuracy. However, existing KD methods for object detection have encountered two constraints. First, they discard potentially important background information and only distill nearby foreground regions. Second, they only rely on the global context, which limits the student detector's ability to acquire local information from the teacher detector. To address the aforementioned challenges, we propose Attention-based Feature Distillation (AFD), a new KD approach that distills both local and global information from the teacher detector. To enhance local distillation, we introduce a multi-instance attention mechanism that effectively distinguishes between background and foreground elements. This approach prompts the student detector to focus on the pertinent channels and pixels, as identified by the teacher detector. Local distillation lacks global information, thus attention global distillation is proposed to reconstruct the relationship between various pixels and pass it from teacher to student detector. The performance of AFD is evaluated on two public aerial image benchmarks, and the evaluation results demonstrate that AFD in object detection can attain the performance of other state-of-the-art models while being efficient.
翻訳日:2023-10-31 17:04:52 公開日:2023-10-28
# 最大独立セット:動的プログラミングによる自己学習

Maximum Independent Set: Self-Training through Dynamic Programming ( http://arxiv.org/abs/2310.18672v1 )

ライセンス: Link先を確認
Lorenzo Brusca, Lars C.P.M. Quaedvlieg, Stratis Skoulakis, Grigorios G Chrysos, Volkan Cevher(参考訳) 本研究では、動的プログラミング(DP)にインスパイアされた最大独立集合(MIS)問題を解決するグラフニューラルネットワーク(GNN)フレームワークを提案する。 具体的には、まず2つの小さな部分グラフを構築し、より大きなMISを持つものを予測し、次に再帰呼び出しを行うGNNに基づくDPライクな再帰アルゴリズムを提案する。 アルゴリズムを訓練するためには、MISサイズに関する異なるグラフの注釈付き比較が必要である。 アルゴリズムの出力と比較をアノテートすることで、比較をより正確に自己アノテートし、その逆を行う自己学習プロセスが生まれます。 複数の合成および実世界のデータセットにおいて,本手法と先行手法の優位性を示す数値的証拠を提供する。

This work presents a graph neural network (GNN) framework for solving the maximum independent set (MIS) problem, inspired by dynamic programming (DP). Specifically, given a graph, we propose a DP-like recursive algorithm based on GNNs that firstly constructs two smaller sub-graphs, predicts the one with the larger MIS, and then uses it in the next recursive call. To train our algorithm, we require annotated comparisons of different graphs concerning their MIS size. Annotating the comparisons with the output of our algorithm leads to a self-training process that results in more accurate self-annotation of the comparisons and vice versa. We provide numerical evidence showing the superiority of our method vs prior methods in multiple synthetic and real-world datasets.
翻訳日:2023-10-31 17:04:30 公開日:2023-10-28
# FinBTech: FaceNet512とガウス混合モデルを利用した金融取引におけるセキュリティ強化のためのブロックチェーンベースのビデオおよび音声認証システム

FinBTech: Blockchain-Based Video and Voice Authentication System for Enhanced Security in Financial Transactions Utilizing FaceNet512 and Gaussian Mixture Models ( http://arxiv.org/abs/2310.18668v1 )

ライセンス: Link先を確認
Prof N.Jeenath Laila, Dr G.Tamilpavai(参考訳) デジタル時代には、金融取引が可能な限り安全で信頼性の高いものにすることが不可欠である。 この抽象化は、スマートコントラクト、ブロックチェーン技術、顔認証を改善するFaceNet512、音声認識のためのGaussian Mixture Models(GMM)を組み合わせて、一致しないビデオとオーディオの検証システムを作成する、画期的な方法を提供する。 smart contractsとイミュータブルなブロックチェーンの台帳を組み合わせることで、金融取引の安全でオープンな環境を提供する。 FaceNet512とGMMは同時に多要素バイオメトリック認証を提供し、セキュリティを新たな高さに拡張する。 最先端技術を組み合わせることで、このシステムはID盗難と不正アクセスに対する強力な防御を提供し、安全な金融取引のための新しいベンチマークを確立する。

In the digital age, it is crucial to make sure that financial transactions are as secure and reliable as possible. This abstract offers a ground-breaking method that combines smart contracts, blockchain technology, FaceNet512 for improved face recognition, and Gaussian Mixture Models (GMM) for speech authentication to create a system for video and audio verification that is unmatched. Smart contracts and the immutable ledger of the blockchain are combined to offer a safe and open environment for financial transactions. FaceNet512 and GMM offer multi-factor biometric authentication simultaneously, enhancing security to new heights. By combining cutting-edge technology, this system offers a strong defense against identity theft and illegal access, establishing a new benchmark for safe financial transactions.
翻訳日:2023-10-31 17:04:17 公開日:2023-10-28
# グラフニューラルネットワークのカリキュラム学習:どのエッジを最初に学ぶべきか

Curriculum Learning for Graph Neural Networks: Which Edges Should We Learn First ( http://arxiv.org/abs/2310.18735v1 )

ライセンス: Link先を確認
Zheng Zhang, Junxiang Wang, and Liang Zhao(参考訳) グラフニューラルネットワーク(gnns)は、エッジに沿ってメッセージを再帰的に伝播し集約することで、依存のあるデータを表現することに成功しています。 しかし、実世界のグラフのエッジは、しばしば様々な難易度を持ち、一部のエッジは下流のタスクにうるさいかもしれない。 したがって、既存のGNNはグラフのすべてのエッジを等しく扱うため、最適に学習された表現につながる可能性がある。 一方,データサンプルを有意な順序で学習する人間の学習原理を模倣したカリキュラム学習(CL)は,学習中の易易度から難易度まで段階的に進むことで,表現学習者の一般化能力と堅牢性の向上に有効であることが示されている。 残念ながら、既存のCL戦略は独立したデータサンプル用に設計されており、データの依存関係を処理するために自明に一般化することはできない。 これらの課題に対処するために,モデルの訓練状況からエッジがどの程度期待されるかによって,難易度から難易度までに応じて,より多くのエッジを段階的にトレーニングに組み込む新しいCL戦略を提案する。 提案手法の強みは,9つの合成データセットと9つの実世界のデータセットに対する広範な実験を通じて,学習した表現の一般化能力と堅牢性を向上させることである。 提案手法のコードはhttps://github.com/rollingstonezz/curriculum_learning_for_gnnsで利用可能である。

Graph Neural Networks (GNNs) have achieved great success in representing data with dependencies by recursively propagating and aggregating messages along the edges. However, edges in real-world graphs often have varying degrees of difficulty, and some edges may even be noisy to the downstream tasks. Therefore, existing GNNs may lead to suboptimal learned representations because they usually treat every edge in the graph equally. On the other hand, Curriculum Learning (CL), which mimics the human learning principle of learning data samples in a meaningful order, has been shown to be effective in improving the generalization ability and robustness of representation learners by gradually proceeding from easy to more difficult samples during training. Unfortunately, existing CL strategies are designed for independent data samples and cannot trivially generalize to handle data dependencies. To address these issues, we propose a novel CL strategy to gradually incorporate more edges into training according to their difficulty from easy to hard, where the degree of difficulty is measured by how well the edges are expected given the model training status. We demonstrate the strength of our proposed method in improving the generalization ability and robustness of learned representations through extensive experiments on nine synthetic datasets and nine real-world datasets. The code for our proposed method is available at https://github.com/rollingstonezz/Curriculum_learning_for_GNNs.
翻訳日:2023-10-31 16:56:57 公開日:2023-10-28
# 経験的法学研究における大規模言語モデルを用いた主題分析支援

Using Large Language Models to Support Thematic Analysis in Empirical Legal Studies ( http://arxiv.org/abs/2310.18729v1 )

ライセンス: Link先を確認
Jakub Dr\'apal, Hannes Westermann, Jaromir Savelka(参考訳) 主題分析やその他の帰納的符号化の変種は、経験的法的研究(els)において定性解析法として広く使われている。 本稿では,初期コード生成のための大規模言語モデル(llm)を用いた法務専門家の効果的なコラボレーションを促進するための新しい枠組みを提案する(テーマ分析のフェーズ2,テーマの探索(フェーズ3),テーマの観点によるデータ分類(キックスタートフェーズ4)。 盗難に関する刑事裁判所の意見から, 事実のデータセット(n=785)の分析にこの枠組みを用いた。 分析の目的は、典型的な盗難のクラスを見つけることだった。 その結果,OpenAI の GPT-4 という LLM が適切な初期符号を生成し,専門家のフィードバックに基づいてコードの品質を向上させることができた。 彼らはまた、モデルが主題の観点からの事実記述のゼロショット分類でうまくいったことを示唆している。 最後に、llmが自動的に発見したテーマは、法律の専門家が到達したテーマとかなりよく一致しているようだ。 これらの発見は法的な研究者によって、LSMをテーマ分析に組み込む決定や、他の帰納的コーディングプロジェクトへと導くために活用することができる。

Thematic analysis and other variants of inductive coding are widely used qualitative analytic methods within empirical legal studies (ELS). We propose a novel framework facilitating effective collaboration of a legal expert with a large language model (LLM) for generating initial codes (phase 2 of thematic analysis), searching for themes (phase 3), and classifying the data in terms of the themes (to kick-start phase 4). We employed the framework for an analysis of a dataset (n=785) of facts descriptions from criminal court opinions regarding thefts. The goal of the analysis was to discover classes of typical thefts. Our results show that the LLM, namely OpenAI's GPT-4, generated reasonable initial codes, and it was capable of improving the quality of the codes based on expert feedback. They also suggest that the model performed well in zero-shot classification of facts descriptions in terms of the themes. Finally, the themes autonomously discovered by the LLM appear to map fairly well to the themes arrived at by legal experts. These findings can be leveraged by legal researchers to guide their decisions in integrating LLMs into their thematic analyses, as well as other inductive coding projects.
翻訳日:2023-10-31 16:56:34 公開日:2023-10-28
# 拡張商品モデルを用いたオンライン多視点異常検出

Online Multi-view Anomaly Detection with Disentangled Product-of-Experts Modeling ( http://arxiv.org/abs/2310.18728v1 )

ライセンス: Link先を確認
Hao Wang, Zhi-Qi Cheng, Jingdong Sun, Xin Yang, Xiao Wu, Hongyang Chen, and Yan Yang(参考訳) マルチビュー、あるいはマルチモーダルデータでさえ、現実のアプリケーションにとって非常に難しいものです。 マルチビューデータの異常検出は最近の顕著な研究トピックである。 しかし 既存の方法の多くは 1) 2つのビューまたはタイプ固有の異常にのみ適合する。 2) 核融合の絡み合いの問題に苦しむこと,及び 3) モデル展開後のオンライン検出はサポートしない。 これらの課題に対処するため,本稿の主な考え方は,多視点学習,非交叉表現学習,生成モデルである。 そこで本研究では,(1)多視点データに対処するProduct-of-Experts(PoE)層,(2)ビュー共通表現とビュー固有表現を混在させるTotal Correction(TC)識別器,(3)すべてのコンポーネントをラップするジョイントロス関数を含む,新しい多視点変分オートエンコーダモデルであるdPoEを提案する。 さらに,ビュー共通表現とビュー固有表現の両方を制御するための理論的情報境界を考案する。 6つの実世界のデータセットに対する大規模な実験は、提案されたdPoEがベースラインを著しく上回ることを示した。

Multi-view or even multi-modal data is appealing yet challenging for real-world applications. Detecting anomalies in multi-view data is a prominent recent research topic. However, most of the existing methods 1) are only suitable for two views or type-specific anomalies, 2) suffer from the issue of fusion disentanglement, and 3) do not support online detection after model deployment. To address these challenges, our main ideas in this paper are three-fold: multi-view learning, disentangled representation learning, and generative model. To this end, we propose dPoE, a novel multi-view variational autoencoder model that involves (1) a Product-of-Experts (PoE) layer in tackling multi-view data, (2) a Total Correction (TC) discriminator in disentangling view-common and view-specific representations, and (3) a joint loss function in wrapping up all components. In addition, we devise theoretical information bounds to control both view-common and view-specific representations. Extensive experiments on six real-world datasets demonstrate that the proposed dPoE outperforms baselines markedly.
翻訳日:2023-10-31 16:56:16 公開日:2023-10-28
# 正則化スペクトルクラスタリングによる潜在クラス解析

Latent class analysis by regularized spectral clustering ( http://arxiv.org/abs/2310.18727v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) 潜在クラスモデルは、社会、心理学、行動科学における分類学的データに共通する特徴を共有する集団内の潜在クラスを特定する強力なツールである。 本稿では,カテゴリデータの潜在クラスモデルを推定する2つの新しいアルゴリズムを提案する。 本アルゴリズムは, 応答行列から計算した正規化ラプラシアン行列を用いて開発した。 我々は,スパーシティパラメータを考慮したアルゴリズムの理論的収束率を示し,穏やかな条件下での一貫性のある潜在クラス解析を安定に得ることを示す。 さらに,実世界の分類データにどの程度の潜伏クラスを用いるべきかを推定するために,潜伏クラス分析の強みを捉える指標と,この指標に基づいて設計されたいくつかの手順を提案する。 提案アルゴリズムの効率と精度を,広範囲なシミュレーション実験により検証し,実世界のカテゴリデータに適用し,有望な結果を得た。

The latent class model is a powerful tool for identifying latent classes within populations that share common characteristics for categorical data in social, psychological, and behavioral sciences. In this article, we propose two new algorithms to estimate a latent class model for categorical data. Our algorithms are developed by using a newly defined regularized Laplacian matrix calculated from the response matrix. We provide theoretical convergence rates of our algorithms by considering a sparsity parameter and show that our algorithms stably yield consistent latent class analysis under mild conditions. Additionally, we propose a metric to capture the strength of latent class analysis and several procedures designed based on this metric to infer how many latent classes one should use for real-world categorical data. The efficiency and accuracy of our algorithms are verified by extensive simulated experiments, and we further apply our algorithms to real-world categorical data with promising results.
翻訳日:2023-10-31 16:55:56 公開日:2023-10-28
# ネットワークにおける入力分布と線形領域間の相互作用の進化

The Evolution of the Interplay Between Input Distributions and Linear Regions in Networks ( http://arxiv.org/abs/2310.18725v1 )

ライセンス: Link先を確認
Xuan Qi, Yi Wei(参考訳) 深層ニューラルネットワークの表現性は、その深さ、幅、その他の関連する考慮を包含して、さまざまな要因に依存することが一般的に認識されている。 現在、ディープニューラルネットワークの実践的性能は未だに不明である。 ReLU(Rectified Linear Unit)ネットワークに対して、線形なアクティベーションを持つ線形凸領域の数は、ネットワークの表現性を評価する自然な指標となる。 本稿では,深層ニューラルネットワークにおける線形凸領域の数をreluに基づいてカウントする。 特に、任意の1次元入力に対して、その表現に必要なニューロンの数に対して最小限の閾値が存在することを証明する。 また、同じネットワークに対して、複雑な入力が線形領域を表現できないことを実証的に観察する。 さらに,学習中のreluネットワークにおける決定境界の反復的洗練プロセスも明らかにする。 我々は、深層ネットワークが提示する行動の探索と分析において、ネットワーク最適化の努力と支援のインスピレーションとなる研究を奨励する。

It is commonly recognized that the expressiveness of deep neural networks is contingent upon a range of factors, encompassing their depth, width, and other relevant considerations. Currently, the practical performance of the majority of deep neural networks remains uncertain. For ReLU (Rectified Linear Unit) networks with piecewise linear activations, the number of linear convex regions serves as a natural metric to gauge the network's expressivity. In this paper, we count the number of linear convex regions in deep neural networks based on ReLU. In particular, we prove that for any one-dimensional input, there exists a minimum threshold for the number of neurons required to express it. We also empirically observe that for the same network, intricate inputs hinder its capacity to express linear regions. Furthermore, we unveil the iterative refinement process of decision boundaries in ReLU networks during training. We aspire for our research to serve as an inspiration for network optimization endeavors and aids in the exploration and analysis of the behaviors exhibited by deep networks.
翻訳日:2023-10-31 16:55:41 公開日:2023-10-28
# wcld:ウィスコンシン州巡回裁判所の刑事事件の大規模なデータセット

WCLD: Curated Large Dataset of Criminal Cases from Wisconsin Circuit Courts ( http://arxiv.org/abs/2310.18724v1 )

ライセンス: Link先を確認
Elliott Ash, Naman Goel, Nianyun Li, Claudia Marangon, Peiyao Sun(参考訳) 刑事司法システムにおける機械学習に基づく意思決定支援ツールは、激しい議論と学術研究の対象である。 このようなツールの有用性と公平性には重要な疑問がある。 学術研究者はしばしば、これらの質問の様々な現実世界の側面を経験的に研究するのに十分でない少数の小さなデータセットに頼っている。 本稿では,米国ウィスコンシン州の巡回裁判所から150万件の刑事事件を収集した大規模データセットであるwcldを提案する。 我々は,1970年から2020年までの信頼性の高い公開データを用いて,犯罪数や共犯結果などの属性を収集した。 データセットには、性別や年齢(判断と初犯)などの情報に加えて、5つの人種グループからの大量のサンプルが含まれている。 このデータセットの他の属性には、国勢調査データから得られた地区特性、詳細な犯罪の種類、料金の重大さ、事例決定、文の長さ、提出年などが含まれる。 また,判断,カウンティ,ジップコードに対する疑似識別器も提供する。 このデータセットは、アルゴリズムの公正性を刑事司法の文脈でより厳格に研究するだけでなく、アルゴリズムの課題をさまざまなシステム的問題に関連付けることができる。 また,データセットの構築プロセスやデータシートについても詳細に論じる。 WCLDデータセットは \url{https://clezdata.github.io/wcld/} で公開されている。

Machine learning based decision-support tools in criminal justice systems are subjects of intense discussions and academic research. There are important open questions about the utility and fairness of such tools. Academic researchers often rely on a few small datasets that are not sufficient to empirically study various real-world aspects of these questions. In this paper, we contribute WCLD, a curated large dataset of 1.5 million criminal cases from circuit courts in the U.S. state of Wisconsin. We used reliable public data from 1970 to 2020 to curate attributes like prior criminal counts and recidivism outcomes. The dataset contains large number of samples from five racial groups, in addition to information like sex and age (at judgment and first offense). Other attributes in this dataset include neighborhood characteristics obtained from census data, detailed types of offense, charge severity, case decisions, sentence lengths, year of filing etc. We also provide pseudo-identifiers for judge, county and zipcode. The dataset will not only enable researchers to more rigorously study algorithmic fairness in the context of criminal justice, but also relate algorithmic challenges with various systemic issues. We also discuss in detail the process of constructing the dataset and provide a datasheet. The WCLD dataset is available at \url{https://clezdata.github.io/wcld/}.
翻訳日:2023-10-31 16:55:26 公開日:2023-10-28
# 2量子系における単一光子散乱 散乱場の時空間構造

Single-photon scattering on a two-qubit system. Spatio-temporal structure of the scattered field ( http://arxiv.org/abs/2310.18723v1 )

ライセンス: Link先を確認
Ya. S. Greenberg, A. A. Shtygashev, and A. G. Moiseev(参考訳) 本稿では, 単一光子狭パルスの散乱により生じる光子電界の時空間分布を, 1次元(1D)開導波路における連続モードに結合した2つの同一量子ビット系から検討する。 量子ビットとフォトン振幅の時間依存力学方程式を導出し、量子ビット前、量子ビット間、量子ビット後における光子後方散乱場と前方散乱場の計算を可能にする。 散乱体は、入射光子の自由場、励起量子ビットの自発的指数関数的崩壊、t$の逆の力として消滅する緩やかな崩壊部分、および、t\rightarrow\infty$として定常状態解を表す損失のない部分を含む。 このシステムでは,量子ビットからの時間と距離の両方が無限になる傾向があるため,透過率と反射率場を見いだす。 散乱の後の時間は無限大になる傾向にあるので、場の定常状態光子は1次元空間全体において形成されている。 量子ビット間の距離$d$が、波長$\lambda$の整数に等しい場合、場のエネルギーは、キュービット周波数$\Omega$と、周期$T=2\pi/(\omega_S-\Omega)$の光子周波数$\omega_S$の間の時間的ビートを示す。

In this paper, we study the spatiotemporal distribution of the photon electric field produced by the scattering of a single photon narrow pulse from a system of two identical qubits coupled to continuum modes in a one-dimensional (1D) open waveguide. We derive the time-dependent dynamical equations for qubits' and photon amplitudes which allow the calculation of the photon backward and forward scattering fields in the whole space: before qubits, between qubits, and behind the qubits. The scattered field consists of several contributions that describe a free field of incoming photon, a spontaneous exponential decay of excited qubits, a slowly decaying part that dies out as the inverse powers of $t$, and a lossless part that represents a steady state solution as $t\rightarrow\infty$. For our system, we find the transmittance and reflectance fields as both time and distance from the qubits tend to infinity. We show that as the time after the event of scattering tends to infinity, the steady state photon the field is being formed in the whole one-dimensional space. If the distance $d$ between qubits is equal to the integer of the wavelength $\lambda$, the field energy exhibits temporal beatings between the qubit frequency $\Omega$ and the photon frequency $\omega_S$ with the period $T=2\pi/(\omega_S-\Omega)$.
翻訳日:2023-10-31 16:55:06 公開日:2023-10-28
# 構成可能なシステム分析に関する第1回ワークショップの開催報告

Proceedings of the First Workshop on Trends in Configurable Systems Analysis ( http://arxiv.org/abs/2310.18720v1 )

ライセンス: Link先を確認
Maurice H. ter Beek, Clemens Dubslaff(参考訳) 構成可能なシステム(例えば、パラメータに依存するシステムや様々な特徴をサポートするシステム)の分析は、設定オプションの数が爆発的に増加するため困難である。 ticsa 2023は、構成可能なシステム分析のトレンドに関する最初のワークショップで、構成可能なシステム分析における現在の課題と解決策が提示され、議論された。

The analysis of configurable systems, i.e., systems those behaviors depend on parameters or support various features, is challenging due to the exponential blowup arising in the number of configuration options. This volume contains the post-proceedings of TiCSA 2023, the first workshop on Trends in Configurable Systems Analysis, where current challenges and solutions in configurable systems analysis were presented and discussed.
翻訳日:2023-10-31 16:54:39 公開日:2023-10-28
# ホテル型非対称テンソルデフレの精度について:ランダムテンソル解析

On the Accuracy of Hotelling-Type Asymmetric Tensor Deflation: A Random Tensor Analysis ( http://arxiv.org/abs/2310.18717v1 )

ライセンス: Link先を確認
Mohamed El Amine Seddik, Maxime Guillaud, Alexis Decurninge, Jos\'e Henrique de Morais Goulart(参考訳) この研究は、大きなテンソル次元の体制におけるノイズの存在下でのホテルリング型テンソルデフレの漸近的研究を紹介する。 具体的には、$\sum_{i=1}^r \beta_i{\mathcal{A}}_i + {\mathcal{W}}$ ここで、$\beta_i\geq 0$と${\mathcal{A}}_i$'sは、$\left| \langle {\mathcal{A}}_i, {\mathcal{A}}_j \rangle \right| \in [0, 1]$ for $i\neq j$と${\mathcal{W}}$が加法的雑音項であるような、低ランクな非対称テンソルモデルを考える。 主成分がノイズ観測から逐次推定され、次に減算されると仮定すると、漸近的に大きいテンソル次元の条件下でのランダムテンソル理論の最近の進歩を利用して、デフレ手順の各ステップにおける推定特異値と真特異ベクトルのアライメントを解析的に特徴づける。 さらに、この結果を用いて、信号対雑音比$\beta_i$と推定されたランク1信号成分と真のランク1信号成分のアライメントの推定を行うことができる。

This work introduces an asymptotic study of Hotelling-type tensor deflation in the presence of noise, in the regime of large tensor dimensions. Specifically, we consider a low-rank asymmetric tensor model of the form $\sum_{i=1}^r \beta_i{\mathcal{A}}_i + {\mathcal{W}}$ where $\beta_i\geq 0$ and the ${\mathcal{A}}_i$'s are unit-norm rank-one tensors such that $\left| \langle {\mathcal{A}}_i, {\mathcal{A}}_j \rangle \right| \in [0, 1]$ for $i\neq j$ and ${\mathcal{W}}$ is an additive noise term. Assuming that the dominant components are successively estimated from the noisy observation and subsequently subtracted, we leverage recent advances in random tensor theory in the regime of asymptotically large tensor dimensions to analytically characterize the estimated singular values and the alignment of estimated and true singular vectors at each step of the deflation procedure. Furthermore, this result can be used to construct estimators of the signal-to-noise ratios $\beta_i$ and the alignments between the estimated and true rank-1 signal components.
翻訳日:2023-10-31 16:54:31 公開日:2023-10-28
# Laplacian Canonization: Sign and Basis Invariant Spectral Embeddingに対するミニマリストアプローチ

Laplacian Canonization: A Minimalist Approach to Sign and Basis Invariant Spectral Embedding ( http://arxiv.org/abs/2310.18716v1 )

ライセンス: Link先を確認
Jiangyan Ma, Yifei Wang, Yisen Wang(参考訳) スペクトル埋め込み(spectrum embedded)は、グラフトランスフォーマーの有効性から近年注目を集めている強力なグラフ埋め込み技術である。 しかし、理論的な観点からは、スペクトル埋め込みの普遍的な表現力は、グラフ、符号および基底不変性の2つの重要な不変性を失うことの代償となり、グラフデータに対するその有効性も制限される。 この問題を解決するために、多くの従来の手法は、新しい不変量を学び、高い計算複雑性に悩まされるコストのかかるアプローチを開発した。 本研究では、固有ベクトルの正準方向を直接見つけることにより、あいまいさを解消する最小限のアプローチ、Laplacian Canonization (LC) を提案する。 純粋な前処理法としてLCは軽量化されており、既存のGNNにも適用可能である。 理論からアルゴリズムまで、このアプローチで徹底的な調査を行い、符号と基底の不変性の両方に有効で、すべての固有ベクトルの90%以上を正準化する、maximal axis projection (map) という効率的なアルゴリズムを発見した。 ZINC、MOLTOX21、MOLPCBAといった実世界のベンチマークデータセットの実験では、MAPは計算オーバーヘッドを最小限に抑えながら、既存のメソッドを一貫して上回っている。 コードはhttps://github.com/PKU-ML/LaplacianCanonizationで入手できる。

Spectral embedding is a powerful graph embedding technique that has received a lot of attention recently due to its effectiveness on Graph Transformers. However, from a theoretical perspective, the universal expressive power of spectral embedding comes at the price of losing two important invariance properties of graphs, sign and basis invariance, which also limits its effectiveness on graph data. To remedy this issue, many previous methods developed costly approaches to learn new invariants and suffer from high computation complexity. In this work, we explore a minimal approach that resolves the ambiguity issues by directly finding canonical directions for the eigenvectors, named Laplacian Canonization (LC). As a pure pre-processing method, LC is light-weighted and can be applied to any existing GNNs. We provide a thorough investigation, from theory to algorithm, on this approach, and discover an efficient algorithm named Maximal Axis Projection (MAP) that works for both sign and basis invariance and successfully canonizes more than 90% of all eigenvectors. Experiments on real-world benchmark datasets like ZINC, MOLTOX21, and MOLPCBA show that MAP consistently outperforms existing methods while bringing minimal computation overhead. Code is available at https://github.com/PKU-ML/LaplacianCanonization.
翻訳日:2023-10-31 16:53:54 公開日:2023-10-28
# 重装リワードを用いたロバストオフライン政策評価と最適化

Robust Offline Policy Evaluation and Optimization with Heavy-Tailed Rewards ( http://arxiv.org/abs/2310.18715v1 )

ライセンス: Link先を確認
Jin Zhu, Runzhe Wan, Zhengling Qi, Shikai Luo and Chengchun Shi(参考訳) 本論文は,実世界の応用において一般的である重み付き報酬を伴うシナリオにおいて,オフライン強化学習(RL)の堅牢性を高めるための試みである。 本稿では, ROAM と ROOM の2つのアルゴリズムフレームワークを提案し, 堅牢なオフポリシー評価 (OPE) とオフラインポリシー最適化 (OPO) を提案する。 我々のフレームワークの中心は、平均値の中央値法をオフラインRLで戦略的に組み込むことであり、値関数推定器の明確な不確実性推定を可能にする。 これは、OPOにおける悲観主義の原則に固執するだけでなく、重い報酬を管理する。 理論的な結果と広範な実験により、当社の2つのフレームワークは、ログデータセット上の既存の手法よりも優れていることが示されている。

This paper endeavors to augment the robustness of offline reinforcement learning (RL) in scenarios laden with heavy-tailed rewards, a prevalent circumstance in real-world applications. We propose two algorithmic frameworks, ROAM and ROOM, for robust off-policy evaluation (OPE) and offline policy optimization (OPO), respectively. Central to our frameworks is the strategic incorporation of the median-of-means method with offline RL, enabling straightforward uncertainty estimation for the value function estimator. This not only adheres to the principle of pessimism in OPO but also adeptly manages heavy-tailed rewards. Theoretical results and extensive experiments demonstrate that our two frameworks outperform existing methods on the logged dataset exhibits heavy-tailed reward distributions.
翻訳日:2023-10-31 16:53:27 公開日:2023-10-28
# 反復的信念更新のためのダルウィッチとパールの仮定の検討

An Investigation of Darwiche and Pearl's Postulates for Iterated Belief Update ( http://arxiv.org/abs/2310.18714v1 )

ライセンス: Link先を確認
Quanlong Guan, Tong Zhu, Liangda Fang, Junming Qiu, Zhao-Rong Lai, Weiqi Luo(参考訳) 信念の修正と更新 2 つの重要な信念の変化は、エージェントが新しい情報の存在において信念をどのように修正するかに焦点を当てている。 最も顕著な違いは、前者は静的な世界における信念の変化を研究し、後者は動的に変化する世界に集中している点である。 有名なAGMとKMの仮定は、それぞれ合理的な信念の修正と更新を捉えるために提案された。 しかし、どちらも過度に許容されすぎて、イテレーションで不合理な変更を除外できません。 この弱さに応えて、DPは、反復的信念修正のための提案とその拡張を提示した。 さらに、ロドリゲスはこれらの仮定を信条更新に統合した。 残念ながら、彼のアプローチは反復的信念更新の基本的な要件を満たしていない。 本論文はロドリゲスのアプローチのこの問題を解決することを目的としている。 まず, 信念状態に基づいて, 当初のkm推定値の修正を行った。 その後、反復的信念修正のためのいくつかのよく知られた仮定を反復的信念更新に移行した。 さらに,提案した各仮定に対する部分的事前順序に基づく正確な意味的特徴を与える。 最後に,上記の反復投機とkm投機との互換性を分析し,信条更新を行った。

Belief revision and update, two significant types of belief change, both focus on how an agent modify her beliefs in presence of new information. The most striking difference between them is that the former studies the change of beliefs in a static world while the latter concentrates on a dynamically-changing world. The famous AGM and KM postulates were proposed to capture rational belief revision and update, respectively. However, both of them are too permissive to exclude some unreasonable changes in the iteration. In response to this weakness, the DP postulates and its extensions for iterated belief revision were presented. Furthermore, Rodrigues integrated these postulates in belief update. Unfortunately, his approach does not meet the basic requirement of iterated belief update. This paper is intended to solve this problem of Rodrigues's approach. Firstly, we present a modification of the original KM postulates based on belief states. Subsequently, we migrate several well-known postulates for iterated belief revision to iterated belief update. Moreover, we provide the exact semantic characterizations based on partial preorders for each of the proposed postulates. Finally, we analyze the compatibility between the above iterated postulates and the KM postulates for belief update.
翻訳日:2023-10-31 16:53:12 公開日:2023-10-28
# 異種ニューラルプロセスを用いたエピソード多タスク学習

Episodic Multi-Task Learning with Heterogeneous Neural Processes ( http://arxiv.org/abs/2310.18713v1 )

ライセンス: Link先を確認
Jiayi Shen, Xiantong Zhen, Qi (Cheems) Wang, Marcel Worring(参考訳) 本稿では,エピソディックトレーニングにおけるマルチタスク学習におけるデータ不足問題に焦点を当てる。 具体的には,タスク間の異種情報やエピソード間のメタ知識の可能性を探り,限られたデータで各タスクに効果的に取り組む。 既存のメタ学習手法は、1つのエピソードにおいて重要な異種情報を活用するのに失敗することが多いが、マルチタスク学習モデルは以前のエピソードからの再利用経験を無視する。 不十分なデータに対処するため,エピソードマルチタスク設定のためのヘテロジニアスニューラルネットワーク(HNP)を開発した。 階層的ベイズの枠組みの中で、HNPはメタ知識としての経験を効果的に生かし、不均一なタスク間のタスク関連性を捉え、データ不足を緩和する。 一方、トランスストラクタ構造推論モジュールは、メタ知識とタスク関連性に対する効率的な推論を可能にするように設計されている。 このようにして、HNPは、メタテストの各エピソードにおいて、新しい異種タスクに適応するためのより強力な機能的事前を学習することができる。 実験結果から,提案したHNPは通常のベースラインよりも優れた性能を示し,アブレーション実験により設計した推論モジュールの有効性が検証された。

This paper focuses on the data-insufficiency problem in multi-task learning within an episodic training setup. Specifically, we explore the potential of heterogeneous information across tasks and meta-knowledge among episodes to effectively tackle each task with limited data. Existing meta-learning methods often fail to take advantage of crucial heterogeneous information in a single episode, while multi-task learning models neglect reusing experience from earlier episodes. To address the problem of insufficient data, we develop Heterogeneous Neural Processes (HNPs) for the episodic multi-task setup. Within the framework of hierarchical Bayes, HNPs effectively capitalize on prior experiences as meta-knowledge and capture task-relatedness among heterogeneous tasks, mitigating data-insufficiency. Meanwhile, transformer-structured inference modules are designed to enable efficient inferences toward meta-knowledge and task-relatedness. In this way, HNPs can learn more powerful functional priors for adapting to novel heterogeneous tasks in each meta-test episode. Experimental results show the superior performance of the proposed HNPs over typical baselines, and ablation studies verify the effectiveness of the designed inference modules.
翻訳日:2023-10-31 16:52:56 公開日:2023-10-28
# 音声と視覚のインスタンスセグメンテーション

Audio-Visual Instance Segmentation ( http://arxiv.org/abs/2310.18709v1 )

ライセンス: Link先を確認
Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying(参考訳) 本稿では,音声と視覚のインスタンスのセグメンテーション(avis, audio-visual instance segmentation)というマルチモーダルタスクを提案する。 私たちの知る限り、インスタンスセグメンテーションがオーディオ視覚領域に拡張されたのはこれが初めてです。 本研究を円滑に進めるため,AVISeg (Audio-visual instance segmentation benchmark) を構築した。 具体的には、AVISegは、YouTubeと公開オーディオビジュアルデータセットから平均62.6秒の1,258の動画で構成され、117の動画がSegment Anything Model (SAM)に基づいたインタラクティブな半自動ラベリングツールを使用して注釈付けされている。 さらに,AVISタスクのためのシンプルなベースラインモデルを提案する。 新たなモデルでは,モーダル融合モジュールとオーディオブランチをMask2Formerに導入し,全ての音源を探索する。 最後に,AVISeg上の2つのバックボーンを用いて提案手法の評価を行った。 AVISはコミュニティに、より包括的なマルチモーダルな理解を促すだろうと考えています。

In this paper, we propose a new multi-modal task, namely audio-visual instance segmentation (AVIS), in which the goal is to identify, segment, and track individual sounding object instances in audible videos, simultaneously. To our knowledge, it is the first time that instance segmentation has been extended into the audio-visual domain. To better facilitate this research, we construct the first audio-visual instance segmentation benchmark (AVISeg). Specifically, AVISeg consists of 1,258 videos with an average duration of 62.6 seconds from YouTube and public audio-visual datasets, where 117 videos have been annotated by using an interactive semi-automatic labeling tool based on the Segment Anything Model (SAM). In addition, we present a simple baseline model for the AVIS task. Our new model introduces an audio branch and a cross-modal fusion module to Mask2Former to locate all sounding objects. Finally, we evaluate the proposed method using two backbones on AVISeg. We believe that AVIS will inspire the community towards a more comprehensive multi-modal understanding.
翻訳日:2023-10-31 16:52:38 公開日:2023-10-28
# alerta-net:株移動と変動予測のための時間距離認識リカレントネットワーク

ALERTA-Net: A Temporal Distance-Aware Recurrent Networks for Stock Movement and Volatility Prediction ( http://arxiv.org/abs/2310.18706v1 )

ライセンス: Link先を確認
Shengkun Wang, YangXiao Bai, Kaiqun Fu, Linhan Wang, Chang-Tien Lu, Taoran Ji(参考訳) 投資家と政策立案者の両方にとって、株式市場の予測は経済の健全性を示す指標として不可欠である。 この目的のために、我々は、ソーシャルメディアデータ(世論の豊かな情報源)の力を利用して、株式市場予測の精度を高める。 従来の手法から切り離して、感情分析、マクロ経済指標、検索エンジンデータ、歴史的価格を多目的ディープラーニングモデルに統合し、データ固有の複雑なパターンを巧みに復号する手法を考案した。 株式市場の動きやボラティリティを予測するために,我々が特にキュレートしたデータセットを用いて,提案モデルの最先端のパフォーマンスを示す。

For both investors and policymakers, forecasting the stock market is essential as it serves as an indicator of economic well-being. To this end, we harness the power of social media data, a rich source of public sentiment, to enhance the accuracy of stock market predictions. Diverging from conventional methods, we pioneer an approach that integrates sentiment analysis, macroeconomic indicators, search engine data, and historical prices within a multi-attention deep learning model, masterfully decoding the complex patterns inherent in the data. We showcase the state-of-the-art performance of our proposed model using a dataset, specifically curated by us, for predicting stock market movements and volatility.
翻訳日:2023-10-31 16:52:20 公開日:2023-10-28
# 反復学習と単純な埋め込みによる構成一般化の改善

Improving Compositional Generalization Using Iterated Learning and Simplicial Embeddings ( http://arxiv.org/abs/2310.18777v1 )

ライセンス: Link先を確認
Yi Ren, Samuel Lavoie, Mikhail Galkin, Danica J. Sutherland, Aaron Courville(参考訳) 合成一般化は、潜在因子の組み合わせを認識できないように一般化するエージェントの能力であり、人間にとって容易であるが、ディープニューラルネットワークでは難しい。 認知科学における一連の研究は、人間の言語がこの能力をどのように発達させたかを説明するのに役立つ'iterated learning'というプロセスを仮定しており、この理論は圧縮性(無知のエージェントがインフォームドなエージェントから学ぶとき)と表現性(ダウンストリームタスクの表現を使用するとき)への同時的な圧力にかかっている。 このプロセスに触発されて,単純な埋め込みモデルを用いた反復学習を用いて,表現をほぼ離散化することにより,深層ネットワークの構成一般化を改善することを提案する。 このアプローチは、コルモゴロフ複雑性に基づく構成性の解析によってさらに動機づけられる。 この変化の組み合わせは、他のアプローチよりも合成一般化が改善され、よく理解されている潜在因子を持つ視覚タスクと、潜在構造が不明な実際の分子グラフ予測タスクの両方においてこれらの改善が示されている。

Compositional generalization, the ability of an agent to generalize to unseen combinations of latent factors, is easy for humans but hard for deep neural networks. A line of research in cognitive science has hypothesized a process, ``iterated learning,'' to help explain how human language developed this ability; the theory rests on simultaneous pressures towards compressibility (when an ignorant agent learns from an informed one) and expressivity (when it uses the representation for downstream tasks). Inspired by this process, we propose to improve the compositional generalization of deep networks by using iterated learning on models with simplicial embeddings, which can approximately discretize representations. This approach is further motivated by an analysis of compositionality based on Kolmogorov complexity. We show that this combination of changes improves compositional generalization over other approaches, demonstrating these improvements both on vision tasks with well-understood latent factors and on real molecular graph prediction tasks where the latent structure is unknown.
翻訳日:2023-10-31 16:46:02 公開日:2023-10-28
# 非凸確率勾配における非調整一般化ハミルトンモンテカルロの反射結合

Reflection coupling for unadjusted generalized Hamiltonian Monte Carlo in the nonconvex stochastic gradient case ( http://arxiv.org/abs/2310.18774v1 )

ライセンス: Link先を確認
Martin Chak and Pierre Monmarch\'e(参考訳) ワッサーシュタイン 1-距離の明示的な速度での縮約は、非凸条件下で確率勾配を持つ一般化ハミルトニアン・モンテカルロに対して成立する。 アルゴリズムは、動力学的ランジュバン拡散の分割スキームを含む。 その結果、経験平均に対して定量的ガウス濃度境界が与えられる。 ワッサーシュタインの2次元距離、全変動、相対エントロピーの収束も数値バイアス推定とともに与えられる。

Contraction in Wasserstein 1-distance with explicit rates is established for generalized Hamiltonian Monte Carlo with stochastic gradients under possibly nonconvex conditions. The algorithms considered include splitting schemes of kinetic Langevin diffusion. As consequence, quantitative Gaussian concentration bounds are provided for empirical averages. Convergence in Wasserstein 2-distance, total variation and relative entropy are also given, together with numerical bias estimates.
翻訳日:2023-10-31 16:45:33 公開日:2023-10-28
# cityrefer:都市規模ポイントクラウドデータに基づく地理対応3dビジュアルグラウンドデータセット

CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data ( http://arxiv.org/abs/2310.18773v1 )

ライセンス: Link先を確認
Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, Nakamasa Inoue(参考訳) 都市規模の3dポイントクラウドは、詳細かつ複雑な屋外構造を表現する有望な方法である。 これは、自動車、道路、建物を含む分断された都市の構成要素の外観と幾何学的特徴を包含しており、自動運転車やドローンのユーザ対話ナビゲーションのような魅力的な用途に利用できる。 しかし、画像や屋内シーンで利用できる広範なテキストアノテーションに比べ、屋外シーンでのテキストアノテーションの不足は、これらのアプリケーションを実現する上で大きな課題となっている。 この問題に対処するために,都市レベルの視覚的接地のためのCityReferデータセットを提案する。 データセットは、SensatUrbanの都市シーンに現れる3Dオブジェクトの35kの自然言語記述と、OpenStreetMapと同期する5kのランドマークラベルで構成されている。 データセットの品質と正確性を保証するため、CityReferデータセットのすべての記述とラベルが手作業で検証される。 また,CityReferデータセットに基づく視覚的グラウンド化を行うために,符号化言語記述や3Dオブジェクトインスタンス,都市のランドマークに関する地理情報を学習できるベースラインシステムを開発した。 私たちの知る限りでは、cityreferデータセットは、特定の3dオブジェクトをローカライズするための、最大の都市レベルのビジュアルグラウンドデータセットです。

City-scale 3D point cloud is a promising way to express detailed and complicated outdoor structures. It encompasses both the appearance and geometry features of segmented city components, including cars, streets, and buildings, that can be utilized for attractive applications such as user-interactive navigation of autonomous vehicles and drones. However, compared to the extensive text annotations available for images and indoor scenes, the scarcity of text annotations for outdoor scenes poses a significant challenge for achieving these applications. To tackle this problem, we introduce the CityRefer dataset for city-level visual grounding. The dataset consists of 35k natural language descriptions of 3D objects appearing in SensatUrban city scenes and 5k landmarks labels synchronizing with OpenStreetMap. To ensure the quality and accuracy of the dataset, all descriptions and labels in the CityRefer dataset are manually verified. We also have developed a baseline system that can learn encoded language descriptions, 3D object instances, and geographical information about the city's landmarks to perform visual grounding on the CityRefer dataset. To the best of our knowledge, the CityRefer dataset is the largest city-level visual grounding dataset for localizing specific 3D objects.
翻訳日:2023-10-31 16:45:23 公開日:2023-10-28
# 最適歩行設計のためのデータ駆動型レコメンデーションフレームワーク

A Data-driven Recommendation Framework for Optimal Walker Designs ( http://arxiv.org/abs/2310.18772v1 )

ライセンス: Link先を確認
Advaith Narayanan(参考訳) 統計モデリングと機械学習の急速に進歩する分野は、データ駆動設計と最適化を大幅に強化した。 本稿では,下肢の歩行リハビリテーションと生理的治療の不可欠な部分であるメディカルウォーカーの最適化にこれらの設計アルゴリズムを活用することに焦点を当てる。 歩行者の望ましい特性を達成するため,性能目標間のトレードオフを特定するために予測機械学習モデルを訓練し,効率的な最適化アルゴリズムを実現する。 これを実現するために、従来のmlモデルよりも優れるスタックダンブルアプローチを利用した、自動化された機械学習モデルを使用する。 しかし、予測モデルのトレーニングには大量のデータが必要である。 公に利用可能なウォーカー設計のため、本論文は質量、構造的完全性、安定性を評価するための性能値を持つ5000以上のパラメトリックウォーカー設計のデータセットを提案する。 これらの性能値は、与えられた負荷ケースに対する変位ベクトル、応力係数、質量、その他の物理的性質を含む。 また,歩行者の安定性指標を体系的に計算する新しい手法を提案する。 我々は,新しい遺伝的アルゴリズムであるMultiObjective Counterfactuals for Design (MCD) を用いて,多様な16次元デザイン空間を探索し,多目的に基づく高性能デザインの探索を行う。 本稿では,構造安定性と整合性を高めつつ,30%の質量減少を示す潜在的な歩行設計を提案する。 この研究は、補助移動装置の開発改善に向けた一歩を踏み出した。

The rapidly advancing fields of statistical modeling and machine learning have significantly enhanced data-driven design and optimization. This paper focuses on leveraging these design algorithms to optimize a medical walker, an integral part of gait rehabilitation and physiological therapy of the lower extremities. To achieve the desirable qualities of a walker, we train a predictive machine-learning model to identify trade-offs between performance objectives, thus enabling the use of efficient optimization algorithms. To do this, we use an Automated Machine Learning model utilizing a stacked-ensemble approach shown to outperform traditional ML models. However, training a predictive model requires vast amounts of data for accuracy. Due to limited publicly available walker designs, this paper presents a dataset of more than 5,000 parametric walker designs with performance values to assess mass, structural integrity, and stability. These performance values include displacement vectors for the given load case, stress coefficients, mass, and other physical properties. We also introduce a novel method of systematically calculating the stability index of a walker. We use MultiObjective Counterfactuals for Design (MCD), a novel genetic-based optimization algorithm, to explore the diverse 16-dimensional design space and search for high-performing designs based on numerous objectives. This paper presents potential walker designs that demonstrate up to a 30% mass reduction while increasing structural stability and integrity. This work takes a step toward the improved development of assistive mobility devices.
翻訳日:2023-10-31 16:44:49 公開日:2023-10-28
# スパースニューラルネットワークにおける線形モード接続

Linear Mode Connectivity in Sparse Neural Networks ( http://arxiv.org/abs/2310.18769v1 )

ライセンス: Link先を確認
Luke McDermott, Daniel Cummings(参考訳) スパースニューラルネットワークの関心が高まり、合成データによるニューラルネットワークのプルーニングが、独自のトレーニング特性を持つスパースネットワークにどのように寄与するかを研究する。 実データの合成要約である蒸留データと反復的マグニチュードプルーニング(imp)を組み合わせることにより,実データに対するsgdノイズに対する安定性が向上する新たなクラスのスパースネットワークが,密度モデルやimp内の実データで検出されるサブネットワークよりも明らかにされる。 つまり、合成的に選択されたサブネットワークは、しばしば同じミニマにトレーニングするか、線形モード接続を示す。 我々は,線形補間,ロスランドスケープの可視化,ヘシアンの対角方向の計測を通じてこれを研究する。 フィールドとしてのデータセットの蒸留はまだ若いが、これらの性質は、蒸留データが適用される設定において、従来のIMPのパフォーマンスを最大150倍のトレーニングポイントで一致させる合成サブネットに繋がる。

With the rise in interest of sparse neural networks, we study how neural network pruning with synthetic data leads to sparse networks with unique training properties. We find that distilled data, a synthetic summarization of the real data, paired with Iterative Magnitude Pruning (IMP) unveils a new class of sparse networks that are more stable to SGD noise on the real data, than either the dense model, or subnetworks found with real data in IMP. That is, synthetically chosen subnetworks often train to the same minima, or exhibit linear mode connectivity. We study this through linear interpolation, loss landscape visualizations, and measuring the diagonal of the hessian. While dataset distillation as a field is still young, we find that these properties lead to synthetic subnetworks matching the performance of traditional IMP with up to 150x less training points in settings where distilled data applies.
翻訳日:2023-10-31 16:44:07 公開日:2023-10-28
# 通路を横切る:ニュース報道における党派・反党派イベントの展開

Crossing the Aisle: Unveiling Partisan and Counter-Partisan Events in News Reporting ( http://arxiv.org/abs/2310.18768v1 )

ライセンス: Link先を確認
Kaijian Zou, Xinliang Frederick Zhang, Winston Wu, Nick Beauchamp, Lu Wang(参考訳) メディアは偏見のない報道を裏付けると予想されている。 しかし、イデオロギー的な立場を支持する、あるいは矛盾する出来事を選択的に含む、または省略することで、世論に影響を与える可能性がある。 nlpの先行研究は、言語スタイルと単語の使用を通してメディアバイアスのみを研究してきた。 本稿では,メディアがニュース報道のバランスを保ち,イベント包摂や欠落を通じて消費者に影響を与えるかを検討する。 まず、著者の政治的イデオロギーを支持し、反対するイベントという、パルチザンと反パルチザンの両方の事象を検出するタスクを紹介する。 本研究では,イデオロギーに富んだメディアから304のニュース記事に8,511件のパーティーイベントアノテーションを含む高品質なデータセットPACを注釈する。 PACをベンチマークして、このタスクの課題を強調します。 その結果,ニュースが微妙に意見を形成する方法と,より広い文脈での出来事をよりよく理解する大規模言語モデルの必要性の両方を強調した。 データセットはhttps://github.com/ Launchnlp/Partisan-Event-Dataset.comで参照できます。

News media is expected to uphold unbiased reporting. Yet they may still affect public opinion by selectively including or omitting events that support or contradict their ideological positions. Prior work in NLP has only studied media bias via linguistic style and word usage. In this paper, we study to which degree media balances news reporting and affects consumers through event inclusion or omission. We first introduce the task of detecting both partisan and counter-partisan events: events that support or oppose the author's political ideology. To conduct our study, we annotate a high-quality dataset, PAC, containing 8,511 (counter-)partisan event annotations in 304 news articles from ideologically diverse media outlets. We benchmark PAC to highlight the challenges of this task. Our findings highlight both the ways in which the news subtly shapes opinion and the need for large language models that better understand events within a broader context. Our dataset can be found at https://github.com/launchnlp/Partisan-Event-Dataset.
翻訳日:2023-10-31 16:43:34 公開日:2023-10-28
# バイアス分散分解による半教師付き不均衡ノード分類の再検討

Rethinking Semi-Supervised Imbalanced Node Classification from Bias-Variance Decomposition ( http://arxiv.org/abs/2310.18765v1 )

ライセンス: Link先を確認
Divin Yan, Gengchen Wei, Chen Yang, Shengzhong Zhang, Zengfeng Huang(参考訳) 本稿では,グラフ構造データ学習のためのグラフニューラルネットワーク(GNN)におけるクラス不均衡問題に対する新しいアプローチを提案する。 提案手法は不均衡ノード分類とバイアス分散分解を統合し,データ不均衡とモデル分散を密接に関連付ける理論的枠組みを確立する。 また,グラフ増分手法を利用して分散を推定し,不均衡の影響を軽減するために正規化項を設計する。 自然に不均衡なデータセットや、パブリックなクラス不均衡なデータセットを含む複数のベンチマークで試験を行い、我々の手法が様々な不均衡なシナリオで最先端の手法よりも優れていることを示した。 この研究は、GNNにおける不均衡ノード分類の問題に対処するための新しい理論的視点を提供する。

This paper introduces a new approach to address the issue of class imbalance in graph neural networks (GNNs) for learning on graph-structured data. Our approach integrates imbalanced node classification and Bias-Variance Decomposition, establishing a theoretical framework that closely relates data imbalance to model variance. We also leverage graph augmentation technique to estimate the variance, and design a regularization term to alleviate the impact of imbalance. Exhaustive tests are conducted on multiple benchmarks, including naturally imbalanced datasets and public-split class-imbalanced datasets, demonstrating that our approach outperforms state-of-the-art methods in various imbalanced scenarios. This work provides a novel theoretical perspective for addressing the problem of imbalanced node classification in GNNs.
翻訳日:2023-10-31 16:43:09 公開日:2023-10-28
# purify++:先進拡散モデルによる拡散浄化の改善とランダム性制御

Purify++: Improving Diffusion-Purification with Advanced Diffusion Models and Control of Randomness ( http://arxiv.org/abs/2310.18762v1 )

ライセンス: Link先を確認
Boya Zhang, Weijian Luo, Zhihua Zhang(参考訳) 敵攻撃はニューラルネットワーク分類器を誤解させる可能性がある。 敵攻撃に対する防御はAIの安全性にとって重要である。 敵の浄化は、敵の攻撃を適切な前処理で防御するアプローチのファミリーである。 拡散モデルは敵の浄化に有効であることが示されている。 その成功にもかかわらず、拡散浄化の多くの側面はまだ未解明のままである。 本稿では,拡散モデルの改良,高度な数値シミュレーション手法,ランダム性の最適制御という,拡散浄化の3つの限界設計について検討・改善を行う。 そこで本研究では,新たな拡散浄化アルゴリズムであるpurify++を提案する。 本研究は拡散浄化法の限界を体系的に探究するものである。

Adversarial attacks can mislead neural network classifiers. The defense against adversarial attacks is important for AI safety. Adversarial purification is a family of approaches that defend adversarial attacks with suitable pre-processing. Diffusion models have been shown to be effective for adversarial purification. Despite their success, many aspects of diffusion purification still remain unexplored. In this paper, we investigate and improve upon three limiting designs of diffusion purification: the use of an improved diffusion model, advanced numerical simulation techniques, and optimal control of randomness. Based on our findings, we propose Purify++, a new diffusion purification algorithm that is now the state-of-the-art purification method against several adversarial attacks. Our work presents a systematic exploration of the limits of diffusion purification methods.
翻訳日:2023-10-31 16:42:51 公開日:2023-10-28
# 大規模言語モデルに基づくText-to-SQL, Text-to-Python, Text-to-Functionのリブートとトラフィック領域への応用

Reboost Large Language Model-based Text-to-SQL, Text-to-Python, and Text-to-Function -- with Real Applications in Traffic Domain ( http://arxiv.org/abs/2310.18752v1 )

ライセンス: Link先を確認
Guanghu Sui, Zhishuai Li, Ziyue Li, Sun Yang, Jingqing Ruan, Hangyu Mao, Rui Zhao(参考訳) それまでの最先端(SOTA)メソッドは、Text-to-SQLドメインで最大かつ最も多様なデータセットの1つであるSpiderデータセット上で、驚くべき実行精度を達成した。 しかし、ビジネスデータセットの再生中に、パフォーマンスの大幅な低下が観察された。 データセットの複雑さの違いと質問の意図の明確さについて検討し,これらの違いがプロンプト手法の性能に与える影響について検討した。 次に,クエリの書き直しとSQLの強化を主眼とする,より適応的で汎用的なプロンプト手法を開発し,曖昧な情報を正確かつ正確な情報に変換し,データベースコンテンツからの実行フィードバックとクエリ結果を統合することでSQL自体を強化する。 情報ギャップを防ぐために、プロンプト内のデータベース記述の一部として、列に対するコメント、値タイプ、値サンプルを含めます。 大規模言語モデル(llm)を用いた実験では、ビジネスデータセットにおける大幅なパフォーマンス改善と、メソッドの実質的な可能性を示す。 ビジネスデータセットの実行精度については,SOTA法が21.05,我々のアプローチが65.79であった。 その結果,未熟な事前学習言語モデルを用いた場合においても,優れた性能向上が達成できた。 最後に、Text-to-PythonとText-to-Functionのオプションについても検討し、コミュニティに貴重な洞察を提供しながら、それらの長所と短所を深く分析します。

Previous state-of-the-art (SOTA) method achieved a remarkable execution accuracy on the Spider dataset, which is one of the largest and most diverse datasets in the Text-to-SQL domain. However, during our reproduce of the business dataset, we observed a significant drop in performance. We examined the differences in dataset complexity, as well as the clarity of questions' intentions, and assessed how those differences could impact the performance of prompting methods. Subsequently, We develop a more adaptable and more general prompting method, involving mainly query rewriting and SQL boosting, which respectively transform vague information into exact and precise information and enhance the SQL itself by incorporating execution feedback and the query results from the database content. In order to prevent information gaps, we include the comments, value types, and value samples for columns as part of the database description in the prompt. Our experiments with Large Language Models (LLMs) illustrate the significant performance improvement on the business dataset and prove the substantial potential of our method. In terms of execution accuracy on the business dataset, the SOTA method scored 21.05, while our approach scored 65.79. As a result, our approach achieved a notable performance improvement even when using a less capable pre-trained language model. Last but not the least, we also explore the Text-to-Python and Text-to-Function options, and we deeply analyze the pros and cons among them, offering valuable insights to the community.
翻訳日:2023-10-31 16:42:27 公開日:2023-10-28
# 相互偏りのないベースによる極小クリフォード影推定

Minimal Clifford Shadow Estimation by Mutually Unbiased Bases ( http://arxiv.org/abs/2310.18749v1 )

ライセンス: Link先を確認
Qingyue Zhang, Qing Liu, and You Zhou(参考訳) 大規模量子システムの予測特性は、量子科学と技術の発展に不可欠である。 シャドウ推定は、多くの量子ビットランダムクリフォード回路を用いて量子忠実度などの大域特性を推定するランダム化測定に基づく、このタスクの効率的な方法である。 ここでは、最小のクリフォード測定(MCM)を導入し、有効な後処理チャネルをシャドウ推定に保ちながら、可能な乱数回路の数を最小に抑える。 特に、mcmは2^n+1$の異なるクリフォード回路を必要としており、n$を合計量子ビット数とする相互に偏りのないベース(mub)によって実現可能である。 z-tableau形式を適用することで、この回路のアンサンブルは$\mathrm{-s-cz-h-}$構造に合成でき、これは$n-1$ \emph{fixed}回路モジュールで構成でき、回路の深さは最大で$n+1$である。 元のクリフォード測定と比較すると、MCMは回路の複雑さとコンパイルコストを大幅に削減する。 さらに,MCMの非対角作用素推定におけるサンプリングの利点を見出すとともに,この観測結果をバイアス付きMCM方式に拡張し,サンプリング改善をさらに強化する。

Predicting properties of large-scale quantum systems is crucial for the development of quantum science and technology. Shadow estimation is an efficient method for this task based on randomized measurements, where many-qubit random Clifford circuits are used for estimating global properties like quantum fidelity. Here we introduce the minimal Clifford measurement (MCM) to reduce the number of possible random circuits to the minimum, while keeping the effective post-processing channel in shadow estimation. In particular, we show that MCM requires $2^n+1$ distinct Clifford circuits, and it can be realized by Mutually Unbiased Bases (MUB), with $n$ as the total qubit number. By applying the Z-Tableau formalism, this ensemble of circuits can be synthesized to the $\mathrm{-S-CZ-H-}$ structure, which can be composed by $2n-1$ \emph{fixed} circuit modules, and the total circuit depth is at most $n+1$. Compared to the original Clifford measurements, our MCM significantly reduces the circuit complexity and the compilation costs. In addition, we find the sampling advantage of MCM on estimating off-diagonal operators, and extend this observation to the biased-MCM scheme to enhance the sampling improvement further.
翻訳日:2023-10-31 16:42:00 公開日:2023-10-28
# 効用に基づく不足リスクの最適化:非漸近的視点

Optimization of utility-based shortfall risk: A non-asymptotic viewpoint ( http://arxiv.org/abs/2310.18743v1 )

ライセンス: Link先を確認
Sumedh Gupte, Prashanth L. A., Sanjay P. Bhat(参考訳) 本稿では,金融のリスク指標であるユーティリティ・ベース・ショートフォールリスク(UBSR)の推定と最適化の問題点について考察する。 UBSR推定の文脈では、UBSRの古典的サンプル平均近似(SAA)の平均二乗誤差に基づく非漸近境界を導出する。 次に、UBSR最適化の文脈において、スムーズなパラメータ化の下でUBSR勾配の式を導出する。 この表現は、UBSRを含む期待の比率である。 我々は, ubsr勾配式における分母と同様に, saa を用いて偏勾配推定器に到達した。 推定誤差の非漸近境界を導出し、勾配推定器が漸近的に偏りがないことを示す。 上述の勾配推定器をUBSR最適化のための確率勾配(SG)アルゴリズムに組み込む。 最後に、UBSR最適化のためのSGアルゴリズムの収束率を定量化する非漸近境界を導出する。

We consider the problems of estimation and optimization of utility-based shortfall risk (UBSR), which is a popular risk measure in finance. In the context of UBSR estimation, we derive a non-asymptotic bound on the mean-squared error of the classical sample average approximation (SAA) of UBSR. Next, in the context of UBSR optimization, we derive an expression for the UBSR gradient under a smooth parameterization. This expression is a ratio of expectations, both of which involve the UBSR. We use SAA for the numerator as well as denominator in the UBSR gradient expression to arrive at a biased gradient estimator. We derive non-asymptotic bounds on the estimation error, which show that our gradient estimator is asymptotically unbiased. We incorporate the aforementioned gradient estimator into a stochastic gradient (SG) algorithm for UBSR optimization. Finally, we derive non-asymptotic bounds that quantify the rate of convergence of our SG algorithm for UBSR optimization.
翻訳日:2023-10-31 16:41:35 公開日:2023-10-28
# インダクティブ・ウィーディングによるメタラーニングの指導について : 一貫性規則化への応用

On Training Implicit Meta-Learning With Applications to Inductive Weighing in Consistency Regularization ( http://arxiv.org/abs/2310.18741v1 )

ライセンス: Link先を確認
Fady Rezk(参考訳) 暗黙の勾配を用いたメタラーニングは、インナーループトレーニングの軌道に依存する標準技術に代わるエキサイティングな代替手段となった。 しかし、IML(Implicit meta-learning)は、現代のディープラーニングモデルでは計算できない2-nd=順序勾配(特にヘッセン)の計算を必要とする。 ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見落とされた。 本研究は,IMLトレーニングルーチンに組み込んだ各種近似法とその効果の系統的比較分析を行うことから始める。 IMLで破滅的な忘れ物が出現する状況を確立し, 収束点の曲率を推定する近似の不備の観点から, その原因を説明する。 IMLトレーニング不安定の原因を実証し、改善する。 また, 種々の逆ヘッセンベクトル積近似法の有効性の詳細な解析を行った。 その後、得られた知見を用いて、整合性正規化損失を誘導的に重み付けする新しい半教師付き学習アルゴリズムを提案し、評価する。 信頼ネットワーク」を訓練してドメイン固有の特徴を抽出し、有用画像のアップウェイトと配信外サンプルのダウンウェイトを学習する方法を示す。 結果はベースラインのフィクスマッチ性能を上回る。

Meta-learning that uses implicit gradient have provided an exciting alternative to standard techniques which depend on the trajectory of the inner loop training. Implicit meta-learning (IML), however, require computing $2^{nd}$ order gradients, particularly the Hessian which is impractical to compute for modern deep learning models. Various approximations for the Hessian were proposed but a systematic comparison of their compute cost, stability, generalization of solution found and estimation accuracy were largely overlooked. In this study, we start by conducting a systematic comparative analysis of the various approximation methods and their effect when incorporated into IML training routines. We establish situations where catastrophic forgetting is exhibited in IML and explain their cause in terms of the inability of the approximations to estimate the curvature at convergence points. Sources of IML training instability are demonstrated and remedied. A detailed analysis of the effeciency of various inverse Hessian-vector product approximation methods is also provided. Subsequently, we use the insights gained to propose and evaluate a novel semi-supervised learning algorithm that learns to inductively weigh consistency regularization losses. We show how training a "Confidence Network" to extract domain specific features can learn to up-weigh useful images and down-weigh out-of-distribution samples. Results outperform the baseline FixMatch performance.
翻訳日:2023-10-31 16:41:21 公開日:2023-10-28
# TraceDiag: 大規模マイクロサービスシステムにおける適応的、解釈可能、効率的なルート原因分析

TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems ( http://arxiv.org/abs/2310.18740v1 )

ライセンス: Link先を確認
Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Xiaomin Wu, Meng Zhang, Qingjun Chen, Xin Gao, Xuedong Gao, Hao Fan, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) マイクロサービスシステムの信頼性を確保する上で,ルート原因分析(rca)がますます重要になっている。 しかしながら、現代のマイクロサービスシステムでのRCAの実行は、通常は数百のコンポーネントで構成されるため、大規模なため、難しい場合がある。 本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。 強化学習を利用してサービス依存グラフのプルーニングポリシーを学習し、冗長なコンポーネントを自動的に排除し、rca効率を大幅に改善します。 学習されたプルーニングポリシーは解釈可能で、新しいRCAインスタンスに完全に適応する。 刈り取ったグラフでは、高い精度と効率で因果ベースの方法を実行することができる。 提案したTraceDiagフレームワークは、Microsoft Exchangeシステムから収集された実際のデータトレースに基づいて評価され、最先端のRCAアプローチと比較して優れたパフォーマンスを示す。 特に、TraceDiagはMicrosoft M365 Exchangeの重要なコンポーネントとして統合されており、システムの信頼性が大幅に向上し、RCAに必要な人的労力が大幅に削減された。

Root Cause Analysis (RCA) is becoming increasingly crucial for ensuring the reliability of microservice systems. However, performing RCA on modern microservice systems can be challenging due to their large scale, as they usually comprise hundreds of components, leading significant human effort. This paper proposes TraceDiag, an end-to-end RCA framework that addresses the challenges for large-scale microservice systems. It leverages reinforcement learning to learn a pruning policy for the service dependency graph to automatically eliminates redundant components, thereby significantly improving the RCA efficiency. The learned pruning policy is interpretable and fully adaptive to new RCA instances. With the pruned graph, a causal-based method can be executed with high accuracy and efficiency. The proposed TraceDiag framework is evaluated on real data traces collected from the Microsoft Exchange system, and demonstrates superior performance compared to state-of-the-art RCA approaches. Notably, TraceDiag has been integrated as a critical component in the Microsoft M365 Exchange, resulting in a significant improvement in the system's reliability and a considerable reduction in the human effort required for RCA.
翻訳日:2023-10-31 16:40:57 公開日:2023-10-28
# TLM:トランスフォーマーのためのToken-Level Masking

TLM: Token-Level Masking for Transformers ( http://arxiv.org/abs/2310.18738v1 )

ライセンス: Link先を確認
Yangjun Wu, Kebin Fang, Dongxiang Zhang, Han Wang, Hao Zhang, Gang Chen(参考訳) トランスフォーマーのマルチヘッドアテンション機構を標準化するために,アテンションドロップアウトやDropHeadなどの構造化ドロップアウト手法が検討されている。 本稿では,オーバーフィッティングを減らすために,構造レベルではなくトークンレベルに基づく新しい正規化スキームを提案する。 具体的には,トランスフォーマーに対して,効果的で実装が容易な2つのマスキング技術からなる自己注意の接続を規則化する,新たなTLMトレーニング戦略を考案する。 根底にある考え方は、マスキングによってマルチヘッドアテンションにおけるトークン間の接続を操作することであり、そこでネットワークは、部分的な隣人の情報を利用して意味のある表現を作り出すことを余儀なくされる。 TLMの汎用性と有効性は、自然言語理解ベンチマークGLUE, ChineseGLUE, Chinese Grammatical Error Correction, data-to-text generationを含む18のデータセットにまたがる4つの分散NLPタスクに関する広範な実験を通じて、徹底的に評価される。 以上の結果から,TLM は GLUE 上での BERT-large のDropHead と比較して 0.5 ポイント増加し,常に注目ドロップアウトを上回り得ることが示された。 さらに、TLMはデータからテキストへのベンチマークであるRotowire (18.93 BLEU)に新しい記録を樹立することができる。 私たちのコードはhttps://github.com/young1993/tlmで公開されます。

Structured dropout approaches, such as attention dropout and DropHead, have been investigated to regularize the multi-head attention mechanism in Transformers. In this paper, we propose a new regularization scheme based on token-level rather than structure-level to reduce overfitting. Specifically, we devise a novel Token-Level Masking (TLM) training strategy for Transformers to regularize the connections of self-attention, which consists of two masking techniques that are effective and easy to implement. The underlying idea is to manipulate the connections between tokens in the multi-head attention via masking, where the networks are forced to exploit partial neighbors' information to produce a meaningful representation. The generality and effectiveness of TLM are thoroughly evaluated via extensive experiments on 4 diversified NLP tasks across 18 datasets, including natural language understanding benchmark GLUE, ChineseGLUE, Chinese Grammatical Error Correction, and data-to-text generation. The results indicate that TLM can consistently outperform attention dropout and DropHead, e.g., it increases by 0.5 points relative to DropHead with BERT-large on GLUE. Moreover, TLM can establish a new record on the data-to-text benchmark Rotowire (18.93 BLEU). Our code will be publicly available at https://github.com/Young1993/tlm.
翻訳日:2023-10-31 16:40:39 公開日:2023-10-28
# ランダム直交投影画像モデリングによる事前学習

Pre-training with Random Orthogonal Projection Image Modeling ( http://arxiv.org/abs/2310.18737v1 )

ライセンス: Link先を確認
Maryam Haghighat, Peyman Moghadam, Shaheer Mohamed, Piotr Koniusz(参考訳) Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。 MIMは画像入力にランダムな作物を適用し、エンコーダで処理し、デコーダでマスクされた入力を復元する。 MIMから得られた中間特徴表現は下流タスクの微調整に適している。 本稿では,MIMのような二元マスキングの代わりに,ランダム直交投影に基づく画像モデリングフレームワークを提案する。 提案するランダム直交射影画像モデリング(ropim)は,雑音分散の保証された制約下での空間的トークン情報を低減し,局所的に変化するマスキング度の下で空間的画像領域全体をマスキングできる。 ROPIMはプロジェクションにランダムなサブスペースを使用し、マスキングのステップを実現するため、サブスペースの簡易補完はアンマスキング時に使用でき、削除された情報の回復を促進することができる。 本稿では,ランダム直交射影を用いると,作物のマスキングよりも優れた性能が得られることを示す。 我々はいくつかの人気のあるベンチマークで最先端の結果を示す。

Masked Image Modeling (MIM) is a powerful self-supervised strategy for visual pre-training without the use of labels. MIM applies random crops to input images, processes them with an encoder, and then recovers the masked inputs with a decoder, which encourages the network to capture and learn structural information about objects and scenes. The intermediate feature representations obtained from MIM are suitable for fine-tuning on downstream tasks. In this paper, we propose an Image Modeling framework based on random orthogonal projection instead of binary masking as in MIM. Our proposed Random Orthogonal Projection Image Modeling (ROPIM) reduces spatially-wise token information under guaranteed bound on the noise variance and can be considered as masking entire spatial image area under locally varying masking degrees. Since ROPIM uses a random subspace for the projection that realizes the masking step, the readily available complement of the subspace can be used during unmasking to promote recovery of removed information. In this paper, we show that using random orthogonal projection leads to superior performance compared to crop-based masking. We demonstrate state-of-the-art results on several popular benchmarks.
翻訳日:2023-10-31 16:39:56 公開日:2023-10-28
# モデルに基づく安全な強化学習のための階層的枠組み

Hierarchical Framework for Interpretable and Probabilistic Model-Based Safe Reinforcement Learning ( http://arxiv.org/abs/2310.18811v1 )

ライセンス: Link先を確認
Ammar N. Abbas, Georgios C. Chasparis, and John D. Kelleher(参考訳) 複雑なシステムの物理モデルを特定することの難しさは、そのような複雑なシステムのモデリングに依存しない方法の探求につながった。 深層強化学習(Deep reinforcement learning)は、複雑なシステムの物理的モデルに頼る必要なしに、この問題を解決した先駆者である。 しかし、ブラックボックス学習アプローチを用いることで、モデルから派生したアクションの説明をすることなく、実世界および安全クリティカルなシステムで適用することが困難になる。 さらに、深層強化学習におけるオープンリサーチの質問は、スパースドメイン内の重要な決定のポリシー学習にフォーカスする方法である。 本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。 確率的モデリングと強化学習の利点と、解釈可能性の付加的な利点を組み合わせることで、従来の意思決定戦略と協調して働く。 BC-SRLAは、確率モデルの融合情報や、異常状態やシステム障害に近い状況などの強化学習を通じて、自律的に特定される特定の状況において活性化される。 さらに、安全上重要な産業において、RLの使用に伴う課題に対処するため、環境との最小限の対話を可能にするため、ポリシークローニングを用いた基本方針で初期化される。 BC-SRLAの有効性は、ターボファンエンジンのメンテナンスにおけるケーススタディを通じて実証され、従来の技術や他のベースラインよりも優れた性能を示す。

The difficulty of identifying the physical model of complex systems has led to exploring methods that do not rely on such complex modeling of the systems. Deep reinforcement learning has been the pioneer for solving this problem without the need for relying on the physical model of complex systems by just interacting with it. However, it uses a black-box learning approach that makes it difficult to be applied within real-world and safety-critical systems without providing explanations of the actions derived by the model. Furthermore, an open research question in deep reinforcement learning is how to focus the policy learning of critical decisions within a sparse domain. This paper proposes a novel approach for the use of deep reinforcement learning in safety-critical systems. It combines the advantages of probabilistic modeling and reinforcement learning with the added benefits of interpretability and works in collaboration and synchronization with conventional decision-making strategies. The BC-SRLA is activated in specific situations which are identified autonomously through the fused information of probabilistic model and reinforcement learning, such as abnormal conditions or when the system is near-to-failure. Further, it is initialized with a baseline policy using policy cloning to allow minimum interactions with the environment to address the challenges associated with using RL in safety-critical industries. The effectiveness of the BC-SRLA is demonstrated through a case study in maintenance applied to turbofan engines, where it shows superior performance to the prior art and other baselines.
翻訳日:2023-10-31 16:32:16 公開日:2023-10-28
# OC-NMN:ビジュアルアナロジカル推論のためのオブジェクト中心合成ニューラルネットワーク

OC-NMN: Object-centric Compositional Neural Module Network for Generative Visual Analogical Reasoning ( http://arxiv.org/abs/2310.18807v1 )

ライセンス: Link先を確認
Rim Assouel, Pau Rodriguez, Perouz Taslakian, David Vazquez, Yoshua Bengio(参考訳) 人間の知性の重要な側面は、新しいシナリオを理解するために、新しい方法で学習された概念を想像する能力である。 このような能力は機械学習システムでは実現されていない。 本稿では,視覚的推論の文脈において,想像力に触発された構成的データ拡張フレームワークを導出するために,モジュラリティをいかに活用できるかを示す。 本手法は,オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて,視覚生成推論タスクを,ドメイン固有言語を使わずにオブジェクトに適用した一連のプリミティブに分解する。 モジュラーアーキテクチャの選択は、配布外一般化の改善につながる新しいトレーニングタスクを生成するために使用できることを示す。 我々は,MNIST桁に算術演算を適用した視覚推論ベンチマークにおいて,既存のベースラインと新しいベースラインを比較した。

A key aspect of human intelligence is the ability to imagine -- composing learned concepts in novel ways -- to make sense of new scenarios. Such capacity is not yet attained for machine learning systems. In this work, in the context of visual reasoning, we show how modularity can be leveraged to derive a compositional data augmentation framework inspired by imagination. Our method, denoted Object-centric Compositional Neural Module Network (OC-NMN), decomposes visual generative reasoning tasks into a series of primitives applied to objects without using a domain-specific language. We show that our modular architectural choices can be used to generate new training tasks that lead to better out-of-distribution generalization. We compare our model to existing and new baselines in proposed visual reasoning benchmark that consists of applying arithmetic operations to MNIST digits.
翻訳日:2023-10-31 16:31:53 公開日:2023-10-28
# 逆距離重み付け注意

Inverse distance weighting attention ( http://arxiv.org/abs/2310.18805v1 )

ライセンス: Link先を確認
Calvin McCarter(参考訳) ユークリッド距離の負のログに拡大した点積(ソフトマックス)の注意を置き換える効果を報告する。 このような注意は、逆距離重み付け補間を単純化する。 単純な1つの隠れ層ネットワークで使われ、分類問題においてバニラクロスエントロピー損失で訓練され、プロトタイプを含むキーマトリックスと対応するロジットを持つ値行列を生成する傾向がある。 また,解析可能なネットワークを手作業で構築したプロトタイプで拡張することで,特殊ケースの低インパクト処理を実現できることを示す。

We report the effects of replacing the scaled dot-product (within softmax) attention with the negative-log of Euclidean distance. This form of attention simplifies to inverse distance weighting interpolation. Used in simple one hidden layer networks and trained with vanilla cross-entropy loss on classification problems, it tends to produce a key matrix containing prototypes and a value matrix with corresponding logits. We also show that the resulting interpretable networks can be augmented with manually-constructed prototypes to perform low-impact handling of special cases.
翻訳日:2023-10-31 16:31:38 公開日:2023-10-28
# 関係指向型マルチモーダリティモデルによるオープンビジュアル知識抽出

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting ( http://arxiv.org/abs/2310.18804v1 )

ライセンス: Link先を確認
Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu, Manling Li, Yangqiu Song, Carl Yang(参考訳) 画像には、機械が世界を理解するのに役立つ豊富な関係知識が含まれている。 既存の視覚的知識抽出法は、しばしば事前に定義された形式(例えば、サブバーブ・オブイ・タプル)や語彙(例えば、関係型)に依存し、抽出された知識の表現性を制限する。 本研究では,オープンな視覚的知識抽出の新しいパラダイムを初めて探求する。 そこで本稿では,関係知識を含む可能性のある領域を検出するオープンリレーショナル領域検出器と,検出された領域に対して大きなマルチモーダリティモデルを促すことにより,フォーマットフリーな知識を生成する視覚知識生成器とからなるopenvikを提案する。 また、生成したフォーマットのない視覚知識を多様化するための2つのデータ拡張手法についても検討する。 広範にわたる知識品質評価は、OpenVikによる抽出されたオープンビジュアル知識の正しさと独自性を強調する。 さらに、抽出した知識を様々な視覚的推論アプリケーションに統合すると、一貫した改善が見られ、OpenVikの現実的な適用性を示している。

Images contain rich relational knowledge that can help machines understand the world. Existing methods on visual knowledge extraction often rely on the pre-defined format (e.g., sub-verb-obj tuples) or vocabulary (e.g., relation types), restricting the expressiveness of the extracted knowledge. In this work, we take a first exploration to a new paradigm of open visual knowledge extraction. To achieve this, we present OpenVik which consists of an open relational region detector to detect regions potentially containing relational knowledge and a visual knowledge generator that generates format-free knowledge by prompting the large multimodality model with the detected region of interest. We also explore two data enhancement techniques for diversifying the generated format-free visual knowledge. Extensive knowledge quality evaluations highlight the correctness and uniqueness of the extracted open visual knowledge by OpenVik. Moreover, integrating our extracted knowledge across various visual reasoning applications shows consistent improvements, indicating the real-world applicability of OpenVik.
翻訳日:2023-10-31 16:31:29 公開日:2023-10-28
# 弱結合型ディープqネットワーク

Weakly Coupled Deep Q-Networks ( http://arxiv.org/abs/2310.18803v1 )

ライセンス: Link先を確認
Ibrahim El Shar, Daniel R. Jiang(参考訳) 本稿では,弱結合型マルコフ決定過程 (WCMDP) と呼ばれる構造化問題のクラスにおける性能を向上させる新しい深層強化学習アルゴリズムである弱結合型深部Q-networks (WCDQN) を提案する。 WCMDPは、アクション空間制約によって接続された複数の独立したサブプロブレムから構成される。 この魅力ある構造にもかかわらず、WCMDPはサブプロブレムの数が増加するにつれて急速に魅力的になる。 WCDQNは、複数のDQN"サブエージェント"を訓練するために単一のネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。 これは主要なDQNエージェントを最適性へ導く。 表形式の弱結合q-learning(wcql)は,ほぼ確実に最適なアクション値に収束することを示す。 数値実験により、DQNと関連する10サブプロブレム、$3^{10}$トータルアクション、および連続状態空間の設定において、DQNとより高速な収束を示す。

We propose weakly coupled deep Q-networks (WCDQN), a novel deep reinforcement learning algorithm that enhances performance in a class of structured problems called weakly coupled Markov decision processes (WCMDP). WCMDPs consist of multiple independent subproblems connected by an action space constraint, which is a structural property that frequently emerges in practice. Despite this appealing structure, WCMDPs quickly become intractable as the number of subproblems grows. WCDQN employs a single network to train multiple DQN "subagents", one for each subproblem, and then combine their solutions to establish an upper bound on the optimal action value. This guides the main DQN agent towards optimality. We show that the tabular version, weakly coupled Q-learning (WCQL), converges almost surely to the optimal action value. Numerical experiments show faster convergence compared to DQN and related techniques in settings with as many as 10 subproblems, $3^{10}$ total actions, and a continuous state space.
翻訳日:2023-10-31 16:31:11 公開日:2023-10-28
# 脳波信号を用いたニットス診断における機械学習の応用

A Review on the Applications of Machine Learning for Tinnitus Diagnosis Using EEG Signals ( http://arxiv.org/abs/2310.18795v1 )

ライセンス: Link先を確認
Farzaneh Ramezani, Hamidreza Bolhasani(参考訳) 耳鳴症は、年齢、聴力の喪失、大きな騒音への曝露、耳の感染症または腫瘍、特定の薬品、頭や首の怪我、不安や抑うつなどの心理的状態など様々な要因によって引き起こされる、一般的な聴覚障害である。 すべての患者が医療的注意を必要とするわけではないが、約20%の患者が臨床介入を求めている。 早期診断は効果的な治療に不可欠である。 この病気の早期発見を支援するため、スチニタス検出の新しい開発が進められている。 過去数年間、耳鳴に関連する発振性脳活動の変動を研究するために、脳波(eeg)の使用が顕著に増加してきた。 しかし、多くの研究から得られた結果は大きく異なり、矛盾する結論に繋がる。 現在、臨床医は耳鳴症患者を識別するために専門知識のみに頼っている。 この分野の研究者は、臨床医が耳鳴の特徴を識別し、耳鳴を分類するのを助けるために、さまざまなデータモダリティと機械学習技術を導入している。 本論文は,脳波信号を入力データとして用いたチニタス患者の識別・予測に機械学習(ML)を用いることに焦点を当てた論文をレビューすることを目的とする。 2016年から2023年の間に11の論文を体系的文献レビュー(slr)手法で評価した。 この記事では、レビューされたすべての研究の完全な要約を整理し、それぞれの重要な側面を比較します。 さらに,この領域における最近の研究をより深く理解するために,統計解析を行った。 レビューされた記事のほとんど全てが、ティンニトゥスの目標を達成するための5段階の手順に従っていた。 開示。 最後に,本手法のオープン・シチュエーションと課題について議論し,今後の研究の方向性を示唆する。

Tinnitus is a prevalent hearing disorder that can be caused by various factors such as age, hearing loss, exposure to loud noises, ear infections or tumors, certain medications, head or neck injuries, and psychological conditions like anxiety and depression. While not every patient requires medical attention, about 20% of sufferers seek clinical intervention. Early diagnosis is crucial for effective treatment. New developments have been made in tinnitus detection to aid in early detection of this illness. Over the past few years, there has been a notable growth in the usage of electroencephalography (EEG) to study variations in oscillatory brain activity related to tinnitus. However, the results obtained from numerous studies vary greatly, leading to conflicting conclusions. Currently, clinicians rely solely on their expertise to identify individuals with tinnitus. Researchers in this field have incorporated various data modalities and machine-learning techniques to aid clinicians in identifying tinnitus characteristics and classifying people with tinnitus. The purpose of writing this article is to review articles that focus on using machine learning (ML) to identify or predict tinnitus patients using EEG signals as input data. We have evaluated 11 articles published between 2016 and 2023 using a systematic literature review (SLR) method. This article arranges perfect summaries of all the research reviewed and compares the significant aspects of each. Additionally, we performed statistical analyses to gain a deeper comprehension of the most recent research in this area. Almost all of the reviewed articles followed a five-step procedure to achieve the goal of tinnitus. Disclosure. Finally, we discuss the open affairs and challenges in this method of tinnitus recognition or prediction and suggest future directions for research.
翻訳日:2023-10-31 16:30:50 公開日:2023-10-28
# 知識接地対話生成における幻覚を減少させるシーケンスレベル確信性

Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2310.18794v1 )

ライセンス: Link先を確認
Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu(参考訳) モデル幻覚は自然言語生成(nlg)の研究において重要な関心事となっている。 本研究では, NLGにおける幻覚に関する共通テーマとしてシーケンスレベルの確実性を提案し, モデル応答におけるシーケンスレベルの確実性と幻覚レベルの相関について検討する。 我々は,確率的確実性と意味的確実性という2つの側面に分類し,確率的確実性が高いレベルとモデル応答における意味的確実性が高いレベルの両方が幻覚の低いレベルと有意に相関していることを示す。 さらに、我々は、意味的確実性が確率的確実性の優れた推定指標であることを示し、ブラックボックスシナリオにおける確率に基づく確実性推定の代替となる可能性を示す理論的証明と分析を提供する。 本研究は,nlgにおける幻覚緩和のための復号時間法である,確実度と幻覚の関係の観察から,さらに確信度に基づく応答ランキング(crr)を提案する。 シーケンスレベルの確実性の分類に基づいて,確率的CRR (P-CRR) とセマンティックCRR (S-CRR) の2種類のCRRアプローチを提案する。 P-CRRは、その算術平均対数確率を用いて、個々のサンプルモデル応答をランク付けする。 S-CRRは意味空間からの確実性推定にアプローチし、その意味的確実性レベルに基づいて多数のモデル応答候補をランク付けする。 3つのKGDGデータセット、3つの復号法、および4つの異なるモデルに対する広範な実験を通じて、モデル幻覚を減らすための2つのCRR法の有効性を検証する。

Model hallucination has been a crucial interest of research in Natural Language Generation (NLG). In this work, we propose sequence-level certainty as a common theme over hallucination in NLG, and explore the correlation between sequence-level certainty and the level of hallucination in model responses. We categorize sequence-level certainty into two aspects: probabilistic certainty and semantic certainty, and reveal through experiments on Knowledge-Grounded Dialogue Generation (KGDG) task that both a higher level of probabilistic certainty and a higher level of semantic certainty in model responses are significantly correlated with a lower level of hallucination. What's more, we provide theoretical proof and analysis to show that semantic certainty is a good estimator of probabilistic certainty, and therefore has the potential as an alternative to probability-based certainty estimation in black-box scenarios. Based on the observation on the relationship between certainty and hallucination, we further propose Certainty-based Response Ranking (CRR), a decoding-time method for mitigating hallucination in NLG. Based on our categorization of sequence-level certainty, we propose 2 types of CRR approach: Probabilistic CRR (P-CRR) and Semantic CRR (S-CRR). P-CRR ranks individually sampled model responses using their arithmetic mean log-probability of the entire sequence. S-CRR approaches certainty estimation from meaning-space, and ranks a number of model response candidates based on their semantic certainty level, which is estimated by the entailment-based Agreement Score (AS). Through extensive experiments across 3 KGDG datasets, 3 decoding methods, and on 4 different models, we validate the effectiveness of our 2 proposed CRR methods to reduce model hallucination.
翻訳日:2023-10-31 16:30:24 公開日:2023-10-28
# 高等教育におけるオンライン・プロクタリング・システムにおけるコンテキスト統合としてのプライバシ : スコープレビュー

Privacy as Contextual Integrity in Online Proctoring Systems in Higher Education: A Scoping Review ( http://arxiv.org/abs/2310.18792v1 )

ライセンス: Link先を確認
Mutimukwe Chantal, Han Shengnan, Viberg Olga, Cerratto-Pargman Teresa(参考訳) プライバシーは、高等教育におけるオンライン・プロクタリング・システムの導入と実装における重要な課題の1つだ。 この課題をより深く理解するために、我々はプライバシーを文脈整合性理論として採用し、17の論文を精査する。 その結果,学生の個人的・敏感な情報が収集され,普及していることが明らかとなった。 透明性と公平性、同意と選択、情報最小化、説明責任、および情報セキュリティと正確性を含む統治原則は、プライバシー問題に対処するために特定されている。 本研究は,これらの原則がどのように実施され,持続されるべきか,プライバシーに関する懸念やアクタがどのような関係にあるかを明らかにすることの必要性を指摘する。 さらに、高等教育におけるopsの責任ある採用と使用の実施と維持において、主要なアクターの責任を明確化する必要がある。

Privacy is one of the key challenges to the adoption and implementation of online proctoring systems in higher education. To better understand this challenge, we adopt privacy as contextual integrity theory to conduct a scoping review of 17 papers. The results show different types of students' personal and sensitive information are collected and disseminated; this raises considerable privacy concerns. As well as the governing principles including transparency and fairness, consent and choice, information minimization, accountability, and information security and accuracy have been identified to address privacy problems. This study notifies a need to clarify how these principles should be implemented and sustained, and what privacy concerns and actors they relate to. Further, it calls for the need to clarify the responsibility of key actors in enacting and sustaining responsible adoption and use of OPS in higher education.
翻訳日:2023-10-31 16:29:53 公開日:2023-10-28
# 「やれ!」:人間とロボットのコラボレーションにおける信頼感へのカスタマイズの影響

"Do it my way!": Impact of Customizations on Trust perceptions in Human-Robot Collaboration ( http://arxiv.org/abs/2310.18791v1 )

ライセンス: Link先を確認
Parv Kapoor, Simon Chu, Angela Chen(参考訳) 信頼は人間とロボットの効果的なコラボレーションの鍵となる。 補助ロボット工学の文脈では、信頼要因が人間の経験に与える影響はさらに顕著である。 補助ロボットのパーソナライゼーションは,ロボットの採用やユーザ認知と正の相関関係にある。 本研究では,これらの因子間の関係について,対象内研究(n=17)を通して検討する。 我々は、ベースラインの自律ロボットの動作に対して異なるレベルのカスタマイズ可能性を提供し、その信頼性への影響を調査する。 以上の結果から,カスタマイズ度の増加は,信頼感や快適感との関連が示唆された。 ロボットデザインのプロセスは、信頼できる、カスタマイズされたロボットを設計するための洞察から大きな恩恵を受けることができる。

Trust has been shown to be a key factor in effective human-robot collaboration. In the context of assistive robotics, the effect of trust factors on human experience is further pronounced. Personalization of assistive robots is an orthogonal factor positively correlated with robot adoption and user perceptions. In this work, we investigate the relationship between these factors through a within-subjects study (N=17). We provide different levels of customization possibilities over baseline autonomous robot behavior and investigate its impact on trust. Our findings indicate that increased levels of customization was associated with higher trust and comfort perceptions. The assistive robot design process can benefit significantly from our insights for designing trustworthy and customized robots.
翻訳日:2023-10-31 16:29:37 公開日:2023-10-28
# PrObeD:プロアクティブオブジェクト検出ラッパー

PrObeD: Proactive Object Detection Wrapper ( http://arxiv.org/abs/2310.18788v1 )

ライセンス: Link先を確認
Vishal Asnani, Abhinav Kumar, Suya You, Xiaoming Liu(参考訳) これまでの2d$オブジェクト検出の研究は、ジェネリック画像やカモフラージュ画像中のオブジェクトの検出など、さまざまなタスクに焦点を当てている。 これらの作品は、入力画像がそのままであるように、オブジェクト検出のためのパッシブな作業と見なされる。 しかし、大域的最小値への収束はニューラルネットワークにおいて最適であると保証されていないため、物体検出器のトレーニングされた重量は最適ではないと論じる。 この問題を解決するために,プロアクティブなスキーム PrObeD に基づくラッパーを提案する。 PrObeDはエンコーダ・デコーダアーキテクチャで構成されており、エンコーダネットワークは入力画像の暗号化のために画像依存信号と呼ばれるテンプレートを生成し、デコーダは暗号化画像からこのテンプレートを復元する。 最適テンプレートを学習すると、検出性能が改善されたオブジェクト検出器が得られる。 テンプレートは入力画像のマスクとして機能し、オブジェクト検出器に有用なセマンティクスを強調する。 これらの暗号化画像でオブジェクト検出器を微細化することで、ジェネリックとカモフラーグの両方の検出性能が向上する。 PrObeDの適用後,MS-COCO,CAMO,COD$10$K,NC$4$Kのデータセットを用いた実験を行った。 私たちのモデル/コードはhttps://github.com/vishal3477/proactive-object-detectionで利用可能です。

Previous research in $2D$ object detection focuses on various tasks, including detecting objects in generic and camouflaged images. These works are regarded as passive works for object detection as they take the input image as is. However, convergence to global minima is not guaranteed to be optimal in neural networks; therefore, we argue that the trained weights in the object detector are not optimal. To rectify this problem, we propose a wrapper based on proactive schemes, PrObeD, which enhances the performance of these object detectors by learning a signal. PrObeD consists of an encoder-decoder architecture, where the encoder network generates an image-dependent signal termed templates to encrypt the input images, and the decoder recovers this template from the encrypted images. We propose that learning the optimum template results in an object detector with an improved detection performance. The template acts as a mask to the input images to highlight semantics useful for the object detector. Finetuning the object detector with these encrypted images enhances the detection performance for both generic and camouflaged. Our experiments on MS-COCO, CAMO, COD$10$K, and NC$4$K datasets show improvement over different detectors after applying PrObeD. Our models/codes are available at https://github.com/vishal3477/Proactive-Object-Detection.
翻訳日:2023-10-31 16:29:27 公開日:2023-10-28
# 能動学習のための競合アルゴリズム

A Competitive Algorithm for Agnostic Active Learning ( http://arxiv.org/abs/2310.18786v1 )

ライセンス: Link先を確認
Eric Price, Yihan Zhou(参考訳) いくつかの仮説クラスと入力分布では、アクティブ非依存学習は受動的学習よりも指数関数的に少ないサンプルを必要とする。 最も一般的なアクティブラーニングアルゴリズムは、不一致係数と呼ばれるパラメータを用いてその性能を表すが、これらのアルゴリズムはいくつかの入力で非効率であることが知られている。 我々は、任意の二進仮説クラスに対して最適なアルゴリズムと競合するアルゴリズムを入手し、$D_X$ over $X$に対して異なるアプローチをとる。 特に、もしアルゴリズムが$O(\eta)$エラーを得るために$m^*$クエリを使用できるなら、我々のアルゴリズムは$O(m^* \log |H|)$クエリを使って$O(\eta)$エラーを得る。 我々のアルゴリズムは dasgupta [2004] の分割ベースのアプローチの脈絡であり、これは実現可能な (\eta = 0$) 設定でも同様の結果が得られる。 また、我々のアルゴリズムの$O(\log |H|)$オーバヘッドよりもNPハードであることを示す。

For some hypothesis classes and input distributions, active agnostic learning needs exponentially fewer samples than passive learning; for other classes and distributions, it offers little to no improvement. The most popular algorithms for agnostic active learning express their performance in terms of a parameter called the disagreement coefficient, but it is known that these algorithms are inefficient on some inputs. We take a different approach to agnostic active learning, getting an algorithm that is competitive with the optimal algorithm for any binary hypothesis class $H$ and distribution $D_X$ over $X$. In particular, if any algorithm can use $m^*$ queries to get $O(\eta)$ error, then our algorithm uses $O(m^* \log |H|)$ queries to get $O(\eta)$ error. Our algorithm lies in the vein of the splitting-based approach of Dasgupta [2004], which gets a similar result for the realizable ($\eta = 0$) setting. We also show that it is NP-hard to do better than our algorithm's $O(\log |H|)$ overhead in general.
翻訳日:2023-10-31 16:29:02 公開日:2023-10-28
# 重み付き雑音下での非線形確率勾配の高確率収束境界

High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise ( http://arxiv.org/abs/2310.18784v1 )

ライセンス: Link先を確認
Aleksandar Armacki, Pranay Sharma, Gauri Joshi, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 最近のいくつかの研究は、確率勾配降下 (sgd) の収束 \textit{in high probability} とそのクリップ付き変種を研究している。 バニラSGDと比較して、切断されたSGDは事実上安定しており、失敗確率に対する対数依存のさらなる理論的利点がある。 しかし、SGDの他の実用的な非線形変種、例えば符号 SGD、量子化 SGD および正規化 SGD の収束は、通信効率の向上や加速収束の達成をはるかに少なくする。 本研究では、非線形SGD法の幅広いクラスにおける収束境界 \textit{in high probability} について検討する。 リプシッツ連続勾配を持つ強凸損失関数に対して, 雑音が重み付きであっても, 故障確率に対する対数依存性が証明される。 クリッピングされたSGDの結果よりも厳密に一般的な結果として, クリッピング, 正規化, 量子化など, 有界(成分方向, 関節)の出力を持つ非線形性を示す。 さらに、重み付きノイズによる既存の結果は、$\eta$-th central moments, with $\eta \in (1,2]$である。 対照的に、洗練された分析は$\eta=1$でも機能し、文学におけるノイズモーメントの仮定を厳密に緩和する。

Several recent works have studied the convergence \textit{in high probability} of stochastic gradient descent (SGD) and its clipped variant. Compared to vanilla SGD, clipped SGD is practically more stable and has the additional theoretical benefit of logarithmic dependence on the failure probability. However, the convergence of other practical nonlinear variants of SGD, e.g., sign SGD, quantized SGD and normalized SGD, that achieve improved communication efficiency or accelerated convergence is much less understood. In this work, we study the convergence bounds \textit{in high probability} of a broad class of nonlinear SGD methods. For strongly convex loss functions with Lipschitz continuous gradients, we prove a logarithmic dependence on the failure probability, even when the noise is heavy-tailed. Strictly more general than the results for clipped SGD, our results hold for any nonlinearity with bounded (component-wise or joint) outputs, such as clipping, normalization, and quantization. Further, existing results with heavy-tailed noise assume bounded $\eta$-th central moments, with $\eta \in (1,2]$. In contrast, our refined analysis works even for $\eta=1$, strictly relaxing the noise moment assumptions in the literature.
翻訳日:2023-10-31 16:28:41 公開日:2023-10-28
# NLPモデルは思考の追跡に優れているか:物語的理解の概観

Are NLP Models Good at Tracing Thoughts: An Overview of Narrative Understanding ( http://arxiv.org/abs/2310.18783v1 )

ライセンス: Link先を確認
Lixing Zhu, Runcong Zhao, Lin Gui, Yulan He(参考訳) 物語的理解は、著者の認知過程を捉え、その知識、意図、信念、欲求に関する洞察を提供する。 大きな言語モデル(LLM)は文法的に一貫性のあるテキストを生成するのに優れているが、著者の思考を理解する能力は依然として不明である。 この制限は物語理解の実践的応用を妨げる。 本稿では,物語理解タスクの包括的調査を行い,その重要特徴,定義,分類,関連するデータセット,学習目標,評価指標,制限を徹底的に検討する。 さらに,モジュール化されたLLMの能力を拡張して,新たな物語理解タスクに対処する可能性についても検討する。 ナラティブ理解を,物語構造を概観する著者の想像上の手がかりの検索とすることで,ナラティブ理解を強化する新たな視点を提案する。

Narrative understanding involves capturing the author's cognitive processes, providing insights into their knowledge, intentions, beliefs, and desires. Although large language models (LLMs) excel in generating grammatically coherent text, their ability to comprehend the author's thoughts remains uncertain. This limitation hinders the practical applications of narrative understanding. In this paper, we conduct a comprehensive survey of narrative understanding tasks, thoroughly examining their key features, definitions, taxonomy, associated datasets, training objectives, evaluation metrics, and limitations. Furthermore, we explore the potential of expanding the capabilities of modularized LLMs to address novel narrative understanding tasks. By framing narrative understanding as the retrieval of the author's imaginative cues that outline the narrative structure, our study introduces a fresh perspective on enhancing narrative comprehension.
翻訳日:2023-10-31 16:28:14 公開日:2023-10-28
# 笑うハイエナ蒸留所:畳み込みから小さな再発を抽出する

Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions ( http://arxiv.org/abs/2310.18780v1 )

ライセンス: Link先を確認
Stefano Massaroli, Michael Poli, Daniel Y. Fu, Hermann Kumbong, Rom N. Parnichkun, Aman Timalsina, David W. Romero, Quinn McIntyre, Beidi Chen, Atri Rudra, Ce Zhang, Christopher Re, Stefano Ermon, Yoshua Bengio(参考訳) 注意のないシーケンスモデルの最近の進歩は、トランスフォーマーのコアにある注意演算子の代替として、畳み込みに依存している。 特に、長い畳み込みシーケンスモデルは、多くのドメインで最先端のパフォーマンスを達成したが、自動回帰推論ワークロードの間、かなりのコストが発生する。 本稿では,メモリフットプリントの削減と生成時のスループット向上を目的として,事前学習した長畳み込みアーキテクチャにおいてトークン当たりの計算コストとメモリコストを$\mathcal O(1)で実現する。 具体的には,各畳み込み層から低次元線形状態空間モデルを抽出し,合理的補間法とモデル次還元法に基づいて構成する。 さらに,Hyenaのような畳み込み型層にアーキテクチャ的改良を加え,チャネル間のフィルタを重み付けすることで,事前学習の質を高め,蒸留するフィルタの数を削減する。 その結果、1.3bのパラメータでトランスフォーマより10倍、ハイエナより1.5倍のスループットを達成し、蒸留後の品質を損なうことはない。

Recent advances in attention-free sequence models rely on convolutions as alternatives to the attention operator at the core of Transformers. In particular, long convolution sequence models have achieved state-of-the-art performance in many domains, but incur a significant cost during auto-regressive inference workloads -- naively requiring a full pass (or caching of activations) over the input sequence for each generated token -- similarly to attention-based models. In this paper, we seek to enable $\mathcal O(1)$ compute and memory cost per token in any pre-trained long convolution architecture to reduce memory footprint and increase throughput during generation. Concretely, our methods consist in extracting low-dimensional linear state-space models from each convolution layer, building upon rational interpolation and model-order reduction techniques. We further introduce architectural improvements to convolution-based layers such as Hyena: by weight-tying the filters across channels into heads, we achieve higher pre-training quality and reduce the number of filters to be distilled. The resulting model achieves 10x higher throughput than Transformers and 1.5x higher than Hyena at 1.3B parameters, without any loss in quality after distillation.
翻訳日:2023-10-31 16:28:00 公開日:2023-10-28
# ProMap: 言語モデルによる効果的なバイリンガル語彙誘導

ProMap: Effective Bilingual Lexicon Induction via Language Model Prompting ( http://arxiv.org/abs/2310.18778v1 )

ライセンス: Link先を確認
Abdellah El Mekki, Muhammad Abdul-Mageed, ElMoatez Billah Nagoudi, Ismail Berrada and Ahmed Khoumsi(参考訳) 単語を2つの言語間で翻訳するバイリンガル語彙誘導(BLI)は重要なNLPタスクである。 静的な単語埋め込みを用いたリッチリソース言語におけるBLIの顕著な進歩は達成されている。 文脈化された単語埋め込みからの情報を取り入れることで、単語翻訳性能をさらに向上することができる。 本稿では,事前学習された多言語・多言語モデルを用いて,これらの課題を解決するための新しいアプローチ promap を提案する。 これらのモデルでのサブワードトークンの使用を克服するため、ProMapは、独立して使用する場合に優れたパフォーマンスを実現するシード辞書による言語モデルの効果的なパッドドプロンプトに依存している。 また, 静的な単語埋め込みなどの他のBLI手法による結果の再評価において, ProMapの有効性を示す。 リッチリソース言語と低リソース言語の両方で評価すると、ProMapは一貫して最先端の結果を達成する。 さらに、ProMapは、(トレーニング例が10未満であっても)少数のシナリオで強力なパフォーマンスを実現しており、低リソースの言語翻訳に有用なツールである。 全体として、当社の手法はbli全般、特に低リソース言語において、エキサイティングで有望な方向性を提供します。 promapのコードとデータは \url{https://github.com/4mekki4/promap} で入手できる。

Bilingual Lexicon Induction (BLI), where words are translated between two languages, is an important NLP task. While noticeable progress on BLI in rich resource languages using static word embeddings has been achieved. The word translation performance can be further improved by incorporating information from contextualized word embeddings. In this paper, we introduce ProMap, a novel approach for BLI that leverages the power of prompting pretrained multilingual and multidialectal language models to address these challenges. To overcome the employment of subword tokens in these models, ProMap relies on an effective padded prompting of language models with a seed dictionary that achieves good performance when used independently. We also demonstrate the effectiveness of ProMap in re-ranking results from other BLI methods such as with aligned static word embeddings. When evaluated on both rich-resource and low-resource languages, ProMap consistently achieves state-of-the-art results. Furthermore, ProMap enables strong performance in few-shot scenarios (even with less than 10 training examples), making it a valuable tool for low-resource language translation. Overall, we believe our method offers both exciting and promising direction for BLI in general and low-resource languages in particular. ProMap code and data are available at \url{https://github.com/4mekki4/promap}.
翻訳日:2023-10-31 16:27:39 公開日:2023-10-28
# セキュリティコンテキストのためのai生成コードの正確性評価の自動化

Automating the Correctness Assessment of AI-generated Code for Security Contexts ( http://arxiv.org/abs/2310.18834v1 )

ライセンス: Link先を確認
Domenico Cotroneo, Alessio Foggia, Cristina Improta, Pietro Liguori, Roberto Natella(参考訳) 本稿では,セキュリティのためのAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。 この方法はシンボリック実行を使用して、AI生成コードが参照実装として振る舞うかどうかを評価する。 セキュリティ指向のアセンブリコードを生成するためにトレーニングされた4つの最先端モデルを評価し、フィールドで広く使用されている出力類似度メトリクスや、openaiが開発したai駆動言語モデルであるchatgptなど、さまざまなベースラインソリューションと比較します。 実験の結果,本手法は基礎的解を上回っており,この分野における評価の基礎的真理と考えられるヒューマン・ベース・アセスメントと類似したai生成コードの正確性を評価することができた。 さらに、ACCAは人間の評価と非常に強い相関関係を持つ(ピアソンの相関係数 r=0.84 の平均)。 最後に、人間による介入を必要としない完全に自動化されたソリューションであるため、提案手法では、平均0.17秒程度で全てのコードスニペットを評価します。

In this paper, we propose a fully automated method, named ACCA, to evaluate the correctness of AI-generated code for security purposes. The method uses symbolic execution to assess whether the AI-generated code behaves as a reference implementation. We use ACCA to assess four state-of-the-art models trained to generate security-oriented assembly code and compare the results of the evaluation with different baseline solutions, including output similarity metrics, widely used in the field, and the well-known ChatGPT, the AI-powered language model developed by OpenAI. Our experiments show that our method outperforms the baseline solutions and assesses the correctness of the AI-generated code similar to the human-based evaluation, which is considered the ground truth for the assessment in the field. Moreover, ACCA has a very strong correlation with human evaluation (Pearson's correlation coefficient r=0.84 on average). Finally, since it is a fully automated solution that does not require any human intervention, the proposed method performs the assessment of every code snippet in ~0.17s on average, which is definitely lower than the average time required by human analysts to manually inspect the code, based on our experience.
翻訳日:2023-10-31 16:21:14 公開日:2023-10-28
# 責任あるAI(RAI)ゲームとアンサンブル

Responsible AI (RAI) Games and Ensembles ( http://arxiv.org/abs/2310.18832v1 )

ライセンス: Link先を確認
Yash Gupta, Runtian Zhai, Arun Suggala, Pradeep Ravikumar(参考訳) 近年の研究では、公正性、堅牢性、安全性といった問題を含む、AIの社会的影響について研究されている。 これらの目的の多くにおいて、学習者は、あらかじめ定義された分布(不確実性集合と呼ばれる)の集合に対して最悪のケース損失を最小限に抑えようとする。 言い換えれば、上記の問題はこれらの不確実性集合に対する min-max 問題として記述することができる。 本研究は,Responsible AI(RAI)ゲームと呼ばれる,これらの問題を研究するための一般的なフレームワークを提供する。 これらのゲームを解くためのアルゴリズムのクラスを2つ提供します。 (a)ゲームプレイに基づくアルゴリズム、及び (b)グリーディ段階推定アルゴリズム。 前者はオンライン学習とゲーム理論に動機付けられ、後者はブースティングと回帰に関する古典的統計文学に動機づけられている。 我々は,いくつかのrai問題,特にサブポピュレーションシフト問題に対する手法の適用可能性と競争力を実証的に示す。

Several recent works have studied the societal effects of AI; these include issues such as fairness, robustness, and safety. In many of these objectives, a learner seeks to minimize its worst-case loss over a set of predefined distributions (known as uncertainty sets), with usual examples being perturbed versions of the empirical distribution. In other words, aforementioned problems can be written as min-max problems over these uncertainty sets. In this work, we provide a general framework for studying these problems, which we refer to as Responsible AI (RAI) games. We provide two classes of algorithms for solving these games: (a) game-play based algorithms, and (b) greedy stagewise estimation algorithms. The former class is motivated by online learning and game theory, whereas the latter class is motivated by the classical statistical literature on boosting, and regression. We empirically demonstrate the applicability and competitive performance of our techniques for solving several RAI problems, particularly around subpopulation shift.
翻訳日:2023-10-31 16:20:54 公開日:2023-10-28
# 並列データのない翻訳文の翻訳

Translating away Translationese without Parallel Data ( http://arxiv.org/abs/2310.18830v1 )

ライセンス: Link先を確認
Rricha Jalota, Koel Dutta Chowdhury, Cristina Espa\~na-Bonet, Josef van Genabith(参考訳) 翻訳されたテキストは同じ言語の原文と比較して体系的な言語的差異を示しており、これらの違いを翻訳と呼ぶ。 翻訳は言語間自然言語処理タスクに影響を与え、バイアスのある結果につながる可能性がある。 本稿では,翻訳文の翻訳量を削減するための新しい手法である翻訳ベースのスタイル転送について検討する。 同じ言語に並列な人間翻訳データやオリジナルデータがないため、並列的なモノリンガルのオリジナルデータや翻訳データから学習できる自己教師型アプローチを用いています。 しかし、この自己管理アプローチでさえ、検証にはいくつかの並列データが必要である。 自己監督損失と教師なし損失を組み合わせて並列検証データの必要性を解消する方法を示す。 この教師なし損失は、スタイル転送出力に対するオリジナルの言語モデル損失と、入力とスタイル転送出力の間の意味的類似性損失を活用する。 本手法は, コンテンツ保存とターゲット型フラレンシの測定に加えて, オリジナル対翻訳二分分類の観点で評価した。 提案手法は,文体変換後の翻訳文の分類精度を,文体変換後のランダムな分類文のレベルまで低減し,内容と文体流用度を適切に保存できることを示す。

Translated texts exhibit systematic linguistic differences compared to original texts in the same language, and these differences are referred to as translationese. Translationese has effects on various cross-lingual natural language processing tasks, potentially leading to biased results. In this paper, we explore a novel approach to reduce translationese in translated texts: translation-based style transfer. As there are no parallel human-translated and original data in the same language, we use a self-supervised approach that can learn from comparable (rather than parallel) mono-lingual original and translated data. However, even this self-supervised approach requires some parallel data for validation. We show how we can eliminate the need for parallel validation data by combining the self-supervised loss with an unsupervised loss. This unsupervised loss leverages the original language model loss over the style-transferred output and a semantic similarity loss between the input and style-transferred output. We evaluate our approach in terms of original vs. translationese binary classification in addition to measuring content preservation and target-style fluency. The results show that our approach is able to reduce translationese classifier accuracy to a level of a random classifier after style transfer while adequately preserving the content and fluency in the target original style.
翻訳日:2023-10-31 16:20:38 公開日:2023-10-28
# カーエンハンス光ばね

Kerr-Enhanced Optical Spring ( http://arxiv.org/abs/2310.18828v1 )

ライセンス: Link先を確認
Sotatsu Otabe, Wataru Usukura, Kaido Suzuki, Kentaro Komori, Yuta Michimura, Ken-ichi Harada, Kentaro Somiya(参考訳) 我々は,光ケラ効果を用いた拡張光ばねの発生を提案,実験的に実証する。 可動ミラーを備えたファブリペロキャビティに非線形光学結晶を挿入し、位相ミスマッチ状態における2階非線形光学効果の連鎖がカー効果を誘導する。 光学ばね定数は線形理論より1.6\pm0.1$の係数で強化される。 我々の知る限り、これは非線形光学効果を用いた光学的カップリング強化の最初の実現であり、線形光学系の性能限界を克服するために理論的に研究されている。 実証されたシステムの波長可変非線形性は、二元中性子星から放出される重力波の観測から、マクロ振動子を冷却する量子基底状態まで、幅広い潜在的な応用がある。

We propose and experimentally demonstrate the generation of enhanced optical springs using the optical Kerr effect. A nonlinear optical crystal is inserted into a Fabry-Perot cavity with a movable mirror, and a chain of second-order nonlinear optical effects in the phase-mismatched condition induces the Kerr effect. The optical spring constant is enhanced by a factor of $1.6\pm0.1$ over linear theory. To our knowledge, this is the first realization of optomechanical coupling enhancement using a nonlinear optical effect, which has been theoretically investigated to overcome the performance limitations of linear optomechanical systems. The tunable nonlinearity of demonstrated system has a wide range of potential applications, from observing gravitational waves emitted by binary neutron star post-merger remnants to cooling macroscopic oscillators to their quantum ground state.
翻訳日:2023-10-31 16:20:17 公開日:2023-10-28
# あらゆることを考える:クロスページ比較によるニュースメディアからのパルチザンイベントの検出

All Things Considered: Detecting Partisan Events from News Media with Cross-Article Comparison ( http://arxiv.org/abs/2310.18827v1 )

ライセンス: Link先を確認
Yujian Liu, Xinliang Frederick Zhang, Kaijian Zou, Ruihong Huang, Nick Beauchamp, Lu Wang(参考訳) 世論はニュースメディアが提供する情報によって形成され、その情報はメディアのイデオロギー的な好みによって形作られる可能性がある。 しかし、過度なイデオロギー言語やトピック選択を通じてメディアバイアスに多くの注意が向けられている一方で、メディア形態の意見を戦略的に包含するか、あるいは一方を支持するパルチザンイベントを省略するより控えめな方法である。 我々は,同一記事に関する複数の記事を比較し,イデオロギーを包含または省略したパルチザンイベントを識別することにより,ニュース記事のイデオロギーを予測する潜在変数ベースのフレームワークを開発した。 本実験はまず, パルチザンイベント選択の存在を検証し, 記事アライメントとクロスドキュメント比較が, コンペティションベースラインよりもパルチザンイベントや記事イデオロギーを検出することを示す。 以上の結果から,主観性や非党派的傾向が強い主流メディアにおいても,メディアバイアスのレベルが高いことが明らかとなった。 私たちのコードベースとデータセットはhttps://github.com/launchnlp/atcで利用可能です。

Public opinion is shaped by the information news media provide, and that information in turn may be shaped by the ideological preferences of media outlets. But while much attention has been devoted to media bias via overt ideological language or topic selection, a more unobtrusive way in which the media shape opinion is via the strategic inclusion or omission of partisan events that may support one side or the other. We develop a latent variable-based framework to predict the ideology of news articles by comparing multiple articles on the same story and identifying partisan events whose inclusion or omission reveals ideology. Our experiments first validate the existence of partisan event selection, and then show that article alignment and cross-document comparison detect partisan events and article ideology better than competitive baselines. Our results reveal the high-level form of media bias, which is present even among mainstream media with strong norms of objectivity and nonpartisanship. Our codebase and dataset are available at https://github.com/launchnlp/ATC.
翻訳日:2023-10-31 16:20:03 公開日:2023-10-28
# 粒子群最適化と重み付き規則を用いたファジィ時系列モデル

A Fuzzy Time Series-Based Model Using Particle Swarm Optimization and Weighted Rules ( http://arxiv.org/abs/2310.18825v1 )

ライセンス: Link先を確認
Daniel Ortiz-Arroyo(参考訳) 過去数十年間、科学文献に無数のファジィ時系列モデルが提案されてきた。 ファジィ時系列に見られる最も正確なモデルの中で、高次モデルが最も正確である。 本稿では,高次ファジィ時系列モデルの適用に関する3つの潜在的な限界に対処する。 まず第一に、予測規則の妥当性は一貫性に欠ける。 第二に、モデルの順序が増加するにつれて、データの利用は減少する。 第三に、予測規則の均一性は、選択された間隔分割に非常に近いことが証明される。 これらの欠点に対処するために、ファジィ時系列に基づく新しいモデルを導入し、粒子群最適化(PSO)と重み付け和の原理に適合する。 提案手法は,従来の手法と比較して時系列を正確にモデル化する。

During the last decades, a myriad of fuzzy time series models have been proposed in scientific literature. Among the most accurate models found in fuzzy time series, the high-order ones are the most accurate. The research described in this paper tackles three potential limitations associated with the application of high-order fuzzy time series models. To begin with, the adequacy of forecast rules lacks consistency. Secondly, as the model's order increases, data utilization diminishes. Thirdly, the uniformity of forecast rules proves to be highly contingent on the chosen interval partitions. To address these likely drawbacks, we introduce a novel model based on fuzzy time series that amalgamates the principles of particle swarm optimization (PSO) and weighted summation. Our results show that our approach models accurately the time series in comparison with previous methods.
翻訳日:2023-10-31 16:19:40 公開日:2023-10-28
# 多様体上の固有ガウスベクトル場

Intrinsic Gaussian Vector Fields on Manifolds ( http://arxiv.org/abs/2310.18824v1 )

ライセンス: Link先を確認
Daniel Robert-Nicoud, Andreas Krause, Viacheslav Borovitskiy(参考訳) ロボット工学から気候科学まで様々な応用は、球体のような非ユークリッド領域のモデリング信号を必要とする。 多様体上のガウス過程モデルは、特に不確かさの定量化が必要なとき、近年提案されている。 多様体の設定では、ベクトル値の信号はスカラー値の信号と非常に異なる振る舞いをするが、これまでの進歩の多くは後者のモデリングに焦点が当てられている。 しかし、前者は、風速のモデル化や未知の力学系の力場など、多くの応用において重要である。 本稿では,本質的に定義された多様体上のベクトル値信号に対する新しいガウス過程モデルを提案する。 2次元球面とハイパートリー上でのHodge-Mat\'ern Gaussianベクトル場の展開に必要な計算プリミティブを提供する。 さらに、離散2次元メッシュと超球面、リー群、同次空間のような「理想」多様体の2つの一般化方向を強調する。 最後に、ガウスベクトル場は、前述した外生的場よりもかなり洗練された帰納的バイアスを構成することを示す。

Various applications ranging from robotics to climate science require modeling signals on non-Euclidean domains, such as the sphere. Gaussian process models on manifolds have recently been proposed for such tasks, in particular when uncertainty quantification is needed. In the manifold setting, vector-valued signals can behave very differently from scalar-valued ones, with much of the progress so far focused on modeling the latter. The former, however, are crucial for many applications, such as modeling wind speeds or force fields of unknown dynamical systems. In this paper, we propose novel Gaussian process models for vector-valued signals on manifolds that are intrinsically defined and account for the geometry of the space in consideration. We provide computational primitives needed to deploy the resulting Hodge-Mat\'ern Gaussian vector fields on the two-dimensional sphere and the hypertori. Further, we highlight two generalization directions: discrete two-dimensional meshes and "ideal" manifolds like hyperspheres, Lie groups, and homogeneous spaces. Finally, we show that our Gaussian vector fields constitute considerably more refined inductive biases than the extrinsic fields proposed before.
翻訳日:2023-10-31 16:19:28 公開日:2023-10-28
# 拡散モデルへのロッキーチケット仮説の適用

Successfully Applying Lottery Ticket Hypothesis to Diffusion Model ( http://arxiv.org/abs/2310.18823v1 )

ライセンス: Link先を確認
Chao Jiang, Bo Hui, Bohan Liu, Da Yan(参考訳) 拡散モデルの成功にもかかわらず、拡散モデルのトレーニングと推論は、逆過程の長い連鎖のために非常に高価である。 並行して、Lottery Ticket hypothesis (LTH) は、単独で訓練された場合、元の高密度ニューラルネットワークと競合する性能を達成できる、勝利チケット(すなわち、元の重み初期化と共に適切に切断されたサブネットワーク)が存在すると主張している。 本研究では、拡散モデルにLTHを初めて適用する。 実験では, 拡散確率モデル(cifar-10, cifar-100, mnist)の性能を損なうことなく, 90%-99%のsparsityのサブネットワークを見出した。 さらに、既存のLTHワークは、異なるレイヤに沿って統一された間隔でサブネットワークを識別する。 モデルの2つの当選チケットの類似性はブロックごとに異なる。 具体的には、モデルの2つの入賞チケットからの上流層は、下流層よりもよく似ています。 そこで本研究では,モデルの異なる層に沿って異なる間隔で当選券を求める。 実験により,記憶容量の少ないスペーサーサブモデルとFLOP数の削減が可能であることが確認された。 コードはhttps://github.com/osier0524/lottery-ticket-to-ddpmで入手できる。

Despite the success of diffusion models, the training and inference of diffusion models are notoriously expensive due to the long chain of the reverse process. In parallel, the Lottery Ticket Hypothesis (LTH) claims that there exists winning tickets (i.e., aproperly pruned sub-network together with original weight initialization) that can achieve performance competitive to the original dense neural network when trained in isolation. In this work, we for the first time apply LTH to diffusion models. We empirically find subnetworks at sparsity 90%-99% without compromising performance for denoising diffusion probabilistic models on benchmarks (CIFAR-10, CIFAR-100, MNIST). Moreover, existing LTH works identify the subnetworks with a unified sparsity along different layers. We observe that the similarity between two winning tickets of a model varies from block to block. Specifically, the upstream layers from two winning tickets for a model tend to be more similar than the downstream layers. Therefore, we propose to find the winning ticket with varying sparsity along different layers in the model. Experimental results demonstrate that our method can find sparser sub-models that require less memory for storage and reduce the necessary number of FLOPs. Codes are available at https://github.com/osier0524/Lottery-Ticket-to-DDPM.
翻訳日:2023-10-31 16:18:52 公開日:2023-10-28
# 水素末端ナノダイヤモンドにおけるドナー受容体再結合放出 : 室温量子フォトニクスのための新しい単一光子源

Donor-acceptor recombination emission in hydrogen-terminated nanodiamond: Novel single-photon source for room-temperature quantum photonics ( http://arxiv.org/abs/2310.18822v1 )

ライセンス: Link先を確認
D. G. Pasternak, A. M. Romshin, R. H. Bagramov, A. I. Galimov, A. A. Toropov, D. A. Kalashnikov, V. Leong, A. M. Satanin, O. S. Kudryavtsev, A. L. Chernev, V. P. Filonenko, I. I. Vlasov(参考訳) アダマンタンなどの有機化合物から高圧で合成されたナノダイヤモンド(nds)の蛍光スペクトルでは、500nmから800nmの範囲で非常に狭い(約1nm)線が観察される。 本稿では、これらの謎の線がドナー・アクセプター対(DAP)の放射的組換えから生じるという仮説を実験的に提案する。 本仮説を裏付けるために, 表面の熱酸化前後の異なる大きさの未ドープおよび窒素ドープNDの蛍光スペクトルについて検討した。 高い信頼度で得られた結果から,dapはダイヤモンド格子に存在するドナー様置換窒素と,水素末端nds表面への移動ドーピング効果による2次元の受容体層との相互作用によって形成されると結論づけられた。 DAPにより誘導される線は100-10Kの温度範囲で、そのエネルギーは増加し、ほとんどの線は温度が低下する2つ以上の成分に分けられる。 DAPエミッタの大部分は単一光子の源であり、室温で最大100万個/秒の発光速度を持ち、同じ検出条件下では窒素空孔とシリコン空孔の濃度を大きく上回っていることが示されている。 放出の時間的不安定さにもかかわらず、H末端のNDのDAPエミッタは量子光学技術のための強力な室温単一光子源である。

In fluorescence spectra of nanodiamonds (NDs) synthesized at high pressure from adamantane and other organic compounds, very narrow (~1 nm) lines of unknown origin are observed in a wide spectroscopic range from ~500 to 800 nm. Here, we propose and experimentally substantiate the hypothesis that these mysterious lines arise from radiative recombination of donor-acceptor pairs (DAPs). To confirm our hypothesis, we study the fluorescence spectra of undoped and nitrogen-doped NDs of different sizes, before and after thermal oxidation of their surface. The results obtained with a high degree of confidence allowed us to conclude that the DAPs are formed through the interaction of donor-like substitutional nitrogen present in the diamond lattice, and a 2D layer of acceptors resulting from the transfer doping effect on the surface of hydrogen-terminated NDs. A specific behavior of the DAP-induced lines was discovered in the temperature range of 100-10 K: their energy increases and most lines are split into 2 or more components with decreasing temperature. It is shown that the majority of the studied DAP emitters are sources of single photons, with an emission rate of up to >1 million counts/s at room temperature, which significantly surpasses that of nitrogen-vacancy and silicon-vacancy centers under the same detection conditions. Despite an observed temporal instability in the emission, the DAP emitters of H-terminated NDs represent a powerful room-temperature single-photon source for quantum optical technologies.
翻訳日:2023-10-31 16:18:16 公開日:2023-10-28
# 光の非ガウス状態の効率的なOPAトモグラフィー

Efficient OPA tomography of non-Gaussian states of light ( http://arxiv.org/abs/2310.18821v1 )

ライセンス: Link先を確認
\'Eva R\'acz, L\'aszl\'o Ruppert, Radim Filip(参考訳) 非線形光学の最近の進歩により、高効率な検出器や強い局所振動子を使わずに未知の状態のホモダインのトモグラフィーを行うことが可能になった。 これにより、新しい実験方向がマルチモードおよび大帯域量子光学に開放された。 光パラメトリック増幅器(OPA)は,計測強度分布から直接未知状態の二次分布を高精度に再構成することができる。 標準スキームに制御可能な変位を追加し,非対称および非ガウス状態においても適用可能な改良手法を求め,推定精度を著しく向上させ,opa増幅要件を下げる。 本手法の威力を示すために,非ゲージ状態のopa推定値から蒸留可能なスクイーズにより,サブプランク相空間構造を正確に検出する。 この改善により, OPAトモグラフィは, OPAによるホモダイン検出に代わる, 一般的には耐損失性, 効率のよい方法となった。

Current advances in nonlinear optics have made it possible to perform a homodyne-like tomography of an unknown state without highly efficient detectors or a strong local oscillator. Thereby, a new experimental direction has been opened into multimode and large-bandwidth quantum optics. An optical parametric amplifier (OPA) allows us to reconstruct the quadrature distribution of an unknown state directly from the measured intensity distribution with high precision. We propose adding a controllable displacement to the standard scheme, obtaining an improved method applicable even to asymmetric and non-Gaussian states while significantly increasing estimation accuracy and lowering the OPA amplification requirement. To demonstrate the power of our method, we accurately detect the sub-Planck phase-space structure by a distillable squeezing from the OPA estimates of various non-Gaussian states. With the improvements, OPA tomography became a generally applicable loss-tolerant and efficient alternative to OPA-assisted homodyne detection.
翻訳日:2023-10-31 16:17:30 公開日:2023-10-28
# フェデレーション学習のための適応型テストタイムパーソナライゼーション

Adaptive Test-Time Personalization for Federated Learning ( http://arxiv.org/abs/2310.18816v1 )

ライセンス: Link先を確認
Wenxuan Bao, Tianxin Wei, Haohan Wang, Jingrui He(参考訳) パーソナライズされたフェデレーション学習アルゴリズムは、様々な分散シフトにモデルを適応させる有望な結果を示している。 しかしながら、これらの手法のほとんどは、実世界のシナリオでは利用できないパーソナライズのためにテストクライアントにラベル付きデータを必要とする。 本稿では,テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる,テスト期間中にラベル付きデータに頼ることなく,クライアントが教師なしの方法でグローバルモデルをローカルに適応させる,新しい設定を提案する。 従来のテスト時間適応(tta)はこのシナリオで使用できるが、その多くは、トレーニングデータを単一のドメインから、異なるディストリビューションを持つ複数のクライアント(ソースドメイン)からのものであると本質的に仮定している。 これらの領域の相互関係を見渡すと、準最適一般化をもたらす。 さらに、ほとんどのttaアルゴリズムは、特定の種類の分布シフトのために設計されており、flにおける複数の種類の分布シフトを扱う柔軟性が欠如している。 本稿では,この柔軟性の欠如が,モデルにどのモジュールを適用すべきかを事前に定義した上で部分的に生じることを見出した。 この課題に対処するため、我々はATPと呼ばれる新しいアルゴリズムを提案し、ソースドメイン間の分散シフトからモデル内の各モジュールの適応率を適応的に学習する。 理論的解析はATPの強い一般化を証明している。 大規模な実験は、ラベルシフト、イメージの破損、ドメインシフトなど、さまざまな分散シフトを扱う上で、その優位性を示し、既存のTTAメソッドを複数のデータセットやモデルアーキテクチャで上回る。 私たちのコードはhttps://github.com/baowenxuan/ATP で利用可能です。

Personalized federated learning algorithms have shown promising results in adapting models to various distribution shifts. However, most of these methods require labeled data on testing clients for personalization, which is usually unavailable in real-world scenarios. In this paper, we introduce a novel setting called test-time personalized federated learning (TTPFL), where clients locally adapt a global model in an unsupervised way without relying on any labeled data during test-time. While traditional test-time adaptation (TTA) can be used in this scenario, most of them inherently assume training data come from a single domain, while they come from multiple clients (source domains) with different distributions. Overlooking these domain interrelationships can result in suboptimal generalization. Moreover, most TTA algorithms are designed for a specific kind of distribution shift and lack the flexibility to handle multiple kinds of distribution shifts in FL. In this paper, we find that this lack of flexibility partially results from their pre-defining which modules to adapt in the model. To tackle this challenge, we propose a novel algorithm called ATP to adaptively learns the adaptation rates for each module in the model from distribution shifts among source domains. Theoretical analysis proves the strong generalization of ATP. Extensive experiments demonstrate its superiority in handling various distribution shifts including label shift, image corruptions, and domain shift, outperforming existing TTA methods across multiple datasets and model architectures. Our code is available at https://github.com/baowenxuan/ATP .
翻訳日:2023-10-31 16:17:01 公開日:2023-10-28
# 半教師付きフェデレーション学習の再検討--完全ラベルと完全ラベルのクライアントイメージングデータの共学習法

Rethinking Semi-Supervised Federated Learning: How to co-train fully-labeled and fully-unlabeled client imaging data ( http://arxiv.org/abs/2310.18815v1 )

ライセンス: Link先を確認
Pramit Saha, Divyanshu Mishra, J. Alison Noble(参考訳) 半教師付きフェデレーション学習(ssfl: semi-supervised federated learning)の最も難しい、しかし実用的な設定は、少数のクライアントが完全なラベル付きデータを持ち、他のクライアントが完全にラベル付きデータを持っていることである。 これは、協力するパートナー(典型的には病院)が画像を持っているがアノテーションがない医療環境では特に一般的である。 この設定におけるボトルネックは、ラベル付けされたクライアントとラベル付けされていないクライアントの共同トレーニングである。 本稿では,ラベル付きおよびラベルなしのクライアントをフェデレートした環境で効果的にトレーニングする方法を検討する。 本稿では,教師付きモデルと半教師付きモデルの単純な平均化を回避し,問題を回避できるssfl専用に設計された新しい学習方式を提案する。 特に、トレーニングアプローチは2つの部分で構成されています。 (a)ラベル付き及びラベルなしクライアントモデルの独立した集約、及び (b)全クライアントにおける孤立グローバルモデルのローカル自己管理事前学習 バイオメディカル画像分類ベンチマークMedMNISTで公開されている4つのモードの医用画像データセットのモデル性能を評価する。 さらに,提案手法の有効性を示すために,ラベル付きクライアントの比率と不均一性の程度も異なる。

The most challenging, yet practical, setting of semi-supervised federated learning (SSFL) is where a few clients have fully labeled data whereas the other clients have fully unlabeled data. This is particularly common in healthcare settings where collaborating partners (typically hospitals) may have images but not annotations. The bottleneck in this setting is the joint training of labeled and unlabeled clients as the objective function for each client varies based on the availability of labels. This paper investigates an alternative way for effective training with labeled and unlabeled clients in a federated setting. We propose a novel learning scheme specifically designed for SSFL which we call Isolated Federated Learning (IsoFed) that circumvents the problem by avoiding simple averaging of supervised and semi-supervised models together. In particular, our training approach consists of two parts - (a) isolated aggregation of labeled and unlabeled client models, and (b) local self-supervised pretraining of isolated global models in all clients. We evaluate our model performance on medical image datasets of four different modalities publicly available within the biomedical image classification benchmark MedMNIST. We further vary the proportion of labeled clients and the degree of heterogeneity to demonstrate the effectiveness of the proposed method under varied experimental settings.
翻訳日:2023-10-31 16:16:27 公開日:2023-10-28
# ランダム森林の安定性とランダムフォレスト予測区間の被覆

Stability of Random Forests and Coverage of Random-Forest Prediction Intervals ( http://arxiv.org/abs/2310.18814v1 )

ライセンス: Link先を確認
Yan Wang, Huaiqing Wu, Dan Nettleton(参考訳) ランダム林の安定性は,二乗応答(y^2$)が重い尾を持たないという穏やかな条件下で確立する。 特に,この解析は,\texttt{randomforest} や \texttt{r} といった一般的なパッケージに実装されたランダムフォレストの実用バージョンを想定している。 実験の結果、安定性は仮定を超えても持続する可能性があり、y^2$の重い値を持つことがわかった。 安定特性を用いて,ランダム林のアウト・オブ・バッグ誤差から構築した予測区間のカバレッジ確率について非漸近下限を証明した。 y$ が連続であるときに通常満足される別の穏やかな条件とともに、任意の安定アルゴリズムから構築された jackknife 予測区間に対しても同様に確立される補完的な上界も確立する。 また,従来の文献よりも弱い仮定下での漸近的被覆確率についても考察した。 本研究は, ランダム森林の安定性は, 良好な点予測だけでなく, 余分な計算コストを伴わずに, 最適区間予測を実現できる機械学習手法であることを示唆している。

We establish stability of random forests under the mild condition that the squared response ($Y^2$) does not have a heavy tail. In particular, our analysis holds for the practical version of random forests that is implemented in popular packages like \texttt{randomForest} in \texttt{R}. Empirical results show that stability may persist even beyond our assumption and hold for heavy-tailed $Y^2$. Using the stability property, we prove a non-asymptotic lower bound for the coverage probability of prediction intervals constructed from the out-of-bag error of random forests. With another mild condition that is typically satisfied when $Y$ is continuous, we also establish a complementary upper bound, which can be similarly established for the jackknife prediction interval constructed from an arbitrary stable algorithm. We also discuss the asymptotic coverage probability under assumptions weaker than those considered in previous literature. Our work implies that random forests, with its stability property, is an effective machine learning method that can provide not only satisfactory point prediction but also justified interval prediction at almost no extra computational cost.
翻訳日:2023-10-31 16:15:50 公開日:2023-10-28
# 大規模言語モデルにおける投機的デコーディングとバッチの相乗効果

The Synergy of Speculative Decoding and Batching in Serving Large Language Models ( http://arxiv.org/abs/2310.18813v1 )

ライセンス: Link先を確認
Qidong Su, Christina Giannoula, Gennady Pekhimenko(参考訳) gptのような大規模言語モデル(llm)は、日々のルーチンに大きな支援を提供する最先端のテキスト生成モデルである。 しかし、LSMの実行は本質的にシーケンシャルであり、一度に1つのトークンしか生成しないため、現代のGPU上でのハードウェア使用率が低い。 バッチと投機復号化は、LLM推論におけるGPUハードウェア利用を改善する2つの手法である。 それらの相乗効果を研究するため,プロトタイプ実装を実装し,様々なLLMモデルとGPUアーキテクチャを広範囲に解析する。 最適な投機長は、使用するバッチサイズに依存する。 キーとなる観測結果を分析し、定量的モデルを構築して説明します。 そこで本研究では,異なるバッチサイズに対して最適な投機長を選択する新しい適応投機的復号法を提案する。 提案手法は, 投機期間を一定にすることで, 最先端の投機復号方式よりも, 同等あるいは良好な性能が得られることを示す。

Large Language Models (LLMs) like GPT are state-of-the-art text generation models that provide significant assistance in daily routines. However, LLM execution is inherently sequential, since they only produce one token at a time, thus incurring low hardware utilization on modern GPUs. Batching and speculative decoding are two techniques to improve GPU hardware utilization in LLM inference. To study their synergy, we implement a prototype implementation and perform an extensive characterization analysis on various LLM models and GPU architectures. We observe that the optimal speculation length depends on the batch size used. We analyze the key observation and build a quantitative model to explain it. Based on our analysis, we propose a new adaptive speculative decoding strategy that chooses the optimal speculation length for different batch sizes. Our evaluations show that our proposed method can achieve equal or better performance than the state-of-the-art speculation decoding schemes with fixed speculation length.
翻訳日:2023-10-31 16:15:27 公開日:2023-10-28
# UniCat:マルチモーダル再同定のためのより強力な核融合ベースラインの構築

UniCat: Crafting a Stronger Fusion Baseline for Multimodal Re-Identification ( http://arxiv.org/abs/2310.18812v1 )

ライセンス: Link先を確認
Jennifer Crawford, Haoli Yin, Luke McDermott, Daniel Cummings(参考訳) マルチモーダル再識別(reid:multimodal re-identification)は、さまざまなデータストリームにまたがるオブジェクトを再識別することを目的とした、一般的な検索タスクである。 このような融合は総合的な見方を約束するが、我々の調査は潜在的な落とし穴に光を当てた。 我々は, 遅延拡散法が分離したモードを訓練する手法と比較して, 準最適潜在表現を生じることが多いことを明らかにする。 この効果は主に、融合を用いた場合の個別のモダリティに対するトレーニング目標の意図しない緩和によるものであり、他の者はモダリティ・ラジネス(Modality laziness)と呼ぶ。 我々は、この緩和が、利用可能なタスク関連情報を十分に活用できない特定のモダリティに繋がる可能性があるというニュアンスな視点を示し、しかしながら、ノイズの多いモダリティに対する保護的ベールを提供し、タスク関連データへの過度な適合を防止する。 また,unimodal concatenation (unicat) と他の後期融合型ユニモーダルバックボーンは,よく知られたトレーニング技術と組み合わせると,複数のマルチモーダルreidベンチマークで現在の最先端のパフォーマンスを上回った。 モダリティ・ラジネス(modality laziness)」という二重刃の剣を披露することで、我々は地域モダリティの強さとグローバル表現のバランスをとるための将来の研究を動機付ける。

Multimodal Re-Identification (ReID) is a popular retrieval task that aims to re-identify objects across diverse data streams, prompting many researchers to integrate multiple modalities into a unified representation. While such fusion promises a holistic view, our investigations shed light on potential pitfalls. We uncover that prevailing late-fusion techniques often produce suboptimal latent representations when compared to methods that train modalities in isolation. We argue that this effect is largely due to the inadvertent relaxation of the training objectives on individual modalities when using fusion, what others have termed modality laziness. We present a nuanced point-of-view that this relaxation can lead to certain modalities failing to fully harness available task-relevant information, and yet, offers a protective veil to noisy modalities, preventing them from overfitting to task-irrelevant data. Our findings also show that unimodal concatenation (UniCat) and other late-fusion ensembling of unimodal backbones, when paired with best-known training techniques, exceed the current state-of-the-art performance across several multimodal ReID benchmarks. By unveiling the double-edged sword of "modality laziness", we motivate future research in balancing local modality strengths with global representations.
翻訳日:2023-10-31 16:15:13 公開日:2023-10-28
# オープンサイエンスのためのai: 倫理的にデータを知識に翻訳するマルチエージェント視点

AI for Open Science: A Multi-Agent Perspective for Ethically Translating Data to Knowledge ( http://arxiv.org/abs/2310.18852v1 )

ライセンス: Link先を確認
Chase Yakaboski, Gregory Hyde, Clement Nyanhongo and Eugene Santos Jr(参考訳) ai for science(ai4science)は、特に自動運転研究所という形で、人間の関与を回避し、より広いコミュニティで科学的発見を妨げる可能性がある。 これまでの研究では、AIアプリケーションの責任あるデプロイの確保、セキュリティの強化、解釈可能性の確保に重点を置いていたが、AI4Science発見のオープン化を促進することも慎重に検討すべきだ、と提案している。 本稿では、オープンサイエンスのためのai(ai4os)の概念を、単一の組織単位ではなく、科学企業全体でオープンナレッジ翻訳を最大化するコア原則として、ai4scienceのマルチエージェント拡張として紹介する。 我々は、知識発見とデータマイニング(KDD)の確立した原則を使用して、AI4OSに関する言語を形式化します。 次に、AI4Scienceシステムに埋め込まれた知識翻訳の3つの基本段階と、AI4OSの代替となるオープン性を適用するための具体的なポイントについて論じる。 最後に、AI4OSを評価するための理論的基準を定式化し、その重要性を強調する倫理的議論を支援する。 私たちの目標は、AI4OSに注意を向けることで、AI4Science(例えば、自動運転ラボ)の自然な結果が、開発者だけでなく、社会全体にとっても利益であることを保証することです。

AI for Science (AI4Science), particularly in the form of self-driving labs, has the potential to sideline human involvement and hinder scientific discovery within the broader community. While prior research has focused on ensuring the responsible deployment of AI applications, enhancing security, and ensuring interpretability, we also propose that promoting openness in AI4Science discoveries should be carefully considered. In this paper, we introduce the concept of AI for Open Science (AI4OS) as a multi-agent extension of AI4Science with the core principle of maximizing open knowledge translation throughout the scientific enterprise rather than a single organizational unit. We use the established principles of Knowledge Discovery and Data Mining (KDD) to formalize a language around AI4OS. We then discuss three principle stages of knowledge translation embedded in AI4Science systems and detail specific points where openness can be applied to yield an AI4OS alternative. Lastly, we formulate a theoretical metric to assess AI4OS with a supporting ethical argument highlighting its importance. Our goal is that by drawing attention to AI4OS we can ensure the natural consequence of AI4Science (e.g., self-driving labs) is a benefit not only for its developers but for society as a whole.
翻訳日:2023-10-31 16:06:26 公開日:2023-10-28
# 自己/半/完全教師付き事前学習モデルの探索

Exploring Data Augmentations on Self-/Semi-/Fully- Supervised Pre-trained Models ( http://arxiv.org/abs/2310.18850v1 )

ライセンス: Link先を確認
Shentong Mo, Zhun Sun, Chao Li(参考訳) データ拡張は、拡張ビュー間のばらつきをキャプチャするビジョン事前学習モデルの標準コンポーネントとなっている。 実際には、0/平均値または他のサンプルからのパッチを持つサンプルの領域をマスクする拡張技術は、自己/半/全監督のコントラスト的損失を持つ事前訓練されたモデルで一般的に使用される。 しかし,これらの拡張手法の有効性の基盤となるメカニズムはいまだ解明されていない。 そこで本研究では,データ拡張がパフォーマンスに与える影響を定量的に調査する。 具体的には,ランダム消去,カットアウト,カットミックス,ミックスアップという4種類のデータ拡張を,教師付き事前学習モデルに適用する。 画像分類,オブジェクト検出,インスタンスセグメンテーション,意味セグメンテーションなどの視覚タスクにおける性能について報告する。 そして、特徴埋め込みの不変性と多様性を明示的に評価します。 私たちはそれを観察します 1) 画像のマスキング領域は, 学習した特徴の埋め込みのばらつきを低減し, より大きな多様性を提供する。 2) 手動アノテーションは,学習した機能の不変性や多様性を変えない。 3) ミックスアップアプローチは, ばらつきの点において限界的な減少を伴い, ばらつきを大幅に改善する。

Data augmentation has become a standard component of vision pre-trained models to capture the invariance between augmented views. In practice, augmentation techniques that mask regions of a sample with zero/mean values or patches from other samples are commonly employed in pre-trained models with self-/semi-/fully-supervised contrastive losses. However, the underlying mechanism behind the effectiveness of these augmentation techniques remains poorly explored. To investigate the problems, we conduct an empirical study to quantify how data augmentation affects performance. Concretely, we apply 4 types of data augmentations termed with Random Erasing, CutOut, CutMix and MixUp to a series of self-/semi-/fully- supervised pre-trained models. We report their performance on vision tasks such as image classification, object detection, instance segmentation, and semantic segmentation. We then explicitly evaluate the invariance and diversity of the feature embedding. We observe that: 1) Masking regions of the images decreases the invariance of the learned feature embedding while providing a more considerable diversity. 2) Manual annotations do not change the invariance or diversity of the learned feature embedding. 3) The MixUp approach improves the diversity significantly, with only a marginal decrease in terms of the invariance.
翻訳日:2023-10-31 16:05:59 公開日:2023-10-28
# 深層学習に基づく人間と機械のための圧縮ドメインマルチメディア:分類とポイントクラウド分類への応用

Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification ( http://arxiv.org/abs/2310.18849v1 )

ライセンス: Link先を確認
Abdelrahman Seleem (1, 2, 4), Andr\'e F. R. Guarda (2), Nuno M. M. Rodrigues (2, 3), Fernando Pereira (1, 2) ((1) Instituto Superior T\'ecnico - Universidade de Lisboa, Lisbon, Portugal, (2) Instituto de Telecomunica\c{c}\~oes, Portugal, (3) ESTG, Polit\'ecnico de Leiria, Leiria, Portugal, (4) Faculty of Computers and Information, South Valley University, Qena, Egypt)(参考訳) 現在のマルチメディアの黄金時代において、人間の可視化はもはや唯一のターゲットではなく、最終的な消費者はしばしば処理やコンピュータビジョンタスクを実行する機械である。 いずれの場合も、ディープラーニングはマルチメディア表現データから特徴を抽出するのに役立ち、通常は潜在表現と呼ばれる圧縮表現を生成する。 幅広いマルチメディアアプリケーションにおけるディープラーニングベースのソリューションの開発と導入の増加により、人間と機械の両方に共通の圧縮マルチメディア表現が使用される、エキサイティングな新しいビジョンが開かれた。 このビジョンの主な利点は2つあります。 一 符号化工芸品の効果を緩和するため、コンピュータビジョンのタスクの性能を向上させること。 二 事前復号が不要であるため、計算複雑性の低減。 本稿では,圧縮ドメイン型コンピュータビジョンソリューションの設計のための最初の分類法を提案し,時空間型コンピュータビジョンプロセッサのアーキテクチャと重み付け互換性について述べる。 JPEG Pleno Point Cloud Coding標準を用いて新しい圧縮ドメインプロセッサを設計し、PointGrid分類器の開発と適応を行うことにより、ポイントクラウド分類の特定事例に対して、提案手法の可能性を示す。 実験結果から, 圧縮された領域点クラウド分類ソリューションは, 圧縮されたデータに適用した場合の時空間領域分類ベンチマークを著しく上回り, 圧縮されていないデータに適用した場合の処理性能を上回り得ることがわかった。

In the current golden age of multimedia, human visualization is no longer the single main target, with the final consumer often being a machine which performs some processing or computer vision tasks. In both cases, deep learning plays a undamental role in extracting features from the multimedia representation data, usually producing a compressed representation referred to as latent representation. The increasing development and adoption of deep learning-based solutions in a wide area of multimedia applications have opened an exciting new vision where a common compressed multimedia representation is used for both man and machine. The main benefits of this vision are two-fold: i) improved performance for the computer vision tasks, since the effects of coding artifacts are mitigated; and ii) reduced computational complexity, since prior decoding is not required. This paper proposes the first taxonomy for designing compressed domain computer vision solutions driven by the architecture and weights compatibility with an available spatio-temporal computer vision processor. The potential of the proposed taxonomy is demonstrated for the specific case of point cloud classification by designing novel compressed domain processors using the JPEG Pleno Point Cloud Coding standard under development and adaptations of the PointGrid classifier. Experimental results show that the designed compressed domain point cloud classification solutions can significantly outperform the spatial-temporal domain classification benchmarks when applied to the decompressed data, containing coding artifacts, and even surpass their performance when applied to the original uncompressed data.
翻訳日:2023-10-31 16:05:39 公開日:2023-10-28
# 視覚ナビゲーションのためのworld model based sim2real transfer

World Model Based Sim2Real Transfer for Visual Navigation ( http://arxiv.org/abs/2310.18847v1 )

ライセンス: Link先を確認
Chen Liu, Kiran Lekkala, Laurent Itti(参考訳) sim2real transferは安価なシミュレーターから現実世界への転送を支援するため、人気を集めている。 本稿では,従来の \textit{world model} のコンポーネントをロバストなシステムに融合し,シミュレータ内で完全にトレーニングし, \textit{zero-shot} を実世界へ転送する新しいシステムを提案する。 転送を容易にするために、我々は \textit{bird's eye view (bev)} イメージに基づく中間表現を使用する。 そこで,本ロボットはまず,複雑な \textit{First-Person View (FPV) ベースのRGBイメージからBEV表現への変換を学習し,その表現を用いてナビゲートを学習する。 その後、現実世界でテストする場合、ロボットは知覚モデルを使用して、fpvベースのrgbイメージを下流ポリシーで使用される埋め込みに変換する。 状態チェックモジュールを \textit{Anchor image} と \textit{Mixture density LSTM} で組み込むことは、不確実かつ欠落した観測を補間するだけでなく、実環境に晒される際のモデルの堅牢性を高める。 carlaシミュレータの \textit{differential drive} ロボットを用いて収集したデータを用いてモデルをトレーニングした。 提案手法の有効性は,トレーニングされたモデルをtextit{Real world Differential drive} ロボットに配置することによって示される。 最後に、トレーニングとデプロイメントのための包括的なコードベース、データセット、モデルを公開しています。

Sim2Real transfer has gained popularity because it helps transfer from inexpensive simulators to real world. This paper presents a novel system that fuses components in a traditional \textit{World Model} into a robust system, trained entirely within a simulator, that \textit{Zero-Shot} transfers to the real world. To facilitate transfer, we use an intermediary representation that are based on \textit{Bird's Eye View (BEV)} images. Thus, our robot learns to navigate in a simulator by first learning to translate from complex \textit{First-Person View (FPV)} based RGB images to BEV representations, then learning to navigate using those representations. Later, when tested in the real world, the robot uses the perception model that translates FPV-based RGB images to embeddings that are used by the downstream policy. The incorporation of state-checking modules using \textit{Anchor images} and \textit{Mixture Density LSTM} not only interpolates uncertain and missing observations but also enhances the robustness of the model when exposed to the real-world environment. We trained the model using data collected using a \textit{Differential drive} robot in the CARLA simulator. Our methodology's effectiveness is shown through the deployment of trained models onto a \textit{Real world Differential drive} robot. Lastly we release a comprehensive codebase, dataset and models for training and deployment that are available to the public.
翻訳日:2023-10-31 16:05:17 公開日:2023-10-28
# INCODE: 事前知識埋め込みによる暗黙のニューラルコンディショニング

INCODE: Implicit Neural Conditioning with Prior Knowledge Embeddings ( http://arxiv.org/abs/2310.18846v1 )

ライセンス: Link先を確認
Amirhossein Kazerouni, Reza Azad, Alireza Hosseini, Dorit Merhof, Ulas Bagci(参考訳) Inlicit Neural Representation (INR)は、複雑なデータの連続的かつ滑らかな表現を提供するためにニューラルネットワークを活用することで、信号表現に革命をもたらした。 しかし、既存のINRは細かな細部を捉え、ノイズを扱い、多様な信号タイプに適応する際の制限に直面している。 これらの課題に対処するために,深い事前知識を用いたINRにおける正弦波活性化関数の制御を強化する新しいアプローチであるINCODEを導入する。 INCODEは、アクティベーション機能のキーパラメータを動的に調整するハーモナイザネットワークと、作曲家ネットワークとから構成される。 タスク固有の事前訓練モデルを通じて、INCODEはタスク固有のパラメータを適用して表現プロセスを最適化する。 提案手法は表現力に優れるだけでなく,音声,画像,3次元形状再構成などの複雑な課題に対処し,ニューラルレイディアンスフィールド(NeRF)などの複雑な課題や,デノナイズ,超解像,インペインティング,CT再構成などの逆問題に対処する能力も拡張する。 包括的な実験を通じて、INCODEは信号表現の範囲を広げ、ロバスト性、精度、品質、収束率の観点からその優位性を示す。 提案するメソッドの詳細とコードへのアクセスについては、プロジェクトのwebサイトをご覧ください。

Implicit Neural Representations (INRs) have revolutionized signal representation by leveraging neural networks to provide continuous and smooth representations of complex data. However, existing INRs face limitations in capturing fine-grained details, handling noise, and adapting to diverse signal types. To address these challenges, we introduce INCODE, a novel approach that enhances the control of the sinusoidal-based activation function in INRs using deep prior knowledge. INCODE comprises a harmonizer network and a composer network, where the harmonizer network dynamically adjusts key parameters of the activation function. Through a task-specific pre-trained model, INCODE adapts the task-specific parameters to optimize the representation process. Our approach not only excels in representation, but also extends its prowess to tackle complex tasks such as audio, image, and 3D shape reconstructions, as well as intricate challenges such as neural radiance fields (NeRFs), and inverse problems, including denoising, super-resolution, inpainting, and CT reconstruction. Through comprehensive experiments, INCODE demonstrates its superiority in terms of robustness, accuracy, quality, and convergence rate, broadening the scope of signal representation. Please visit the project's website for details on the proposed method and access to the code.
翻訳日:2023-10-31 16:04:48 公開日:2023-10-28
# ソフトウェア工学教育における協調学習パラダイムの応用:システムマッピング研究

Application of Collaborative Learning Paradigms within Software Engineering Education: A Systematic Mapping Study ( http://arxiv.org/abs/2310.18845v1 )

ライセンス: Link先を確認
Rita Garcia, Christoph Treude, Andrew Valentine(参考訳) コラボレーションはソフトウェア開発のためにソフトウェア工学(SE)で使用される。 産業は、生産的なソフトウェア開発に貢献するためにコラボレーションスキルを持つSE卒業生を求めます。 SE教育者は、学生がコラボレーションスキルを開発するのを助けるためにコラボレーティブラーニング(CL)を使用することができる。 本稿では,システムマッピング研究 (SMS) を用いて,SE教育におけるCL教育理論の適用について検討する。 SMSは2011年から2022年にかけて14の論文を公表した。 論文の質的分析を,条件,効果,相互作用,コンピュータ支援協調学習(CSCL)という4つのCLパラダイムに分類した。 学生のインタラクション研究からコンピュータによる技術へのシフトとともに,CSCLへの関心が高まった。 我々は14の論文を深く議論し,その目標を説明し,cscl研究をさらに分析した。 論文のほぼ半数は適切な支持証拠のレベルを達成できなかったが、提示された機器の校正は、研究が不十分な社会やコミュニティレベルで学ぶ機会として、複数のCLパラダイムの発見を強化し、支援する可能性がある。 本研究は,SE教育に応用されるCL教育理論の限界を実証するものであるが,既存の学習設計を重層化し,より効果的な教育戦略を提案する。

Collaboration is used in Software Engineering (SE) to develop software. Industry seeks SE graduates with collaboration skills to contribute to productive software development. SE educators can use Collaborative Learning (CL) to help students develop collaboration skills. This paper uses a Systematic Mapping Study (SMS) to examine the application of the CL educational theory in SE Education. The SMS identified 14 papers published between 2011 and 2022. We used qualitative analysis to classify the papers into four CL paradigms: Conditions, Effect, Interactions, and Computer-Supported Collaborative Learning (CSCL). We found a high interest in CSCL, with a shift in student interaction research to computer-mediated technologies. We discussed the 14 papers in depth, describing their goals and further analysing the CSCL research. Almost half the papers did not achieve the appropriate level of supporting evidence; however, calibrating the instruments presented could strengthen findings and support multiple CL paradigms, especially opportunities to learn at the social and community levels, where research was lacking. Though our results demonstrate limited CL educational theory applied in SE Education, we discuss future work to layer the theory on existing study designs for more effective teaching strategies.
翻訳日:2023-10-31 16:04:20 公開日:2023-10-28
# BanditPAM++: $k$-medoidsクラスタリングの高速化

BanditPAM++: Faster $k$-medoids Clustering ( http://arxiv.org/abs/2310.18844v1 )

ライセンス: Link先を確認
Mo Tiwari, Ryan Kang, Donghyun Lee, Sebastian Thrun, Chris Piech, Ilan Shomorony, Martin Jinye Zhang(参考訳) クラスタリングは幅広いアプリケーションを扱うデータサイエンスにおける基本的なタスクである。 k$-medoidsクラスタリングでは、クラスタセンタは実際のデータポイントでなければならず、任意の距離メトリクスが使用できる。 $k$-medoidsクラスタリングは、より効率的な$k$-medoidsアルゴリズムの発見により、最近人気が高まっている。 特に最近の研究では、最先端の複雑さとクラスタリング精度を備えたランダム化$k$-medoidsアルゴリズムであるBanditPAMが提案されている。 本稿では,BanditPAMを2つのアルゴリズム改良により高速化するBanditPAM++を提案する。 まず、BanditPAMはクラスタリング情報の再利用を可能にする特別な構造を持っていることを実証します。 次に、banditpamには、$\textit{across}$の異なるイテレーションを再利用する追加の構造があることを実証する。 これらの観測から提案したアルゴリズムであるBanditPAM++は、BanditPAMと同じクラスタリングソリューションを返すが、多くの場合は数倍高速である。 例えば、CIFAR10データセットでは、BanditPAM++はBanditPAMと同じ結果を返すが、10$\times$高速に実行される。 最後に、我々は、PythonとRから呼び出し可能なBanditPAM++の高性能なC++実装を提供しています。 実験を1行のスクリプトで再現するための補助的なコードはhttps://github.com/ThrunGroup/BanditPAM_plus_experiments.comにある。

Clustering is a fundamental task in data science with wide-ranging applications. In $k$-medoids clustering, cluster centers must be actual datapoints and arbitrary distance metrics may be used; these features allow for greater interpretability of the cluster centers and the clustering of exotic objects in $k$-medoids clustering, respectively. $k$-medoids clustering has recently grown in popularity due to the discovery of more efficient $k$-medoids algorithms. In particular, recent research has proposed BanditPAM, a randomized $k$-medoids algorithm with state-of-the-art complexity and clustering accuracy. In this paper, we present BanditPAM++, which accelerates BanditPAM via two algorithmic improvements, and is $O(k)$ faster than BanditPAM in complexity and substantially faster than BanditPAM in wall-clock runtime. First, we demonstrate that BanditPAM has a special structure that allows the reuse of clustering information $\textit{within}$ each iteration. Second, we demonstrate that BanditPAM has additional structure that permits the reuse of information $\textit{across}$ different iterations. These observations inspire our proposed algorithm, BanditPAM++, which returns the same clustering solutions as BanditPAM but often several times faster. For example, on the CIFAR10 dataset, BanditPAM++ returns the same results as BanditPAM but runs over 10$\times$ faster. Finally, we provide a high-performance C++ implementation of BanditPAM++, callable from Python and R, that may be of interest to practitioners at https://github.com/motiwari/BanditPAM. Auxiliary code to reproduce all of our experiments via a one-line script is available at https://github.com/ThrunGroup/BanditPAM_plusplus_experiments.
翻訳日:2023-10-31 16:04:01 公開日:2023-10-28
# 不正確な評価と複雑性保証を伴う非凸最小化のためのランダム化アルゴリズム

A randomized algorithm for nonconvex minimization with inexact evaluations and complexity guarantees ( http://arxiv.org/abs/2310.18841v1 )

ライセンス: Link先を確認
Shuyao Li, Stephen J. Wright(参考訳) 我々は、oracleが勾配やヘッシアン(関数値ではない)へのアクセスを不必要にする滑らかな非凸関数の最小化を検討し、$(\epsilon_{g}, \epsilon_{h})$-approximate second-order optimalityを達成する。 提案手法の新たな特徴は, 負曲率の近似方向をステップとして選択した場合, 正あるいは負の感覚を同じ確率で選択することである。 また、勾配とヘッセンの相対的不正確な測度を使い、1階と2階の許容値 $\epsilon_{g}$ と $\epsilon_{H}$ の結合を緩和する。 我々の収束解析は,マルティンゲール解析に基づく期待値と濃度不等式に基づく高い確率値の両方を含む。 本アルゴリズムを経験的リスク最小化問題に適用し,勾配サンプル複雑性を得る。

We consider minimization of a smooth nonconvex function with inexact oracle access to gradient and Hessian (but not the function value) to achieve $(\epsilon_{g}, \epsilon_{H})$-approximate second-order optimality. A novel feature of our method is that if an approximate direction of negative curvature is chosen as the step, we choose its sense to be positive or negative with equal probability. We also use relative inexactness measures on gradient and Hessian and relax the coupling between the first- and second-order tolerances $\epsilon_{g}$ and $\epsilon_{H}$. Our convergence analysis includes both an expectation bound based on martingale analysis and a high-probability bound based on concentration inequalities. We apply our algorithm to empirical risk minimization problems and obtain gradient sample complexity.
翻訳日:2023-10-31 16:03:29 公開日:2023-10-28
# テキスト・画像拡散モデルによる360度パノラマのカスタマイズ

Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models ( http://arxiv.org/abs/2310.18840v1 )

ライセンス: Link先を確認
Hai Wang, Xiaoyu Xiang, Yuchen Fan, Jing-Hao Xue(参考訳) 近年,拡散モデルに基づくPersonalized Text-to-image (T2I) 合成が注目されている。 しかし、既存の手法は主に主題やスタイルをカスタマイズすることに集中し、グローバルな幾何学の探求を無視している。 本研究では,t2i拡散モデルを用いて,大域的な幾何学的性質を本質的に有する360度パノラマのカスタマイズに焦点をあてたアプローチを提案する。 これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。 それでも、微調整されたモデルだけでは合成画像の左端と右端の連続性が保証されず、360度パノラマの重要な特徴である。 そこで本研究では,StitchDiffusionと呼ばれる手法を提案する。 具体的には、左端画像領域と右端画像領域からなる縫合ブロックにおいて、デノナイジングプロセスの各ステップ毎に2回、プレデノナイジング操作を行う。 さらに,360度パノラマをシームレスに合成するためにグローバルクロッピングが採用されている。 実験の結果,360度パノラマ画像生成におけるstitchdiffusionと組み合わせたカスタマイズモデルの有効性が実証された。 さらに,カスタマイズしたモデルでは,微調整されたデータセットでは見当たらないシーンを生成できる特異な一般化能力を示す。 コードはhttps://github.com/littlewhitesea/StitchDiffusionで入手できる。

Personalized text-to-image (T2I) synthesis based on diffusion models has attracted significant attention in recent research. However, existing methods primarily concentrate on customizing subjects or styles, neglecting the exploration of global geometry. In this study, we propose an approach that focuses on the customization of 360-degree panoramas, which inherently possess global geometric properties, using a T2I diffusion model. To achieve this, we curate a paired image-text dataset specifically designed for the task and subsequently employ it to fine-tune a pre-trained T2I diffusion model with LoRA. Nevertheless, the fine-tuned model alone does not ensure the continuity between the leftmost and rightmost sides of the synthesized images, a crucial characteristic of 360-degree panoramas. To address this issue, we propose a method called StitchDiffusion. Specifically, we perform pre-denoising operations twice at each time step of the denoising process on the stitch block consisting of the leftmost and rightmost image regions. Furthermore, a global cropping is adopted to synthesize seamless 360-degree panoramas. Experimental results demonstrate the effectiveness of our customized model combined with the proposed StitchDiffusion in generating high-quality 360-degree panoramic images. Moreover, our customized model exhibits exceptional generalization ability in producing scenes unseen in the fine-tuning dataset. Code is available at https://github.com/littlewhitesea/StitchDiffusion.
翻訳日:2023-10-31 16:03:11 公開日:2023-10-28
# ミリケルビン温度におけるシリコン空孔中心を有する高Q因子ダイヤモンド光機械共振器

High Q-factor diamond optomechanical resonators with silicon vacancy centers at millikelvin temperatures ( http://arxiv.org/abs/2310.18838v1 )

ライセンス: Link先を確認
Graham D. Joe, Cleaven Chia, Benjamin Pingault, Michael Haas, Michelle Chalupnik, Eliza Cornell, Kazuhiro Kuruma, Bartholomeus Machielse, Neil Sinclair, Srujan Meesala, Marko Lon\v{c}ar(参考訳) フォノンは、異なるタイプの量子システム間のコヒーレントな中間体として考えられている。 光機械結晶(omcs)のようなナノスケールデバイスは、フォノンを量子情報キャリアとして利用するプラットフォームを提供する。 ここでは、フォノンとシリコン空孔(SiV)スピンとの強い相互作用のために設計されたダイヤモンド中のOMCを実証する。 ミリケルビン温度の光学的測定を用いて,6GHzのアコースティックモードにおける13kHz (Q-factor ~440,000) のライン幅,GHz周波数域におけるダイヤモンドの記録,シリコン中におけるOMCの最先端ライン幅のオーダーで測定した。 これらのデバイスにおけるSiV光およびスピン特性について検討し、コヒーレントスピンフォノン界面への経路を概説する。

Phonons are envisioned as coherent intermediaries between different types of quantum systems. Engineered nanoscale devices such as optomechanical crystals (OMCs) provide a platform to utilize phonons as quantum information carriers. Here we demonstrate OMCs in diamond designed for strong interactions between phonons and a silicon vacancy (SiV) spin. Using optical measurements at millikelvin temperatures, we measure a linewidth of 13 kHz (Q-factor of ~440,000) for 6 GHz acoustic modes, a record for diamond in the GHz frequency range and within an order of magnitude of state-of-the-art linewidths for OMCs in silicon. We investigate SiV optical and spin properties in these devices and outline a path towards a coherent spin-phonon interface.
翻訳日:2023-10-31 16:02:51 公開日:2023-10-28
# tst$^\mathrm{r}$: ターゲットの類似性チューニングが現実世界を満たしている

TST$^\mathrm{R}$: Target Similarity Tuning Meets the Real World ( http://arxiv.org/abs/2310.17228v2 )

ライセンス: Link先を確認
Anirudh Khatry, Sumit Gulwani, Priyanshu Gupta, Vu Le, Ananya Singha, Mukul Singh, Gust Verbruggen(参考訳) ターゲット類似性チューニング(TST)は、自然言語(NL)から大規模言語モデル(LLM)によるコード生成を選択し、性能を向上させる手法である。 その目標は、2つのNL入力間の類似性を持つ文埋め込みモデルを、関連するコード出力間の類似性に適合させることである。 本稿では,現実世界におけるTSTの適用と改善のための異なる手法を提案する。 まず、文変換器をより大きなモデルからの埋め込みに置き換えることで、言語分布に対する感度を低減し、例の合成における柔軟性を高めるとともに、これらの埋め込みをコード類似性にマッチする空間に変換する小さなモデルを訓練し、モデルがブラックボックスのままで、推論時に数個の行列乗算しか必要としない。 第2に、TSTモデルをトレーニングするために、少数のトレーニング例を効率的に選択する方法を示す。 第3に,エンドツーエンドのコード生成実験を必要としないTSTのランキングに基づく評価を導入する。

Target similarity tuning (TST) is a method of selecting relevant examples in natural language (NL) to code generation through large language models (LLMs) to improve performance. Its goal is to adapt a sentence embedding model to have the similarity between two NL inputs match the similarity between their associated code outputs. In this paper, we propose different methods to apply and improve TST in the real world. First, we replace the sentence transformer with embeddings from a larger model, which reduces sensitivity to the language distribution and thus provides more flexibility in synthetic generation of examples, and we train a tiny model that transforms these embeddings to a space where embedding similarity matches code similarity, which allows the model to remain a black box and only requires a few matrix multiplications at inference time. Second, we show how to efficiently select a smaller number of training examples to train the TST model. Third, we introduce a ranking-based evaluation for TST that does not require end-to-end code generation experiments, which can be expensive to perform.
翻訳日:2023-10-31 11:45:33 公開日:2023-10-28
# COPF: 最適な政策適合による継続的な学習

COPF: Continual Learning Human Preference through Optimal Policy Fitting ( http://arxiv.org/abs/2310.15694v4 )

ライセンス: Link先を確認
Han Zhang, Lin Gui, Yuanzhao Zhai, Hui Wang, Yu Lei, Ruifeng Xu(参考訳) 人間フィードバックからの強化学習(rlhf)は、事前学習された言語モデル(lm)を改善するために一般的に用いられる手法であり、人間の好みに適合する能力を高める。 しかしながら、現在のRLHFベースのLMは、新しいクエリやフィードバックが導入されるたびに完全なリトレーニングを必要とする。 lmsの再トレーニングは、データプライバシに関する懸念に加えて、膨大な時間と計算リソースを必要とするため、多くの現実の状況において実践上の困難をもたらす。 この制限に対処するために,モンテカルロ法を用いて一連の最適政策を推定し,関数正規化と連続的にポリシーシーケンスを適合させる,COPF(Continuous Optimal Policy Fitting)と呼ばれる新しい手法を提案する。 COPFは単一の学習フェーズを含み、複雑な強化学習を必要としない。 重要なのは、ラベルのないデータから学習するRLHFと共有することで、継続的な嗜好学習に柔軟になることだ。 実験の結果, copfは, 異なるタスクやドメインにおける人間の嗜好と一貫性を持たせる上で, 強い連続学習(cl)ベースラインよりも優れていることがわかった。

The technique of Reinforcement Learning from Human Feedback (RLHF) is a commonly employed method to improve pre-trained Language Models (LM), enhancing their ability to conform to human preferences. Nevertheless, the current RLHF-based LMs necessitate full retraining each time novel queries or feedback are introduced, which becomes a challenging task because human preferences can vary between different domains or tasks. Retraining LMs poses practical difficulties in many real-world situations due to the significant time and computational resources required, along with concerns related to data privacy. To address this limitation, we propose a new method called Continual Optimal Policy Fitting (COPF), in which we estimate a series of optimal policies using the Monte Carlo method, and then continually fit the policy sequence with the function regularization. COPF involves a single learning phase and doesn't necessitate complex reinforcement learning. Importantly, it shares the capability with RLHF to learn from unlabeled data, making it flexible for continual preference learning. Our experimental results show that COPF outperforms strong Continuous learning (CL) baselines when it comes to consistently aligning with human preferences on different tasks and domains.
翻訳日:2023-10-31 11:45:09 公開日:2023-10-28
# dpm-solver-v3:経験モデル統計を用いた拡散 ode ソルバの改良

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics ( http://arxiv.org/abs/2310.13268v3 )

ライセンス: Link先を確認
Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu(参考訳) 拡散確率モデル(DPM)は、非効率サンプリングに悩まされながら高忠実度画像生成に優れた性能を示した。 最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。 しかし、それらは推論中の特定のパラメータ化(ノイズ/データ予測など)に大きく依存しており、最適な選択ではないかもしれない。 本研究では,ode溶液の1次離散化誤差を最小化するサンプリング時の最適パラメータ化に関する新しい定式化を提案する。 このような定式化に基づいて、実験モデル統計と呼ばれる事前学習モデル上で効率的に計算された数係数を導入し、DPMのための新しい高速ODEソルバーであるDPM-Solver-v3を提案する。 さらに,マルチステップ法と予測子補正フレームワークを取り入れ,少数の機能評価(nfe)や大規模指導尺度でサンプル品質を改善する手法を提案する。 実験により、DPM-Solver-v3は、特に5$\sim$10 NFEにおいて、画素空間と潜在空間の両方のDPMを用いて、条件なしサンプリングと条件付きサンプリングの両方において、一貫した性能または同等の性能を達成することが示された。 非条件のCIFAR10では12.21 (5 NFE), 2.51 (10 NFE), 安定拡散では0.55 (5 NFE, 7.5ガイダンススケール) のFIDを達成し, 従来の最先端のトレーニングフリー手法に比べて15%$\sim$30%の高速化を実現した。 コードはhttps://github.com/thu-ml/dpm-solver-v3で入手できる。

Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose DPM-Solver-v3, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call empirical model statistics. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5$\sim$10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15%$\sim$30% compared to previous state-of-the-art training-free methods. Code is available at https://github.com/thu-ml/DPM-Solver-v3.
翻訳日:2023-10-31 11:44:48 公開日:2023-10-28
# 言語から見た弱視映像の再検討

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective ( http://arxiv.org/abs/2306.00595v6 )

ライセンス: Link先を確認
Yingying Fan and Yu Wu and Bo Du and Yutian Lin(参考訳) 音声/視覚モダリティのすべてのイベントを識別・特定することを目的とした,弱い教師付き音声映像解析タスク(avvp)に注目した。 それまでの作業は、モダリティにまたがるビデオレベルのラベルにのみフォーカスするが、隣接するビデオセグメント(すなわち1秒のビデオクリップ)が異なるイベントを含むセグメントレベルのラベルノイズを見落としている。 しかし、セグメント内のイベントを認識することは、そのラベルがビデオ内で発生するイベントの組み合わせである可能性があるため、難しい。 この問題を解決するために、言語の観点からAVVPに取り組むことを検討する。なぜなら、言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからだ。 具体的には、各ビデオのイベント出現のすべてのケースを記述する言語プロンプトを設計します。 次に、最も類似したプロンプトのイベントをセグメントレベルラベルとして、言語プロンプトとセグメントの類似度を算出する。 また,ラベルの誤りに対処するため,信頼できないセグメントに対して動的再重み付けを行い,ラベルを調整することを提案する。 実験により, 単純かつ効果的なアプローチが最先端の手法を大差で上回っていることが示された。

We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the segment-level label noise, where adjacent video segments (i.e., 1-second video clips) may contain different events. However, recognizing events in the segment is challenging because its label could be any combination of events that occur in the video. To address this issue, we consider tackling AVVP from the language perspective, since language could freely describe how various events appear in each segment beyond fixed labels. Specifically, we design language prompts to describe all cases of event appearance for each video. Then, the similarity between language prompts and segments is calculated, where the event of the most similar prompt is regarded as the segment-level label. In addition, to deal with the mislabeled segments, we propose to perform dynamic re-weighting on the unreliable segments to adjust their labels. Experiments show that our simple yet effective approach outperforms state-of-the-art methods by a large margin.
翻訳日:2023-10-31 11:43:55 公開日:2023-10-28
# NLI4CT : 多証拠自然言語推論による臨床試験報告

NLI4CT: Multi-Evidence Natural Language Inference for Clinical Trial Reports ( http://arxiv.org/abs/2305.03598v3 )

ライセンス: Link先を確認
Ma\"el Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers, and Andr\'e Freitas(参考訳) 臨床判断を支援するために 医学的証拠を解釈し 取り出すにはどうすればよいか? 臨床治験報告(CTR)は、パーソナライズド医療の発展に欠かせない情報を含んでいる。 しかし、40万以上の臨床試験報告を手動で検査して、実験的な治療の最良の証拠を見つけることは事実上不可能である。 自然言語推論(NLI)は、テキストエンターメントのスケーラブルな計算を可能にすることにより、この問題に対する潜在的な解決策を提供する。 しかし、既存のNLIモデルはバイオメディカルコーパスでは性能が悪く、以前に発表されたデータセットはCTRに対する推論の完全な複雑さを捉えることができない。 本研究では,CTRの推論のためのNLI研究を進展させる新しい資源を提案する。 リソースには2つの主なタスクが含まれている。 まず、自然言語文とCTRの推論関係を決定する。 第二に、予測関係を正当化する支援事実を検索する。 NLI4CTは2400の文とCTRからなるコーパスで、これらのタスクに注釈を付ける。 このコーパスのベースラインは既存のNLIモデルの限界を明らかにし、6つの最先端NLIモデルは最大F1スコア0.627を達成する。 私たちの知る限りでは、私たちは完全なCTRの解釈をカバーするタスクを最初に設計しました。 この困難なデータセットのさらなる作業を促進するために、コーパス、競合のリーダーボード、webサイト、コードをベースラインの実験を再現する。

How can we interpret and retrieve medical evidence to support clinical decisions? Clinical trial reports (CTR) amassed over the years contain indispensable information for the development of personalized medicine. However, it is practically infeasible to manually inspect over 400,000+ clinical trial reports in order to find the best evidence for experimental treatments. Natural Language Inference (NLI) offers a potential solution to this problem, by allowing the scalable computation of textual entailment. However, existing NLI models perform poorly on biomedical corpora, and previously published datasets fail to capture the full complexity of inference over CTRs. In this work, we present a novel resource to advance research on NLI for reasoning on CTRs. The resource includes two main tasks. Firstly, to determine the inference relation between a natural language statement, and a CTR. Secondly, to retrieve supporting facts to justify the predicted relation. We provide NLI4CT, a corpus of 2400 statements and CTRs, annotated for these tasks. Baselines on this corpus expose the limitations of existing NLI models, with 6 state-of-the-art NLI models achieving a maximum F1 score of 0.627. To the best of our knowledge, we are the first to design a task that covers the interpretation of full CTRs. To encourage further work on this challenging dataset, we make the corpus, competition leaderboard, website and code to replicate the baseline experiments available at: https://github.com/ai-systems/nli4ct
翻訳日:2023-10-31 11:43:36 公開日:2023-10-28