このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240331となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 不確実な境界: 生成AIにおける著作権問題に対する複数の学際的アプローチ
Uncertain Boundaries: Multidisciplinary Approaches to Copyright Issues in Generative AI ( http://arxiv.org/abs/2404.08221v1 ) ライセンス: Link先を確認 | Jocelyn Dzuong, Zichong Wang, Wenbin Zhang, | (参考訳) 生成人工知能(AI)の急速に発展する状況において、著作権侵害の問題は、AIがスクラップ化された著作権データからコンテンツを生成し、様々なキャリアのプロフェッショナルに影響を与える所有権と保護に関する疑問を提起するにつれて生じる。
このことを念頭に置いて、この調査は、生成的AIに関連する著作権侵害を広範囲に調査し、最新の発展とオープンな問題に近づき続けることを目的としている。
具体的には、テキスト、画像、ビデオなどの媒体における著作権侵害を検出する方法について概説する。
次に、著作権のある作品を生成モデルから保護することを目的とした既存の技術を探究する。
さらに,著作権侵害を評価するためのリソースやツールについても検討する。
最後に、進行中の規則とAIの提案に関する洞察を探求し、比較する。
これらの規律を組み合わせることで、AI駆動のコンテンツと著作権の意味が完全に説明され、疑問が呈される。
In the rapidly evolving landscape of generative artificial intelligence (AI), the increasingly pertinent issue of copyright infringement arises as AI advances to generate content from scraped copyrighted data, prompting questions about ownership and protection that impact professionals across various careers. With this in mind, this survey provides an extensive examination of copyright infringement as it pertains to generative AI, aiming to stay abreast of the latest developments and open problems. Specifically, it will first outline methods of detecting copyright infringement in mediums such as text, image, and video. Next, it will delve an exploration of existing techniques aimed at safeguarding copyrighted works from generative models. Furthermore, this survey will discuss resources and tools for users to evaluate copyright violations. Finally, insights into ongoing regulations and proposals for AI will be explored and compared. Through combining these disciplines, the implications of AI-driven content and copyright are thoroughly illustrated and brought into question. | 翻訳日:2024-04-21 20:14:16 公開日:2024-03-31 |
# 2022年ACLおよびEMNLP会議におけるデータセットの動向
Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences ( http://arxiv.org/abs/2404.08666v1 ) ライセンス: Link先を確認 | Jesse Atuhurra, Hidetaka Kamigaito, | (参考訳) 自然言語処理(NLP)はTransformerアーキテクチャの出現以来、大きく成長している。
トランスフォーマーは、事前訓練された大規模言語モデル(PLM)を生んだ。
いくつかのタスクでNLPシステムの性能が大幅に向上した。
NLPシステムは、特定のタスクを達成する上で人間よりも優れている場合もあります。
しかしながら、プレトレーニング時の \emph{better 品質データセットは、タスクに関わらず PLM がより良いパフォーマンスを達成することができるという規範は、依然として残っている。
品質データセットの必要性は、NLP研究者が特定のニーズを満たすために新しいデータセットを作成し続けるきっかけとなった。
例えば、上位2つのNLPカンファレンスであるACLとEMNLPは、2022年に92の論文を受け入れ、新しいデータセットを導入した。
この研究は、これらのデータセットに含まれるトレンドと洞察を明らかにすることを目的としている。
さらに,将来,データセットのキュレーションに関心のある研究者に対して,貴重な提案を行う。
Natural language processing (NLP) has grown significantly since the advent of the Transformer architecture. Transformers have given birth to pre-trained large language models (PLMs). There has been tremendous improvement in the performance of NLP systems across several tasks. NLP systems are on par or, in some cases, better than humans at accomplishing specific tasks. However, it remains the norm that \emph{better quality datasets at the time of pretraining enable PLMs to achieve better performance, regardless of the task.} The need to have quality datasets has prompted NLP researchers to continue creating new datasets to satisfy particular needs. For example, the two top NLP conferences, ACL and EMNLP, accepted ninety-two papers in 2022, introducing new datasets. This work aims to uncover the trends and insights mined within these datasets. Moreover, we provide valuable suggestions to researchers interested in curating datasets in the future. | 翻訳日:2024-04-21 20:04:31 公開日:2024-03-31 |
# 量子位相推定によるフォールトトレラント量子コンピュータにおける第一原理分子動力学の可能性
Feasibility of first principles molecular dynamics in fault-tolerant quantum computer by quantum phase estimation ( http://arxiv.org/abs/2404.10001v1 ) ライセンス: Link先を確認 | Ichio Kikuchi, Akihito Kikuchi, | (参考訳) 本稿では,古典計算によるいわゆるCar-Parrinello法により実現された量子アルゴリズムにより,波動関数と核の位置を同時に決定する,アブ初期分子シミュレーションの実現可能性に関する概念実証を示す。
本稿で使用されるアプローチはハイブリッド方式であり、将来のフォールトトレラント量子コンピュータによって実現される。
まず、基本方程式は多項式によって近似される。
第二に、これらの多項式は特定の形式に変換され、すべての変数(波動関数と原子座標を表す)は有限次元の単項の線型空間に作用する変換によって与えられ、未知の変数はそれらの変換行列の固有値として決定される。
第三に、固有値は量子位相推定によって決定される。
これら3つのステップ、すなわち記号、数値、量子ステップに従って、最適化された分子の電子構造と原子構造を決定することができる。
This article shows a proof of concept regarding the feasibility of ab initio molecular simulation, wherein the wavefunctions and the positions of nuclei are simultaneously determined by the quantum algorithm, as is realized by the so-called Car-Parrinello method by classical computing. The approach used in this article is of a hybrid style, which shall be realized by future fault-tolerant quantum computer. First, the basic equations are approximated by polynomials. Second, those polynomials are transformed to a specific form, wherein all variables (representing the wavefunctions and the atomic coordinates) are given by the transformations acting on a linear space of monomials with finite dimension, and the unknown variables could be determined as the eigenvalues of those transformation matrices. Third, the eigenvalues are determined by quantum phase estimation. Following these three steps, namely, symbolic, numeric, and quantum steps, we can determine the optimized electronic and atomic structures of molecules. | 翻訳日:2024-04-21 19:54:47 公開日:2024-03-31 |
# マクロ経済政策の影響を解き明かす--金融市場への利子効果分析のためのダブル機械学習アプローチ
Unveiling the Impact of Macroeconomic Policies: A Double Machine Learning Approach to Analyzing Interest Rate Effects on Financial Markets ( http://arxiv.org/abs/2404.07225v1 ) ライセンス: Link先を確認 | Anoop Kumar, Suresh Dodda, Navin Kamuni, Rajeev Kumar Arora, | (参考訳) 本研究では,機械学習(ML)技術と因果推論を組み合わせた新たなアプローチを用いて,マクロ経済政策が金融市場に与える影響を検討する。
1986年1月から2021年12月までの間に、米連邦準備制度(FRS)が実施した金利変更が固定所得と株式ファンドのリターンに与える影響に焦点を当てている。
この分析は、アクティブ・マネージメントとパッシブ・マネージメント・ファンドを区別し、後者は金利の変化の影響を受けにくいと仮定する。
この研究は、様々な統計的学習技術をサポートするDouble Machine Learning (DML)フレームワークを用いて、勾配向上と線形回帰モデルを対比する。
例えば、1%の利上げは、アクティブ・マネージメント・ファンドのリターンを-11.97%減少させる。
この金利とファンドパフォーマンスの関係の理解は、ファンドマネージャーと投資家にさらなる研究と洞察に富んだデータ駆動アドバイスの機会を提供する
This study examines the effects of macroeconomic policies on financial markets using a novel approach that combines Machine Learning (ML) techniques and causal inference. It focuses on the effect of interest rate changes made by the US Federal Reserve System (FRS) on the returns of fixed income and equity funds between January 1986 and December 2021. The analysis makes a distinction between actively and passively managed funds, hypothesizing that the latter are less susceptible to changes in interest rates. The study contrasts gradient boosting and linear regression models using the Double Machine Learning (DML) framework, which supports a variety of statistical learning techniques. Results indicate that gradient boosting is a useful tool for predicting fund returns; for example, a 1% increase in interest rates causes an actively managed fund's return to decrease by -11.97%. This understanding of the relationship between interest rates and fund performance provides opportunities for additional research and insightful, data-driven advice for fund managers and investors | 翻訳日:2024-04-14 13:13:23 公開日:2024-03-31 |
# Houston we have a Divergence: A subgroup Performance Analysis of ASR Models
Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models ( http://arxiv.org/abs/2404.07226v1 ) ライセンス: Link先を確認 | Alkis Koudounas, Flavio Giobergia, | (参考訳) Fearless Steps APOLLO Community Resourceは、NASAアポロ計画からのマルチスピーカーチームのコミュニケーションの可能性を探るための例外のない機会を提供する。
本研究では,ASR(Automatic Speech Recognition, 自動音声認識)手法により, アポロの録音を多かれ少なかれ理解しやすくする特徴を明らかにすることに焦点を当てた。
音声録音毎に、音声のメタデータ(信号対雑音比、スペクトル平坦度、ポーズの有無、文長)、書き起こし(発声数、発声率)、 or known a priori(話者)を抽出する。
これらのメタデータの組み合わせに基づいて音声録音のサブグループを特定し、各サブグループのパフォーマンス(例えば、単語誤り率)と、全体の人口に対する性能差(「発散率」)を算出する。
次に、異なるサイズでWhisperモデルを適用し、英語のみまたは多言語データセットに基づいて、ゼロショットまたはファインチューニング後にトレーニングする。
私たちはいくつかの分析を行います
i) あるモデルの最も問題のある部分群を自動的に識別し、記述すること。
(ii)サブグループレベルでの微調整 w.r.t. ゼロショットの影響を調べる。
三 モデルサイズがサブグループパフォーマンスに及ぼす影響を把握し、
(4)多言語モデルがサブグループの性能格差に対してモノリンガルよりも敏感であるかどうかを分析する。
これらの知見は,地球間通信におけるASRシステムの最適化における進歩の道を開くとともに,サブグループ固有の性能変化の理解を深める。
The Fearless Steps APOLLO Community Resource provides unparalleled opportunities to explore the potential of multi-speaker team communications from NASA Apollo missions. This study focuses on discovering the characteristics that make Apollo recordings more or less intelligible to Automatic Speech Recognition (ASR) methods. We extract, for each audio recording, interpretable metadata on recordings (signal-to-noise ratio, spectral flatness, presence of pauses, sentence duration), transcript (number of words spoken, speaking rate), or known a priori (speaker). We identify subgroups of audio recordings based on combinations of these metadata and compute each subgroup's performance (e.g., Word Error Rate) and the difference in performance (''divergence'') w.r.t the overall population. We then apply the Whisper model in different sizes, trained on English-only or multilingual datasets, in zero-shot or after fine-tuning. We conduct several analyses to (i) automatically identify and describe the most problematic subgroups for a given model, (ii) examine the impact of fine-tuning w.r.t. zero-shot at the subgroup level, (iii) understand the effect of model size on subgroup performance, and (iv) analyze if multilingual models are more sensitive than monolingual to subgroup performance disparities. The insights enhance our understanding of subgroup-specific performance variations, paving the way for advancements in optimizing ASR systems for Earth-to-space communications. | 翻訳日:2024-04-14 13:13:23 公開日:2024-03-31 |
# 複雑さはIllusionか?
Is Complexity an Illusion? ( http://arxiv.org/abs/2404.07227v1 ) ライセンス: Link先を確認 | Michael Timothy Bennett, | (参考訳) 単純さは一般知能の鍵となると多くの人々が抱いている。
より単純なモデルは、より効率的なサンプル効率でデータの原因や生成物を一般化し、特定する傾向がある。
単純さと一般化の相関関係はコンピュータ科学をはるかに超え、物理学や生物学の問題にも対処している。
しかし、単純性は形式の性質であり、一般化は機能的である。
対話的な設定では、両者の相関は解釈に依存する。
理論的には相関はあり得ないが、実際には相関がある。
以前の理論的研究は、一般化は形式ではなく関数によって暗示される弱い制約の結果であることを示した。
単純形式に対する弱い制約を選択する実験では、一般化率が110-500%向上した。
ここでは、抽象層を前提としないならば、すべての形式は等しく複雑であることを示す。
しかし、空間的・時間的に拡張された抽象層の文脈では、効率性の強い制約は単純な形式をとり、単純さは一般化と相関する。
単純さは一般化に因果的な影響はないが、欠点があるように見える。
Simplicity is held by many to be the key to general intelligence. Simpler models tend to generalise, identifying the cause or generator of data with greater sample efficiency. The implications of the correlation between simplicity and generalisation extend far beyond computer science, addressing questions of physics and even biology. Yet simplicity is a property of form, while generalisation is of function. In interactive settings, any correlation between the two depends on interpretation. In theory there could be no correlation and yet in practice, there is. Previous theoretical work showed generalisation to be a consequence of weak constraints implied by function, not form. Experiments demonstrated choosing weak constraints over simple forms yielded a 110-500% improvement in generalisation rate. Here we show that if one does not presuppose an abstraction layer, then all forms have equal complexity. However, in the context of a spatially and temporally extended abstraction layer, efficiency demands weak constraints take simple forms, and simplicity becomes correlated with generalisation. Simplicity has no causal influence on generalisation, but appears to due to confounding. | 翻訳日:2024-04-14 13:13:23 公開日:2024-03-31 |
# 配電系統におけるサイバー攻撃検出のための教師なし敵オートエンコーダ
An Unsupervised Adversarial Autoencoder for Cyber Attack Detection in Power Distribution Grids ( http://arxiv.org/abs/2404.02923v1 ) ライセンス: Link先を確認 | Mehdi Jabbari Zideh, Mohammad Reza Khalghani, Sarika Khushalani Solanki, | (参考訳) 不均衡な構成のスマート電力配電網におけるサイバー攻撃の検出は、これらの不確実で確率的なシステムの本質的に非線形な性質のため、課題となる。
これは、分散エネルギー資源(DER)の生成と負荷変動の断続的な特性に由来する。
さらに、複雑な時間的相関を持つ配電網におけるサイバー攻撃、特に偽データ注入攻撃(FDIA)の未知の挙動とラベル付きデータの限られた量により、グリッドの脆弱性が増加し、グリッドの安全かつ信頼性の高い操作において高いリスクが課される。
これらの課題に対処するため,本稿では,DASと統合された非平衡配電系統,すなわちPVシステムと風力発電におけるFDIAを検出するための,教師なし対向型オートエンコーダ(AAE)モデルを提案する。
提案手法は,自動エンコーダの構造における長期記憶(LSTM)を用いて時系列計測の時間的依存性を捉え,GAN(Generative Adversarial Network)のパワーを利用して入力データをよりよく再構成する。
提案したデータ駆動モデルの利点は、抽象モデルや数学的表現に依存することなく、システム操作の異常点を検出することができることである。
提案手法の有効性を評価するため, 歴史的気象データ(風速, 環境温度, 太陽照度)と3種類のデータファルシフィケーション関数による歴史的実世界の負荷データを用いて, IEEE 13-bus および 123-bus システムで検証した。
提案手法と他の教師なし学習手法との比較により,不均衡電力配電網におけるサイバー攻撃の検出において,その優れた性能が検証された。
Detection of cyber attacks in smart power distribution grids with unbalanced configurations poses challenges due to the inherent nonlinear nature of these uncertain and stochastic systems. It originates from the intermittent characteristics of the distributed energy resources (DERs) generation and load variations. Moreover, the unknown behavior of cyber attacks, especially false data injection attacks (FDIAs) in the distribution grids with complex temporal correlations and the limited amount of labeled data increases the vulnerability of the grids and imposes a high risk in the secure and reliable operation of the grids. To address these challenges, this paper proposes an unsupervised adversarial autoencoder (AAE) model to detect FDIAs in unbalanced power distribution grids integrated with DERs, i.e., PV systems and wind generation. The proposed method utilizes long short-term memory (LSTM) in the structure of the autoencoder to capture the temporal dependencies in the time-series measurements and leverages the power of generative adversarial networks (GANs) for better reconstruction of the input data. The advantage of the proposed data-driven model is that it can detect anomalous points for the system operation without reliance on abstract models or mathematical representations. To evaluate the efficacy of the approach, it is tested on IEEE 13-bus and 123-bus systems with historical meteorological data (wind speed, ambient temperature, and solar irradiance) as well as historical real-world load data under three types of data falsification functions. The comparison of the detection results of the proposed model with other unsupervised learning methods verifies its superior performance in detecting cyber attacks in unbalanced power distribution grids. | 翻訳日:2024-04-05 19:04:16 公開日:2024-03-31 |
# 自然画像と医用画像の深いセマンティックセグメンテーション
Deep Semantic Segmentation of Natural and Medical Images: A Review ( http://arxiv.org/abs/1910.07655v4 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Kumar Abhishek, Joseph Paul Cohen, Julien Cohen-Adad, Ghassan Hamarneh, | (参考訳) セマンティックイメージセグメンテーションタスクは、画像の各ピクセルをインスタンスに分類し、各インスタンスがクラスに対応する。
このタスクはシーン理解という概念の一部であり、画像のグローバルな文脈を説明するのに役立つ。
医用画像分析領域において、画像分割は、画像誘導的介入、放射線治療、または改善された放射線診断に使用できる。
本稿では,Deep Learning-based Medical and non-medical image segmentation Solutionを,Deep Architecture, data synthesis-based, loss function-based, sequenced model, weakly supervised, multi-task methodの6つの主要なグループに分類し,それぞれのグループにおけるコントリビューションの総合的なレビューを行う。
さらに,各群について各群を解析し,現在のアプローチの限界について考察し,セマンティック・イメージ・セグメンテーションの今後の研究方向について述べる。
The semantic image segmentation task consists of classifying each pixel of an image into an instance, where each instance corresponds to a class. This task is a part of the concept of scene understanding or better explaining the global context of an image. In the medical image analysis domain, image segmentation can be used for image-guided interventions, radiotherapy, or improved radiological diagnostics. In this review, we categorize the leading deep learning-based medical and non-medical image segmentation solutions into six main groups of deep architectural, data synthesis-based, loss function-based, sequenced models, weakly supervised, and multi-task methods and provide a comprehensive review of the contributions in each of these groups. Further, for each group, we analyze each variant of these groups and discuss the limitations of the current approaches and present potential future research directions for semantic image segmentation. | 翻訳日:2024-04-05 00:13:17 公開日:2024-03-31 |
# ロバスト統計を用いたマルチタスク学習と帯域幅
Multitask Learning and Bandits via Robust Statistics ( http://arxiv.org/abs/2112.14233v4 ) ライセンス: Link先を確認 | Kan Xu, Hamsa Bastani, | (参考訳) 意思決定者は、しばしば多くの関連するが不均一な学習問題に直面している。
例えば、大手小売店は、価格や在庫の問題を解決するために、異なる店舗で製品需要を学習し、類似の顧客に仕える店舗で共同で学ぶことが望ましい場合があり、また、病院ネットワークは、個別の介入を割り当てるために、異なる業者で患者リスクを学習したい場合もあり、類似の患者集団に仕える病院で共同で学ぶことが望ましい。
実際のデータセットに動機付け,各学習インスタンス内の未知のパラメータを,共有グローバルパラメータとスパースインスタンス固有項に分解できる自然設定について検討する。
本稿では,この構造をサンプル効率のよい2段階のマルチタスク学習推定器を提案する。
我々の推定器は、一般的な失業推定器と比較して、特徴次元dにおける改良されたサンプル複雑性境界を求め、この改善はマルチタスク学習の恩恵を受ける「データ・プール」インスタンスに対して指数関数的である。
本稿では,マルチタスク推定器を同時文脈帯域幅アルゴリズムに組み込むことにより,オンライン学習におけるこれらの結果の有用性について述べる。
我々は、時間とともにバイアス分散トレードオフを適切にバランスさせるために、推定器の動的キャリブレーションを定義し、その結果の文脈次元dにおける後悔境界を改善する。
最後に、合成および実際のデータセットに対する我々のアプローチの価値について説明する。
Decision-makers often simultaneously face many related but heterogeneous learning problems. For instance, a large retailer may wish to learn product demand at different stores to solve pricing or inventory problems, making it desirable to learn jointly for stores serving similar customers; alternatively, a hospital network may wish to learn patient risk at different providers to allocate personalized interventions, making it desirable to learn jointly for hospitals serving similar patient populations. Motivated by real datasets, we study a natural setting where the unknown parameter in each learning instance can be decomposed into a shared global parameter plus a sparse instance-specific term. We propose a novel two-stage multitask learning estimator that exploits this structure in a sample-efficient way, using a unique combination of robust statistics (to learn across similar instances) and LASSO regression (to debias the results). Our estimator yields improved sample complexity bounds in the feature dimension d relative to commonly-employed estimators; this improvement is exponential for "data-poor" instances, which benefit the most from multitask learning. We illustrate the utility of these results for online learning by embedding our multitask estimator within simultaneous contextual bandit algorithms. We specify a dynamic calibration of our estimator to appropriately balance the bias-variance tradeoff over time, improving the resulting regret bounds in the context dimension d. Finally, we illustrate the value of our approach on synthetic and real datasets. | 翻訳日:2024-04-04 23:57:15 公開日:2024-03-31 |
# グラフ誘導局所値関数に基づく分散マルチエージェント強化学習
Distributed Multi-Agent Reinforcement Learning Based on Graph-Induced Local Value Functions ( http://arxiv.org/abs/2202.13046v4 ) ライセンス: Link先を確認 | Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma, | (参考訳) 大規模協調型マルチエージェントシステム(MAS)のための分散強化学習(RL)の達成は、次のような理由から困難である。
i) 各代理人は,限られた情報のみにアクセスすることができる。
(II)次元の呪いにより収束や計算複雑性の問題が発生する。
本稿では,協調型マルチエージェント強化学習(MARL)のための汎用的な計算効率の高い分散フレームワークを提案する。
本稿では,MARLにおけるエージェント間カップリングの3つのタイプ,すなわち状態グラフ,観察グラフ,報酬グラフを記述する3つの結合グラフを紹介する。
さらに通信グラフを考慮し、結合グラフから導出した局所値関数に基づく2つの分散RLアプローチを提案する。
最初のアプローチは、上記の4つのグラフの特定の条件下で、サンプルの複雑さを著しく減らすことができる。
第二のアプローチは近似解を提供し、密結合グラフの問題に対しても効率的である。
ここでは近似誤差の最小化と計算複雑性の低減との間にトレードオフがある。
シミュレーションにより、我々のRLアルゴリズムは、集中型およびコンセンサスベースの分散RLアルゴリズムと比較して、大規模MASよりもスケーラビリティが大幅に向上していることが示された。
Achieving distributed reinforcement learning (RL) for large-scale cooperative multi-agent systems (MASs) is challenging because: (i) each agent has access to only limited information; (ii) issues on convergence or computational complexity emerge due to the curse of dimensionality. In this paper, we propose a general computationally efficient distributed framework for cooperative multi-agent reinforcement learning (MARL) by utilizing the structures of graphs involved in this problem. We introduce three coupling graphs describing three types of inter-agent couplings in MARL, namely, the state graph, the observation graph and the reward graph. By further considering a communication graph, we propose two distributed RL approaches based on local value-functions derived from the coupling graphs. The first approach is able to reduce sample complexity significantly under specific conditions on the aforementioned four graphs. The second approach provides an approximate solution and can be efficient even for problems with dense coupling graphs. Here there is a trade-off between minimizing the approximation error and reducing the computational complexity. Simulations show that our RL algorithms have a significantly improved scalability to large-scale MASs compared with centralized and consensus-based distributed RL algorithms. | 翻訳日:2024-04-04 23:57:15 公開日:2024-03-31 |
# 潜在共変量シフト下でのドメイン適応における潜在因果関係の同定
Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift ( http://arxiv.org/abs/2208.14161v3 ) ライセンス: Link先を確認 | Yuhang Liu, Zhen Zhang, Dong Gong, Mingming Gong, Biwei Huang, Anton van den Hengel, Kun Zhang, Javen Qinfeng Shi, | (参考訳) マルチソースドメイン適応(MSDA)は、複数のソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータの両方を活用することにより、ラベル付き対象ドメインのラベル予測関数を学習する課題に対処する。
従来のMSDAアプローチは、ドメイン間で一貫したラベル分布を仮定する共変量シフトや条件シフトパラダイムに依存していることが多い。
しかし、この仮定は、ラベルの分布がドメインによって異なる現実的なシナリオにおいて制限されることを証明し、実世界における適用性を低下させる。
例えば、異なる地域の動物は、様々な食生活と遺伝学のために様々な特徴を示す。
そこで我々はLCS(Latent Covariate shift)と呼ばれる新しいパラダイムを提案する。
特に、ラベル変数の潜在原因を回復するための理論的保証を提供する。
この新パラダイムでは、観測データのよりニュアンスなレンダリングを実現するために、潜在コンテンツ変数と潜時スタイル変数とともに、ドメイン間で潜時ノイズを導入し、複雑な因果生成モデルを提案する。
本研究は, 潜在内容変数を同定し, 特徴的だが因果構造が異なるため, 識別性をブロックできることを実証する。
提案手法は,識別可能な潜在コンテンツ変数に条件付きラベル分布を学習し,より実質的な分布シフトを調節する手法である。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
Multi-source domain adaptation (MSDA) addresses the challenge of learning a label prediction function for an unlabeled target domain by leveraging both the labeled data from multiple source domains and the unlabeled data from the target domain. Conventional MSDA approaches often rely on covariate shift or conditional shift paradigms, which assume a consistent label distribution across domains. However, this assumption proves limiting in practical scenarios where label distributions do vary across domains, diminishing its applicability in real-world settings. For example, animals from different regions exhibit diverse characteristics due to varying diets and genetics. Motivated by this, we propose a novel paradigm called latent covariate shift (LCS), which introduces significantly greater variability and adaptability across domains. Notably, it provides a theoretical assurance for recovering the latent cause of the label variable, which we refer to as the latent content variable. Within this new paradigm, we present an intricate causal generative model by introducing latent noises across domains, along with a latent content variable and a latent style variable to achieve more nuanced rendering of observational data. We demonstrate that the latent content variable can be identified up to block identifiability due to its versatile yet distinct causal structure. We anchor our theoretical insights into a novel MSDA method, which learns the label distribution conditioned on the identifiable latent content variable, thereby accommodating more substantial distribution shifts. The proposed approach showcases exceptional performance and efficacy on both simulated and real-world datasets. | 翻訳日:2024-04-04 14:21:15 公開日:2024-03-31 |
# ある時刻における弱い測定による因果順序の目撃的重ね合わせ
Witnessing superpositions of causal orders by weak measurements at a given time ( http://arxiv.org/abs/2209.09172v2 ) ライセンス: Link先を確認 | Onur Pusuluk, Zafer Gedik, Vlatko Vedral, | (参考訳) この手紙で私たちが提起する質問は以下の通りである。 量子状態の1つの時点における最も一般的な表現は何か?
現在の定式化は、量子演算の順序が整合的に、あるいは非整合的に重なり合う状況に適応できるだろうか?
もしそうなら、ある時点における状態と、その前後の事象の順序の不確実性との関係はどうなるのか?
二状態ベクトル形式と擬似密度作用素の関係を確立するため、単時間擬似状態の概念を導入する。
単時間擬似状態のトモグラフィー構成は理想的あるいは弱い測定によって可能である。
弱測定から得られた固有スペクトルは、同じ前・後イベントが非ゼロ確率と相互に交わる因果順序のコヒーレントな重ね合わせと非コヒーレントな重ね合わせを区別することができることを示す。
最後に,既存のフォトニック・セットアップにおける実験的実現の可能性について論じる。
The questions we raise in this letter are as follows: What is the most general representation of a quantum state at a single point in time? Can we adapt the current formalisms to situations where the order of quantum operations is coherently or incoherently superposed? If so, what are the relations between the state at a given time and the uncertainty in the order of events before and after it? Establishing the relationship between two-state vector formalism and pseudo-density operators, we introduce the notion of a single-time pseudo-state. The tomographic construction of single-time pseudo-states is possible by ideal or weak measurements. We demonstrate that the eigenspectrum obtained from weak measurements enables us to discriminate between some coherent and incoherent superpositions of causal orders in which the same pre- and post-selection events interchange with a non-zero probability. Finally, we discuss some possible experimental realizations in existing photonic setups. | 翻訳日:2024-04-04 14:21:15 公開日:2024-03-31 |
# 部分的モビライゼーション:ロシアメディアアウトレットとテレグラム間の多言語情報フローの追跡
Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram ( http://arxiv.org/abs/2301.10856v4 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Zakir Durumeric, | (参考訳) ウクライナ侵攻後のロシアのオンラインメディアからの偽情報やプロパガンダを受け、ロシア・トゥデイやスプートニク・ニュースといったロシアのメディアはヨーロッパ全土で禁止された。
視聴者シップを維持するために、これらのロシアのメディアの多くは、Telegramのようなメッセージングサービスでコンテンツを強く宣伝し始めた。
本研究では、2022年を通して、ロシアのメディア16社が732のTelegramチャンネルとどのように対話し、利用したかを検討する。
基礎モデルMPNet,DP-meansクラスタリング,Hawkesプロセスを活用することで,ニュースサイトとTelegramチャンネル間での物語の拡散を追跡できる。
我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を発信していることを示す。
例えば、我々の研究のウェブサイト全体では、2.3%(ura.news)から26.7%(ukraina.ru)までの記事がTelegram上での活動から生まれたり反したりした内容について論じている。
最後に、個々のトピックの拡散を追跡することで、ロシアのメディアエコシステム内でニュースメディアやTelegramチャンネルがコンテンツを拡散する速度を測定し、ura.newsや@genshabなどのTelegramチャンネルがコンテンツを拡散するのに最も効果的であることを示す。
In response to disinformation and propaganda from Russian online media following the invasion of Ukraine, Russian media outlets such as Russia Today and Sputnik News were banned throughout Europe. To maintain viewership, many of these Russian outlets began to heavily promote their content on messaging services like Telegram. In this work, we study how 16 Russian media outlets interacted with and utilized 732 Telegram channels throughout 2022. Leveraging the foundational model MPNet, DP-means clustering, and Hawkes processes, we trace how narratives spread between news sites and Telegram channels. We show that news outlets not only propagate existing narratives through Telegram but that they source material from the messaging platform. For example, across the websites in our study, between 2.3% (ura.news) and 26.7% (ukraina.ru) of articles discussed content that originated/resulted from activity on Telegram. Finally, tracking the spread of individual topics, we measure the rate at which news outlets and Telegram channels disseminate content within the Russian media ecosystem, finding that websites like ura.news and Telegram channels such as @genshab are the most effective at disseminating their content. | 翻訳日:2024-04-04 14:11:24 公開日:2024-03-31 |
# トランスフォーマーモデル:導入とカタログ
Transformer models: an introduction and catalog ( http://arxiv.org/abs/2302.07730v4 ) ライセンス: Link先を確認 | Xavier Amatriain, Ananth Sankar, Jie Bing, Praveen Kumar Bodigutla, Timothy J. Hazen, Michaeel Kazi, | (参考訳) 過去数年間で、トランスフォーマーファミリーの何十もの基礎モデルが出現し、それらは記憶に残る、時折面白いが、自己説明的な名前ではない。
本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。
論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
我々のカタログには、自己教師付き学習(例えば、BERT、GPT3)でトレーニングされたモデルと、さらに人間-イン-ザ-ループ(例えば、ChatGPTで使用されるインストラクトGPTモデル)でトレーニングされたモデルが含まれます。
In the past few years we have seen the meteoric appearance of dozens of foundation models of the Transformer family, all of which have memorable and sometimes funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovations in Transformer models. Our catalog will include models that are trained using self-supervised learning (e.g., BERT or GPT3) as well as those that are further trained using a human-in-the-loop (e.g. the InstructGPT model used by ChatGPT). | 翻訳日:2024-04-04 14:01:34 公開日:2024-03-31 |
# 非対角距離におけるスケーラブル確率勾配リーマンランゲインダイナミクス
Scalable Stochastic Gradient Riemannian Langevin Dynamics in Non-Diagonal Metrics ( http://arxiv.org/abs/2303.05101v4 ) ライセンス: Link先を確認 | Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Arto Klami, | (参考訳) 確率勾配サンプリング法は、ニューラルネットワーク上でベイズ推論を行うためにしばしば用いられる。
微分幾何学の概念を含む手法はより優れた性能を持つ傾向があり、リーマン計量は局所曲率を考慮して後続探索を改善することが観察されている。
しかし、既存の手法は計算効率を維持するために単純な対角法を用いることが多い。
これにより多少の利益が失われる。
本稿では,2つの非対角的メトリクスを確率勾配サンプリング器で使用して収束と探索を改善するが,対角的メトリクスに対する計算オーバーヘッドはわずかである。
完全接続型ニューラルネットワーク(NN)と疎結合型プリエントと、相関したプリエントを持つ畳み込みNNでは、これらのメトリクスを用いることで改善が期待できることを示す。
他のいくつかの選択肢では、後部は単純なメトリクスに対しても十分簡単である。
Stochastic-gradient sampling methods are often used to perform Bayesian inference on neural networks. It has been observed that the methods in which notions of differential geometry are included tend to have better performances, with the Riemannian metric improving posterior exploration by accounting for the local curvature. However, the existing methods often resort to simple diagonal metrics to remain computationally efficient. This loses some of the gains. We propose two non-diagonal metrics that can be used in stochastic-gradient samplers to improve convergence and exploration but have only a minor computational overhead over diagonal metrics. We show that for fully connected neural networks (NNs) with sparsity-inducing priors and convolutional NNs with correlated priors, using these metrics can provide improvements. For some other choices the posterior is sufficiently easy also for the simpler metrics. | 翻訳日:2024-04-04 14:01:34 公開日:2024-03-31 |
# 確率的画像テキスト表現の改善
Improved Probabilistic Image-Text Representations ( http://arxiv.org/abs/2305.18171v4 ) ライセンス: Link先を確認 | Sanghyuk Chun, | (参考訳) 基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。
決定論的関数は曖昧さを捉えるのに十分強力ではないため、確率論的埋め込みを探索して課題に取り組む。
しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。
そこで本論文では,PCME++ と命名された確率的クロスモーダル埋め込み(PCME++)を改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。
さらに、PCME++をさらに強化する2つの最適化手法が提案されている。第1に、偽陰性による負の効果を防ぐために擬陽性を組み込むこと、第2に、確率的マッチングのための混合サンプルデータ拡張である。
MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。
PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
さらに、ゼロショット分類のための自動プロンプトフィルタにおけるPCME++の適用可能性を示す。
コードはhttps://github.com/naver-ai/pcmeppで公開されている。
Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further: first, the incorporation of pseudo-positives to prevent the negative effect under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt-filtering for zero-shot classification is shown. The code is available at https://github.com/naver-ai/pcmepp | 翻訳日:2024-04-04 13:41:51 公開日:2024-03-31 |
# 単一光子LiDARの分解能限界
Resolution Limit of Single-Photon LiDAR ( http://arxiv.org/abs/2403.17719v2 ) ライセンス: Link先を確認 | Stanley H. Chan, Hashan K. Weerasooriya, Weijian Zhang, Pamela Abshire, Istvan Gyongy, Robert K. Henderson, | (参考訳) 単光子光検出・ラングリング(LiDAR)システムは、空間分解能とセンシング速度を改善するための検出器の配列を備えていることが多い。
しかし、レーザー送信機によってシーン全体に生じる一定の量のフラックスが与えられると、単位空間により多くのピクセルを詰め込むと、SNR(Philipal-to-Noise Ratio)は減少する。
これにより、センサアレイの空間分解能と各画素で受信されるSNRとの間には、根本的なトレードオフが生じる。
この基本的な限界の理論的特徴を探求する。
光子到着統計を導出し、新しい近似手法を導入することにより、時間遅延の最大値推定器の平均正方形誤差(MSE)を導出する。
理論予測はシミュレーションや実データとよく一致している。
Single-photon Light Detection and Ranging (LiDAR) systems are often equipped with an array of detectors for improved spatial resolution and sensing speed. However, given a fixed amount of flux produced by the laser transmitter across the scene, the per-pixel Signal-to-Noise Ratio (SNR) will decrease when more pixels are packed in a unit space. This presents a fundamental trade-off between the spatial resolution of the sensor array and the SNR received at each pixel. Theoretical characterization of this fundamental limit is explored. By deriving the photon arrival statistics and introducing a series of new approximation techniques, the Mean Squared Error (MSE) of the maximum-likelihood estimator of the time delay is derived. The theoretical predictions align well with simulations and real data. | 翻訳日:2024-04-04 07:37:38 公開日:2024-03-31 |
# 不確実性伝播の定量化におけるサロゲートモデリングのための条件付き擬似可逆正規化流れ
Conditional Pseudo-Reversible Normalizing Flow for Surrogate Modeling in Quantifying Uncertainty Propagation ( http://arxiv.org/abs/2404.00502v1 ) ライセンス: Link先を確認 | Minglei Yang, Pengjun Wang, Ming Fan, Dan Lu, Yanzhao Cao, Guannan Zhang, | (参考訳) 本研究では,重畳雑音によって汚染された物理モデルの代理モデルを構築するための条件付き擬似可逆正規化フローを導入し,前方および逆不確実性伝播を効率的に定量化する。
既存の代理モデリングアプローチは、通常、物理モデルの決定論的要素を近似することに焦点を当てる。
しかし, この手法は, 逆不確実性伝搬の定量化のための補助サンプリング法にノイズや手法の知識を必要とする。
本研究では,条件付き擬似可逆正規化フローモデルを開発し,条件付き確率密度関数からサンプルを直接学習し,効率的に生成する。
トレーニングプロセスは、ノイズと関数に関する事前知識を必要とせずに、入出力ペアからなるデータセットを利用する。
トレーニングされたモデルでは,高い確率領域をトレーニングセットでカバーした条件付き確率密度関数からサンプルを生成することができる。
さらに、擬似可逆性機能は、実装を単純化し、理論的解析を可能にする、完全に接続されたニューラルネットワークアーキテクチャの使用を可能にする。
条件付き擬似可逆正規化フローモデルの厳密な収束解析を行い、Kulback-Leibler分散を用いて目標条件付き確率密度関数に収束する能力を示す。
本手法の有効性を示すため,いくつかのベンチマークテストと実世界の炭素貯蔵問題に適用した。
We introduce a conditional pseudo-reversible normalizing flow for constructing surrogate models of a physical model polluted by additive noise to efficiently quantify forward and inverse uncertainty propagation. Existing surrogate modeling approaches usually focus on approximating the deterministic component of physical model. However, this strategy necessitates knowledge of noise and resorts to auxiliary sampling methods for quantifying inverse uncertainty propagation. In this work, we develop the conditional pseudo-reversible normalizing flow model to directly learn and efficiently generate samples from the conditional probability density functions. The training process utilizes dataset consisting of input-output pairs without requiring prior knowledge about the noise and the function. Our model, once trained, can generate samples from any conditional probability density functions whose high probability regions are covered by the training set. Moreover, the pseudo-reversibility feature allows for the use of fully-connected neural network architectures, which simplifies the implementation and enables theoretical analysis. We provide a rigorous convergence analysis of the conditional pseudo-reversible normalizing flow model, showing its ability to converge to the target conditional probability density function using the Kullback-Leibler divergence. To demonstrate the effectiveness of our method, we apply it to several benchmark tests and a real-world geologic carbon storage problem. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# 半自動アノテーションを用いた長期屋内視覚位置認識データセットNYC-Indoor-VPR
NYC-Indoor-VPR: A Long-Term Indoor Visual Place Recognition Dataset with Semi-Automatic Annotation ( http://arxiv.org/abs/2404.00504v1 ) ライセンス: Link先を確認 | Diwei Sheng, Anbang Yang, John-Ross Rizzo, Chen Feng, | (参考訳) 室内環境における視覚的位置認識(VPR)は、人間やロボットにとってより良い位置認識とナビゲーションのために有用である。
様々な周波数での出現変化や、訓練と評価のための基礎的真理距離軌跡の取得が困難であることから、これは困難である。
本稿では、ニューヨーク市内の13の異なる混雑したシーンから収集された36,000枚以上の画像のユニークなコレクションであるNYC-Indoor-VPRデータセットを紹介する。
各シーンには1年ごとに複数のリバイスがある。
VPRの基本的真理を確立するために,各画像の位置情報を計算する半自動アノテーション手法を提案する。
提案手法は,ビデオのペアを入力とし,一致した画像のペアと推定された相対位置を出力する。
このマッチングの精度は、アノテーションソフトウェアを用いて選択したキーフレームを相関付けする人間のアノテーションによって改善される。
最後に、アノテーション付きデータセットを用いて、最先端のVPRアルゴリズムのベンチマーク評価を行い、VPR研究の課題と価値を明らかにする。
Visual Place Recognition (VPR) in indoor environments is beneficial to humans and robots for better localization and navigation. It is challenging due to appearance changes at various frequencies, and difficulties of obtaining ground truth metric trajectories for training and evaluation. This paper introduces the NYC-Indoor-VPR dataset, a unique and rich collection of over 36,000 images compiled from 13 distinct crowded scenes in New York City taken under varying lighting conditions with appearance changes. Each scene has multiple revisits across a year. To establish the ground truth for VPR, we propose a semiautomatic annotation approach that computes the positional information of each image. Our method specifically takes pairs of videos as input and yields matched pairs of images along with their estimated relative locations. The accuracy of this matching is refined by human annotators, who utilize our annotation software to correlate the selected keyframes. Finally, we present a benchmark evaluation of several state-of-the-art VPR algorithms using our annotated dataset, revealing its challenge and thus value for VPR research. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# レコンストラクションロスを用いたトランスファーラーニング
Transfer Learning with Reconstruction Loss ( http://arxiv.org/abs/2404.00505v1 ) ライセンス: Link先を確認 | Wei Cui, Wei Yu, | (参考訳) ニューラルネットワークを数学的最適化に利用するほとんどの場合、特定の最適化目標に対して専用モデルを訓練する。
しかし、多くのシナリオにおいて、いくつかの異なる相関した目的やタスクは、しばしば同じ問題入力のセットに最適化される必要がある。
各問題ごとに異なるニューラルネットワークを個別にトレーニングするのではなく、これらの目的間の相関を利用して、モデルパラメータと特徴表現を共有する複数のニューラルネットワークモデルをトレーニングする方が効率的である。
そこで本研究では,まず,関連課題の解決に必要な共有知識という共通情報の概念を確立し,モデルに新たな再構築段階を追加することで,モデルトレーニングの新たなアプローチを提案する。
この損失は、モデル内の選択された隠された層から始まる共通情報を再構築するためのものである。
提案手法は、学習した特徴を一般化し、伝達しやすくし、効率的な伝達学習に容易に利用できる。
数値シミュレーションでは、MNIST手書き桁の転送学習、デバイス間無線ネットワークの電力割り当て、複数入出力ネットワークのダウンリンクビームフォーミングとローカライゼーションの3つの応用が研究されている。
シミュレーションの結果,提案手法はデータおよびモデル複雑性において極めて効率的であり,過度な適合に耐性があり,競争性能が高いことが示唆された。
In most applications of utilizing neural networks for mathematical optimization, a dedicated model is trained for each specific optimization objective. However, in many scenarios, several distinct yet correlated objectives or tasks often need to be optimized on the same set of problem inputs. Instead of independently training a different neural network for each problem separately, it would be more efficient to exploit the correlations between these objectives and to train multiple neural network models with shared model parameters and feature representations. To achieve this, this paper first establishes the concept of common information: the shared knowledge required for solving the correlated tasks, then proposes a novel approach for model training by adding into the model an additional reconstruction stage associated with a new reconstruction loss. This loss is for reconstructing the common information starting from a selected hidden layer in the model. The proposed approach encourages the learned features to be general and transferable, and therefore can be readily used for efficient transfer learning. For numerical simulations, three applications are studied: transfer learning on classifying MNIST handwritten digits, the device-to-device wireless network power allocation, and the multiple-input-single-output network downlink beamforming and localization. Simulation results suggest that the proposed approach is highly efficient in data and model complexity, is resilient to over-fitting, and has competitive performances. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# Label-Agnostic Forgetting: 深層モデルにおける教師なしのアンラーニング
Label-Agnostic Forgetting: A Supervision-Free Unlearning in Deep Models ( http://arxiv.org/abs/2404.00506v1 ) ライセンス: Link先を確認 | Shaofei Shen, Chenhao Zhang, Yawen Zhao, Alina Bialkowski, Weitong Chen, Miao Xu, | (参考訳) 機械学習の目的は、よく訓練されたモデルで残りのデータセットのデータを保存しながら、忘れられたデータから派生した情報を削除することである。
データプライバシに重点が置かれているため、機械学習に対するいくつかのアプローチが生まれている。
しかし、これらの手法は一般に、学習プロセス全体を通して完全な監督に依存している。
残念ながら、忘れたデータであれ、残るデータであれ、そのような監視を取得することは、実際のデータセットの注釈付けに伴うかなりのコストのために、現実的ではない。
この課題は、アンラーニングプロセス中にラベルを必要とせずに機能する、教師なしのアンラーニングアプローチを提案することを促す。
具体的には、残りのデータに対する表現の分布を近似する変動的アプローチを提案する。
この近似を利用して、元のモデルを適応させ、表現レベルで忘れられたデータから情報を排除します。
地上の真実との整合を阻害する監視情報の欠如にさらに対処するため,残りのデータと元のモデルとの表現の整合を容易にし,予測性能を維持するために,コントラスト的損失を導入する。
各種未学習課題を対象とした実験の結果,ラベルを使わずにLAF(Label-Agnostic Forgetting)の有効性が示された。
さらに,本手法は半教師付きシナリオに優れ,限られた監督情報を活用し,完全に教師付きベースラインを上回ります。
この研究は、深層モデルにおける教師なしのアンラーニングの生存可能性を示すだけでなく、表現レベルでのアンラーニング研究の新たな可能性を開く。
Machine unlearning aims to remove information derived from forgotten data while preserving that of the remaining dataset in a well-trained model. With the increasing emphasis on data privacy, several approaches to machine unlearning have emerged. However, these methods typically rely on complete supervision throughout the unlearning process. Unfortunately, obtaining such supervision, whether for the forgetting or remaining data, can be impractical due to the substantial cost associated with annotating real-world datasets. This challenge prompts us to propose a supervision-free unlearning approach that operates without the need for labels during the unlearning process. Specifically, we introduce a variational approach to approximate the distribution of representations for the remaining data. Leveraging this approximation, we adapt the original model to eliminate information from the forgotten data at the representation level. To further address the issue of lacking supervision information, which hinders alignment with ground truth, we introduce a contrastive loss to facilitate the matching of representations between the remaining data and those of the original model, thus preserving predictive performance. Experimental results across various unlearning tasks demonstrate the effectiveness of our proposed method, Label-Agnostic Forgetting (LAF) without using any labels, which achieves comparable performance to state-of-the-art methods that rely on full supervision information. Furthermore, our approach excels in semi-supervised scenarios, leveraging limited supervision information to outperform fully supervised baselines. This work not only showcases the viability of supervision-free unlearning in deep models but also opens up a new possibility for future research in unlearning at the representation level. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# DailyMAE: 仮装オートエンコーダを1日で準備中
DailyMAE: Towards Pretraining Masked Autoencoders in One Day ( http://arxiv.org/abs/2404.00509v1 ) ライセンス: Link先を確認 | Jiantao Wu, Shentong Mo, Sara Atito, Zhenhua Feng, Josef Kittler, Muhammad Awais, | (参考訳) 近年,重要な自己教師付き学習(SSL)手法であるマスク画像モデリング(MIM)が,ラベルのないデータからデータ表現を学習する上での有効性に注目されている。
多くの研究がMIMの利点を強調し、広範囲なデータセットで事前訓練されたモデルが下流タスクのパフォーマンスを高める方法を強調している。
しかし、事前学習による高い計算要求は、特に学術的環境において重大な課題を引き起こし、SSL研究の進展を妨げる。
本研究では、MIMベースのSSLの効率的なトレーニングレシピを提案し、データのロードボトルネックを緩和し、プログレッシブトレーニング技術やその他の手法を用いて事前学習性能を厳格に維持する。
我々のライブラリは,8A100 GPUを搭載した1台のマシンを用いて,イメージネット1Kデータセット上のMAE-Base/16モデルのトレーニングを,わずか18時間で800エポックで行うことができる。
最大5.8倍の速度向上を達成することで、この研究は高効率SSLトレーニングの実現可能性を示すだけでなく、より幅広いアクセシビリティの道を開くとともに、特にSSLのアイデアのプロトタイピングと初期テストのためのSSL研究の進歩を促進する。
コードはhttps://github.com/erow/FastSSLで公開されている。
Recently, masked image modeling (MIM), an important self-supervised learning (SSL) method, has drawn attention for its effectiveness in learning data representation from unlabeled data. Numerous studies underscore the advantages of MIM, highlighting how models pretrained on extensive datasets can enhance the performance of downstream tasks. However, the high computational demands of pretraining pose significant challenges, particularly within academic environments, thereby impeding the SSL research progress. In this study, we propose efficient training recipes for MIM based SSL that focuses on mitigating data loading bottlenecks and employing progressive training techniques and other tricks to closely maintain pretraining performance. Our library enables the training of a MAE-Base/16 model on the ImageNet 1K dataset for 800 epochs within just 18 hours, using a single machine equipped with 8 A100 GPUs. By achieving speed gains of up to 5.8 times, this work not only demonstrates the feasibility of conducting high-efficiency SSL training but also paves the way for broader accessibility and promotes advancement in SSL research particularly for prototyping and initial testing of SSL ideas. The code is available in https://github.com/erow/FastSSL. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# 時系列画像の深層学習による低線量画像のノイズ化
Denoising Low-dose Images Using Deep Learning of Time Series Images ( http://arxiv.org/abs/2404.00510v1 ) ライセンス: Link先を確認 | Yang Shao, Toshie Yaguchi, Toshiaki Tanigaki, | (参考訳) デジタル画像デバイスは、科学画像、個人の認識、リモートセンシングなど、多くの分野に広く応用されている。
これらの撮像技術の自律走行・計測への応用として、十分な線量で観測できないときに発生する画像ノイズが大きな問題となっている。
機械学習のデノイズ技術がこの問題の解決要因になると予想されているが、次のような問題がある。
本稿では、電子顕微鏡のその場観察映像を例に、超低線量観察で機械学習が生成した人工物について報告する。
そして,この問題を解決する手法として,時系列画像を空間軸の2次元画像と時間に分解し,機械学習の認知を行う手法を提案する。
本手法は, 科学, 産業, 生活における低線量画像からの連続した高解像度画像の高精度かつ安定した再構成を行う。
Digital image devices have been widely applied in many fields, including scientific imaging, recognition of individuals, and remote sensing. As the application of these imaging technologies to autonomous driving and measurement, image noise generated when observation cannot be performed with a sufficient dose has become a major problem. Machine learning denoise technology is expected to be the solver of this problem, but there are the following problems. Here we report, artifacts generated by machine learning denoise in ultra-low dose observation using an in-situ observation video of an electron microscope as an example. And as a method to solve this problem, we propose a method to decompose a time series image into a 2D image of the spatial axis and time to perform machine learning denoise. Our method opens new avenues accurate and stable reconstruction of continuous high-resolution images from low-dose imaging in science, industry, and life. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# 2つの異なるプロトコルを用いたテレポーテーション2量子状態
Teleportation two-qubit state by using two different protocols ( http://arxiv.org/abs/2404.00512v1 ) ライセンス: Link先を確認 | K. El Anouz, A. El Allati, N. Metwally, | (参考訳) このコントリビューションでは、それぞれ1つまたは2つの絡み合った原子状態のコピーを用いて、テレポーテーションプロトコルの2つのバージョンが検討されている。
最初のバージョンを使用することで、テレポートされた状態の忠実さと、テレポートされた状態に含まれる量子フィッシャー情報の量は、第2バージョンを使用するよりもはるかに優れていることが示されている。
一般に、平均光子数を増やし、デチューニングパラメータを小さくすることで、テレポートされた情報の忠実度を高めることができる。
古典的情報のテレポート性は、量子情報のテレポートよりもはるかに優れている。
さらに、最初に出口状態にエンコードされた古典的な情報を地上状態にエンコードするよりもずっと良い。
しかし、地上でエンコードされたフィッシャー情報は、当初エンタングルされた状態でエンコードされたフィッシャー情報よりもはるかに大きい。
In this contribution, two versions of teleportation protocol are considered, based on either using a single or two copies of entangled atom-field state, respectively. It is shown that, by using the first version, the fidelity of the teleported state as well as the amount of quantum Fisher information, that contains in the teleported state, are much better than using the second version. In general, one may increases the fidelity of teleported information by increasing the mean photon number and decreasing the detuning parameter. The fidelity of teleporting classical information is much better than teleporting quantum information. Moreover, teleportating classical information that initially encoded in an exited states is much better than that encodes in the ground states. However, the teleported Fisher information that initially encoded in a ground state is much larger than those initially encoded in entangled states. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# 情報損失を低減したトランスフォーマーによる複数画像補完
Transformer based Pluralistic Image Completion with Reduced Information Loss ( http://arxiv.org/abs/2404.00513v1 ) ライセンス: Link先を確認 | Qiankun Liu, Yuqi Jiang, Zhentao Tan, Dongdong Chen, Ying Fu, Qi Chu, Gang Hua, Nenghai Yu, | (参考訳) トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
しかし、これらのソリューションは各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。
1) 効率を考慮し, 入力画像をはるかに低い解像度に分解する。
2) 256^3$ RGB の値を小さな数(例えば 512 など)に量子化する。
量子化されたピクセルのインデックスは、トランスの入力および予測ターゲットのトークンとして使用される。
これらの問題を緩和するために、我々は"PUT"と呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
具体的には、計算効率を保ちながら入力ダウンサンプリングを回避するため、パッチベースの自動エンコーダP-VQVAEを設計する。
エンコーダは、マスクされた画像を非オーバーラップされたパッチトークンに変換し、デコーダは、アンマスクされた領域を一定に保ちつつ、インペイントされたトークンからマスクされた領域を復元する。
入力量子化による情報損失を解消するため、Un-quantized Transformerを適用する。
P-VQVAEエンコーダの機能を量子化せずに入力とし、量子化トークンを予測ターゲットとみなす。
さらに, 塗布プロセスをより制御しやすくするために, 意味的および構造的条件を付加的なガイダンスとして導入する。
本手法は, 画像の忠実度に基づくトランスフォーマー法を著しく上回り, 複雑な大規模データセット(画像Netなど)上で, 最先端の多元的インペイント法よりもはるかに高い多様性と忠実度が得られることを示す。
コードはhttps://github.com/liuqk3/PUTで入手できる。
Transformer based methods have achieved great success in image inpainting recently. However, we find that these solutions regard each pixel as a token, thus suffering from an information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration. 2) They quantize $256^3$ RGB values to a small number (such as 512) of quantized color values. The indices of quantized pixels are used as tokens for the inputs and prediction targets of the transformer. To mitigate these issues, we propose a new transformer based framework called "PUT". Specifically, to avoid input downsampling while maintaining computation efficiency, we design a patch-based auto-encoder P-VQVAE. The encoder converts the masked image into non-overlapped patch tokens and the decoder recovers the masked regions from the inpainted tokens while keeping the unmasked regions unchanged. To eliminate the information loss caused by input quantization, an Un-quantized Transformer is applied. It directly takes features from the P-VQVAE encoder as input without any quantization and only regards the quantized tokens as prediction targets. Furthermore, to make the inpainting process more controllable, we introduce semantic and structural conditions as extra guidance. Extensive experiments show that our method greatly outperforms existing transformer based methods on image fidelity and achieves much higher diversity and better fidelity than state-of-the-art pluralistic inpainting methods on complex large-scale datasets (e.g., ImageNet). Codes are available at https://github.com/liuqk3/PUT. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# チャーターポテンシャルにおける駆動原子を持つ最小のゴールドバッハ分割探索における量子優位性の実現
Achieving quantum advantage in a search for a minimal Goldbach partition with driven atoms in tailored potentials ( http://arxiv.org/abs/2404.00517v1 ) ライセンス: Link先を確認 | Oleksandr V. Marchukov, Andrea Trombettoni, Giuseppe Mussardo, Maxim Olshanii, | (参考訳) 有名なゴールドバッハ予想(英語版)(Goldbach conjecture)は、自然数$N$が2ドル以上であっても、$p$と$p'$の合計として書くことができ、$p \, , p'$はゴールドバッハ対(Goldbach pair)と呼ばれる。
本論では、偶数$N$が与えられたときの量子アナログプロトコルとして、いわゆる最小ゴールドバッハ分割$N=p+p'$と$p\equiv p_{\rm min}(N)$の存在を、いわゆる最小ゴールドバッハ素数である。
提案したプロトコルは、修正された最終段階を持つ量子グローバーアルゴリズムである。
p_{\rm min}(N)$ 以下の素数に対する近似滑らかな上界 $\mathcal{N}(N)$ が知られていると仮定すると、我々のプロトコルは、$\mathcal{N}(N)$最低素数の集合が、対応する古典的値 $\mathcal{N}(N)$ に対して、約$\sqrt{\mathcal{N}(N)}$ の最小ゴールドバッハ素数を含むかどうかを識別する。
ゴールドバッハ予想の違反を探索するより広い文脈において、我々のスキームによって提供される量子的優位性は潜在的に有用であると考えられる。
例えば、ゴールドバッハ予想の違反に関する現在最先端の数値的な探索は、すべての偶数の中で$N_{\text{max}} = 4\times 10^{18}$ [T. O. e Silva, S. Herzog, and S. Pardi, Mathematics of Computation 83, 2033 (2013)] にまで達し、探索の量子化は$\sqrt{\mathcal{N}(N_{\text{max}})} \approx 37$ の量子的優位因子を与え、$\mathcal{N}(N_{\text{max}}) \approx 1376$ の基底状態を持つヒルベルト空間を必要とする。
The famous Goldbach conjecture states that any even natural number $N$ greater than $2$ can be written as the sum of two prime numbers $p$ and $p'$, with $p \, , p'$ referred to as a Goldbach pair. In this article we present a quantum analogue protocol for detecting -- given a even number $N$ -- the existence of a so-called minimal Goldbach partition $N=p+p'$ with $p\equiv p_{\rm min}(N)$ being the so-called minimal Goldbach prime, i.e. the least possible value for $p$ among all the Goldbach pairs of $N$. The proposed protocol is effectively a quantum Grover algorithm with a modified final stage. Assuming that an approximate smooth upper bound $\mathcal{N}(N)$ for the number of primes less than or equal to $ p_{\rm min}(N)$ is known, our protocol will identify if the set of $\mathcal{N}(N)$ lowest primes contains the minimal Goldbach prime in approximately $\sqrt{\mathcal{N}(N)}$ steps, against the corresponding classical value $\mathcal{N}(N)$. In the larger context of a search for violations of Goldbach's conjecture, the quantum advantage provided by our scheme appears to be potentially convenient. E.g., referring to the current state-of-art numerical search for violations of the Goldbach conjecture among all even numbers up to $N_{\text{max}} = 4\times 10^{18}$ [T. O. e Silva, S. Herzog, and S. Pardi, Mathematics of Computation 83, 2033 (2013)], a quantum realization of the search would deliver a quantum advantage factor of $\sqrt{\mathcal{N}(N_{\text{max}})} \approx 37$ and it will require a Hilbert space spanning $\mathcal{N}(N_{\text{max}}) \approx 1376$ basis states. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# 共変量シフトによる最小ノルム補間
Minimum-Norm Interpolation Under Covariate Shift ( http://arxiv.org/abs/2404.00522v1 ) ライセンス: Link先を確認 | Neil Mallinar, Austin Zane, Spencer Frei, Bin Yu, | (参考訳) トランスファーラーニングは、現実の機械学習デプロイメントにおいて重要な部分であり、過度にパラメータ化されたニューラルネットワークを用いた実験的研究で広く研究されている。
しかし、線形回帰の最も単純な設定においても、伝達学習の理論的理解には注目すべきギャップが残っている。
高次元線形回帰に関する分布的研究は、線形補間器がノイズの多い訓練ラベルに過度に適合し、しかしなおもよく一般化している「textit{benign overfitting」と呼ばれる現象を同定した。
この挙動は、ソース共分散行列と入力データ次元に関する特定の条件下で起こる。
したがって、そのような高次元線形モデルが転写学習の下でどのように振る舞うのか疑問に思うのは自然である。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
そこで本研究では,過パラメータ化の度合いに基づいて,<textit{beneficial}と<textit{malignant}共変量シフトの分類法を提案する。
実画像データ上での線形補間器と、入力データ次元がトレーニングサンプルサイズよりも大きい環境での完全連結ニューラルネットワークに対して、これらの有益で悪性な共変量シフトを示す実験的な研究に追従する。
Transfer learning is a critical part of real-world machine learning deployments and has been extensively studied in experimental works with overparameterized neural networks. However, even in the simplest setting of linear regression a notable gap still exists in the theoretical understanding of transfer learning. In-distribution research on high-dimensional linear regression has led to the identification of a phenomenon known as \textit{benign overfitting}, in which linear interpolators overfit to noisy training labels and yet still generalize well. This behavior occurs under specific conditions on the source covariance matrix and input data dimension. Therefore, it is natural to wonder how such high-dimensional linear models behave under transfer learning. We prove the first non-asymptotic excess risk bounds for benignly-overfit linear interpolators in the transfer learning setting. From our analysis, we propose a taxonomy of \textit{beneficial} and \textit{malignant} covariate shifts based on the degree of overparameterization. We follow our analysis with empirical studies that show these beneficial and malignant covariate shifts for linear interpolators on real image data, and for fully-connected neural networks in settings where the input data dimension is larger than the training sample size. | 翻訳日:2024-04-04 03:20:34 公開日:2024-03-31 |
# TexVocab: テクスチュア語彙による人間のアバター
TexVocab: Texture Vocabulary-conditioned Human Avatars ( http://arxiv.org/abs/2404.00524v1 ) ライセンス: Link先を確認 | Yuxiao Liu, Zhe Li, Yebin Liu, Haoqian Wang, | (参考訳) マルチビュービデオベースアバターモデリングにおける画像証拠を適切に活用するために,テクスチャ語彙を構築し,アニメーションのためのテクスチャマップに身体のポーズを関連付ける新しいアバター表現であるTexVocabを提案する。
マルチビューRGB映像が与えられた場合,本手法はまず,トレーニングビデオの利用可能なすべての画像をSMPL面にバックプロジェクションし,SMPL UV領域のテクスチャマップを生成する。
そこで我々は,様々なポーズの下で動的人間の外観を符号化するためのテクスチャ語彙を確立するために,人間のポーズとテクスチャマップのペアを構築した。
一般的に用いられる共同方式とは異なり、キネマティックチェインの構造的効果を学習するためのボディパートエンコーディング戦略をさらに設計する。
ポーズベクトルを複数の身体部位に分解し,微粒な人間の動作を合成するためのテクスチャ特徴を補間することにより,ポーズ特徴を階層的にクエリする。
全体として,本手法はRGBビデオから細部およびダイナミックな外観を持つアニマタブルな人体アバターを作成でき,本手法が最先端の手法より優れていることを示す。
プロジェクトのページはhttps://texvocab.github.io/にある。
To adequately utilize the available image evidence in multi-view video-based avatar modeling, we propose TexVocab, a novel avatar representation that constructs a texture vocabulary and associates body poses with texture maps for animation. Given multi-view RGB videos, our method initially back-projects all the available images in the training videos to the posed SMPL surface, producing texture maps in the SMPL UV domain. Then we construct pairs of human poses and texture maps to establish a texture vocabulary for encoding dynamic human appearances under various poses. Unlike the commonly used joint-wise manner, we further design a body-part-wise encoding strategy to learn the structural effects of the kinematic chain. Given a driving pose, we query the pose feature hierarchically by decomposing the pose vector into several body parts and interpolating the texture features for synthesizing fine-grained human dynamics. Overall, our method is able to create animatable human avatars with detailed and dynamic appearances from RGB videos, and the experiments show that our method outperforms state-of-the-art approaches. The project page can be found at https://texvocab.github.io/. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 条件拡散と構築メタデータを用いた合成エネルギーメーターデータの作成
Creating synthetic energy meter data using conditional diffusion and building metadata ( http://arxiv.org/abs/2404.00525v1 ) ライセンス: Link先を確認 | Chun Fu, Hussain Kazmi, Matias Quintana, Clayton Miller, | (参考訳) 機械学習の進歩と計算能力の増大は、エネルギー関連研究の進展を促している。
しかし、建物からのプライベートエネルギーデータへのアクセスは、歴史的データに依存する従来の回帰モデルを妨げる。
生成モデルは解決策を提供するが、以前の研究では主に短期世代(例えば、日々のプロファイル)と限られた数メートルに焦点が当てられていた。
そこで本研究では,関連メタデータを用いて高品質な合成エネルギーデータを生成する条件拡散モデルを提案する。
様々な建物や国から1,828個のパワーメータからなるデータセットを用いて、このモデルを、条件生成適応ネットワーク(CGAN)や条件変動自動エンコーダ(CVAE)といった従来の手法と比較する。
長期の消費プロファイルを明示的に扱い、位置、天気、建築、メートルタイプといったメタデータを利用して、実世界のエネルギー消費パターンによく似た一貫性のある合成データを生成する。
その結果,拡散モデルの優れた性能を示し,Frechet Inception Distance (FID) スコアは36%,Kullback-Leibler divergence (KL divergence) は13%低下した。
提案手法はメタデータによる高品質なエネルギーデータの生成に成功し,そのコードはオープンソース化され,将来,より広範なエネルギーデータ生成モデルの基礎が確立される。
Advances in machine learning and increased computational power have driven progress in energy-related research. However, limited access to private energy data from buildings hinders traditional regression models relying on historical data. While generative models offer a solution, previous studies have primarily focused on short-term generation periods (e.g., daily profiles) and a limited number of meters. Thus, the study proposes a conditional diffusion model for generating high-quality synthetic energy data using relevant metadata. Using a dataset comprising 1,828 power meters from various buildings and countries, this model is compared with traditional methods like Conditional Generative Adversarial Networks (CGAN) and Conditional Variational Auto-Encoders (CVAE). It explicitly handles long-term annual consumption profiles, harnessing metadata such as location, weather, building, and meter type to produce coherent synthetic data that closely resembles real-world energy consumption patterns. The results demonstrate the proposed diffusion model's superior performance, with a 36% reduction in Frechet Inception Distance (FID) score and a 13% decrease in Kullback-Leibler divergence (KL divergence) compared to the following best method. The proposed method successfully generates high-quality energy data through metadata, and its code will be open-sourced, establishing a foundation for a broader array of energy data generation models in the future. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# ゲーム期間の感情的影響:拡張されたゲームプレイセッションにおけるプレイヤー感情を理解するためのフレームワーク
The Emotional Impact of Game Duration: A Framework for Understanding Player Emotions in Extended Gameplay Sessions ( http://arxiv.org/abs/2404.00526v1 ) ライセンス: Link先を確認 | Anoop Kumar, Suresh Dodda, Navin Kamuni, Venkata Sai Mahesh Vuppalapati, | (参考訳) 1970年代以降、ビデオゲームはエンターテイメントにおいて重要な役割を担い、人々が彼らを楽しませる方法を探していたロックダウン時代にはさらに顕著になった。
しかし、当時のプレイヤーはプレイタイムが感情に与える影響を知らなかった。
これにより、デザイナーや開発者は、これらのゲームがプレイヤーにもたらす感情的影響をコントロールする必要があるため、新しいゲームを作るのが難しくなった。
本研究の目的は,プレイヤーの感情がゲーム継続時間にどのように影響するかを検討することである。
この目標を達成するために、感情検出のためのフレームワークを作成する。
実験の結果,被験者の感情表現能力は20分から60分に増加した。
短いゲームプレイセッションと比較して、この実験では、延長されたゲームプレイセッションがプレイヤーの感情に大きな影響を及ぼすことがわかった。
その結果,コンピュータゲームやビデオゲームが将来持つ潜在的な感情的影響を減らすために,ゲーム制作者はより短く楽しいゲームを作ることを考えるべきだと示唆された。
Video games have played a crucial role in entertainment since their development in the 1970s, becoming even more prominent during the lockdown period when people were looking for ways to entertain them. However, at that time, players were unaware of the significant impact that playtime could have on their feelings. This has made it challenging for designers and developers to create new games since they have to control the emotional impact that these games will take on players. Thus, the purpose of this study is to look at how a player's emotions are affected by the duration of the game. In order to achieve this goal, a framework for emotion detection is created. According to the experiment's results, the volunteers' general ability to express emotions increased from 20 to 60 minutes. In comparison to shorter gameplay sessions, the experiment found that extended gameplay sessions did significantly affect the player's emotions. According to the results, it was recommended that in order to lessen the potential emotional impact that playing computer and video games may have in the future, game producers should think about creating shorter, entertaining games. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 改良作物モデルシミュレーションのための生成天気
Generative weather for improved crop model simulations ( http://arxiv.org/abs/2404.00528v1 ) ライセンス: Link先を確認 | Yuji Saikai, | (参考訳) 精密かつ正確な収穫予測は、農業レベルと地域レベルでの意思決定に有用である。
収量予測のために、作物モデルは仮説シナリオをシミュレートする能力に広く利用されている。
収量予測の精度と精度は、シミュレーションへの気象入力に大きく依存するが、天気予報の準備には驚くほど注意が払われていない。
本研究では,長期気象予測のための生成モデルの構築と,最終的に収量予測を改善する手法を提案する。
本手法は,コムギ,オオムギ,オオムギの1年生産と,これらの作物の回転による3年生産の2つの代表的なシナリオで実演する。
その結果,予測誤差の平均偏差と標準偏差で測定した従来の手法から,有意な改善が得られた。
提案手法は,第1シナリオでは18項目中1項目,第2シナリオでは36項目中29項目において従来の手法よりも優れていた。
個別の作物モデル作成者がこの問題にメソッドを適用し始めるには、技術的な詳細を慎重に説明し、訓練済みのPyTorchモデル、APSIMシミュレーションファイル、結果データなどすべてのコードが利用可能である。
Accurate and precise crop yield prediction is invaluable for decision making at both farm levels and regional levels. To make yield prediction, crop models are widely used for their capability to simulate hypothetical scenarios. While accuracy and precision of yield prediction critically depend on weather inputs to simulations, surprisingly little attention has been paid to preparing weather inputs. We propose a new method to construct generative models for long-term weather forecasts and ultimately improve crop yield prediction. We demonstrate use of the method in two representative scenarios -- single-year production of wheat, barley and canola and three-year production using rotations of these crops. Results show significant improvement from the conventional method, measured in terms of mean and standard deviation of prediction errors. Our method outperformed the conventional method in every one of 18 metrics for the first scenario and in 29 out of 36 metrics for the second scenario. For individual crop modellers to start applying the method to their problems, technical details are carefully explained, and all the code, trained PyTorch models, APSIM simulation files and result data are made available. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 多項式の超非特異分解とロバスト学習低次PTFへの応用
Super Non-singular Decompositions of Polynomials and their Application to Robustly Learning Low-degree PTFs ( http://arxiv.org/abs/2404.00529v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Vasilis Kontonis, Sihan Liu, Nikos Zarifis, | (参考訳) 低次多項式しきい値関数 (PTF) の対向汚職の一定割合の存在下での効率的な学習性について検討した。
我々のアルゴリズムの主なアルゴリズムは、ガウス分布の下での強い汚染モデルにおけるこの概念クラスの多項式時間PAC学習アルゴリズムであり、任意の定数$c>0$に対して$O_{d, c}(\text{opt}^{1-c})$である。
強い汚染モデルでは、全能な敵は、データポイントとそのラベルの$\text{opt}$-fractionを任意に破壊することができる。
このモデルは、悪質なノイズモデルと敵対的なラベルノイズモデルを一般化する。
我々の研究に先立ち、この汚職モデルにおける既知の多項式時間アルゴリズム(あるいはより弱い逆ラベルノイズモデルでさえも)は誤差$\tilde{O}_d(\text{opt}^{1/(d+1)})$を達成し、次数$d$の関数として著しく劣化する。
提案アルゴリズムは,線形しきい値関数の学習に使用されていた局所化手法に着想を得た反復的手法を用いている。
具体的には、ロバストなパーセプトロンアルゴリズムを用いて、優れた部分分類器を計算し、未分類の点を反復する。
これを達成するために、多くの多項式の不等式で定義される集合をいくつかのよく定義された部分集合に分割する必要がある。
この目的のために、我々は独立した関心を持つかもしれない新しい多項式分解手法を開発した。
We study the efficient learnability of low-degree polynomial threshold functions (PTFs) in the presence of a constant fraction of adversarial corruptions. Our main algorithmic result is a polynomial-time PAC learning algorithm for this concept class in the strong contamination model under the Gaussian distribution with error guarantee $O_{d, c}(\text{opt}^{1-c})$, for any desired constant $c>0$, where $\text{opt}$ is the fraction of corruptions. In the strong contamination model, an omniscient adversary can arbitrarily corrupt an $\text{opt}$-fraction of the data points and their labels. This model generalizes the malicious noise model and the adversarial label noise model. Prior to our work, known polynomial-time algorithms in this corruption model (or even in the weaker adversarial label noise model) achieved error $\tilde{O}_d(\text{opt}^{1/(d+1)})$, which deteriorates significantly as a function of the degree $d$. Our algorithm employs an iterative approach inspired by localization techniques previously used in the context of learning linear threshold functions. Specifically, we use a robust perceptron algorithm to compute a good partial classifier and then iterate on the unclassified points. In order to achieve this, we need to take a set defined by a number of polynomial inequalities and partition it into several well-behaved subsets. To this end, we develop new polynomial decomposition techniques that may be of independent interest. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 悪いAppleと良いオレンジの比較: 共同選好最適化による大規模言語モデルの調整
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization ( http://arxiv.org/abs/2404.00530v1 ) ライセンス: Link先を確認 | Hritik Bansal, Ashima Suvarna, Gantavya Bhatt, Nanyun Peng, Kai-Wei Chang, Aditya Grover, | (参考訳) 大きな言語モデル(LLM)を整列させる一般的な手法は、固定された文脈で条件付けられた複数の世代を比較することによって、人間の好みを取得することに依存する。
これは、世代が同じ文脈に置かれるときにのみペアワイズ比較を利用する。
しかし、そのような条件付きランキングは、人間の嗜好の複雑で多次元的な側面を捉えるのに失敗することが多い。
本研究では,従来の嗜好獲得のパラダイムを再考し,指示応答対に対して協調して嗜好を抽出する新たな軸を提案する。
事前の選好最適化は条件付きランキングプロトコル(例えばDPO)のために設計されているが、提案プロトコルではDOVEを導入している。
興味深いことに、DOVEを用いた共同指示応答選好データを用いて訓練されたLLMは、要約とオープンエンドの対話データセットに対して、DPOで訓練したLLMを5.2%、ウィンレート3.3%で上回っている。
以上の結果から,命令対と応答対に対する共同選好は,ヒト選好の幅広いスペクトルをタップすることで,LLMのアライメントを著しく向上させることができることが明らかとなった。
データとコードはhttps://github.com/Hritikbansal/dove.comで公開されている。
A common technique for aligning large language models (LLMs) relies on acquiring human preferences by comparing multiple generations conditioned on a fixed context. This only leverages the pairwise comparisons when the generations are placed in an identical context. However, such conditional rankings often fail to capture the complex and multidimensional aspects of human preferences. In this work, we revisit the traditional paradigm of preference acquisition and propose a new axis that is based on eliciting preferences jointly over the instruction-response pairs. While prior preference optimizations are designed for conditional ranking protocols (e.g., DPO), our proposed preference acquisition protocol introduces DOVE, a new preference optimization objective that upweights the joint probability of the chosen instruction-response pair over the rejected instruction-response pair. Interestingly, we find that the LLM trained with joint instruction-response preference data using DOVE outperforms the LLM trained with DPO by 5.2% and 3.3% win-rate for the summarization and open-ended dialogue datasets, respectively. Our findings reveal that joint preferences over instruction and response pairs can significantly enhance the alignment of LLMs by tapping into a broader spectrum of human preference elicitation. The data and code is available at https://github.com/Hritikbansal/dove. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 実弱値を用いた弱値増幅を用いた干渉計の高速化
Enhancing interferometry using weak value amplification with real weak values ( http://arxiv.org/abs/2404.00531v1 ) ライセンス: Link先を確認 | Jing-Hui Huang, Kyle M. Jordan, Adetunmise C. Dada, Xiang-Yun Hu, Jeff. S. Lundeen, | (参考訳) 本稿では、弱い値増幅(WVA)と従来の干渉計を組み合わせた超高感度干渉計プロトコルを提案する。
このWVA+インターフェロメトリプロトコルは、2つの経路間の相対遅延の弱い値増幅を利用して干渉感度を高め、古典的な光の量子限界に近づいた。
一例として、一般的な光学部品のみを用いた2分割干渉計を用いて、数アト秒の時間分解能(フェーナノメーターパス長分解能)を実現するプリンシプル実験を実演する。
我々の例では、二重スリット干渉縞の空間シフトのみを用いるため、その精度は検出器のタイミング分解能によって制限されるのではなく、古典的な光に関連する基本的なショットノイズによってのみ制限される。
本研究では,信号対雑音比が1~3桁向上できることを実験的に実証し,大増幅系におけるショット-ノイズ限界に近づいた。
従来、量子制限されたWVA遅延測定は、広帯域の光と高分解能分光計を必要とする想像上の弱い値を必要とすると考えられていた。
対照的に,本プロトコルでは,実弱値と狭帯域光の利用の可能性を強調している。
このように、我々のプロトコルは干渉計を強化するための説得力と費用効率のよいアプローチである。
We introduce an ultra-sensitive interferometric protocol that combines weak value amplification (WVA) with traditional interferometry. This WVA+interferometry protocol uses weak value amplification of the relative delay between two paths to enhance the interferometric sensitivity, approaching the quantum limit for classical light. As an example, we demonstrate a proof-of-principle experiment that achieves few-attosecond timing resolution (few-nanometer path length resolution) with a double-slit interferometer using only common optical components. Since our example uses only the spatial shift of double-slit interference fringes, its precision is not limited by the timing resolution of the detectors, but is instead limited solely by the fundamental shot noise associated with classical light. We experimentally demonstrate that the signal-to-noise ratio can be improved by one to three orders of magnitude and approaches the shot-noise limit in the large amplification regime. Previously, quantum-limited WVA delay measurements were thought to require imaginary weak values, which necessitate light with a broad spectral bandwidth and high-resolution spectrometers. In contrast, our protocol highlights the feasibility of using real weak values and narrowband light. Thus, our protocol is a compelling and cost-effective approach to enhance interferometry. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# LLMは良い行動認識者である
LLMs are Good Action Recognizers ( http://arxiv.org/abs/2404.00532v1 ) ライセンス: Link先を確認 | Haoxuan Qu, Yujun Cai, Jun Liu, | (参考訳) 骨格に基づく行動認識は多くの研究の注目を集めている。
近年、正確な骨格に基づく行動認識器を構築するために、様々な研究が提案されている。
その中には、スケルトンデータ表現能力を高めるために認識者のバックボーンとして大きなモデルアーキテクチャを使用するものや、知識を豊かにするために外部データで認識者を事前訓練するものもある。
本研究では,様々な自然言語処理タスクで広く使用されている大規模言語モデルが,一般に大きなモデルアーキテクチャと豊富な暗黙的知識の両方を保持することを観察する。
そこで我々は,LLM-ARフレームワークを新たに提案し,大規模言語モデルを行動認識装置として扱うことを検討した。
本稿では,入力された各行動信号(例えば,各骨格配列)を,その「文形式」に投影する言語投影法を提案する。
さらに、この言語投影プロセスをさらに促進するために、我々のフレームワークにいくつかの設計を組み込んだ。
大規模な実験により,提案手法の有効性が実証された。
Skeleton-based action recognition has attracted lots of research attention. Recently, to build an accurate skeleton-based action recognizer, a variety of works have been proposed. Among them, some works use large model architectures as backbones of their recognizers to boost the skeleton data representation capability, while some other works pre-train their recognizers on external data to enrich the knowledge. In this work, we observe that large language models which have been extensively used in various natural language processing tasks generally hold both large model architectures and rich implicit knowledge. Motivated by this, we propose a novel LLM-AR framework, in which we investigate treating the Large Language Model as an Action Recognizer. In our framework, we propose a linguistic projection process to project each input action signal (i.e., each skeleton sequence) into its ``sentence format'' (i.e., an ``action sentence''). Moreover, we also incorporate our framework with several designs to further facilitate this linguistic projection process. Extensive experiments demonstrate the efficacy of our proposed framework. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 一対の周期駆動ボース=アインシュタイン凝縮体のフォック空間におけるゲージポテンシャルと渦
Gauge potentials and vortices in the Fock space of a pair of periodically driven Bose-Einstein condensates ( http://arxiv.org/abs/2404.00533v1 ) ライセンス: Link先を確認 | J. Mumford, D. Kamp, D. H. J. O'Dell, | (参考訳) ボース・アインシュタイン凝縮体(BEC)の2種の結合力学を、トンネルと原子間相互作用が周期的に駆動される二重井戸電位で理論的に研究する。
各種の井戸間の人口差は、各BECの原子数によって与えられる次元を持つフォック空間の2次元格子をもたらす。
フロケ解析を用いて、このフォック空間で作用する実効ハミルトニアンを導出し、人工ゲージ場を含むことを発見する。
このシステムは、高調波ポテンシャルとベクトルポテンシャルを付加する強結合格子中の非相互作用粒子をシミュレートする。
種内相互作用が魅力的であるとき、フロケ作用素の基底状態がガウス状態からフォック空間の量子化された渦状態へ遷移する臨界値が存在する。
遷移は、角運動量や基底状態の絡み合いエントロピーの観点から定量化することができ、どちらも種内相互作用が強くなるにつれて突然のジャンプを示す。
渦状態の安定性は熱力学的限界で消滅する。
We perform a theoretical study of the coupled dynamics of two species of Bose-Einstein condensates (BECs) in a double well potential where both the tunneling and the interatomic interactions are driven periodically in time. The population difference between the wells of each species gives rise to a two dimensional lattice in Fock space with dimensions given by the number of atoms in each BEC. We use a Floquet analysis to derive an effective Hamiltonian that acts in this Fock space and find that it contains an artificial gauge field. This system simulates noninteracting particles in a tight binding lattice subject to an additional harmonic potential and vector potential. When the intra-species interactions are attractive there is a critical value at which the ground state of the Floquet operator undergoes a transition from a Gaussian state to a quantized vortex state in Fock space. The transition can be quantified in terms of the angular momentum as well as the entanglement entropy of the ground state with both showing sudden jumps as the intra-species interactions become stronger. The stability of the vortex state vanishes in the thermodynamic limit. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 非パラメトリック変化検出問題としてのブロックチェーンネットワーク上のEclipse攻撃検出
Eclipse Attack Detection on a Blockchain Network as a Non-Parametric Change Detection Problem ( http://arxiv.org/abs/2404.00538v1 ) ライセンス: Link先を確認 | Anurag Gupta, Brian Sadler, | (参考訳) 本稿では,ブロックチェーンネットワーク上での日食攻撃を識別する新しい非パラメトリック変化検出アルゴリズムを提案する。
悪意のあるアクターがブロックチェーンユーザを隔離し、より広範なネットワークとのコンセンサスに達する能力を破壊して、ローカルコピーの台帳を歪めてしまうと、日食攻撃が発生する。
日食攻撃を検出するために、ブロックチェーンユーザを接続する進化するブロックチェーン通信ネットワークのFr\'echet平均と分散の変化を監視します。
まず、ジョンソン-リンデンシュトラウス補題を利用して、大きな次元のネットワークを低次元空間に投影し、重要な統計的性質を保存する。
その後、非パラメトリックな変化検出法を用い、日食攻撃がない場合にブラウン橋の過程に弱収束する試験統計を導いた。
これにより、検出器の誤警報率を定量化できる。
私たちの検出器はブロックチェーン上のスマートコントラクトとして実装することができ、タンパー保護で信頼性の高いソリューションを提供します。
最後に,提案した日食攻撃検知器とランダム森林モデルに基づく検出器を数値例で比較する。
This paper introduces a novel non-parametric change detection algorithm to identify eclipse attacks on a blockchain network; the non-parametric algorithm relies only on the empirical mean and variance of the dataset, making it highly adaptable. An eclipse attack occurs when malicious actors isolate blockchain users, disrupting their ability to reach consensus with the broader network, thereby distorting their local copy of the ledger. To detect an eclipse attack, we monitor changes in the Fr\'echet mean and variance of the evolving blockchain communication network connecting blockchain users. First, we leverage the Johnson-Lindenstrauss lemma to project large-dimensional networks into a lower-dimensional space, preserving essential statistical properties. Subsequently, we employ a non-parametric change detection procedure, leading to a test statistic that converges weakly to a Brownian bridge process in the absence of an eclipse attack. This enables us to quantify the false alarm rate of the detector. Our detector can be implemented as a smart contract on the blockchain, offering a tamper-proof and reliable solution. Finally, we use numerical examples to compare the proposed eclipse attack detector with a detector based on the random forest model. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 2段階グラフポインタネットワークによるQAPの解法と強化学習
Solving the QAP by Two-Stage Graph Pointer Networks and Reinforcement Learning ( http://arxiv.org/abs/2404.00539v1 ) ライセンス: Link先を確認 | Satoko Iida, Ryota Yasudo, | (参考訳) 二次割当問題 (QAP) は、ここ数年研究されてきた実用的な組合せ最適化問題である。
NPハードであるため、QAPの大きな問題を解くことは困難である。
ヒューリスティックスは準最適解を見つけることができるが、問題のサイズが大きくなるにつれて実行時間が大幅に増加する。
近年,ディープラーニングによる組合せ最適化問題の解法が,ヒューリスティックスよりも高速な解法として注目されている。
しかし、ディープラーニングであっても、大規模なQAPの解決は依然として難しい。
本稿では,QAPを解くための2段階グラフポインタネットワーク(GPN)と呼ばれる深層強化学習モデルを提案する。
2段階GPNは、ユークリッド旅行セールスマン問題 (TSP) のために提案されたGPNに依存している。
まず,一般TSPのためのGPNを拡張し,そのモデルに新たなアルゴリズムを加えてQAPを解く。
実験の結果,TSPlibとQAPLIBのベンチマーク問題インスタンスに対して,2段階GPNが半最適解であることがわかった。
Quadratic Assignment Problem (QAP) is a practical combinatorial optimization problems that has been studied for several years. Since it is NP-hard, solving large problem instances of QAP is challenging. Although heuristics can find semi-optimal solutions, the execution time significantly increases as the problem size increases. Recently, solving combinatorial optimization problems by deep learning has been attracting attention as a faster solver than heuristics. Even with deep learning, however, solving large QAP is still challenging. In this paper, we propose the deep reinforcement learning model called the two-stage graph pointer network (GPN) for solving QAP. Two-stage GPN relies on GPN, which has been proposed for Euclidean Traveling Salesman Problem (TSP). First, we extend GPN for general TSP, and then we add new algorithms to that model for solving QAP. Our experimental results show that our two-stage GPN provides semi-optimal solutions for benchmark problem instances from TSPlib and QAPLIB. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 身体的アクティブディフェンス:反逆的パッチに対するリカレントフィードバックの活用
Embodied Active Defense: Leveraging Recurrent Feedback to Counter Adversarial Patches ( http://arxiv.org/abs/2404.00540v1 ) ライセンス: Link先を確認 | Lingxuan Wu, Xiao Yang, Yinpeng Dong, Liuwei Xie, Hang Su, Jun Zhu, | (参考訳) 敵のパッチに対するディープニューラルネットワークの脆弱性は、モデルロバスト性を高めるための多くの防衛戦略を動機付けている。
しかし、優勢な防御は、敵のパッチに対抗するために単一の観察または事前確立された敵の情報に依存しており、しばしば目に見えない、あるいは適応的な敵の攻撃に直面しず、動的3D環境では容易に不満足なパフォーマンスを示す。
アクティブな人間の知覚と繰り返しのフィードバックのメカニズムに触発されて,環境情報を積極的にコンテキスト化して,現実の3次元環境における不整合に対処する,積極的な防御戦略であるEmbodied Active Defense(EAD)を開発した。
これを実現するために、ERDは2つの中心的リカレントサブモジュール、すなわち知覚モジュールとポリシーモジュールを開発し、アクティブビジョンの2つの重要な機能を実装する。
これらのモデルは、一連の信念と観察を反復的に処理し、対象物の理解を段階的に洗練させ、3D環境における敵のパッチに対抗するための戦略行動の開発を可能にする。
学習効率を最適化するために、環境力学の微分可能な近似を導入し、敵の戦略に依存しないパッチをデプロイする。
大規模な実験により、EDAは標準精度を損なうことなく、安全クリティカルなタスク(例えば、顔認識や物体検出)におけるアクションポリシーを通じて、いくつかのステップで様々なパッチに対する堅牢性を大幅に向上することが示された。
さらに、攻撃非依存的な特徴から、ERDは無敵攻撃に対する優れた一般化を促進し、無敵攻撃の範囲で平均的な攻撃成功率を95%低下させる。
The vulnerability of deep neural networks to adversarial patches has motivated numerous defense strategies for boosting model robustness. However, the prevailing defenses depend on single observation or pre-established adversary information to counter adversarial patches, often failing to be confronted with unseen or adaptive adversarial attacks and easily exhibiting unsatisfying performance in dynamic 3D environments. Inspired by active human perception and recurrent feedback mechanisms, we develop Embodied Active Defense (EAD), a proactive defensive strategy that actively contextualizes environmental information to address misaligned adversarial patches in 3D real-world settings. To achieve this, EAD develops two central recurrent sub-modules, i.e., a perception module and a policy module, to implement two critical functions of active vision. These models recurrently process a series of beliefs and observations, facilitating progressive refinement of their comprehension of the target object and enabling the development of strategic actions to counter adversarial patches in 3D environments. To optimize learning efficiency, we incorporate a differentiable approximation of environmental dynamics and deploy patches that are agnostic to the adversary strategies. Extensive experiments demonstrate that EAD substantially enhances robustness against a variety of patches within just a few steps through its action policy in safety-critical tasks (e.g., face recognition and object detection), without compromising standard accuracy. Furthermore, due to the attack-agnostic characteristic, EAD facilitates excellent generalization to unseen attacks, diminishing the averaged attack success rate by 95 percent across a range of unseen adversarial attacks. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 視覚タスクのための深部押出マニフォールド表現
Deep Extrinsic Manifold Representation for Vision Tasks ( http://arxiv.org/abs/2404.00544v1 ) ライセンス: Link先を確認 | Tongtong Zhang, Xian Wei, Yuanxiang Li, | (参考訳) 非ユークリッドデータはしばしば異なる分野にまたがっているが、多様体表現を出力とするニューラルネットワークを訓練する基本的な課題に対処する文献は限られている。
本稿では,Deep Extrinsic Manifold Representation (DEMR) というトリックを紹介した。
DEMRは外生多様体をディープニューラルネットワークに埋め込み、多様体表現を生成する。
DEMRアプローチは、複雑な測地損失を直接最適化しない。
代わりに、組込みユークリッド空間における計算グラフの最適化にフォーカスし、様々なアーキテクチャ要求への適応性を実現する。
2種類の多様体、$SE(3)$とその関連する商多様体について提案された概念を支持する実証的証拠を提供する。
この証拠は、実現可能性、漸近性、一般化能力に関する理論的保証を提供する。
実験の結果、DMRは点雲アライメントに効果的に適応し、SE(3)$で出力を出力し、グラスマン多様体上の出力を持つ照明部分空間学習においても同様であることが示された。
Non-Euclidean data is frequently encountered across different fields, yet there is limited literature that addresses the fundamental challenge of training neural networks with manifold representations as outputs. We introduce the trick named Deep Extrinsic Manifold Representation (DEMR) for visual tasks in this context. DEMR incorporates extrinsic manifold embedding into deep neural networks, which helps generate manifold representations. The DEMR approach does not directly optimize the complex geodesic loss. Instead, it focuses on optimizing the computation graph within the embedded Euclidean space, allowing for adaptability to various architectural requirements. We provide empirical evidence supporting the proposed concept on two types of manifolds, $SE(3)$ and its associated quotient manifolds. This evidence offers theoretical assurances regarding feasibility, asymptotic properties, and generalization capability. The experimental results show that DEMR effectively adapts to point cloud alignment, producing outputs in $ SE(3) $, as well as in illumination subspace learning with outputs on the Grassmann manifold. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 電磁波逆問題に対する統一検証型ニューラルシミュレータ
Unified, Verifiable Neural Simulators for Electromagnetic Wave Inverse Problems ( http://arxiv.org/abs/2404.00545v1 ) ライセンス: Link先を確認 | Charles Dove, Jatearoon Boondicharern, Laura Waller, | (参考訳) ニューラルネットワークに基づくシミュレータは、より高速な電磁波シミュレーションのための経路を提供する。
しかし、既存のモデルは、わずかに調整された問題のクラスにのみ対応し、数十自由度(DoF)のシステムにしかスケールしない。
ここでは, 波長, 照明波面, フリーフォーム材料を含む数千のDoFによる散乱シミュレーションを, 広い構成可能な領域内で処理可能な単一統一モデルを示す。
注意的マルチコンディショニング戦略に基づき,中間状態の非反復的な監視と予測を可能にし,データ生成コストを増大させることなく一般化を実現する。
このO(1)時間中間予測機能を用いて、予測誤差に対する厳密で効率的な計算可能な上限を提案し、全ての予測に対する推論時間での精度保証を可能にする。
光トモグラフィー、ボリュームランダムメディアによるビーム整形、およびフリーフォームフォトニック逆設計において、問題固有のトレーニングを伴わずに、高い効率と速度向上を96%まで達成し、複数の分野の逆問題に挑戦する一貫したモデルを実証した。
提案手法は, 時間領域反復解法を許容する任意のPDEに対して適用可能であることを示す。
Simulators based on neural networks offer a path to orders-of-magnitude faster electromagnetic wave simulations. Existing models, however, only address narrowly tailored classes of problems and only scale to systems of a few dozen degrees of freedom (DoFs). Here, we demonstrate a single, unified model capable of addressing scattering simulations with thousands of DoFs, of any wavelength, any illumination wavefront, and freeform materials, within broad configurable bounds. Based on an attentional multi-conditioning strategy, our method also allows non-recurrent supervision on and prediction of intermediate physical states, which provides improved generalization with no additional data-generation cost. Using this O(1)-time intermediate prediction capability, we propose and prove a rigorous, efficiently computable upper bound on prediction error, allowing accuracy guarantees at inference time for all predictions. After training solely on randomized systems, we demonstrate the unified model across a suite of challenging multi-disciplinary inverse problems, finding strong efficacy and speed improvements up to 96% for problems in optical tomography, beam shaping through volumetric random media, and freeform photonic inverse design, with no problem-specific training. Our findings demonstrate a path to universal, verifiably accurate neural surrogates for existing scattering simulators, and our conditioning and training methods are directly applicable to any PDE admitting a time-domain iterative solver. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# 視覚的位置認識における画像マッチングの不確かさの推定について
On the Estimation of Image-matching Uncertainty in Visual Place Recognition ( http://arxiv.org/abs/2404.00546v1 ) ライセンス: Link先を確認 | Mubariz Zaffar, Liangliang Nan, Julian F. P. Kooij, | (参考訳) ビジュアルプレース認識(VPR)では、画像と参照画像のマップと既知の参照ポーズとを比較して、クエリ画像のポーズを推定する。
画像検索の典型的な問題と同様に、特徴抽出器は、クエリと参照画像を特徴空間にマッピングし、隣り合う探索を行う。
しかし、最近まで、検索された参照画像が正しい一致であるという信頼度を定量化するためにはほとんど注意が払われていない。
高精度だが誤った検索は、VPRベースのローカライゼーションパイプラインの破滅的な失敗につながる可能性がある。
この研究は、従来の検索に基づく不確実性推定、より最近のデータ駆動のアレタリック不確実性推定、および計算集約的な幾何的検証を含む、画像マッチングの不確かさを推定するための主要なアプローチを初めて比較した。
さらに,図中の参照画像の自由なポーズを考える他の方法と異なり,簡単なベースライン法である ``SUE'' を定式化する。
実験の結果,クエリと参照記述子間の単純なL2距離は,現在のデータ駆動手法よりも画像マッチングの不確かさを推定できることがわかった。
SUEは他の効率的な不確実性推定法よりも優れており、その不確実性推定は計算に高価な幾何的検証手法を補完する。
VPRにおける不確実性評価のための今後の研究は、この研究で議論されたベースラインを考慮するべきである。
In Visual Place Recognition (VPR) the pose of a query image is estimated by comparing the image to a map of reference images with known reference poses. As is typical for image retrieval problems, a feature extractor maps the query and reference images to a feature space, where a nearest neighbor search is then performed. However, till recently little attention has been given to quantifying the confidence that a retrieved reference image is a correct match. Highly certain but incorrect retrieval can lead to catastrophic failure of VPR-based localization pipelines. This work compares for the first time the main approaches for estimating the image-matching uncertainty, including the traditional retrieval-based uncertainty estimation, more recent data-driven aleatoric uncertainty estimation, and the compute-intensive geometric verification. We further formulate a simple baseline method, ``SUE'', which unlike the other methods considers the freely-available poses of the reference images in the map. Our experiments reveal that a simple L2-distance between the query and reference descriptors is already a better estimate of image-matching uncertainty than current data-driven approaches. SUE outperforms the other efficient uncertainty estimation methods, and its uncertainty estimates complement the computationally expensive geometric verification approach. Future works for uncertainty estimation in VPR should consider the baselines discussed in this work. | 翻訳日:2024-04-04 03:10:31 公開日:2024-03-31 |
# デノイング蒸留によりイベントフレームトランスフォーマーを高精度なガゼトラッカーとして実現する
Denoising Distillation Makes Event-Frame Transformers as Accurate Gaze Trackers ( http://arxiv.org/abs/2404.00548v1 ) ライセンス: Link先を確認 | Jiading Li, Zhiyu Zhu, Jinhui Hou, Junhui Hou, Jinjian Wu, | (参考訳) 本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
本質的に異なる生理構造を考えると、与えられた状態に基づいて正確に推定することは困難である。
したがって、現在の状態からいくつかの事前登録されたアンカー状態への状態遷移の定量化として、視線推定を再構成する。
技術的には、2段階の学習に基づく視線推定フレームワークを提案し、全視線推定プロセスをアンカー状態選択と最終視線位置の粗大なプロセスに分割する。
さらに, 一般化能力を向上させるために, 現地の専門家グループを学生ネットワークに整合させ, そこでは, イベントデータ固有のノイズを反復的に除去するために, 新たにデノナイジング蒸留アルゴリズムを導入する。
提案手法の有効性を実証し, 最先端の手法を15$\%の精度で大幅に上回った。
コードはhttps://github.com/jdjdli/Denoise_distill_EF_gazetrackerで公開されている。
This paper tackles the problem of passive gaze estimation using both event and frame data. Considering inherently different physiological structures, it's intractable to accurately estimate purely based on a given state. Thus, we reformulate the gaze estimation as the quantification of state transitions from the current state to several prior registered anchor states. Technically, we propose a two-stage learning-based gaze estimation framework to divide the whole gaze estimation process into a coarse-to-fine process of anchor state selection and final gaze location. Moreover, to improve generalization ability, we align a group of local experts with a student network, where a novel denoising distillation algorithm is introduced to utilize denoising diffusion technique to iteratively remove inherent noise of event data. Extensive experiments demonstrate the effectiveness of the proposed method, which greatly surpasses state-of-the-art methods by a large extent of 15$\%$. The code will be publicly available at https://github.com/jdjdli/Denoise_distill_EF_gazetracker. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# Pneumonia App:説明可能な畳み込みニューラルネットワーク(CNN)を用いた効率的な小児肺炎診断のためのモバイルアプリケーション
Pneumonia App: a mobile application for efficient pediatric pneumonia diagnosis using explainable convolutional neural networks (CNN) ( http://arxiv.org/abs/2404.00549v1 ) ライセンス: Link先を確認 | Jiaming Deng, Zhenglin Chen, Minjiang Chen, Lulu Xu, Jiaqi Yang, Zhendong Luo, Peiwu Qin, | (参考訳) マイコプラズマ肺炎肺炎(MPP)は、特に流行している中国などの地域では、小児医療において重大な診断上の課題となっている。
PneumoniaAPPは,高速MPP検出にディープラーニング技術を活用するモバイルアプリケーションである。
提案手法は,MPPを明らかにする833個のCXR画像を含む3345個の胸部X線(CXR)画像を含む包括的データセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)に便乗する。
CNNモデルは全てのクラスで88.20%、AUROCは0.9218の精度を達成し、テストデータセットで示されているように、マイコプラズマクラスの精度は97.64%だった。
さらに,呼吸器科医の肺透明度局所化を支援するために,説明可能性手法をPneumoniaAPPに統合した。
我々の貢献は、小児MPPをターゲットとし、0-12年の年齢グループを強調し、モバイルデバイスへのデプロイメントを優先することで、既存の研究を超えています。
この研究は、小児肺炎の診断の大幅な進歩を示すもので、医療現場での診断負担を軽減する信頼性が高くアクセスしやすいツールを提供する。
Mycoplasma pneumoniae pneumonia (MPP) poses significant diagnostic challenges in pediatric healthcare, especially in regions like China where it's prevalent. We introduce PneumoniaAPP, a mobile application leveraging deep learning techniques for rapid MPP detection. Our approach capitalizes on convolutional neural networks (CNNs) trained on a comprehensive dataset comprising 3345 chest X-ray (CXR) images, which includes 833 CXR images revealing MPP and additionally augmented with samples from a public dataset. The CNN model achieved an accuracy of 88.20% and an AUROC of 0.9218 across all classes, with a specific accuracy of 97.64% for the mycoplasma class, as demonstrated on the testing dataset. Furthermore, we integrated explainability techniques into PneumoniaAPP to aid respiratory physicians in lung opacity localization. Our contribution extends beyond existing research by targeting pediatric MPP, emphasizing the age group of 0-12 years, and prioritizing deployment on mobile devices. This work signifies a significant advancement in pediatric pneumonia diagnosis, offering a reliable and accessible tool to alleviate diagnostic burdens in healthcare settings. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# 確率分布学習のための連続正規化流れの収束性
Convergence of Continuous Normalizing Flows for Learning Probability Distributions ( http://arxiv.org/abs/2404.00551v1 ) ライセンス: Link先を確認 | Yuan Gao, Jian Huang, Yuling Jiao, Shurong Zheng, | (参考訳) 連続正規化フロー (Continuous normalizing flow, CNFs) は、通常の微分方程式に基づく確率分布の学習法である。
この手法は、大規模画像合成、タンパク質構造予測、分子生成など、様々な応用において顕著な成功を示している。
本研究では,有限ランダムサンプルからの学習確率分布の線形補間によるCNFの理論的特性について,フローマッチング目的関数を用いて検討する。
CNFsに基づく分布推定器の非漸近誤差境界をワッサーシュタイン2距離の観点から確立する。
我々の分析における重要な仮定は、対象分布が以下の3つの条件のうちの1つを満たすことである: 有界な支持を持ち、強い対数圏を持ち、あるいはガウス分布の有限あるいは無限の混合である。
本稿では,速度推定,離散化誤差,早期停止誤差による誤差を包含する収束解析フレームワークを提案する。
解析における重要なステップは、線形補間により構築されたCNFに対する速度場とその推定器の正則性を確立することである。
このことは、リプシッツ関数クラスを近似するディープ ReLU ネットワークのリプシッツ正則性制御を伴う一様誤差境界の開発を必要とする。
我々の非パラメトリック収束解析は、CNFを用いて有限ランダムサンプルから確率分布を学習する理論的保証を提供する。
Continuous normalizing flows (CNFs) are a generative method for learning probability distributions, which is based on ordinary differential equations. This method has shown remarkable empirical success across various applications, including large-scale image synthesis, protein structure prediction, and molecule generation. In this work, we study the theoretical properties of CNFs with linear interpolation in learning probability distributions from a finite random sample, using a flow matching objective function. We establish non-asymptotic error bounds for the distribution estimator based on CNFs, in terms of the Wasserstein-2 distance. The key assumption in our analysis is that the target distribution satisfies one of the following three conditions: it either has a bounded support, is strongly log-concave, or is a finite or infinite mixture of Gaussian distributions. We present a convergence analysis framework that encompasses the error due to velocity estimation, the discretization error, and the early stopping error. A key step in our analysis involves establishing the regularity properties of the velocity field and its estimator for CNFs constructed with linear interpolation. This necessitates the development of uniform error bounds with Lipschitz regularity control of deep ReLU networks that approximate the Lipschitz function class, which could be of independent interest. Our nonparametric convergence analysis offers theoretical guarantees for using CNFs to learn probability distributions from a finite random sample. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# ヒト皮膚剥離法の比較
Comparison of Methods in Human Skin Decomposition ( http://arxiv.org/abs/2404.00552v1 ) ライセンス: Link先を確認 | Hao Gong, Michel Desvignes, | (参考訳) 皮膚色素の分解は医療分野において重要な役割を担っている。
ヒトの皮膚はヘモグロビンとメラニンの2つの原始成分に分解することができる。
皮膚癌の診断にこれらの結果を適用することが目的である。
本稿では, 皮膚色素の分解法を比較検討し, 理論的および実験的に各方法の性能評価を行った。
また, 等尺的特徴マッピング (Isomap) を導入し, 皮膚分解の文脈における寸法低減性能を向上させる。
Decomposition of skin pigment plays an important role in medical fields. Human skin can be decomposed into two primitive components, hemoglobin and melanin. It is our goal to apply these results for diagnosis of skin cancer. In this paper, various methods for skin pigment decomposition are reviewed comparatively and the performance of each method is evaluated both theoretically and experimentally. In addition, isometric feature mapping (Isomap) is introduced in order to improve the dimensionality reduction performance in context of skin decomposition. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# DivTOD:タスク指向の対話表現を多様化するLLMのパワーを開放する
DivTOD: Unleashing the Power of LLMs for Diversifying Task-Oriented Dialogue Representations ( http://arxiv.org/abs/2404.00557v1 ) ライセンス: Link先を確認 | Weihao Zeng, Dayuan Fu, Keqing He, Yejie Wang, Yukai Xu, Weiran Xu, | (参考訳) 汎用テキストで事前訓練された言語モデルは、様々な分野において印象的な成果を上げている。
しかし、タスク指向対話(TOD)の言語的特徴と一般的なテキストとの比較は、既存の言語モデルの実用性を制限している。
現在のタスク指向の対話事前学習手法は、会話の1対多性を見落としている。
本稿では,LLMと協調して多様なタスク指向対話表現を学習するDivTODという対話事前学習モデルを提案する。
DivTODは、タスク指向の対話に矛盾するドメイン知識を取り除きながら、多様な知識をより小さなモデルに転送する。
実験の結果,本モデルは様々な下流対話課題において強いTODベースラインを上回り,タスク指向対話の本質的な多様性を学習することがわかった。
Language models pre-trained on general text have achieved impressive results in diverse fields. Yet, the distinct linguistic characteristics of task-oriented dialogues (TOD) compared to general text limit the practical utility of existing language models. Current task-oriented dialogue pre-training methods overlook the one-to-many property of conversations, where multiple responses can be appropriate given the same conversation context. In this paper, we propose a novel dialogue pre-training model called DivTOD, which collaborates with LLMs to learn diverse task-oriented dialogue representations. DivTOD guides LLMs in transferring diverse knowledge to smaller models while removing domain knowledge that contradicts task-oriented dialogues. Experiments show that our model outperforms strong TOD baselines on various downstream dialogue tasks and learns the intrinsic diversity of task-oriented dialogues. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# 生体電子顕微鏡画像生成のためのスキップパッチ判別器付きGAN
GAN with Skip Patch Discriminator for Biological Electron Microscopy Image Generation ( http://arxiv.org/abs/2404.00558v1 ) ライセンス: Link先を確認 | Nishith Ranjon Roy, Nailah Rawnaq, Tulin Kaman, | (参考訳) 現実的な電子顕微鏡(EM)画像の生成は、その複雑なグローバル構造と局所構造のために難しい問題となっている。
Isola et al proposed pix2pix, a conditional Generative Adversarial Network (GAN) for the general purpose of image-to-image translation。
本稿では,GANにおける識別器のための新しいアーキテクチャを提案し,スキップパッチを用いて複数のパッチサイズにアクセスし,現実的なEM画像を生成する。
Generating realistic electron microscopy (EM) images has been a challenging problem due to their complex global and local structures. Isola et al. proposed pix2pix, a conditional Generative Adversarial Network (GAN), for the general purpose of image-to-image translation; which fails to generate realistic EM images. We propose a new architecture for the discriminator in the GAN providing access to multiple patch sizes using skip patches and generating realistic EM images. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# 推論学習における長さ一般化の理論
A Theory for Length Generalization in Learning to Reason ( http://arxiv.org/abs/2404.00560v1 ) ライセンス: Link先を確認 | Changnan Xiao, Bing Liu, | (参考訳) 長さ一般化(LG)は、推論を学ぶ上で難しい問題である。
この現象は、より小さい長さや大きさの推論問題を訓練すると、結果のモデルがより大きなサイズや長さの問題と競合する現象を指す。
LGは多くの研究者によって研究されてきたが、課題は残る。
本稿では,DAG(directed acyclic graphs)としてモデル化可能な問題に対するLGの理論的研究を提案する。
この論文はまず、LGが推論の学習で達成できる条件を特定し、証明する。
次に、この理論に基づいて問題表現を設計し、パーティ、加算、乗算といった難解な推論問題の解法を学ぶ。
Length generalization (LG) is a challenging problem in learning to reason. It refers to the phenomenon that when trained on reasoning problems of smaller lengths or sizes, the resulting model struggles with problems of larger sizes or lengths. Although LG has been studied by many researchers, the challenge remains. This paper proposes a theoretical study of LG for problems whose reasoning processes can be modeled as DAGs (directed acyclic graphs). The paper first identifies and proves the conditions under which LG can be achieved in learning to reason. It then designs problem representations based on the theory to learn to solve challenging reasoning problems like parity, addition, and multiplication, using a Transformer to achieve perfect LG. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# データセット蒸留におけるサンプル間および機能間関係の爆発
Exploiting Inter-sample and Inter-feature Relations in Dataset Distillation ( http://arxiv.org/abs/2404.00563v1 ) ライセンス: Link先を確認 | Wenxiao Deng, Wenbin Li, Tianyu Ding, Lei Wang, Hongguang Zhang, Kuihua Huang, Jing Huo, Yang Gao, | (参考訳) データセットの蒸留はディープラーニングにおいて有望なアプローチとして現れており、より大規模な実データから派生した小さな合成データセットによる効率的なトレーニングを可能にしている。
特に, 分散マッチングに基づく蒸留法は, その有効性と計算コストの低さから注目されている。
しかし、これらの手法は、合成データセットの同じクラス内の分散した特徴分布、クラス識別の低減、平均的特徴整合性への排他的焦点、精度と包括性を欠いた2つの主な制限に直面している。
これらの課題に対処するために,クラス集中化制約と共分散マッチング制約という2つの新しい制約を導入する。
クラス集中化制約は、クラス内でより密集したサンプルをクラスタ化することによって、クラス識別を強化することを目的としている。
共分散マッチング制約は、局所的な特徴共分散行列を通して、実データと合成データセットのより正確な特徴分布マッチングを実現することを目的としており、特に、サンプルサイズが特徴の数よりもはるかに小さい場合に有益である。
CIFAR10では最大6.6%、SVHNでは2.9%、CIFAR100では2.5%、TinyImageNetでは2.5%となる。
さらに,本手法は,4つのアーキテクチャにおいて最大1.7%の性能低下を伴って,クロスアーキテクチャ環境でのロバストな性能を維持している。
コードはhttps://github.com/VincenDen/IID.comで入手できる。
Dataset distillation has emerged as a promising approach in deep learning, enabling efficient training with small synthetic datasets derived from larger real ones. Particularly, distribution matching-based distillation methods attract attention thanks to its effectiveness and low computational cost. However, these methods face two primary limitations: the dispersed feature distribution within the same class in synthetic datasets, reducing class discrimination, and an exclusive focus on mean feature consistency, lacking precision and comprehensiveness. To address these challenges, we introduce two novel constraints: a class centralization constraint and a covariance matching constraint. The class centralization constraint aims to enhance class discrimination by more closely clustering samples within classes. The covariance matching constraint seeks to achieve more accurate feature distribution matching between real and synthetic datasets through local feature covariance matrices, particularly beneficial when sample sizes are much smaller than the number of features. Experiments demonstrate notable improvements with these constraints, yielding performance boosts of up to 6.6% on CIFAR10, 2.9% on SVHN, 2.5% on CIFAR100, and 2.5% on TinyImageNet, compared to the state-of-the-art relevant methods. In addition, our method maintains robust performance in cross-architecture settings, with a maximum performance drop of 1.7% on four architectures. Code is available at https://github.com/VincenDen/IID. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# テンプレートベース翻訳検出のためのコーパスメタデータの活用:エジプト・アラビア語版ウィキペディアの探索的研究
Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition ( http://arxiv.org/abs/2404.00565v1 ) ライセンス: Link先を確認 | Saied Alshahrani, Hesham Haroon, Ali Elfilali, Mariama Njie, Jeanna Matthews, | (参考訳) Wikipediaの記事(コンテンツページ)は、自然言語処理(NLP)研究、特に英語以外の低リソース言語でよく使われるコーパスである。
しかし、アラビア・ウィキペディア(AR)、エジプト・アラビア・ウィキペディア(ARZ)、モロッコ・アラビア・ウィキペディア(ary)の3つのアラビア・ウィキペディアについて研究し、エジプト・アラビア・ウィキペディアでは、人間の関与なしに英語からアラビア語へのテンプレートベースの翻訳を用いて、エジプト・アラビア・ウィキペディアの記事を大量に自動生成することに関する問題を文書化している。
本稿では,エジプト・アラビア・ウィキペディアで発生したテンプレート翻訳問題とその特徴を探索分析と自動検出システムの構築により緩和することを目的とする。
まず3つのアラビア語版ウィキペディア版の内容について、密度、品質、人的貢献の観点から検討し、結果の洞察を利用して、記事のメタデータを利用した多変量機械学習分類器を構築し、テンプレート変換された記事を自動的に検出する。
そして、ベストパフォーマンスの分類器であるXGBoostを、EGYPTIAN WIKIPEDIA SCANNERと呼ばれるオンラインアプリケーションとして公開してホストし、抽出、フィルタリング、ラベル付けされたデータセットを研究コミュニティにリリースし、データセットとオンラインWebベースの検出システムを活用する。
Wikipedia articles (content pages) are commonly used corpora in Natural Language Processing (NLP) research, especially in low-resource languages other than English. Yet, a few research studies have studied the three Arabic Wikipedia editions, Arabic Wikipedia (AR), Egyptian Arabic Wikipedia (ARZ), and Moroccan Arabic Wikipedia (ARY), and documented issues in the Egyptian Arabic Wikipedia edition regarding the massive automatic creation of its articles using template-based translation from English to Arabic without human involvement, overwhelming the Egyptian Arabic Wikipedia with articles that do not only have low-quality content but also with articles that do not represent the Egyptian people, their culture, and their dialect. In this paper, we aim to mitigate the problem of template translation that occurred in the Egyptian Arabic Wikipedia by identifying these template-translated articles and their characteristics through exploratory analysis and building automatic detection systems. We first explore the content of the three Arabic Wikipedia editions in terms of density, quality, and human contributions and utilize the resulting insights to build multivariate machine learning classifiers leveraging articles' metadata to detect the template-translated articles automatically. We then publicly deploy and host the best-performing classifier, XGBoost, as an online application called EGYPTIAN WIKIPEDIA SCANNER and release the extracted, filtered, and labeled datasets to the research community to benefit from our datasets and the online, web-based detection system. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# CodeBenchGen: スケーラブルな実行ベースのコード生成ベンチマークの作成
CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks ( http://arxiv.org/abs/2404.00566v1 ) ライセンス: Link先を確認 | Yiqing Xie, Alex Xie, Divyanshu Sheth, Pengfei Liu, Daniel Fried, Carolyn Rose, | (参考訳) 多様なシナリオにまたがるコード生成システムの評価を容易にするため、我々は、人間からの軽いガイダンスのみを必要とするスケーラブルな実行ベースのベンチマークを作成するためのフレームワーク、CodeBenchGenを紹介した。
具体的には,大規模言語モデル(LLM)を活用して任意のコードを評価例に変換する。
CodeSearchNetデータセットから取得した367のGitHubリポジトリのコードから293のライブラリを修正した1,931のサンプルを含むデータセットであるExec-CSNを作成することで、私たちのフレームワークの有用性を説明します。
Exec-CSNにおける例の複雑さと解決可能性を示すために, 81.3%の例が人間によって解決され, 61%が「解決に必要な努力」と評価されていることを示す。
オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。
受け入れ次第、フレームワークとデータセットの両方のコードをリリースします。
To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks that only requires light guidance from humans. Specifically, we leverage a large language model (LLM) to convert an arbitrary piece of code into an evaluation example, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries revised from code in 367 GitHub repositories taken from the CodeSearchNet dataset. To demonstrate the complexity and solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as ``requires effort to solve''. We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We will release the code of both the framework and the dataset upon acceptance. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# CM-TTS:重み付きサンプリングと一貫性モデルによるリアルタイムテキスト音声合成効率の向上
CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models ( http://arxiv.org/abs/2404.00569v1 ) ライセンス: Link先を確認 | Xiang Li, Fan Bu, Ambuj Mehrish, Yingting Li, Jiale Han, Bo Cheng, Soujanya Poria, | (参考訳) Neural Text-to-Speech (TTS) システムは音声アシスタント、eラーニング、オーディオブック作成に広く応用されている。
拡散モデル(DM)のような近代モデルの追求は、高忠実でリアルタイムな音声合成を実現するための約束である。
しかし,拡散モデルにおける多段階サンプリングの効率性には課題がある。
GANをDMと統合し、分散を近似することで推論を高速化する努力がなされているが、これは敵の訓練によるモデル収束の問題をもたらす。
これを解決するために,一貫性モデル(CM)に基づく新しいアーキテクチャであるCM-TTSを導入する。
連続時間拡散モデルからインスピレーションを得たCM-TTSは、対向訓練や事前学習モデル依存なしに、より少ないステップで最高品質の音声合成を実現する。
さらに重み付けされたサンプル装置を設計し、異なるサンプリング位置を動的確率を持つモデルトレーニングに組み込むことで、トレーニングプロセス全体を通してバイアスのない学習を確実にする。
包括的評価により検証した実時間メル-クログラム生成一貫性モデルを提案する。
CM-TTSが既存の単段階音声合成システムよりも優れていることを示す実験結果が得られた。
Neural Text-to-Speech (TTS) systems find broad applications in voice assistants, e-learning, and audiobook creation. The pursuit of modern models, like Diffusion Models (DMs), holds promise for achieving high-fidelity, real-time speech synthesis. Yet, the efficiency of multi-step sampling in Diffusion Models presents challenges. Efforts have been made to integrate GANs with DMs, speeding up inference by approximating denoising distributions, but this introduces issues with model convergence due to adversarial training. To overcome this, we introduce CM-TTS, a novel architecture grounded in consistency models (CMs). Drawing inspiration from continuous-time diffusion models, CM-TTS achieves top-quality speech synthesis in fewer steps without adversarial training or pre-trained model dependencies. We further design weighted samplers to incorporate different sampling positions into model training with dynamic probabilities, ensuring unbiased learning throughout the entire training process. We present a real-time mel-spectrogram generation consistency model, validated through comprehensive evaluations. Experimental results underscore CM-TTS's superiority over existing single-step speech synthesis systems, representing a significant advancement in the field. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# ParaICL:ロバストな並列インコンテキスト学習を目指して
ParaICL: Towards Robust Parallel In-Context Learning ( http://arxiv.org/abs/2404.00570v1 ) ライセンス: Link先を確認 | Xingxuan Li, Xuan-Phi Nguyen, Shafiq Joty, Lidong Bing, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の標準となり、その優れた能力で、数ショットのインコンテキスト学習(ICL)に優れています。
それにもかかわらず、ICLの成功は、数発のデモ例の選択に大きく影響しているため、選択プロセスはますます重要になっている。
既存の手法は、ICLの性能を改善するために、これらの例の量と意味的類似性を最適化することに注力している。
しかし, 予備実験の結果, ICLの有効性は入力コンテキストの長さによって制限されていることが明らかとなった。
さらに、いくつかのデモ例の様々な組み合わせは、異なるテストサンプル間での精度を大幅に向上させることができる。
そこで本研究では,並列型インコンテキスト学習(ParaICL)という手法を提案する。
ParaICLは並列バッチを使用して、デモ中の質問とテストの質問のセマンティックな類似性に応じて、デモサンプルを異なるバッチに分散する。
次に、バッチ毎に正規化されたバッチセマンティックスコアを計算する。
適応的可算性によって制約された重み付き平均的意味目的を、最も適切なトークンを選択するために適用する。
広範囲な実験を通じて、ParaICLの有効性を検証し、その設計根拠を裏付けるためにアブレーション研究を行う。
さらに、ParaICLが既存のメソッドとシームレスに統合できることを実証する。
Large language models (LLMs) have become the norm in natural language processing (NLP), excelling in few-shot in-context learning (ICL) with their remarkable abilities. Nonetheless, the success of ICL largely hinges on the choice of few-shot demonstration examples, making the selection process increasingly crucial. Existing methods have delved into optimizing the quantity and semantic similarity of these examples to improve ICL performances. However, our preliminary experiments indicate that the effectiveness of ICL is limited by the length of the input context. Moreover, varying combinations of few-shot demonstration examples can significantly boost accuracy across different test samples. To address this, we propose a novel method named parallel in-context learning (ParaICL) that effectively utilizes all demonstration examples without exceeding the manageable input context length. ParaICL employs parallel batching to distribute demonstration examples into different batches according to the semantic similarities of the questions in the demonstrations to the test question. It then computes normalized batch semantic scores for each batch. A weighted average semantic objective, constrained by adaptive plausibility, is applied to select the most appropriate tokens. Through extensive experiments, we validate the effectiveness of ParaICL and conduct ablation studies to underscore its design rationale. We further demonstrate that ParaICL can seamlessly integrate with existing methods. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# 説明可能なマルチホップ質問生成:中間質問ラベルを含まないエンドツーエンドアプローチ
Explainable Multi-hop Question Generation: An End-to-End Approach without Intermediate Question Labeling ( http://arxiv.org/abs/2404.00571v1 ) ライセンス: Link先を確認 | Seonjeong Hwang, Yunsu Kim, Gary Geunbae Lee, | (参考訳) 対話型人工知能の利用の増加に対応して、複雑な問題に対処する能力の需要が高まっている。
マルチホップ質問生成は、複数の文書に対して多段階の推論を必要とする複雑な質問を生成することを目的としている。
従来の研究では、コンテキスト文書の表現に基づいて質問をデコードするエンド・ツー・エンド・モデルが主流であった。
しかし、これらのアプローチには、生成されたマルチホップ質問の背後にある推論プロセスを説明する能力がない。
さらに、質問の複雑さを漸進的に増大させる質問書き換えアプローチでは、中間段階の質問にデータをラベル付けする必要があるため、制限がある。
本稿では,逐次書き直しによる質問の複雑さを増大させるエンドツーエンドの質問書き直しモデルを提案する。
提案モデルでは, 中間質問を伴わずに, 最終的なマルチホップ質問のみを学習できるという利点がある。
実験により, 複雑な質問, 特に3, 4-ホップの質問を, 適切な解答と組み合わせることで, モデルの有効性が示された。
また,本モデルが質問の複雑さを論理的かつ漸進的に増大させることを証明し,生成したマルチホップ質問も質問応答モデルの学習に有用であることを示す。
In response to the increasing use of interactive artificial intelligence, the demand for the capacity to handle complex questions has increased. Multi-hop question generation aims to generate complex questions that requires multi-step reasoning over several documents. Previous studies have predominantly utilized end-to-end models, wherein questions are decoded based on the representation of context documents. However, these approaches lack the ability to explain the reasoning process behind the generated multi-hop questions. Additionally, the question rewriting approach, which incrementally increases the question complexity, also has limitations due to the requirement of labeling data for intermediate-stage questions. In this paper, we introduce an end-to-end question rewriting model that increases question complexity through sequential rewriting. The proposed model has the advantage of training with only the final multi-hop questions, without intermediate questions. Experimental results demonstrate the effectiveness of our model in generating complex questions, particularly 3- and 4-hop questions, which are appropriately paired with input answers. We also prove that our model logically and incrementally increases the complexity of questions, and the generated multi-hop questions are also beneficial for training question answering models. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# ADs: 高度製造システムにおけるデータ品質保証のためのアクティブデータ共有
ADs: Active Data-sharing for Data Quality Assurance in Advanced Manufacturing Systems ( http://arxiv.org/abs/2404.00572v1 ) ライセンス: Link先を確認 | Yue Zhao, Yuxuan Li, Chenang Liu, Yinan Wang, | (参考訳) 機械学習(ML)メソッドは、通常大量のトレーニングデータを必要とする産業アプリケーションで広く使われている。
しかし、データ収集には膨大な時間費用と製造システムへの投資が必要であり、データ不足が一般的である。
したがって、データ共有は、MLメソッドを構築するデータセットを拡張するために、同様の機能を持つ複数のマシンで広く利用することができる。
しかしながら、分散ミスマッチは、異なる作業条件のためにデータ内に必然的に存在し、一方、MLメソッドは、同じ分散に続くデータセット上で構築およびテストされると仮定される。
したがって、複数のマシン間で共有データの品質を確保するために、アクティブデータ共有(AD)フレームワークが提案されている。
下流のタスクの恩恵を受ける最も重要なデータポイントを同時に選択し、選択されたすべてのデータポイント間の分散ミスマッチを軽減するように設計されている。
本手法は, 3つの添加製造工程のその場モニタリングデータから異常検出を行う。
Machine learning (ML) methods are widely used in industrial applications, which usually require a large amount of training data. However, data collection needs extensive time costs and investments in the manufacturing system, and data scarcity commonly exists. Therefore, data-sharing is widely enabled among multiple machines with similar functionality to augment the dataset for building ML methods. However, distribution mismatch inevitably exists in their data due to different working conditions, while the ML methods are assumed to be built and tested on the dataset following the same distribution. Thus, an Active Data-sharing (ADs) framework is proposed to ensure the quality of the shared data among multiple machines. It is designed to simultaneously select the most informative data points benefiting the downstream tasks and mitigate the distribution mismatch among all selected data points. The proposed method is validated on anomaly detection on in-situ monitoring data from three additive manufacturing processes. | 翻訳日:2024-04-04 03:00:38 公開日:2024-03-31 |
# 自動バイフォールド重み付きアンサンブルアルゴリズムとその脳腫瘍検出・分類への応用
Automated Bi-Fold Weighted Ensemble Algorithms and its Application to Brain Tumor Detection and Classification ( http://arxiv.org/abs/2404.00576v1 ) ライセンス: Link先を確認 | PoTsang B. Huang, Muhammad Rizwan, Mehboob Ali, | (参考訳) 脳細胞の無制御・非構造成長は脳腫瘍と呼ばれ、あらゆる種類のがんで最も死亡率の高い疾患の1つである。
診断能力と治療能力が限られているため、特に第三世界の国々では大きな課題が生じる。
早期診断は、脳腫瘍を効果的に管理し、死亡率を下げる上で重要な役割を担っている。
しかし、診断方法の可用性は、高いコストや長い結果取得時間など、様々な制限により妨げられ、早期発見の妨げとなる。
本研究では,重み付きアンサンブル法の有効性を高めることを目的とした,最先端の2重み付き2重み付き投票アンサンブルモデルについて述べる。
これら2つの手法は、複数の分類器の分類結果と、第1の手法で最も高い確率の分類結果と第2の手法で最も高い重み付き予測値を選択することによって最適な結果を決定する。
これらのアプローチは、重み付けアンサンブル技術全体の性能を著しく向上させた。
提案手法では, 拡張ソフト投票法 (ESVT) と呼ばれる重み付け能力を高めるために, 新たにUnsupervised weight calculated schema (UWCS) を導入することで, ソフト投票法(SVT) の改良を行う。
次に,提案するUWCSを用いて,新しい重み付き手法(NWM)を提案する。
どちらも、カスタムビルドのCNN、VGG-16、InceptionResNetV2の3つの異なるモデルを採用しています。
提案システムの有効性は,異常な結果が得られたブラインドテストによって評価される。
次に,提案手法とSVTの性能の比較分析を行い,その優位性と有効性を示す。
The uncontrolled and unstructured growth of brain cells is known as brain tumor, which has one of the highest mortality rates among diseases from all types of cancers. Due to limited diagnostic and treatment capabilities, they pose significant challenges, especially in third-world countries. Early diagnosis plays a vital role in effectively managing brain tumors and reducing mortality rates. However, the availability of diagnostic methods is hindered by various limitations, including high costs and lengthy result acquisition times, impeding early detection of the disease. In this study, we present two cutting-edge bi-fold weighted voting ensemble models that aim to boost the effectiveness of weighted ensemble methods. These two proposed methods combine the classification outcomes from multiple classifiers and determine the optimal result by selecting the one with the highest probability in the first approach, and the highest weighted prediction in the second technique. These approaches significantly improve the overall performance of weighted ensemble techniques. In the first proposed method, we improve the soft voting technique (SVT) by introducing a novel unsupervised weight calculating schema (UWCS) to enhance its weight assigning capability, known as the extended soft voting technique (ESVT). Secondly, we propose a novel weighted method (NWM) by using the proposed UWCS. Both of our approaches incorporate three distinct models: a custom-built CNN, VGG-16, and InceptionResNetV2 which has been trained on publicly available datasets. The effectiveness of our proposed systems is evaluated through blind testing, where exceptional results are achieved. We then establish a comparative analysis of the performance of our proposed methods with that of SVT to show their superiority and effectiveness. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# M3D:マルチモーダル大言語モデルによる3次元医用画像解析の改善
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models ( http://arxiv.org/abs/2404.00578v1 ) ライセンス: Link先を確認 | Fan Bai, Yuxin Du, Tiejun Huang, Max Q. -H. Meng, Bo Zhao, | (参考訳) 臨床診断と治療には医療画像解析が不可欠であり,多モード大言語モデル (MLLM) がますます支持されている。
しかし、これまでの研究は主に2Dの医療画像に焦点を当てており、より豊かな空間情報にもかかわらず、3D画像は未探索のままである。
本稿では,MLLMを用いた3次元医用画像解析の進歩を目指す。
そこで本研究では, 画像テキスト検索, レポート生成, 視覚的質問応答, 位置決め, セグメンテーションなど, 様々な3D医療タスクに適した120K画像テキスト対と662K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
さらに,M3D-LaMedを提案する。
さらに,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
包括的評価により,本手法は既存のソリューションよりも優れた3次元医用画像解析のための堅牢なモデルであることが証明された。
すべてのコード、データ、モデルは、https://github.com/BAAI-DCAI/M3D.comで公開されている。
Medical image analysis is essential to clinical diagnosis and treatment, which is increasingly supported by multi-modal large language models (MLLMs). However, previous research has primarily focused on 2D medical images, leaving 3D images under-explored, despite their richer spatial information. This paper aims to advance 3D medical image analysis with MLLMs. To this end, we present a large-scale 3D multi-modal medical dataset, M3D-Data, comprising 120K image-text pairs and 662K instruction-response pairs specifically tailored for various 3D medical tasks, such as image-text retrieval, report generation, visual question answering, positioning, and segmentation. Additionally, we propose M3D-LaMed, a versatile multi-modal large language model for 3D medical image analysis. Furthermore, we introduce a new 3D multi-modal medical benchmark, M3D-Bench, which facilitates automatic evaluation across eight tasks. Through comprehensive evaluation, our method proves to be a robust model for 3D medical image analysis, outperforming existing solutions. All code, data, and models are publicly available at: https://github.com/BAAI-DCAI/M3D. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# 生成モデル(Gen-RecSys)を用いた現代レコメンダシステムの検討
A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) ( http://arxiv.org/abs/2404.00579v1 ) ライセンス: Link先を確認 | Yashar Deldjoo, Zhankui He, Julian McAuley, Anton Korikov, Scott Sanner, Arnau Ramisa, René Vidal, Maheswaran Sathiamoorthy, Atoosa Kasirzadeh, Silvia Milano, | (参考訳) 従来のレコメンデータシステム(RS)は、ユーザ-イム評価履歴を主要なデータソースとして使用しており、協調フィルタリングが主要な手法の1つである。
しかし、生成モデルは、ユーザとイテムのインタラクション履歴だけでなく、テキスト、画像、ビデオも含む、複雑なデータ分布をモデル化し、サンプルする機能を開発し、新しいレコメンデーションタスクのためにこのリッチなデータをアンロックした。
本稿では,ジェネレーティブ・モデル(Gen-RecSys)を用いて,対話駆動生成モデルの基礎的概要,ジェネレーティブ・レコメンデーション・検索・会話レコメンデーションのための大規模言語モデル(LLM)の適用,RSにおける画像・映像コンテンツの処理・生成のためのマルチモーダル・モデルの統合など,RSの重要な進歩を結び付けることを目的としている。
我々の総合的な視点は、Gen-RecSysの影響と害を評価し、オープンな課題を特定するために必要なパラダイムを強調します。
最新版は、https://github.com/yasdel/LLM-RecSys.comで維持されている。
Traditional recommender systems (RS) have used user-item rating histories as their primary data source, with collaborative filtering being one of the principal methods. However, generative models have recently developed abilities to model and sample from complex data distributions, including not only user-item interaction histories but also text, images, and videos - unlocking this rich data for novel recommendation tasks. Through this comprehensive and multi-disciplinary survey, we aim to connect the key advancements in RS using Generative Models (Gen-RecSys), encompassing: a foundational overview of interaction-driven generative models; the application of large language models (LLM) for generative recommendation, retrieval, and conversational recommendation; and the integration of multimodal models for processing and generating image and video content in RS. Our holistic perspective allows us to highlight necessary paradigms for evaluating the impact and harm of Gen-RecSys and identify open challenges. A more up-to-date version of the papers is maintained at: https://github.com/yasdel/LLM-RecSys. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# 量子熱変換器
Quantum Heat Transformers ( http://arxiv.org/abs/2404.00584v1 ) ライセンス: Link先を確認 | Arghya Maity, Paranjoy Chaki, Ahana Ghoshal, Ujjwal Sen, | (参考訳) 古典的な電圧変換器に類似して機能する量子熱変換器(QHT)を提案する。
電圧を調節する古典的なものと異なり、QHTは端末間の温度差を調節する。
まず,本装置を最小限の自己完結型熱変換器モデルとして設計する。
続いて4量子システムに拡張し、主なメリットを識別するためのステップダウンモードの探索に特に重点を置いています。
各種自己完結型セットアップの可用性を示すことによって,モデルの汎用性と適応性を示す。
熱制御の容量である重要な性能指標は、QHTの能力を測定するために定義される。
この研究において重要な効果は、本来設計されたQHTのステップアップモードの過渡的な状態内で所望のステップダウンモードを実現することができる二重モード特性を持つ、必然的に過渡的なステップダウン量子熱変換器の存在の証明である。
また,4キュービット設定における量子ビットの初期温度を調節することにより,必ずしも過渡モードが達成できるこの過渡領域の制御方法についても検討する。
したがって、この量子熱変圧器モデルは、古典的な電圧変圧器のアナログとして機能するだけでなく、高度な特性も享受し、同じ設定で昇降モードと昇降モードの両方で機能し、電圧変圧器では不可能である。
We propose a quantum heat transformer (QHT) designed to function analogous to classical voltage transformers. Unlike the classical counterparts, which regulate voltage, a QHT regulates temperature differences between its terminals. We initially design the device for a three-qubit system, representing the smallest possible self-contained heat transformer model. Subsequently we extend to four-qubit systems, with a specific emphasis on exploring the step-down mode for identifying the primary figure of merit. We showcase the versatility and adaptability of the models by demonstrating the availability of various self-contained setups. A key performance indicator, the capacity of thermal control, is defined to measure the capability of QHTs. An important effect in this study is the proof of existence of a necessarily transient step-down quantum heat transformer, that has a dual-mode characteristic, wherein the desired step-down mode can be realized within the transient regime of an originally designed step-up mode of the QHT. We also investigate how to control this transient domain up to which the necessarily transient mode can be achieved, by regulating the initial temperature of the qubits in the four-qubit settings. Therefore, this quantum heat transformer model not only acts as an analog to the classical voltage transformer, but also enjoys advanced characteristics, enabling it to function in both step-up and step-down modes within the same setup, unattainable for voltage transformers. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# RLGNet: 時間的知識グラフ推論のための繰り返しローカル-グローバル履歴ネットワーク
RLGNet: Repeating-Local-Global History Network for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2404.00586v1 ) ライセンス: Link先を確認 | Ao Lv, Yongzhong Huang, Guige Ouyang, Yue Chen, Haoran Xie, | (参考訳) 時間的知識グラフ(TKG)推論は、未来を予測するために歴史的情報に基づいている。
そのため、歴史情報のパースとマイニングが今後の予測の鍵となる。
既存の手法のほとんどは、グローバルな視点とローカルな視点の両方から、同時に歴史的情報に対処し、理解することができない。
グローバルな視点を無視すると、マクロ的な傾向やパターンを見落としてしまう可能性があるが、局所的な視点を無視すると、重大な詳細情報が失われる可能性がある。
さらに、ある手法は、高周波の繰り返しイベントから学ぶことに集中していないため、頻発する歴史的出来事を完全に把握できない場合もある。
この目的のために,本論文では,RLGNet を用いた <textbf{R}epetitive-\textbf{L}ocal-\textbf{G}lobal History \textbf{Net}work(RLGNet)を提案する。
我々は,世界史エンコーダを用いて,歴史的情報の網羅的な性質を捉える。
その後、ローカル履歴エンコーダは、クエリタイムスタンプに関する情報を提供する。
最後に、頻繁に発生する歴史的事象を識別し、学習するために、繰り返し履歴エンコーダを用いる。
6つのベンチマークデータセットの評価において,本手法は,マルチステップおよびシングルステップの推論タスクにおいて,既存のTKG推論モデルを上回っている。
Temporal Knowledge Graph (TKG) reasoning is based on historical information to predict the future. Therefore, parsing and mining historical information is key to predicting the future. Most existing methods fail to concurrently address and comprehend historical information from both global and local perspectives. Neglecting the global view might result in overlooking macroscopic trends and patterns, while ignoring the local view can lead to missing critical detailed information. Additionally, some methods do not focus on learning from high-frequency repeating events, which means they may not fully grasp frequently occurring historical events. To this end, we propose the \textbf{R}epetitive-\textbf{L}ocal-\textbf{G}lobal History \textbf{Net}work(RLGNet). We utilize a global history encoder to capture the overarching nature of historical information. Subsequently, the local history encoder provides information related to the query timestamp. Finally, we employ the repeating history encoder to identify and learn from frequently occurring historical events. In the evaluation on six benchmark datasets, our approach generally outperforms existing TKG reasoning models in multi-step and single-step reasoning tasks. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# メモリを用いた無線通信用クロスモーダルセマンティックアライメントネットワーク
Memory-based Cross-modal Semantic Alignment Network for Radiology Report Generation ( http://arxiv.org/abs/2404.00588v1 ) ライセンス: Link先を確認 | Yitian Tao, Liyan Ma, Jing Yu, Han Zhang, | (参考訳) 放射線学レポートの生成は、放射線科医の作業量を自動で減らし、特定の疾患の診断を助ける。
多くの既存手法は、このタスクをモダリティ伝達過程とみなしている。
しかし, 画像と報告の双方において, 疾患に関する重要な情報が少なからぬ割合を占めるため, 画像と報告の潜伏関係を学習することは困難である。
この問題に対処するために,エンコーダ・デコーダのパラダイムに従ってメモリベースのクロスモーダルセマンティックアライメントモデル(MCSAM)を提案する。
MCSAMは、疾患関連表現を学ぶための、十分に初期化された長期臨床記憶銀行と、検索されたメモリを検索し、使用するための様々なモダリティに関する事前知識を含んでいる。
得られたクロスモーダル事前知識のセマンティック一貫性を確保するために、クロスモーダルセマンティックアライメントモジュール(SAM)を提案する。
SAMはまた、デコーダに追加できるセマンティックな視覚的特徴の埋め込みを生成し、レポート生成に役立てることができる。
さらに重要なことは、デコーダでレポートを生成しながら状態と追加情報を記憶するために、学習可能なメモリトークンを使用します。
実験の結果,MIMIC-CXRデータセット上で最先端の性能を生成する提案手法の有望な性能を実証した。
Generating radiology reports automatically reduces the workload of radiologists and helps the diagnoses of specific diseases. Many existing methods take this task as modality transfer process. However, since the key information related to disease accounts for a small proportion in both image and report, it is hard for the model to learn the latent relation between the radiology image and its report, thus failing to generate fluent and accurate radiology reports. To tackle this problem, we propose a memory-based cross-modal semantic alignment model (MCSAM) following an encoder-decoder paradigm. MCSAM includes a well initialized long-term clinical memory bank to learn disease-related representations as well as prior knowledge for different modalities to retrieve and use the retrieved memory to perform feature consolidation. To ensure the semantic consistency of the retrieved cross modal prior knowledge, a cross-modal semantic alignment module (SAM) is proposed. SAM is also able to generate semantic visual feature embeddings which can be added to the decoder and benefits report generation. More importantly, to memorize the state and additional information while generating reports with the decoder, we use learnable memory tokens which can be seen as prompts. Extensive experiments demonstrate the promising performance of our proposed method which generates state-of-the-art performance on the MIMIC-CXR dataset. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# 不確実性認識グラフ処理のための大規模言語モデルのパワーの調和
Harnessing the Power of Large Language Model for Uncertainty Aware Graph Processing ( http://arxiv.org/abs/2404.00589v1 ) ライセンス: Link先を確認 | Zhenyu Qian, Yiming Qian, Yuting Song, Fei Gao, Hai Jin, Chen Yu, Xia Xie, | (参考訳) グラフデータの処理は、最も難しいタスクの1つです。
幾何学や行列因数分解に基づくような伝統的な手法は、大規模で複雑なグラフデータを扱う際に不適切なデータ関係に関する仮定に依存する。
一方、ディープラーニングアプローチは、大きなグラフデータを扱う上で有望な結果を示すが、解釈可能な説明を提供するには足りないことが多い。
グラフ処理に高い精度と説明可能性を持たせるために,不確実性認識モジュールによって強化された大規模言語モデル(LLM)のパワーを利用する新しい手法を導入する。
筆者らは,2つのグラフ処理タスク,すなわち知識グラフ補完とグラフ分類について実験を行った。
その結果、パラメータ効率のよい微調整により、LLMは10種類のベンチマークデータセットに対して、最先端のアルゴリズムをかなり上回ります。
さらに,説明可能性の課題に対処するために,摂動に基づく不確実性推定と,生成した回答の信頼度を定量化するキャリブレーション手法を提案する。
LLM が生成した回答の正確性を予測するため,10 つのデータセットのうち 7 つに対して 0.8 以上の AUC を達成した。
Handling graph data is one of the most difficult tasks. Traditional techniques, such as those based on geometry and matrix factorization, rely on assumptions about the data relations that become inadequate when handling large and complex graph data. On the other hand, deep learning approaches demonstrate promising results in handling large graph data, but they often fall short of providing interpretable explanations. To equip the graph processing with both high accuracy and explainability, we introduce a novel approach that harnesses the power of a large language model (LLM), enhanced by an uncertainty-aware module to provide a confidence score on the generated answer. We experiment with our approach on two graph processing tasks: few-shot knowledge graph completion and graph classification. Our results demonstrate that through parameter efficient fine-tuning, the LLM surpasses state-of-the-art algorithms by a substantial margin across ten diverse benchmark datasets. Moreover, to address the challenge of explainability, we propose an uncertainty estimation based on perturbation, along with a calibration scheme to quantify the confidence scores of the generated answers. Our confidence measure achieves an AUC of 0.8 or higher on seven out of the ten datasets in predicting the correctness of the answer generated by LLM. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# CuSINeS: 統計記事検索のための負のサンプリングによるカリキュラム駆動型構造
CuSINeS: Curriculum-driven Structure Induced Negative Sampling for Statutory Article Retrieval ( http://arxiv.org/abs/2404.00590v1 ) ライセンス: Link先を確認 | T. Y. S. S Santosh, Kristina Kaiser, Matthias Grabmair, | (参考訳) 本稿では,SAR(Statutory Article Retrieval)の性能向上のための負サンプリング手法であるCuSINeSを紹介する。
CuSINeSは3つの重要なコントリビューションを提供する。
まず、カリキュラムベースのネガティブサンプリング戦略を採用し、モデルが最初はより簡単なネガティブにフォーカスし、より難しいものに徐々に取り組みます。
第2に、法律の構造的組織から得られた階層的およびシーケンシャルな情報を活用して、サンプルの難易度を評価する。
最後に、BM25のような従来の静的メソッドを超越し、モデルが進化する能力にネガティブを適用することによって、トレーニング対象モデル自体を用いた動的セマンティックな難易度評価を導入する。
実世界のエキスパートアノテートSARデータセットの実験結果は、4つの異なるベースラインにわたるCuSINeSの有効性を検証し、その汎用性を実証した。
In this paper, we introduce CuSINeS, a negative sampling approach to enhance the performance of Statutory Article Retrieval (SAR). CuSINeS offers three key contributions. Firstly, it employs a curriculum-based negative sampling strategy guiding the model to focus on easier negatives initially and progressively tackle more difficult ones. Secondly, it leverages the hierarchical and sequential information derived from the structural organization of statutes to evaluate the difficulty of samples. Lastly, it introduces a dynamic semantic difficulty assessment using the being-trained model itself, surpassing conventional static methods like BM25, adapting the negatives to the model's evolving competence. Experimental results on a real-world expert-annotated SAR dataset validate the effectiveness of CuSINeS across four different baselines, demonstrating its versatility. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# LAESI:合成画像を用いた葉面積推定
LAESI: Leaf Area Estimation with Synthetic Imagery ( http://arxiv.org/abs/2404.00593v1 ) ライセンス: Link先を確認 | Jacek Kałużny, Yannik Schreckenberg, Karol Cyganik, Peter Annighöfer, Sören Pirk, Dominik L. Michels, Mikolaj Cieslak, Farhah Assaad-Gerbert, Bedrich Benes, Wojciech Pałubicki, | (参考訳) LAESIは,合成葉画像10万枚をミリ紙上に合成し,それぞれに意味マスクと表面積ラベルを付加した合成葉データである。
このデータセットは、主にブナとオークの葉を対象とした葉の形態解析のリソースを提供する。
実画像を用いた葉の表面積予測とセマンティックセグメンテーションのための機械学習モデルを学習し,データセットの適用性を評価する。
以上の結果から,これらのモデルを用いて,平均的なアノテータよりも高い誤差で葉の表面積を予測できることがわかった。
LAESIはまた、3Dプロシージャモデルに基づく効率的なフレームワークと、大規模で制御可能なデータ生成のための生成AIを提供する。
手続き型データ生成パイプラインに生成AIが組み込まれていることを評価し、アノテーションの整合性に基づくデータフィルタリングがデータセットにどのように影響するかを示す。
We introduce LAESI, a Synthetic Leaf Dataset of 100,000 synthetic leaf images on millimeter paper, each with semantic masks and surface area labels. This dataset provides a resource for leaf morphology analysis primarily aimed at beech and oak leaves. We evaluate the applicability of the dataset by training machine learning models for leaf surface area prediction and semantic segmentation, using real images for validation. Our validation shows that these models can be trained to predict leaf surface area with a relative error not greater than an average human annotator. LAESI also provides an efficient framework based on 3D procedural models and generative AI for the large-scale, controllable generation of data with potential further applications in agriculture and biology. We evaluate the inclusion of generative AI in our procedural data generation pipeline and show how data filtering based on annotation consistency results in datasets which allow training the highest performing vision models. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# LexAbSumm: Aspect-based Summarization of Legal Decisions
LexAbSumm: Aspect-based Summarization of Legal Decisions ( http://arxiv.org/abs/2404.00594v1 ) ライセンス: Link先を確認 | T. Y. S. S Santosh, Mahmoud Aly, Matthias Grabmair, | (参考訳) 法律専門家はしばしば、自分の仕事に重要な洞察を与える長い法的判断に遭遇する。
近年の進歩は、法律文書の自動要約ソリューションに繋がっているが、一般的には汎用的な要約を提供しており、これはユーザの多様な情報要求を満たすものではないかもしれない。
このギャップに対処するため、欧州人権裁判所(European Court of Human Rights)の管轄下にある訴訟決定のアスペクトベースの要約を目的とした、新しいデータセットであるLexAbSummを紹介します。
我々は、LexAbSumm上の長いドキュメントに適した抽象的な要約モデルをいくつか評価し、アスペクト固有の要約を生成するためにこれらのモデルを条件付けすることの難しさを明らかにした。
我々は、法ドメインのアスペクトベースの要約の研究を容易にするために、LexAbSumをリリースする。
Legal professionals frequently encounter long legal judgments that hold critical insights for their work. While recent advances have led to automated summarization solutions for legal documents, they typically provide generic summaries, which may not meet the diverse information needs of users. To address this gap, we introduce LexAbSumm, a novel dataset designed for aspect-based summarization of legal case decisions, sourced from the European Court of Human Rights jurisdiction. We evaluate several abstractive summarization models tailored for longer documents on LexAbSumm, revealing a challenge in conditioning these models to produce aspect-specific summaries. We release LexAbSum to facilitate research in aspect-based summarization for legal domain. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# 法的判断からのクエリ駆動関連パラグラフ抽出
Query-driven Relevant Paragraph Extraction from Legal Judgments ( http://arxiv.org/abs/2404.00595v1 ) ライセンス: Link先を確認 | T. Y. S. S Santosh, Elvin Quero Hernandez, Matthias Grabmair, | (参考訳) 法律専門家は、クエリに直接対処する情報をピンポイントするために、長い法的判断をナビゲートすることに悩まされることが多い。
本稿では,クエリに基づく法的判断から関連する段落を抽出する作業に焦点をあてる。
本稿では,欧州人権裁判所(ECtHR)のケース・ロー・ガイドを用いて,この課題のための特別なデータセットを構築した。
我々は,現在の検索モデルの性能をゼロショット方式で評価し,様々なモデルを用いた微調整ベンチマークを構築した。
その結果、微調整とゼロショットのパフォーマンスの差が顕著に強調され、法域における分散シフトを扱うという課題が強調された。
法的な事前学習はコーパス側の分散シフトを処理しますが、クエリ側の分散シフトには相変わらず苦労しています。
また,情報検索の文脈において,PEFT手法の実用性を評価するために,事前学習やモデルアーキテクチャがPEFT方式の選択に影響を与える様々な構成において,PEFT方式の有効性について光を当てる。
Legal professionals often grapple with navigating lengthy legal judgements to pinpoint information that directly address their queries. This paper focus on this task of extracting relevant paragraphs from legal judgements based on the query. We construct a specialized dataset for this task from the European Court of Human Rights (ECtHR) using the case law guides. We assess the performance of current retrieval models in a zero-shot way and also establish fine-tuning benchmarks using various models. The results highlight the significant gap between fine-tuned and zero-shot performance, emphasizing the challenge of handling distribution shift in the legal domain. We notice that the legal pre-training handles distribution shift on the corpus side but still struggles on query side distribution shift, with unseen legal queries. We also explore various Parameter Efficient Fine-Tuning (PEFT) methods to evaluate their practicality within the context of information retrieval, shedding light on the effectiveness of different PEFT methods across diverse configurations with pre-training and model architectures influencing the choice of PEFT method. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# ECtHR-PCR : 欧州人権裁判所における先行的理解と先行事例検索のためのデータセット
ECtHR-PCR: A Dataset for Precedent Understanding and Prior Case Retrieval in the European Court of Human Rights ( http://arxiv.org/abs/2404.00596v1 ) ライセンス: Link先を確認 | T. Y. S. S Santosh, Rashid Gustav Haddad, Matthias Grabmair, | (参考訳) 一般的な司法管轄区域では、法律実務者は「emph{stare decisis}」の教義に従って、議論を構築するための先例に頼っている。
近年, 症例数の増加に伴い, PCR (prefer case search) が注目されている。
既存のPCRデータセットは、現実的な設定をシミュレートしない。なぜなら、クエリは完全なケースドキュメントを使用し、前のケースへの参照をマスキングするだけである。
したがって、このクエリは、未決定の事件の議論を構築する際に、また引用マスクが残した急激なパターンを構築する際には、法的理由付けに晒され、ケース事実と法的原則の包括的な理解をショートサーキットする可能性がある。
これらの制約に対処するため、欧州人権裁判所(ECtHR)の判断に基づくPCRデータセットを導入し、議論から事実を明確に分離し、先例的なプラクティスを示し、システムの包括的な理解を促進するためにこのPCRデータセットの開発を支援する。
我々は、様々な負のサンプリング戦略を用いて、様々な語彙と密度の検索手法をベンチマークし、階層的変種を用いて長文列に適応する。
難易度に基づく陰性サンプリングはPCRタスクには有効ではなく,ドメイン固有の難易度基準の調査の必要性を強調した。
さらに,高次モデルの性能は時間とともに低下し,検索モデルの時間適応に関するさらなる研究が求められている。
さらに, PCR タスクを用いたECtHR 管轄区域において, Halsbury's と Goodhart's の異なる視点の影響について検討した。
In common law jurisdictions, legal practitioners rely on precedents to construct arguments, in line with the doctrine of \emph{stare decisis}. As the number of cases grow over the years, prior case retrieval (PCR) has garnered significant attention. Besides lacking real-world scale, existing PCR datasets do not simulate a realistic setting, because their queries use complete case documents while only masking references to prior cases. The query is thereby exposed to legal reasoning not yet available when constructing an argument for an undecided case as well as spurious patterns left behind by citation masks, potentially short-circuiting a comprehensive understanding of case facts and legal principles. To address these limitations, we introduce a PCR dataset based on judgements from the European Court of Human Rights (ECtHR), which explicitly separate facts from arguments and exhibit precedential practices, aiding us to develop this PCR dataset to foster systems' comprehensive understanding. We benchmark different lexical and dense retrieval approaches with various negative sampling strategies, adapting them to deal with long text sequences using hierarchical variants. We found that difficulty-based negative sampling strategies were not effective for the PCR task, highlighting the need for investigation into domain-specific difficulty criteria. Furthermore, we observe performance of the dense models degrade with time and calls for further research into temporal adaptation of retrieval models. Additionally, we assess the influence of different views , Halsbury's and Goodhart's, in practice in ECtHR jurisdiction using PCR task. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# パラメータとデータ効率の良いスペクトルスタイルDCGAN
Parameter and Data-Efficient Spectral StyleDCGAN ( http://arxiv.org/abs/2404.00597v1 ) ライセンス: Link先を確認 | Aryan Garg, | (参考訳) 非条件の顔生成のための,単純で,パラメータが高く,かつ,データ効率のよい敵ネットワークを提案する。
我々の方法では、Spectral Style-DCGANまたはSSDは6,574万のパラメータと4739頭の犬の顔しか使用していない。
コードはhttps://github.com/Aryan-Garg/StyleDCGAN.comで公開されている。
We present a simple, highly parameter, and data-efficient adversarial network for unconditional face generation. Our method: Spectral Style-DCGAN or SSD utilizes only 6.574 million parameters and 4739 dog faces from the Animal Faces HQ (AFHQ) dataset as training samples while preserving fidelity at low resolutions up to 64x64. Code available at https://github.com/Aryan-Garg/StyleDCGAN. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# EvoCodeBench: 実世界のコードリポジトリに準拠したコード生成ベンチマーク
EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories ( http://arxiv.org/abs/2404.00599v1 ) ライセンス: Link先を確認 | Jia Li, Ge Li, Xuanming Zhang, Yihong Dong, Zhi Jin, | (参考訳) コード生成においてLLM(Large Language Models)をどのように評価するかは、オープンな問題である。
既存のベンチマークでは、実際のコードリポジトリとの整合性が低く、LLMのコーディング能力を評価するには不十分である。
本稿では,先述の問題に対処する新しいベンチマークであるEvoCodeBenchを提案する。
1) EvoCodeBenchは,複数次元の実世界のリポジトリ,例えばコードの分散や依存性の分散と整合する。
2) EvoCodeBenchは、包括的なアノテーション(例えば、要求、参照コード、参照依存性)と堅牢な評価指標(例えば、Pass@kとRecall@k)を提供する。
(3) EvoCodeBenchは、データ漏洩を避けるための進化中のベンチマークである。
最新のリポジトリからEvoCodeBenchを更新するための自動パイプラインを構築しています。
最初のバージョンであるEvoCodeBench-2403をリリースしました。
EvoCodeBenchに基づいて、リポジトリレベルのコード生成を提案し、人気のある10のLM(例えば、gpt-4、gpt-3.5、DeepSeek Coder、StarCoder 2、CodeLLaMa、Gemma、Qwen 1.5)を評価します。
実世界のレポジトリにおけるLLMのコーディング能力について実験を行った。
例えば、gpt-4の最高パス@1は、我々の実験では20.73%しかありません。
また、失敗事例を分析し、既存のLLMの欠点をEvoCodeBenchで要約する。
EvoCodeBench、すべてのプロンプト、そしてさらなるコミュニティ分析のためのLLMの完成版をリリースします。
How to evaluate Large Language Models (LLMs) in code generation is an open question. Existing benchmarks demonstrate poor alignment with real-world code repositories and are insufficient to evaluate the coding abilities of LLMs. This paper proposes a new benchmark - EvoCodeBench to address the preceding problems, which has three primary advances. (1) EvoCodeBench aligns with real-world repositories in multiple dimensions, e.g., code distributions and dependency distributions. (2) EvoCodeBench offers comprehensive annotations (e.g., requirements, reference code, and reference dependencies), and robust evaluation metrics (e.g., Pass@k and Recall@k). (3) EvoCodeBench is an evolving benchmark to avoid data leakage. We build an automatic pipeline to update EvoCodeBench from the latest repositories. We release the first version - EvoCodeBench-2403, containing 275 samples from 25 real-world repositories. Based on EvoCodeBench, we propose repository-level code generation and evaluate 10 popular LLMs (e.g., gpt-4, gpt-3.5, DeepSeek Coder, StarCoder 2, CodeLLaMa, Gemma, and Qwen 1.5). Our experiments reveal the coding abilities of these LLMs in real-world repositories. For example, the highest Pass@1 of gpt-4 only is 20.73% in our experiments. We also analyze failed cases and summarize the shortcomings of existing LLMs in EvoCodeBench. We release EvoCodeBench, all prompts, and LLMs' completions for further community analysis. | 翻訳日:2024-04-04 02:50:30 公開日:2024-03-31 |
# 1-out-of-n Oblivious Signatures: Security Revisited and a Generic construction with a Efficient Communication Cost
1-out-of-n Oblivious Signatures: Security Revisited and a Generic Construction with an Efficient Communication Cost ( http://arxiv.org/abs/2404.00602v1 ) ライセンス: Link先を確認 | Masayuki Tezuka, Keisuke Tanaka, | (参考訳) Chen (ESORIC 1994) による 1-out-of-n oblivious signature は、ユーザとシグナの間のプロトコルである。
このスキームでは、ユーザはn個のメッセージのリストを作成し、ユーザがリストから署名を得たいメッセージを選択する。
ユーザは、このメッセージリストを提供してシグナーと対話し、ユーザが選択したメッセージを特定することなく、選択したメッセージのみのシグネチャを取得する。
Tso et al (ISPEC 2008) は1-out-of-n obliviousシグネチャの正式な治療を行った。
彼らはセキュリティ要件として、1-out-of-nの曖昧なシグネチャの偽造性と曖昧さを定義した。
この作業では、まず、Tsoらによる偽造不可能なセキュリティ定義を再検討し、それらのセキュリティ定義に問題があることを指摘した。
セキュリティモデルを修正し、忘れられないセキュリティを再定義することで、これらの問題に対処する。
第2に,Zhou et al (IEICE Trans 2022) による 1-out-of-n oblivious signature scheme の一般的な構成を改善する。
我々は,Merkle木を用いてその計画を変更することにより,通信コストを削減した。
そして、修正されたスキームの安全性を証明する。
1-out-of-n oblivious signature by Chen (ESORIC 1994) is a protocol between the user and the signer. In this scheme, the user makes a list of n messages and chooses the message that the user wants to obtain a signature from the list. The user interacts with the signer by providing this message list and obtains the signature for only the chosen message without letting the signer identify which messages the user chooses. Tso et al. (ISPEC 2008) presented a formal treatment of 1-out-of-n oblivious signatures. They defined unforgeability and ambiguity for 1-out-of-n oblivious signatures as a security requirement. In this work, first, we revisit the unforgeability security definition by Tso et al. and point out that their security definition has problems. We address these problems by modifying their security model and redefining unforgeable security. Second, we improve the generic construction of a 1-out-of-n oblivious signature scheme by Zhou et al. (IEICE Trans 2022). We reduce the communication cost by modifying their scheme with a Merkle tree. Then we prove the security of our modified scheme. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 弱分布検出器はビジョンランゲージ・プロンプトチューニングのより強い一般化性をもたらす
Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning ( http://arxiv.org/abs/2404.00603v1 ) ライセンス: Link先を確認 | Kun Ding, Haojian Zhang, Qiang Yu, Ying Wang, Shiming Xiang, Chunhong Pan, | (参考訳) 本稿では,VLM(Pre-trained Vision-Language Model)の一般化能力向上のための一般化手法を提案する。
このアイデアは、オフ・オブ・ディストリビューション(OOD)検出を利用して、サンプルがベース分布または新規分布に属しているかどうかを予測し、専用の競技ベーススコア関数によって生成されたスコアを用いてゼロショットと少数ショットの分類器を融合させることにより実現される。
融合分類器は動的であり、サンプルが事前学習された分布からより高い確率でゼロショット分類器に偏りがあり、ベース・ツー・ノーベル一般化能力が向上する。
本手法はテスト段階でのみ実施され,再学習に要しない既存手法の強化に適用可能である。
大規模な実験では、弱い分布検出器でさえもVLMの一般化能力を向上させることが示されている。
具体的には、OOD検出器の助けを借りて、CoOpとProGradの調和平均は、ベース・ツー・ノーベル・セッティングにおいて11の認識データセットに対して2.6と1.5パーセント増加する。
We propose a generalized method for boosting the generalization ability of pre-trained vision-language models (VLMs) while fine-tuning on downstream few-shot tasks. The idea is realized by exploiting out-of-distribution (OOD) detection to predict whether a sample belongs to a base distribution or a novel distribution and then using the score generated by a dedicated competition based scoring function to fuse the zero-shot and few-shot classifier. The fused classifier is dynamic, which will bias towards the zero-shot classifier if a sample is more likely from the distribution pre-trained on, leading to improved base-to-novel generalization ability. Our method is performed only in test stage, which is applicable to boost existing methods without time-consuming re-training. Extensive experiments show that even weak distribution detectors can still improve VLMs' generalization ability. Specifically, with the help of OOD detectors, the harmonic mean of CoOp and ProGrad increase by 2.6 and 1.5 percentage points over 11 recognition datasets in the base-to-novel setting. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# Extensive Self-Contrastはフィードバックのない言語モデルのアライメントを可能にする
Extensive Self-Contrast Enables Feedback-Free Language Model Alignment ( http://arxiv.org/abs/2404.00604v1 ) ライセンス: Link先を確認 | Xiao Liu, Xixuan Song, Yuxiao Dong, Jie Tang, | (参考訳) 人間のフィードバックからの強化学習(RLHF)は,最近の大規模言語モデル(LLM)のアライメントの中心的手法である。
しかし、コストのかかる人間やLSM-as-Judgeの好みのフィードバックに大きく依存しているため、より広範な応用が妨げられる可能性がある。
本研究では,フィードバックのない大規模言語モデルアライメント手法であるSelf-Contrastを紹介する。
教師付き微調整(SFT)ターゲットのみを用いて、Self-ContrastはLLM自体を利用して大量の多様な候補を生成し、トレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
理論的には、この設定では、単に負の反応をスケーリングするだけで、よりバランスの取れた正と負の好みのアノテーションで状況を効果的に近似することができる。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
そして、自己生成負の数が増加するにつれて、自己コントラストのパフォーマンスは増加し続けます。
コードとデータはhttps://github.com/THUDM/Self-Contrast.comで公開されている。
Reinforcement learning from human feedback (RLHF) has been a central technique for recent large language model (LLM) alignment. However, its heavy dependence on costly human or LLM-as-Judge preference feedback could stymie its wider applications. In this work, we introduce Self-Contrast, a feedback-free large language model alignment method via exploiting extensive self-generated negatives. With only supervised fine-tuning (SFT) targets, Self-Contrast leverages the LLM itself to generate massive diverse candidates, and harnesses a pre-trained embedding model to filter multiple negatives according to text similarity. Theoretically, we illustrate that in this setting, merely scaling negative responses can still effectively approximate situations with more balanced positive and negative preference annotations. Our experiments with direct preference optimization (DPO) on three datasets show that, Self-Contrast could consistently outperform SFT and standard DPO training by large margins. And as the number of self-generated negatives increases, the performance of Self-Contrast continues to grow. Code and data are available at https://github.com/THUDM/Self-Contrast. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# RQ-RAG:Retrieval Augmented Generationのためのクエリのリファインダー学習
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation ( http://arxiv.org/abs/2404.00610v1 ) ライセンス: Link先を確認 | Chi-Min Chan, Chunpu Xu, Ruibin Yuan, Hongyin Luo, Wei Xue, Yike Guo, Jie Fu, | (参考訳) 大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
これらの課題に対処するために、Retrieval-Augmented Generation (RAG)は、外部の関連文書を応答生成プロセスに組み込むことで、LLMのインコンテキスト学習能力と並行して非パラメトリック知識を活用することで、この問題に対処する。
しかし、既存のRAGの実装は主にコンテキスト検索のための初期入力に焦点を当てており、正確な応答のさらなる明確化や分解を必要とするあいまいなクエリや複雑なクエリのニュアンスを見渡している。
そこで本稿では,Refine Query for Retrieval Augmented Generation (RQ-RAG) の学習を提案する。
実験結果から,本手法が7B Llama2モデルに適用された場合,従来のSOTA(State-of-the-art)を3つのシングルホップQAデータセットの平均1.9\%超え,複雑なマルチホップQAデータセットの処理性能の向上が示された。
私たちのコードはhttps://github.com/chanchimin/RQ-RAG.comで公開されています。
Large Language Models (LLMs) exhibit remarkable capabilities but are prone to generating inaccurate or hallucinatory responses. This limitation stems from their reliance on vast pretraining datasets, making them susceptible to errors in unseen scenarios. To tackle these challenges, Retrieval-Augmented Generation (RAG) addresses this by incorporating external, relevant documents into the response generation process, thus leveraging non-parametric knowledge alongside LLMs' in-context learning abilities. However, existing RAG implementations primarily focus on initial input for context retrieval, overlooking the nuances of ambiguous or complex queries that necessitate further clarification or decomposition for accurate responses. To this end, we propose learning to Refine Query for Retrieval Augmented Generation (RQ-RAG) in this paper, endeavoring to enhance the model by equipping it with capabilities for explicit rewriting, decomposition, and disambiguation. Our experimental results indicate that our method, when applied to a 7B Llama2 model, surpasses the previous state-of-the-art (SOTA) by an average of 1.9\% across three single-hop QA datasets, and also demonstrates enhanced performance in handling complex, multi-hop QA datasets. Our code is available at https://github.com/chanchimin/RQ-RAG. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 不整合マイニングに基づくオブジェクトレベルのコピー・モーブ偽画像検出
Object-level Copy-Move Forgery Image Detection based on Inconsistency Mining ( http://arxiv.org/abs/2404.00611v1 ) ライセンス: Link先を確認 | Jingyu Wang, Niantai Jing, Ziyao Liu, Jie Nie, Yuxin Qi, Chi-Hung Chi, Kwok-Yan Lam, | (参考訳) コピー・ムーブの改ざん操作では、加害者はしばしばぼやけなどの技法を使って改ざんした痕跡を隠蔽し、無傷な構造を持つオブジェクトレベルの標的の検出に重大な課題を提起する。
これらの課題に焦点をあて,不整合マイニング(IMNet)に基づくオブジェクトレベルのコピー・モーブ・フォージェリ画像検出を提案する。
オブジェクトレベルの完全なターゲットを得るために、ソースと改ざんされた領域のプロトタイプをカスタマイズし、動的に更新する。
さらに, 自己相関計算により得られた粗い類似領域と, プロトタイプからなる領域との間に不整合領域を抽出する。
検出された不整合領域は、同様の領域を粗くし、画素レベルの検出を洗練させるサプリメントとして使用される。
提案するIMNetの有効性とロバスト性を検証した3つの公開データセットについて実験を行った。
In copy-move tampering operations, perpetrators often employ techniques, such as blurring, to conceal tampering traces, posing significant challenges to the detection of object-level targets with intact structures. Focus on these challenges, this paper proposes an Object-level Copy-Move Forgery Image Detection based on Inconsistency Mining (IMNet). To obtain complete object-level targets, we customize prototypes for both the source and tampered regions and dynamically update them. Additionally, we extract inconsistent regions between coarse similar regions obtained through self-correlation calculations and regions composed of prototypes. The detected inconsistent regions are used as supplements to coarse similar regions to refine pixel-level detection. We operate experiments on three public datasets which validate the effectiveness and the robustness of the proposed IMNet. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# ラベルのないデータから言語モデリングを計画するための学習
Learning to Plan for Language Modeling from Unlabeled Data ( http://arxiv.org/abs/2404.00614v1 ) ライセンス: Link先を確認 | Nathan Cornille, Marie-Francine Moens, Florian Mai, | (参考訳) ラベルのないコーパスで次のトークンを予測するトレーニングによって、大きな言語モデルはラベル付きデータなしで多くのタスクを実行することを学ぶ。
しかしながら、彼らの次のToken-Predictionの目標は、コヒーレントな記事を書くなど、計画を必要とするシナリオにおけるパフォーマンスを確実に制限する。
本稿では,自己指導型学習目標を用いて,将来の執筆プロセスを計画するためのモジュールを訓練する。
生成した潜在計画の条件付けにより、我々のモデルは、成功した言語モデル公式を、教師なしの方法でより抽象的な計画へと拡張する。
実験により,本手法は,特にテキスト構造に関して,言語モデルの性能を全般的に向上させることを示した。
我々のフレームワークは、教師なしで言語モデル外部のプランナーモジュールを使っているので、新しいプランナーモジュールは大規模に訓練でき、コミュニティと簡単に共有できる。
By training to predict the next token in an unlabeled corpus, large language models learn to perform many tasks without any labeled data. However, their next-token-prediction objective arguably limits their performance in scenarios that require planning, such as writing a coherent article. In this paper, we train a module for planning the future writing process via a self-supervised learning objective. By conditioning on generated latent plans, our model extends the successful language model formula to more abstract planning in an unsupervised way. Empirically, we demonstrate that our method improves language modeling performance in general, particularly with respect to the text structure. Because our framework uses a planner module that is unsupervised and external to the language model, new planner modules can be trained at large scale and easily be shared with the community. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 量子熱力学の幾何学的・情報論的側面
Geometric and information-theoretic aspects of quantum thermodynamics ( http://arxiv.org/abs/2404.00617v1 ) ライセンス: Link先を確認 | A de Oliveira Junior, | (参考訳) この論文では、熱力学における最も基本的な問題の一つとして、量子系が特定の制約の下で熱浴と相互作用しながら、どのような状態変換を行うことができるのか、様々な側面について研究する。
これらの制約は、全エネルギー保存、メモリ効果、あるいは有限サイズの考慮を含む可能性がある。
この問いに答えるということは
一 時間の熱力学的矢印の構造の特色
(二)メモリレスと任意に非マルコフ熱力学過程のギャップを埋める枠組み、及び
三 量子情報フレームワーク内の有名なゆらぎ-散逸関係の導出。
最後に、この論文の最後の部分は、科学におけるユビキタス現象、いわゆる触媒反応の研究に焦点を当てている。
補助的なシステム(触媒)を使用して、そうでなければ不可能なプロセスを可能にする。
この20年間、この概念は量子物理学の分野に広がってきた。
しかし、この効果は一般的に非常に抽象的な枠組みで説明される。
その成功にもかかわらず、このアプローチは物理的に実現可能なシステムの振る舞いを完全に捉えるのに苦労し、実用的なシナリオにおける量子触媒の適用性を制限する。
興味深いことに、この効果は、原子が光学キャビティと相互作用するJaynes-Cummingsモデルというパラダイム的な量子光学セットアップで示します。
原子は触媒の役割を担い、ポアソニアン以下の統計やウィグナーの負性によって証明されるように、キャビティ内の非古典的な光を決定論的に生成することができる。
In this thesis, I investigate various aspects of one of the most fundamental questions in thermodynamics: what state transformations can quantum systems undergo while interacting with a thermal bath under specific constraints? These constraints may involve total energy conservation, memory effects, or finite-size considerations. Addressing this question leads to (i) a characterisation of the structure of the thermodynamic arrow of time, (ii) a framework bridging the gap between memoryless and arbitrarily non-Markovian thermodynamic processes, and (iii) a derivation of the famous fluctuation-dissipation relation within a quantum information framework. Finally, the last part of this thesis focuses on studying a ubiquitous phenomenon in science, so-called catalysis. It involves using an auxiliary system (a catalyst) to enable processes that would otherwise be impossible. Over the last two decades, this notion has spread to the field of quantum physics. However, this effect is typically described within a highly abstract framework. Despite its successes, this approach struggles to fully capture the behaviour of physically realisable systems, thereby limiting the applicability of quantum catalysis in practical scenarios. Strikingly, I will demonstrate this effect in a paradigmatic quantum optics setup, namely the Jaynes-Cummings model, where an atom interacts with an optical cavity. The atom plays the role of the catalyst and allows for the deterministic generation of non-classical light in the cavity, as evidenced by sub-Poissonian statistics or Wigner negativity. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 複雑なカオス行動予測のためのマルチブランチラジアルバスネットワークアプローチ
A Multi-Branched Radial Basis Network Approach to Predicting Complex Chaotic Behaviours ( http://arxiv.org/abs/2404.00618v1 ) ライセンス: Link先を確認 | Aarush Sinha, | (参考訳) 本研究では,複雑でカオス的な振る舞いを特徴とする物理誘引器の動的特性を予測するために,多分岐ネットワークアプローチを提案する。
本稿では,Radial Basis Function(RBF)層とアトラクションの時間的進化に固有の非線形相互依存性を効果的に捉えるためのアテンション機構を組み合わせた,ユニークなニューラルネットワークアーキテクチャを提案する。
その結果,約28分間の行動を含む36,700の時系列観測データを用いて,アトラクタの軌道の予測に成功した。
提案手法の性能を更に説明するために,提案手法は,観測結果と推定結果とを比較した定量的測度とともに,アトラクタの本来の行動と予測された行動を記述する包括的可視化を提供する。
全体として、この研究は複雑な物理的システムの隠れ構造を解明し、正確な短期予測能力を必要とする様々な領域で実践的な応用を提供しながら、高度な機械学習アルゴリズムの可能性を示している。
In this study, we propose a multi branched network approach to predict the dynamics of a physics attractor characterized by intricate and chaotic behavior. We introduce a unique neural network architecture comprised of Radial Basis Function (RBF) layers combined with an attention mechanism designed to effectively capture nonlinear inter-dependencies inherent in the attractor's temporal evolution. Our results demonstrate successful prediction of the attractor's trajectory across 100 predictions made using a real-world dataset of 36,700 time-series observations encompassing approximately 28 minutes of activity. To further illustrate the performance of our proposed technique, we provide comprehensive visualizations depicting the attractor's original and predicted behaviors alongside quantitative measures comparing observed versus estimated outcomes. Overall, this work showcases the potential of advanced machine learning algorithms in elucidating hidden structures in complex physical systems while offering practical applications in various domains requiring accurate short-term forecasting capabilities. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# アイトラッキングデータ品質レポート - 新しい標準に向けて
Reporting Eye-Tracking Data Quality: Towards a New Standard ( http://arxiv.org/abs/2404.00620v1 ) ライセンス: Link先を確認 | Deborah N. Jakobi, Daniel G. Krakowczyk, Lena A. Jäger, | (参考訳) アイトラッキングデータセットは、オリジナルの分析のために作成者が使用するフォーマットで共有されることが多く、通常は第一の目的とは無関係と考えられるデータの除外をもたらす。
既存のアイトラッキングデータセットを、より多様で当初考慮されていないユースケースで再利用可能にするために、この研究は、アイトラッキングデータを共有するための新しいアプローチを提唱する。
フィルタリングされたデータセットや前処理されたデータセットを公開する代わりに、すべての前処理段階におけるアイトラッキングデータは、データ品質レポートとともに公開する必要がある。
データ品質を透過的に報告し、データセット間の比較を可能にするため、データセットに自動的に適用可能なデータ品質報告標準とメトリクスを開発し、それらをオープンソースのPythonパッケージpymovements(https://github.com/aeye-lab/pymovements)に統合する。
Eye-tracking datasets are often shared in the format used by their creators for their original analyses, usually resulting in the exclusion of data considered irrelevant to the primary purpose. In order to increase re-usability of existing eye-tracking datasets for more diverse and initially not considered use cases, this work advocates a new approach of sharing eye-tracking data. Instead of publishing filtered and pre-processed datasets, the eye-tracking data at all pre-processing stages should be published together with data quality reports. In order to transparently report data quality and enable cross-dataset comparisons, we develop data quality reporting standards and metrics that can be automatically applied to a dataset, and integrate them into the open-source Python package pymovements (https://github.com/aeye-lab/pymovements). | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 強化学習に基づく衝突回避における外感知覚のための変分オートエンコーダ
Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance ( http://arxiv.org/abs/2404.00623v1 ) ライセンス: Link先を確認 | Thomas Nakken Larsen, Eirik Runde Barlaug, Adil Rasheed, | (参考訳) 現代の制御システムは、そのパフォーマンスと適応性を高めるために、機械学習アルゴリズムに変わりつつある。
この文脈の中で、深層強化学習(DRL)は、特に海洋輸送の領域において、有望な制御の枠組みとして現れている。
自律的な海洋応用の可能性は、経路追従と衝突回避を任意の数の障害物とシームレスに結合する能力にある。
しかし、現在のDRLアルゴリズムは、探索可能なパラメータ空間が大きくなると仮定された制御問題と比較して、ほぼ最適のポリシーを見つけるために、不均等な計算資源を必要とする。
これに対抗するため,我々の研究は変分オートエンコーダ(VAEs)を用いて,DRLエージェントへの外部受容入力として機能する高忠実レンジフィンディングセンサの一般化された低次元ラテント符号化を取得する。
経路追従および衝突回避を含むエージェントの性能を確率的シミュレーション環境で系統的に評価し, 海洋制御システムにおける提案手法の総合的な検討を行った。
Modern control systems are increasingly turning to machine learning algorithms to augment their performance and adaptability. Within this context, Deep Reinforcement Learning (DRL) has emerged as a promising control framework, particularly in the domain of marine transportation. Its potential for autonomous marine applications lies in its ability to seamlessly combine path-following and collision avoidance with an arbitrary number of obstacles. However, current DRL algorithms require disproportionally large computational resources to find near-optimal policies compared to the posed control problem when the searchable parameter space becomes large. To combat this, our work delves into the application of Variational AutoEncoders (VAEs) to acquire a generalized, low-dimensional latent encoding of a high-fidelity range-finding sensor, which serves as the exteroceptive input to a DRL agent. The agent's performance, encompassing path-following and collision avoidance, is systematically tested and evaluated within a stochastic simulation environment, presenting a comprehensive exploration of our proposed approach in maritime control systems. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 非現実的データセットを用いたドメイン一般化型人物探索
Domain Generalizable Person Search Using Unreal Dataset ( http://arxiv.org/abs/2404.00626v1 ) ライセンス: Link先を確認 | Minyoung Oh, Duhyun Kim, Jae-Young Sim, | (参考訳) 人の検索ネットワークを訓練するために、実際のデータセットを収集してラベル付けすることは、多くの時間と労力を必要とするだけでなく、プライバシーの問題も伴う。
弱教師付きおよび教師なしの領域適応法は、ターゲットデータセットのラベル付け負担を軽減するために提案されているが、その一般化能力は限られている。
ドメイン一般化フレームワークをベースとした新しい人物探索手法を提案する。これはトレーニングのみに自動的にラベル付けされた非現実的データセットを使用するが、任意の非現実的データセットに適用できる。
非リアルなソースデータセットから実際のターゲットデータセットに知識を転送する際のドメインギャップを軽減するために、エンド・ツー・エンドのネットワークを適応的にトレーニングするために使用される人物のインスタンスの忠実度を推定する。
さらに,ドメインに依存しない特徴学習手法を考案し,ドメインに関連する特徴の抑制を促す。
提案手法は,事前知識や再学習の負担を伴わずに,任意の未知のデータセットに適用可能であるにもかかわらず,既存の人物探索手法の競合性能を実証する。
Collecting and labeling real datasets to train the person search networks not only requires a lot of time and effort, but also accompanies privacy issues. The weakly-supervised and unsupervised domain adaptation methods have been proposed to alleviate the labeling burden for target datasets, however, their generalization capability is limited. We introduce a novel person search method based on the domain generalization framework, that uses an automatically labeled unreal dataset only for training but is applicable to arbitrary unseen real datasets. To alleviate the domain gaps when transferring the knowledge from the unreal source dataset to the real target datasets, we estimate the fidelity of person instances which is then used to train the end-to-end network adaptively. Moreover, we devise a domain-invariant feature learning scheme to encourage the network to suppress the domain-related features. Experimental results demonstrate that the proposed method provides the competitive performance to existing person search methods even though it is applicable to arbitrary unseen datasets without any prior knowledge and re-training burdens. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# アキレス腱に反する - 生成モデルのレッドチーム化に関する調査
Against The Achilles' Heel: A Survey on Red Teaming for Generative Models ( http://arxiv.org/abs/2404.00629v1 ) ライセンス: Link先を確認 | Lizhi Lin, Honglin Mu, Zenan Zhai, Minghan Wang, Yuxia Wang, Renxi Wang, Junjie Gao, Yixuan Zhang, Wanxiang Che, Timothy Baldwin, Xudong Han, Haonan Li, | (参考訳) 生成モデルは急速に普及し、日々のアプリケーションに統合され、さまざまな脆弱性が暴露されるにつれて、安全上の問題に対する懸念が高まっている。
問題に直面して、赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性と、コミュニティの新たなトピックに対処する必要性を強調している。
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
さらに,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
さらに,マルチモーダル攻撃や防衛,多言語モデルに関するリスク,無害なクエリの過小評価,下流アプリケーションの安全性など,新たな分野についても検討した。
この調査がこの分野の体系的な視点を提供し、新たな研究領域の開放を期待する。
Generative models are rapidly gaining popularity and being integrated into everyday applications, raising concerns over their safety issues as various vulnerabilities are exposed. Faced with the problem, the field of red teaming is experiencing fast-paced growth, which highlights the need for a comprehensive organization covering the entire pipeline and addressing emerging topics for the community. Our extensive survey, which examines over 120 papers, introduces a taxonomy of fine-grained attack strategies grounded in the inherent capabilities of language models. Additionally, we have developed the searcher framework that unifies various automatic red teaming approaches. Moreover, our survey covers novel areas including multimodal attacks and defenses, risks around multilingual models, overkill of harmless queries, and safety of downstream applications. We hope this survey can provide a systematic perspective on the field and unlock new areas of research. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# IPT-V2:階層型アテンションを用いた効率的な画像処理変換器
IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions ( http://arxiv.org/abs/2404.00633v1 ) ライセンス: Link先を確認 | Zhijun Tu, Kunpeng Du, Hanting Chen, Hailing Wang, Wei Li, Jie Hu, Yunhe Wang, | (参考訳) 近年の進歩は、画像復元におけるトランスアーキテクチャの強力な能力を示している。
しかし, 既存のトランスフォーマー方式では, 正確な大域的・局所的依存関係を同時に確立できないことが示唆され, 劣化画像の詳細や欠落内容の復元に極めて重要である。
そこで本研究では,局所的および大域的受容領域における適切なトークン相互作用を得るために,焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を併用した,階層的注目を伴う効率的な画像処理トランスフォーマアーキテクチャを提案する。
具体的には、FCSAはシフトウインドウ機構をチャネルの自己アテンションに適用し、チャネル間のローカルコンテキストと相互相互作用をキャプチャするのに役立つ。
また,GGSAはクロスウィンドウグリッドに長距離依存性を構築し,空間次元でグローバル情報を集約する。
さらに,フィードフォワードネットワークに構造的再パラメータ化手法を導入し,モデル性能をさらに向上する。
広汎な実験により,提案したPT-V2は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デラミニングを網羅し,従来の手法よりも性能と複雑性のトレードオフを得ることができた。
さらに,本手法を遅延拡散バックボーンとして画像生成に拡張し,DiTを著しく上回る性能を示した。
Recent advances have demonstrated the powerful capability of transformer architecture in image restoration. However, our analysis indicates that existing transformerbased methods can not establish both exact global and local dependencies simultaneously, which are much critical to restore the details and missing content of degraded images. To this end, we present an efficient image processing transformer architecture with hierarchical attentions, called IPTV2, adopting a focal context self-attention (FCSA) and a global grid self-attention (GGSA) to obtain adequate token interactions in local and global receptive fields. Specifically, FCSA applies the shifted window mechanism into the channel self-attention, helps capture the local context and mutual interaction across channels. And GGSA constructs long-range dependencies in the cross-window grid, aggregates global information in spatial dimension. Moreover, we introduce structural re-parameterization technique to feed-forward network to further improve the model capability. Extensive experiments demonstrate that our proposed IPT-V2 achieves state-of-the-art results on various image processing tasks, covering denoising, deblurring, deraining and obtains much better trade-off for performance and computational complexity than previous methods. Besides, we extend our method to image generation as latent diffusion backbone, and significantly outperforms DiTs. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# 相対エントロピーによるイマギナリティ測定
Imaginarity measure induced by relative entropy ( http://arxiv.org/abs/2404.00637v1 ) ライセンス: Link先を確認 | Xiangyu Chen, Qiang Lei, | (参考訳) 量子資源理論は科学の発展と応用のための新しい視点と方法を提供する。
イマジナリー数は、多くの複雑な問題を記述し解決するために用いられる。
そのため、近年の想像力資源理論はますます重要になってきており、研究に値するものとなっている。
本稿では,2つの虚数測度を求め,そのうちの1つは$\alpha$--$z$--R\enyi 相対エントロピー,もう1つは Tsallis 相対作用素エントロピーで定義される正定密度行列である。
異なる虚偽度尺度とそれらの性質との関係についても論じる。
Quantum resource theories provide a new perspective and method for the development and application of science. Imaginary numbers are used to describe and solve many complex problems. Therefore imaginarity resource theory proposed recently has become increasingly important and it is worthy of research. In this paper, we find two imaginarity measures, one of which is induced by $\alpha$--$z$--R\'enyi relative entropy and the other defined for positive definite density matrices is induced by Tsallis relative operator entropy. The relationships between different imaginarity measures and their properties are also discussed. | 翻訳日:2024-04-04 02:40:27 公開日:2024-03-31 |
# HypeBoy: ハイパーグラフによる自己監督型表現学習
HypeBoy: Generative Self-Supervised Representation Learning on Hypergraphs ( http://arxiv.org/abs/2404.00638v1 ) ライセンス: Link先を確認 | Sunwoo Kim, Shinhwan Kang, Fanchen Bu, Soo Yong Lee, Jaemin Yoo, Kijung Shin, | (参考訳) ハイパーグラフは複雑なトポロジで特徴付けられ、ハイパーエッジを持つ複数のノード間の高次相互作用を表現する。
生成自己監督学習(SSL)の最近の進歩は、生成自己監督から学習したハイパーグラフニューラルネットワークが、複雑なハイパーグラフトポロジーを効果的にエンコードする可能性があることを示唆している。
しかし、ハイパーグラフのための生成SSL戦略を設計するのは簡単ではない。
その生成的SSLタスク、下流タスクへの接続、学習された表現の実証的特性に関する疑問が残る。
約束と課題を考慮して,ハイパーグラフのための新しい生成型SSL戦略を提案する。
まず、ハイパーグラフ、ハイパーエッジフィリングに関する生成SSLタスクを定式化し、ノード分類との理論的関連を強調した。
生成するSSLタスクに基づいて,ハイパーグラフSSL法であるHypeBoyを提案する。
HypeBoyは効率的な汎用ハイパーグラフ表現を学び、11のベンチマークデータセットで16のベースラインメソッドを上回っている。
Hypergraphs are marked by complex topology, expressing higher-order interactions among multiple nodes with hyperedges, and better capturing the topology is essential for effective representation learning. Recent advances in generative self-supervised learning (SSL) suggest that hypergraph neural networks learned from generative self supervision have the potential to effectively encode the complex hypergraph topology. Designing a generative SSL strategy for hypergraphs, however, is not straightforward. Questions remain with regard to its generative SSL task, connection to downstream tasks, and empirical properties of learned representations. In light of the promises and challenges, we propose a novel generative SSL strategy for hypergraphs. We first formulate a generative SSL task on hypergraphs, hyperedge filling, and highlight its theoretical connection to node classification. Based on the generative SSL task, we propose a hypergraph SSL method, HypeBoy. HypeBoy learns effective general-purpose hypergraph representations, outperforming 16 baseline methods across 11 benchmark datasets. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# RL-MUL:深層強化学習を用いた乗算器設計最適化
RL-MUL: Multiplier Design Optimization with Deep Reinforcement Learning ( http://arxiv.org/abs/2404.00639v1 ) ライセンス: Link先を確認 | Dongsheng Zuo, Jiadong Zhu, Yikang Ouyang, Yuzhe Ma, | (参考訳) 乗算は多くのアプリケーションにおいて基本的な演算であり、乗算器は様々な回路で広く採用されている。
しかし、巨大な設計空間のため、乗算器の最適化は困難であり、非自明である。
本稿では,強化学習に基づく乗算器設計最適化フレームワークRL-MULを提案する。
具体的には,畳み込みニューラルネットワークをエージェントネットワークとしてシームレスに組み込むことが可能な乗算器の圧縮木に対して,行列とテンソル表現を利用する。
エージェントは、エリアと遅延の間のトレードオフに対応するようにカスタマイズされたPareto駆動の報酬に基づいて、乗算器構造を最適化することを学ぶことができる。
さらに、RL-MULの機能は、融合乗算器(MAC)の設計を最適化するために拡張される。
乗算器の異なるビット幅で実験を行う。
その結果, RL-MUL が生成する乗算器は, 面積, 遅延の点で, ベースライン設計を全て支配できることがわかった。
さらに、RL-MULの乗算器とベースラインアプローチを用いて、処理要素配列の面積と遅延を比較することにより、RL-MULの性能向上を検証した。
Multiplication is a fundamental operation in many applications, and multipliers are widely adopted in various circuits. However, optimizing multipliers is challenging and non-trivial due to the huge design space. In this paper, we propose RL-MUL, a multiplier design optimization framework based on reinforcement learning. Specifically, we utilize matrix and tensor representations for the compressor tree of a multiplier, based on which the convolutional neural networks can be seamlessly incorporated as the agent network. The agent can learn to optimize the multiplier structure based on a Pareto-driven reward which is customized to accommodate the trade-off between area and delay. Additionally, the capability of RL-MUL is extended to optimize the fused multiply-accumulator (MAC) designs. Experiments are conducted on different bit widths of multipliers. The results demonstrate that the multipliers produced by RL-MUL can dominate all baseline designs in terms of area and delay. The performance gain of RL-MUL is further validated by comparing the area and delay of processing element arrays using multipliers from RL-MUL and baseline approaches. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# 準周期ポテンシャルにおけるBloch-Landau-Zener振動
Bloch-Landau-Zener oscillations in a quasi-periodic potential ( http://arxiv.org/abs/2404.00642v1 ) ライセンス: Link先を確認 | Henrique C. Prates, Vladimir V. Konotop, | (参考訳) ブロッホ振動とランダウ・ツェナートンネルは、周期ハミルトニアンのバンドギャップスペクトルによって持続されるユビキタス現象であり、線形力の作用下での周期ポテンシャルにおける量子粒子やウェーブパケットのダイナミクスで観測できる。
このような物理的な設定は、もはやバンドギャップ構造は存在しないが、周期的ポテンシャルにも意味を持つ。
ここでは、弱い線形力を受ける準周期的な1次元光学格子における非相互作用原子とボース・アインシュタイン凝縮のダイナミクスを考察する。
運動量エッジの下にエネルギーを持つ励起状態、従って空間に局在する状態が考慮される。
観測された振動挙動は、初期状態と座標エネルギー空間の近傍に位置する状態(またはいくつかの状態)とのトンネルによって可能となることを示す。
このようなBloch-Landau-Zener振動に関与する状態は、その空間的近接状態と、エネルギーレベルの交差を避けるために発生する準共鳴状態からなる選択規則によって決定される。
後者の条件はゲルシュゴリン円定理を用いて数学的に定式化される。
原子間相互作用が力学に与える影響も、発展理論の基盤で予測できる。
報告された結果は、支配的ハミルトニアンに非可換性を導入することによって、ブロッホ振動を観測できる任意の物理系で観測することができる。
Bloch oscillations and Landau-Zener tunneling are ubiquitous phenomena which are sustained by a band-gap spectrum of a periodic Hamiltonian and can be observed in dynamics of a quantum particle or a wavepacket in a periodic potential under action of a linear force. Such physical setting remains meaningful for aperiodic potentials too, although band-gap structure does not exist anymore. Here we consider the dynamics of noninteracting atoms and Bose-Einstein condensates in a quasi-periodic one-dimensional optical lattice subjected to a weak linear force. Excited states with energies below the mobility edge, and thus localized in space, are considered. We show that the observed oscillatory behavior is enabled by tunneling between the initial state and a state (or several states) located nearby in the coordinate-energy space. The states involved in such Bloch-Landau-Zener oscillations are determined by the selection rule consisting of the condition of their spatial proximity and condition of quasi-resonances occurring at avoided crossings of the energy levels. The latter condition is formulated mathematically using the Gershgorin circle theorem. The effect of the inter-atomic interactions on the dynamics can also be predicted on the bases of the developed theory. The reported results can be observed in any physical system allowing for observation of the Bloch oscillations, upon introducing incommensurablity in the governing Hamiltonian. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# SoK:Liquid Stake Tokens (LSTs)
SoK: Liquid Staking Tokens (LSTs) ( http://arxiv.org/abs/2404.00644v1 ) ライセンス: Link先を確認 | Krzysztof Gogol, Yaron Velner, Benjamin Kraner, Claudio Tessone, | (参考訳) LST(Liquid Stake Tokens)は、保有するネイティブアセットのトークン化表現として機能し、ステイク報酬も獲得する。
Proof of Stake(PoS)ブロックチェーンにおいて、使用の容易さとトレーダビリティのために、推奨される方法として登場したのだ。
本稿では, 知識の体系化 (SoK) において, 設計選択と, 液状化の基盤となるプロトコルを記述した一般的な枠組みを確立する。
次に、このフレームワークを用いて、上位のLST実装を体系的に比較し、ノードオペレータの選択、バリデータ操作、報酬分布モデルの作成を行う。
さらに、潜在的なソリューションとして、液状化に関するセキュリティ上の懸念、PoSブロックチェーンセキュリティへの影響、および分散バリデータ技術(DVT)について論じる。
最後に, LSTのパフォーマンスを実証的に分析し, 設計選択や市場イベントがペグの安定性に影響を与えること, 特に, 集中管理や運用を行うLSTの方が, 報酬の獲得を追及する上でより効率的であることを見出した。
Liquid Staking Tokens (LSTs) function as tokenized representations of staked native assets while also accruing staking rewards. They emerged as a preferred method of staking within Proof of Stake (PoS) blockchains, owing to their ease of use and tradability. In this Systematization of Knowledge (SoK), we establish a general framework describing the design choices and protocols underlying liquid staking. We then employ the framework to systematically compare the top LST implementations, examining their node operator selection, validator operations, and staking rewards distribution models. We further discuss security concerns associated with liquid staking, its implications for PoS blockchain security, and Distributed Validator technology (DVT) as a potential solution. Finally, we empirically analyze LSTs' performance and find that the design choices and market events affect peg stability; particularly, LSTs with centralized governance and operations are more efficient in tracking staking rewards. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# YOLOv8による制限領域のアッティアによる異常検出によるCCTVセキュリティの強化
Attire-Based Anomaly Detection in Restricted Areas Using YOLOv8 for Enhanced CCTV Security ( http://arxiv.org/abs/2404.00645v1 ) ライセンス: Link先を確認 | Abdul Aziz A. B, Aindri Bajpai, | (参考訳) 本研究は,高度な画像解析とソフトコンピューティングを活用した,革新的なセキュリティ強化手法を提案する。
その焦点は知的監視システムで、服装を分析して、制限区域の無許可の個人を検知する。
従来のセキュリティ対策は、不正アクセスを監視する際の課題に直面している。
本システムでは,高度な物体検出アルゴリズムであるYOLOv8を応用し,CCTV映像の服装に基づいて認定職員を識別する。
この手法では、YOLOv8モデルを一様パターンの包括的なデータセットでトレーニングし、特定の領域における正確な認識を保証する。
ソフトコンピューティング技術は、動的環境や様々な照明条件への適応性を高める。
この研究は画像解析とソフトコンピューティングに貢献し、高度なセキュリティソリューションを提供する。
均一な異常検出を強調し、制限領域における堅牢なセキュリティシステムの基盤を確立する。
その結果、YOLOv8ベースの監視が、機密性の高い場所の安全を確保する可能性を浮き彫りにした。
This research introduces an innovative security enhancement approach, employing advanced image analysis and soft computing. The focus is on an intelligent surveillance system that detects unauthorized individuals in restricted areas by analyzing attire. Traditional security measures face challenges in monitoring unauthorized access. Leveraging YOLOv8, an advanced object detection algorithm, our system identifies authorized personnel based on their attire in CCTV footage. The methodology involves training the YOLOv8 model on a comprehensive dataset of uniform patterns, ensuring precise recognition in specific regions. Soft computing techniques enhance adaptability to dynamic environments and varying lighting conditions. This research contributes to image analysis and soft computing, providing a sophisticated security solution. Emphasizing uniform-based anomaly detection, it establishes a foundation for robust security systems in restricted areas. The outcomes highlight the potential of YOLOv8-based surveillance in ensuring safety in sensitive locations. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# SpiralMLP:軽量ビジョンMLPアーキテクチャ
SpiralMLP: A Lightweight Vision MLP Architecture ( http://arxiv.org/abs/2404.00648v1 ) ライセンス: Link先を確認 | Haojie Mu, Burhan Ul Tayyab, Nicholas Chua, | (参考訳) 本稿では,従来のToken Mixing手法の代替として,Spiral FC層を導入した新しいアーキテクチャであるSpralMLPを提案する。
主に軸を強調する既存のMLPベースのモデルとは違い、スパイラルFC層はスパイラルのようなオフセットを持つ変形可能な畳み込み層として設計されている。
さらにSpiral FCとCross-Spiral FCの2つのバリエーションに適応し、ローカルとグローバルの両方の機能統合をシームレスに実現し、追加の処理ステップを不要にします。
スパイラル状のオフセットの有効性を徹底的に検討し,設計を検証するために,アブレーション研究を行い,最適構成を探索する。
実証テストでは、SpiralMLPはTransformers、CNN、その他のMLPと同様に最先端のパフォーマンスに達し、ImageNet-1k、COCO、ADE20Kでベンチマークを行う。
SpiralMLPは依然として線形計算複雑性O(HW)を維持しており、様々な入力画像解像度と互換性がある。
本研究は, 高い性能を達成するためには, 完全な受容領域を目標にすることが不可欠ではなく, 改良されたアプローチを採用することが, より良い結果をもたらすことを明らかにした。
We present SpiralMLP, a novel architecture that introduces a Spiral FC layer as a replacement for the conventional Token Mixing approach. Differing from several existing MLP-based models that primarily emphasize axes, our Spiral FC layer is designed as a deformable convolution layer with spiral-like offsets. We further adapt Spiral FC into two variants: Self-Spiral FC and Cross-Spiral FC, which enable both local and global feature integration seamlessly, eliminating the need for additional processing steps. To thoroughly investigate the effectiveness of the spiral-like offsets and validate our design, we conduct ablation studies and explore optimal configurations. In empirical tests, SpiralMLP reaches state-of-the-art performance, similar to Transformers, CNNs, and other MLPs, benchmarking on ImageNet-1k, COCO and ADE20K. SpiralMLP still maintains linear computational complexity O(HW) and is compatible with varying input image resolutions. Our study reveals that targeting the full receptive field is not essential for achieving high performance, instead, adopting a refined approach offers better results. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# セグメンテーションモデルのためのディープインストラクションチューニング
Deep Instruction Tuning for Segment Anything Model ( http://arxiv.org/abs/2404.00650v1 ) ライセンス: Link先を確認 | Xiaorui Huang, Gen Luo, Chaoyang Zhu, Bo Tong, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji, | (参考訳) Segment Anything Model (SAM)は、最近、条件付き画像のセグメンテーションタスクにおいて、強力だが汎用的な機能を示す。
SAMは様々なセグメンテーションプロンプトをサポートできるが、ポイントやボックス誘導セグメンテーションに比べ、テキスト命令されたタスクでははるかにパフォーマンスが悪いことに留意する。
我々は,従来の軽量マスクデコーダにおける浅層融合方式による欠点を緩和するために,深層テキストのチューニングが重要であると論じている。
本稿では,2つのemph{deep instruction tune} (DIT) 法を提案し,一方がエンドツーエンド,もう一方がレイヤワイズである。
これらのチューニング手法により、SAMのイメージエンコーダを、別の深い融合ブランチを構築するのとは対照的に、スタンドアロンの視覚言語学習者と見なすことができる。
画像セグメンテーションの3つの高い競争力のあるベンチマークデータセットに対する大規模な実験により、単純なエンドツーエンドDITはSAMを大きなマージンで改善し、レイヤワイドDITはさらにパフォーマンスを最先端に向上させることが示された。
私たちのコードは匿名で、https://github.com/wysnzz/DIT.comでリリースされています。
Segment Anything Model (SAM) exhibits powerful yet versatile capabilities on (un) conditional image segmentation tasks recently. Although SAM can support various segmentation prompts, we note that, compared to point- and box-guided segmentation, it performs much worse on text-instructed tasks. We argue that deep text instruction tuning is key to mitigate such shortcoming caused by the shallow fusion scheme in its default light-weight mask decoder. In this paper, two \emph{deep instruction tuning} (DIT) methods are proposed, one is end-to-end and the other is layer-wise. With these tuning methods, we can regard the image encoder of SAM as a stand-alone vision-language learner in contrast to building another deep fusion branch. Extensive experiments on three highly competitive benchmark datasets of referring image segmentation show that a simple end-to-end DIT improves SAM by a large margin, with layer-wise DIT further boosts the performance to state-of-the-art. Our code is anonymously released at: https://github.com/wysnzzzz/DIT. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# アクティブオンライン探索のためのモデルに基づく本質的な動機付けによるオフ政治の学習
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration ( http://arxiv.org/abs/2404.00651v1 ) ライセンス: Link先を確認 | Yibo Wang, Jiang Zhao, | (参考訳) 近年の深部強化学習(RL)の進歩は, モデルベースとモデルフリーのパラダイムにまたがる, サンプル効率の顕著な進歩を示している。
先行研究における特定のボトルネックの特定と緩和にもかかわらず、このエージェントの探索能力は、試料効率のよいRLの領域においてあまり強調されないままである。
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
予測モデルと非政治学習要素を組み込んだRLアルゴリズムを導入し、新しい端末値関数によって強化されたオンラインプランナーをサンプル収集に利用する。
潜在状態空間内の前方予測誤差を活用することで、パラメータのオーバーヘッドを発生させずに本質的な報酬を導出する。
この報酬は、モデルの不確実性に対する確実な接続を確立し、エージェントが漸近的なパフォーマンスギャップを効果的に克服することを可能にする。
広範囲な実験を通して,本手法は先行研究,特にスパース報酬事例と比較して,競争力や優れた性能を示す。
Recent advancements in deep reinforcement learning (RL) have demonstrated notable progress in sample efficiency, spanning both model-based and model-free paradigms. Despite the identification and mitigation of specific bottlenecks in prior works, the agent's exploration ability remains under-emphasized in the realm of sample-efficient RL. This paper investigates how to achieve sample-efficient exploration in continuous control tasks. We introduce an RL algorithm that incorporates a predictive model and off-policy learning elements, where an online planner enhanced by a novelty-aware terminal value function is employed for sample collection. Leveraging the forward predictive error within a latent state space, we derive an intrinsic reward without incurring parameters overhead. This reward establishes a solid connection to model uncertainty, allowing the agent to effectively overcome the asymptotic performance gap. Through extensive experiments, our method shows competitive or even superior performance compared to prior works, especially the sparse reward cases. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# マルチラベル時効検出のためのデュアルDETR
Dual DETRs for Multi-Label Temporal Action Detection ( http://arxiv.org/abs/2404.00653v1 ) ライセンス: Link先を確認 | Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang, | (参考訳) 時間的行動検出(TAD)は、ビデオ内のアクション境界と対応するカテゴリを特定することを目的としている。
オブジェクト検出におけるDETRの成功にインスパイアされたいくつかのメソッドは、クエリベースのフレームワークをTADタスクに適応させた。
しかしながら、これらのアプローチは、主にDETRに従ってインスタンスレベルでのアクションを予測する(つまり、各アクションをその中心点で特定する)。
この問題に対処するために、インスタンスレベルとバウンダリレベルの両方からアクションを検出するために、新しいDualレベルクエリベースのTADフレームワーク、すなわちDualDETRを提案する。
異なるレベルでのデコーディングには、異なる粒度のセマンティクスを必要とするため、2分岐のデコーディング構造を導入する。
この構造は、異なるレベルで独自のデコードプロセスを構築し、各レベルで時間的手がかりと意味を明示的にキャプチャするのに役立つ。
2ブランチの設計の上に、両レベルのクエリをアライメントするための共同クエリ初期化戦略を提案する。
具体的には,エンコーダの提案を利用して,各レベルのクエリを1対1でマッチングする。
そして、一致したアクション提案より前の位置と内容を用いて一致したクエリを初期化する。
整列されたデュアルレベルクエリは、後続の復号中に補完的なキューでマッチングされた提案を洗練することができる。
我々はDualDETRを3つの挑戦的マルチラベルTADベンチマークで評価した。
The experimental results showed the superior performance of DualDETR to the existing State-of-the-art method, achieved a significant improvement under det-mAP and deliver great results under seg-mAP。
Temporal Action Detection (TAD) aims to identify the action boundaries and the corresponding category within untrimmed videos. Inspired by the success of DETR in object detection, several methods have adapted the query-based framework to the TAD task. However, these approaches primarily followed DETR to predict actions at the instance level (i.e., identify each action by its center point), leading to sub-optimal boundary localization. To address this issue, we propose a new Dual-level query-based TAD framework, namely DualDETR, to detect actions from both instance-level and boundary-level. Decoding at different levels requires semantics of different granularity, therefore we introduce a two-branch decoding structure. This structure builds distinctive decoding processes for different levels, facilitating explicit capture of temporal cues and semantics at each level. On top of the two-branch design, we present a joint query initialization strategy to align queries from both levels. Specifically, we leverage encoder proposals to match queries from each level in a one-to-one manner. Then, the matched queries are initialized using position and content prior from the matched action proposal. The aligned dual-level queries can refine the matched proposal with complementary cues during subsequent decoding. We evaluate DualDETR on three challenging multi-label TAD benchmarks. The experimental results demonstrate the superior performance of DualDETR to the existing state-of-the-art methods, achieving a substantial improvement under det-mAP and delivering impressive results under seg-mAP. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# WavLLM:ロバストで適応的な音声大言語モデルを目指して
WavLLM: Towards Robust and Adaptive Speech Large Language Model ( http://arxiv.org/abs/2404.00656v1 ) ライセンス: Link先を確認 | Shujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理の分野に革命をもたらし、その範囲をマルチモーダルな知覚と生成へと徐々に広げている。
しかし, 聴取能力をLLMに効果的に統合することは, 様々なコンテキストをまたいだ一般化や複雑な聴覚タスクの実行において, 重要な課題となる。
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,2段階のカリキュラム学習アプローチによって最適化されたプロンプト対応のLoRA重み付けアダプタを紹介する。
デュアルエンコーダを利用することで、Whisperエンコーダを用いて音声のセマンティックな内容を処理し、WavLMエンコーダを用いて話者のアイデンティティのユニークな特徴を捉え、異なるタイプの音声情報を分離する。
カリキュラム学習フレームワークの中で、WavLLMは、まず、混合基本単一タスクを最適化し、続いて、基本タスクの組み合わせのようなより複雑なタスクに関する高度なマルチタスクトレーニングによって基礎的能力を構築する。
異なるタスクや命令に対する柔軟性と順応性を高めるため、第2の高度なマルチタスク訓練段階において、プロンプト対応のLoRA重み付けアダプタが導入された。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
実験により,提案モデルが同一のモデルサイズでの音声タスクにまたがる最先端性能を実現し,CoTアプローチによる複雑なタスクの実行において,堅牢な一般化能力を示すことが示された。
さらに,本モデルでは,専門訓練を伴わずにガオカオのタスクを完了させることに成功した。
コード、モデル、オーディオ、ガオカオの評価セットは \url{aka.ms/wavllm} でアクセスすることができる。
The recent advancements in large language models (LLMs) have revolutionized the field of natural language processing, progressively broadening their scope to multimodal perception and generation. However, effectively integrating listening capabilities into LLMs poses significant challenges, particularly with respect to generalizing across varied contexts and executing complex auditory tasks. In this work, we introduce WavLLM, a robust and adaptive speech large language model with dual encoders, and a prompt-aware LoRA weight adapter, optimized by a two-stage curriculum learning approach. Leveraging dual encoders, we decouple different types of speech information, utilizing a Whisper encoder to process the semantic content of speech, and a WavLM encoder to capture the unique characteristics of the speaker's identity. Within the curriculum learning framework, WavLLM first builds its foundational capabilities by optimizing on mixed elementary single tasks, followed by advanced multi-task training on more complex tasks such as combinations of the elementary tasks. To enhance the flexibility and adherence to different tasks and instructions, a prompt-aware LoRA weight adapter is introduced in the second advanced multi-task training stage. We validate the proposed model on universal speech benchmarks including tasks such as ASR, ST, SV, ER, and also apply it to specialized datasets like Gaokao English listening comprehension set for SQA, and speech Chain-of-Thought (CoT) evaluation set. Experiments demonstrate that the proposed model achieves state-of-the-art performance across a range of speech tasks on the same model size, exhibiting robust generalization capabilities in executing complex tasks using CoT approach. Furthermore, our model successfully completes Gaokao tasks without specialized training. The codes, models, audio, and Gaokao evaluation set can be accessed at \url{aka.ms/wavllm}. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# 技術資料におけるRAGシステムの構築状況
Observations on Building RAG Systems for Technical Documents ( http://arxiv.org/abs/2404.00657v1 ) ライセンス: Link先を確認 | Sumit Soman, Sujoy Roychowdhury, | (参考訳) 技術的文書の検索拡張生成(RAG)は、埋め込みがしばしばドメイン情報をキャプチャしないため、課題を生み出す。
我々は、RAGに影響を及ぼす重要な要因について先行技術についてレビューし、技術的文書のためのRAGシステムを構築するためのベストプラクティスと潜在的な課題を明らかにする実験を行う。
Retrieval augmented generation (RAG) for technical documents creates challenges as embeddings do not often capture domain information. We review prior art for important factors affecting RAG and perform experiments to highlight best practices and potential challenges to build RAG systems for technical documents. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# DeeDSR: 劣化を意識した安定拡散による実世界の超解像を目指して
DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion ( http://arxiv.org/abs/2404.00661v1 ) ライセンス: Link先を確認 | Chunyang Bi, Xin Luo, Sheng Shen, Mengxi Zhang, Huanjing Yue, Jingyu Yang, | (参考訳) 拡散モデルは、その強力な生成能力で知られ、現実世界の超解像問題に対処する上で重要な役割を果たす。
しかし、これらのモデルは、大域的な劣化の影響を無視しながら、局所的なテクスチャの改善に重点を置いており、意味的忠実度を著しく低減し、不正確な再構築と準最適超解像性能をもたらす。
この問題に対処するため,低解像度画像における拡散モデルのコンテンツ認識能力と劣化を向上する,新たな2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、劣化認識モジュールを単純化されたコントロールネットに統合し、学習した表現に基づいて様々な劣化への柔軟な適応を可能にする。
さらに,劣化認識機能をグローバルセマンティクスと局所細部分岐に分解し,拡散復調モジュールに注入してターゲット生成を変調する。
提案手法は,特に顕著な劣化条件下でのセマンティック・精密・フォトリアリスティックな詳細を効果的に回収し,各種ベンチマークにおける最先端性能を実証する。
コードはhttps://github.com/bichunyang419/DeeDSRで公開される。
Diffusion models, known for their powerful generative capabilities, play a crucial role in addressing real-world super-resolution challenges. However, these models often focus on improving local textures while neglecting the impacts of global degradation, which can significantly reduce semantic fidelity and lead to inaccurate reconstructions and suboptimal super-resolution performance. To address this issue, we introduce a novel two-stage, degradation-aware framework that enhances the diffusion model's ability to recognize content and degradation in low-resolution images. In the first stage, we employ unsupervised contrastive learning to obtain representations of image degradations. In the second stage, we integrate a degradation-aware module into a simplified ControlNet, enabling flexible adaptation to various degradations based on the learned representations. Furthermore, we decompose the degradation-aware features into global semantics and local details branches, which are then injected into the diffusion denoising module to modulate the target generation. Our method effectively recovers semantically precise and photorealistic details, particularly under significant degradation conditions, demonstrating state-of-the-art performance across various benchmarks. Codes will be released at https://github.com/bichunyang419/DeeDSR. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# アクセラレーションパラメータフリー確率最適化
Accelerated Parameter-Free Stochastic Optimization ( http://arxiv.org/abs/2404.00666v1 ) ライセンス: Link先を確認 | Itai Kreisler, Maor Ivgi, Oliver Hinder, Yair Carmon, | (参考訳) 本研究では,スムーズな確率凸最適化のための近似速度を近似的に達成し,問題パラメータの事前知識を必要としない手法を提案する。
これは、少なくとも最適性 d0 への初期距離を知る必要がある先行作業を改善する。
U-DoG法は, UniXGrad (Kavis et al , 2019) と DoG (Ivgi et al , 2023) を新しい反復安定化技術と組み合わせたものである。
d0 と雑音の大きさのゆるい境界しか必要とせず、ガウス以下の雑音の下で高い確率保証を提供し、非滑らかな場合もほぼ最適である。
本実験は, 凸問題に対する一貫した強い性能と, ニューラルネットワークトレーニングにおける混合結果を示す。
We propose a method that achieves near-optimal rates for smooth stochastic convex optimization and requires essentially no prior knowledge of problem parameters. This improves on prior work which requires knowing at least the initial distance to optimality d0. Our method, U-DoG, combines UniXGrad (Kavis et al., 2019) and DoG (Ivgi et al., 2023) with novel iterate stabilization techniques. It requires only loose bounds on d0 and the noise magnitude, provides high probability guarantees under sub-Gaussian noise, and is also near-optimal in the non-smooth case. Our experiments show consistent, strong performance on convex problems and mixed results on neural network training. | 翻訳日:2024-04-04 02:30:41 公開日:2024-03-31 |
# 疎点アノテートによる電子顕微鏡の弱改良されたクロスドメインセグメンテーション
Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation ( http://arxiv.org/abs/2404.00667v1 ) ライセンス: Link先を確認 | Dafei Qiu, Shan Xiong, Jiajin Yi, Jialin Peng, | (参考訳) 電子顕微鏡(Electron Microscopy, EM)画像からのオルガネラインスタンスの正確なセグメンテーションは多くの神経科学研究において重要な役割を担っている。
しかし、現実的なシナリオは通常、高いアノテーションコスト、ラベルの不足、大きなドメインの多様性に悩まされます。
対象データに対するアノテーションの取り組みを前提としない非教師付きドメイン適応(UDA)は、これらの課題を軽減することを約束しているが、複雑なセグメンテーションタスクのパフォーマンスは、まだ実用には程遠い。
これらの課題に対処するために,対象のトレーニング画像中のオブジェクトインスタンスの小さなサブセットに対して,疎い中心点のみを仮定する,高アノテーション効率の弱い監視手法について検討する。
部分点アノテーションによる正確なセグメンテーションを実現するために,インスタンスカウントとセンター検出を補助的タスクとして導入し,部分的あるいは非監督的なタスクであるカウント,検出,セグメンテーションの相関を利用するマルチタスク学習フレームワークを設計する。
3つのタスクの異なるドメイン不変性に基づいて、中心検出のグローバルな先行として、新しいソフト一貫性損失によるカウント推定を強制し、ピクセルごとのセグメンテーションをさらに導く。
アノテーションの間隔を補うため,ラベル拡張のためのクロスポジションカット・アンド・ペーストと,エントロピーに基づく擬似ラベル選択を開発した。
実験結果から, モデルトレーニングにおいて, 極めて弱いアノテーション, 例えば15 % のスパースポイントを用いることで, UDA 法を著しく上回り, 教師付き手法と同等の性能が得られることがわかった。
モデルの高ロバスト性とスパースポイントアノテーションのエキスパート知識の低要求により,モデルの潜在的な適用価値がさらに向上する。
Accurate segmentation of organelle instances from electron microscopy (EM) images plays an essential role in many neuroscience researches. However, practical scenarios usually suffer from high annotation costs, label scarcity, and large domain diversity. While unsupervised domain adaptation (UDA) that assumes no annotation effort on the target data is promising to alleviate these challenges, its performance on complicated segmentation tasks is still far from practical usage. To address these issues, we investigate a highly annotation-efficient weak supervision, which assumes only sparse center-points on a small subset of object instances in the target training images. To achieve accurate segmentation with partial point annotations, we introduce instance counting and center detection as auxiliary tasks and design a multitask learning framework to leverage correlations among the counting, detection, and segmentation, which are all tasks with partial or no supervision. Building upon the different domain-invariances of the three tasks, we enforce counting estimation with a novel soft consistency loss as a global prior for center detection, which further guides the per-pixel segmentation. To further compensate for annotation sparsity, we develop a cross-position cut-and-paste for label augmentation and an entropy-based pseudo-label selection. The experimental results highlight that, by simply using extremely weak annotation, e.g., 15\% sparse points, for model training, the proposed model is capable of significantly outperforming UDA methods and produces comparable performance as the supervised counterpart. The high robustness of our model shown in the validations and the low requirement of expert knowledge for sparse point annotation further improve the potential application value of our model. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 半パラメトリック付加回帰とLSTM-FCNに基づくパーキンソン性ブラジキネシアのコンピュータビジョン定量のための階層分類による統計的解析
Statistical Analysis by Semiparametric Additive Regression and LSTM-FCN Based Hierarchical Classification for Computer Vision Quantification of Parkinsonian Bradykinesia ( http://arxiv.org/abs/2404.00670v1 ) ライセンス: Link先を確認 | Youngseo Cho, In Hee Kwak, Dohyeon Kim, Jinhee Na, Hanjoo Sung, Jeongjae Lee, Young Eun Kim, Hyeo-il Ma, | (参考訳) ブラジキネシアは不随意の運動遅滞または脱落を特徴とし、パーキンソン病(PD)の基本的な症状であり、臨床診断に欠かせない。
ブラジキネジアを定量化する様々な手法が検討されているが、コンピュータビジョンに基づくアプローチは有望な結果を示している。
しかし、これらの手法は、頻繁な四肢運動における重要なブラジキネジアの特徴である「時折停止」と「振幅の低下」に適切に対処するには不十分であることが多い。この研究は、振幅の減少を捉え、簡単な深層学習技術であるLSTM-FCNを用いて、時折停止の正確な分類を行うことにより、視覚に基づくブラジキネシアの定量化を推し進める。
本手法は分類過程を階層的に構成し,PDにおけるブラジキネジアの特異な動態に合わせたものである。
逮捕と疲労を表すものを含む抽出された特徴の統計的分析は、ほとんどのケースでその統計的意義を証明している。
この発見は、四肢運動の定量化における「時折の停止」と「振幅の低下」を考えることの重要性を浮き彫りにする。
拡張診断ツールは,310 PD患者の1396のモーションビデオからなる広範囲なデータセットで厳密に検査され,80.3%の精度が得られた。
その結果, 本手法の堅牢性と信頼性が確認できた。
Bradykinesia, characterized by involuntary slowing or decrement of movement, is a fundamental symptom of Parkinson's Disease (PD) and is vital for its clinical diagnosis. Despite various methodologies explored to quantify bradykinesia, computer vision-based approaches have shown promising results. However, these methods often fall short in adequately addressing key bradykinesia characteristics in repetitive limb movements: "occasional arrest" and "decrement in amplitude." This research advances vision-based quantification of bradykinesia by introducing nuanced numerical analysis to capture decrement in amplitudes and employing a simple deep learning technique, LSTM-FCN, for precise classification of occasional arrests. Our approach structures the classification process hierarchically, tailoring it to the unique dynamics of bradykinesia in PD. Statistical analysis of the extracted features, including those representing arrest and fatigue, has demonstrated their statistical significance in most cases. This finding underscores the importance of considering "occasional arrest" and "decrement in amplitude" in bradykinesia quantification of limb movement. Our enhanced diagnostic tool has been rigorously tested on an extensive dataset comprising 1396 motion videos from 310 PD patients, achieving an accuracy of 80.3%. The results confirm the robustness and reliability of our method. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# トーケン拡張による変圧器の汎用的・効率的な訓練
A General and Efficient Training for Transformer via Token Expansion ( http://arxiv.org/abs/2404.00672v1 ) ライセンス: Link先を確認 | Wenxuan Huang, Yunhang Shen, Jiao Xie, Baochang Zhang, Gaoqi He, Ke Li, Xing Sun, Shaohui Lin, | (参考訳) 視覚変換器(ViT)の顕著な性能は、通常非常に大きな訓練コストを必要とする。
既存の手法はViTの訓練を加速しようと試みているが、通常は精度の低下とともにメソッドの普遍性を無視している。
同時に、ハイパーパラメータ、アーキテクチャ、戦略の整合性を含む、オリジナルのトランスフォーマーのトレーニング一貫性を破り、異なるトランスフォーマーネットワークに広く適用されないようにした。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案する。
初期化・拡張・統合」パイプラインを導入し、元のトランスフォーマーの中間特徴分布の整合性を維持し、トレーニングプロセスにおいて重要な学習可能な情報が失われないようにする。
ToEは、トランスフォーマーのトレーニングおよび微調整プロセス(例:DeiT、LV-ViT)にシームレスに統合できるだけでなく、オリジナルのトレーニングハイパーパラメータ、アーキテクチャ、追加のトレーニング戦略を導入することなく、効率的なトレーニングフレームワーク(例:EfficientTrain)に有効である。
大規模な実験により、ToEはViTのトレーニングにおいて、損失のない方法で約1.3倍の速度を達成するか、あるいは完全なトレーニングベースラインよりもパフォーマンスが向上することを示した。
コードはhttps://github.com/Osilly/TokenExpansionで入手できる。
The remarkable performance of Vision Transformers (ViTs) typically requires an extremely large training cost. Existing methods have attempted to accelerate the training of ViTs, yet typically disregard method universality with accuracy dropping. Meanwhile, they break the training consistency of the original transformers, including the consistency of hyper-parameters, architecture, and strategy, which prevents them from being widely applied to different Transformer networks. In this paper, we propose a novel token growth scheme Token Expansion (termed ToE) to achieve consistent training acceleration for ViTs. We introduce an "initialization-expansion-merging" pipeline to maintain the integrity of the intermediate feature distribution of original transformers, preventing the loss of crucial learnable information in the training process. ToE can not only be seamlessly integrated into the training and fine-tuning process of transformers (e.g., DeiT and LV-ViT), but also effective for efficient training frameworks (e.g., EfficientTrain), without twisting the original training hyper-parameters, architecture, and introducing additional training strategies. Extensive experiments demonstrate that ToE achieves about 1.3x faster for the training of ViTs in a lossless manner, or even with performance gains over the full-token training baselines. Code is available at https://github.com/Osilly/TokenExpansion . | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# プライバシ保護モデル記述に関する調査--プライバシリスク,アタック,対策
A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures ( http://arxiv.org/abs/2404.00673v1 ) ライセンス: Link先を確認 | Thanh Tam Nguyen, Thanh Trung Huynh, Zhao Ren, Thanh Toan Nguyen, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen, | (参考訳) 説明可能なAI(XAI)の採用が拡大するにつれて、そのプライバシーへの影響に対処する緊急性が高まっている。
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
本分野へのコントリビューションは、対象とする説明に基づいて、プライバシ攻撃と対策の分類を容易にする、コネクテッドな分類法による研究論文の徹底的な分析を含む。
この作業には、プライバシリークの原因に関する最初の調査も含まれる。
最後に,本分析で明らかになった未解決問題と今後の研究方向性について論じる。
この調査は、研究コミュニティにとって貴重なリソースであり、この領域に新たに加わった人たちに明確な洞察を提供することを目的としている。
現在進行中の研究を支援するため,我々はオンラインリソースリポジトリを設置し,新たな,関連する知見を継続的に更新する。
興味のある読者は、https://github.com/tamlhp/awesome-privex.comで私たちのリポジトリにアクセスすることを推奨されている。
As the adoption of explainable AI (XAI) continues to expand, the urgency to address its privacy implications intensifies. Despite a growing corpus of research in AI privacy and explainability, there is little attention on privacy-preserving model explanations. This article presents the first thorough survey about privacy attacks on model explanations and their countermeasures. Our contribution to this field comprises a thorough analysis of research papers with a connected taxonomy that facilitates the categorisation of privacy attacks and countermeasures based on the targeted explanations. This work also includes an initial investigation into the causes of privacy leaks. Finally, we discuss unresolved issues and prospective research directions uncovered in our analysis. This survey aims to be a valuable resource for the research community and offers clear insights for those new to this domain. To support ongoing research, we have established an online resource repository, which will be continuously updated with new and relevant findings. Interested readers are encouraged to access our repository at https://github.com/tamlhp/awesome-privex. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 知識NeRF:動的Ariculated Objectsの新しいビュー合成
Knowledge NeRF: Few-shot Novel View Synthesis for Dynamic Articulated Objects ( http://arxiv.org/abs/2404.00674v1 ) ライセンス: Link先を確認 | Wenxiao Cai, Xinyue Leiınst, Xinyu He, Junming Leo Chen, Yangang Wang, | (参考訳) 我々は,ダイナミックシーンのための新しいビューを合成するための知識NeRFを提案し,疎視の少ないシーンから動的3Dシーンを再構成し,任意の視点からレンダリングすることは,様々な領域のアプリケーションにおいて難しい問題である。
従来の動的NeRF法はモノクロビデオから明瞭な物体の変形を学習する。
しかし, 再現シーンの品質は限定的であり, 動的シーンを動的に再構築するために, 2つのフレームを同時に考慮して新たな枠組みを提案する。我々は, 調音対象に対してNeRFモデルを事前学習する。
動的シーンにNeRFを適用し,事前学習した知識ベースと現在の状態の対応を学習するプロジェクションモジュールを提案する。
実験により, 動的3次元シーンを1つの状態で5つの入力画像で再構成する手法の有効性が示された。
Knowledge NeRFは動的調音オブジェクトにおける新しいビュー合成のための新しいパイプラインで有望なソリューションである。
データと実装はhttps://github.com/RussRobin/Knowledge_NeRF.comで公開されている。
We present Knowledge NeRF to synthesize novel views for dynamic scenes.Reconstructing dynamic 3D scenes from few sparse views and rendering them from arbitrary perspectives is a challenging problem with applications in various domains. Previous dynamic NeRF methods learn the deformation of articulated objects from monocular videos. However, qualities of their reconstructed scenes are limited.To clearly reconstruct dynamic scenes, we propose a new framework by considering two frames at a time.We pretrain a NeRF model for an articulated object.When articulated objects moves, Knowledge NeRF learns to generate novel views at the new state by incorporating past knowledge in the pretrained NeRF model with minimal observations in the present state. We propose a projection module to adapt NeRF for dynamic scenes, learning the correspondence between pretrained knowledge base and current states. Experimental results demonstrate the effectiveness of our method in reconstructing dynamic 3D scenes with 5 input images in one state. Knowledge NeRF is a new pipeline and promising solution for novel view synthesis in dynamic articulated objects. The data and implementation are publicly available at https://github.com/RussRobin/Knowledge_NeRF. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# OmniLocalRF:ダイナミックビデオからの全方位局所放射場
OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos ( http://arxiv.org/abs/2404.00676v1 ) ライセンス: Link先を確認 | Dongyoung Choi, Hyeonjoong Jang, Min H. Kim, | (参考訳) 方位カメラは様々な用途に広く使われ、広い視野の視界を提供する。
しかし、カメラマンを含むダイナミックな物体が広い視野で必然的に存在するため、新しい視点を合成するという課題に直面している。
本稿では,Omnidirectional Local Radiance Fields (OmniLocalRF) と呼ばれる新しいアプローチを提案する。
本手法は局所放射場原理と全方位光の双方向最適化を組み合わせたものである。
入力は全方位ビデオであり、前向きと現在のフレーム間の全角度の相互観察を評価する。
動的物体のゴーストアーティファクトや絵画の閉塞を低減させるため,マルチレゾリューションモーションマスク予測モジュールを考案した。
時間領域を通して動的成分を分離する既存の手法とは異なり、本手法は高解像度のニューラル特徴面を用いて正確なセグメンテーションを行い、より長い360度ビデオに向いている。
実験により,OmniLocalRFは実世界の複雑な場面において,定性的・定量的に既存の手法よりも優れていたことが確認された。
特に,手動マスクの描画や追加ポーズ推定などの手動操作の必要性を排除し,高効率かつ効率的な解法である。
Omnidirectional cameras are extensively used in various applications to provide a wide field of vision. However, they face a challenge in synthesizing novel views due to the inevitable presence of dynamic objects, including the photographer, in their wide field of view. In this paper, we introduce a new approach called Omnidirectional Local Radiance Fields (OmniLocalRF) that can render static-only scene views, removing and inpainting dynamic objects simultaneously. Our approach combines the principles of local radiance fields with the bidirectional optimization of omnidirectional rays. Our input is an omnidirectional video, and we evaluate the mutual observations of the entire angle between the previous and current frames. To reduce ghosting artifacts of dynamic objects and inpaint occlusions, we devise a multi-resolution motion mask prediction module. Unlike existing methods that primarily separate dynamic components through the temporal domain, our method uses multi-resolution neural feature planes for precise segmentation, which is more suitable for long 360-degree videos. Our experiments validate that OmniLocalRF outperforms existing methods in both qualitative and quantitative metrics, especially in scenarios with complex real-world scenes. In particular, our approach eliminates the need for manual interaction, such as drawing motion masks by hand and additional pose estimation, making it a highly effective and efficient solution. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# OmniSDF:Omnidirectional Signed Distance Function と Adaptive Binoctrees を用いたシーン再構成
OmniSDF: Scene Reconstruction using Omnidirectional Signed Distance Functions and Adaptive Binoctrees ( http://arxiv.org/abs/2404.00678v1 ) ライセンス: Link先を確認 | Hakyeong Kim, Andreas Meuleman, Hyeonjoong Jang, James Tompkin, Min H. Kim, | (参考訳) 室内および屋外の静的シーンの形状と外観を、小さな円形のスリープ内を移動する全方向ビデオから再構成する手法を提案する。
この設定は、小さなベースラインと大きな深さ範囲のため困難であり、光線交差を見つけるのが困難である。
最適化の制約を改善するため,球状ビノクツリーデータ構造内の符号付き距離場として幾何学を推定し,サンプリングのための幅優先探索に基づく相補的効率的なツリートラバース戦略を用いる。
通常のグリッドや木とは異なり、この構造の形状はカメラの設定とよく一致し、メモリ品質のトレードオフが向上する。
最初の深さ推定から、binoctreeは最適化全体を通して適応的に分割される。
3つのニューラル最適化法と2つの非ニューラル法と比較して、特に詳細なシーンにおいて、平均的な幾何誤差を減少させながら、そのような詳細を表現するために必要なボクセルの数を大幅に減少させる。
We present a method to reconstruct indoor and outdoor static scene geometry and appearance from an omnidirectional video moving in a small circular sweep. This setting is challenging because of the small baseline and large depth ranges, making it difficult to find ray crossings. To better constrain the optimization, we estimate geometry as a signed distance field within a spherical binoctree data structure and use a complementary efficient tree traversal strategy based on a breadth-first search for sampling. Unlike regular grids or trees, the shape of this structure well-matches the camera setting, creating a better memory-quality trade-off. From an initial depth estimate, the binoctree is adaptively subdivided throughout the optimization; previous methods use a fixed depth that leaves the scene undersampled. In comparison with three neural optimization methods and two non-neural methods, ours shows decreased geometry error on average, especially in a detailed scene, while significantly reducing the required number of voxels to represent such details. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# X線蒸留によるWak-to-Strong 3Dオブジェクト検出
Weak-to-Strong 3D Object Detection with X-Ray Distillation ( http://arxiv.org/abs/2404.00679v1 ) ライセンス: Link先を確認 | Alexander Gambashidze, Aleksandr Dadukin, Maksim Golyadkin, Maria Razzhivina, Ilya Makarov, | (参考訳) 本稿では,LiDARを用いた3次元物体検出における空間性および閉塞性の重要な課題について論じる。
現在の手法は、しばしば補足モジュールや特定のアーキテクチャ設計に依存しており、新しい進化するアーキテクチャに適用性を制限する可能性がある。
我々の知る限り、我々は3DコンピュータビジョンにおけるWak-to-Strong一般化の最初の例である3Dオブジェクト検出のための既存のフレームワークにシームレスに統合する汎用的手法を最初に提案した。
我々は, 点群列の時間的側面を活かした, 教師付きおよび半教師付き設定に適した, オブジェクト・コンプリートフレームによるX線蒸留という新しいフレームワークを導入する。
本手法は,複数視点からオブジェクトを表すオブジェクト・コンプリート・フレームを作成することにより,従来およびその後のLiDARフレームから重要な情報を抽出する。
オンライン推論中にオブジェクト・コンプリート・フレームを生成できないことの制限を考えると、教師・学生フレームワーク内で知識蒸留を利用する。
この手法は, 学生モデルに対して, 単純で情報に富むオブジェクト・コンプリート・フレームを処理する弱い教師の行動のエミュレートを奨励し, オブジェクトの総合的なビューを, まるでX線で見るかのように効果的に提供する。
提案手法は, 半教師付き学習において, 1-1.5 mAP を超越し, 標準の自律運転データセット上での 5 つの教師付きモデルの性能を 1-2 mAP で向上させる。
Object-Complete フレームのコードは https://github.com/sakharok13/X-Ray-Teacher-Patching-Tools で公開されている。
This paper addresses the critical challenges of sparsity and occlusion in LiDAR-based 3D object detection. Current methods often rely on supplementary modules or specific architectural designs, potentially limiting their applicability to new and evolving architectures. To our knowledge, we are the first to propose a versatile technique that seamlessly integrates into any existing framework for 3D Object Detection, marking the first instance of Weak-to-Strong generalization in 3D computer vision. We introduce a novel framework, X-Ray Distillation with Object-Complete Frames, suitable for both supervised and semi-supervised settings, that leverages the temporal aspect of point cloud sequences. This method extracts crucial information from both previous and subsequent LiDAR frames, creating Object-Complete frames that represent objects from multiple viewpoints, thus addressing occlusion and sparsity. Given the limitation of not being able to generate Object-Complete frames during online inference, we utilize Knowledge Distillation within a Teacher-Student framework. This technique encourages the strong Student model to emulate the behavior of the weaker Teacher, which processes simple and informative Object-Complete frames, effectively offering a comprehensive view of objects as if seen through X-ray vision. Our proposed methods surpass state-of-the-art in semi-supervised learning by 1-1.5 mAP and enhance the performance of five established supervised models by 1-2 mAP on standard autonomous driving datasets, even with default hyperparameters. Code for Object-Complete frames is available here: https://github.com/sakharok13/X-Ray-Teacher-Patching-Tools. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 画像冗長性低減のためのランクパッチの学習
Learning to Rank Patches for Unbiased Image Redundancy Reduction ( http://arxiv.org/abs/2404.00680v1 ) ライセンス: Link先を確認 | Yang Luo, Zhineng Chen, Peng Zhou, Zuxuan Wu, Xieping Gao, Yu-Gang Jiang, | (参考訳) 画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
しかし、現在の指導法は監視信号に依存している。
ラベル付きカテゴリと整合したコンテンツを保存するためにモデルを強制し、ラベルなしカテゴリに属するコンテンツを破棄する。
このカテゴリー的帰納バイアスは、これらの手法を現実のシナリオでは効果的にしない。
この問題に対処するために,Learning to Rank Patches (LTRP) と呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
マスク画像モデルにおける画像再構成は,マスキング比が高い場合の可視パッチの除去に敏感である(例:90\%)。
そこで我々は,このパッチを用いて,各パッチの意味密度スコアを推定し,このパッチを使用せずに再構成の変動を定量化し,パッチを擬似スコアでランク付けする方法を学習する,という2つのステップを用いてLTRPを実装した。
プロセス全体が自己管理され、分類的帰納バイアスのジレンマから抜け出す。
さまざまなデータセットやタスクに関する広範な実験を設計する。
その結果, LTRPは画像内容の公平な評価により, 教師付きおよび他の自己監督手法よりも優れていた。
Images suffer from heavy spatial redundancy because pixels in neighboring regions are spatially correlated. Existing approaches strive to overcome this limitation by reducing less meaningful image regions. However, current leading methods rely on supervisory signals. They may compel models to preserve content that aligns with labeled categories and discard content belonging to unlabeled categories. This categorical inductive bias makes these methods less effective in real-world scenarios. To address this issue, we propose a self-supervised framework for image redundancy reduction called Learning to Rank Patches (LTRP). We observe that image reconstruction of masked image modeling models is sensitive to the removal of visible patches when the masking ratio is high (e.g., 90\%). Building upon it, we implement LTRP via two steps: inferring the semantic density score of each patch by quantifying variation between reconstructions with and without this patch, and learning to rank the patches with the pseudo score. The entire process is self-supervised, thus getting out of the dilemma of categorical inductive bias. We design extensive experiments on different datasets and tasks. The results demonstrate that LTRP outperforms both supervised and other self-supervised methods due to the fair assessment of image content. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# CoUDA: 統一データ拡張によるコヒーレンス評価
CoUDA: Coherence Evaluation via Unified Data Augmentation ( http://arxiv.org/abs/2404.00681v1 ) ライセンス: Link先を確認 | Dawei Zhu, Wenhao Wu, Yifan Song, Fangwei Zhu, Ziqiang Cao, Sujian Li, | (参考訳) コヒーレンス評価(Coherence evaluation)は、大規模言語モデルの時代においても困難な言論の組織と構造を評価することを目的としている。
注釈付きデータの不足により、コヒーレンス評価モデルのトレーニングにデータ拡張が一般的に使用される。
しかし、このタスクに対する以前の拡張は主にヒューリスティックなルールに依存しており、ガイダンスとして設計基準が欠如している。
本稿では、談話構造に関する言語理論から着想を得た上で、CoUDAというデータ拡張フレームワークを提案する。
CoUDAは、談話のコヒーレンスをグローバルな側面とローカルな側面に分割し、それぞれの側面の強化戦略を設計する。
特に局所的コヒーレンスのために,生成モデルのポストプレトレーニングと2つの制御機構を適用して生成サンプルの難易度を制御する,拡張サンプル構築のための新しい生成戦略を提案する。
推論中、CoUDAはグローバルな側面とローカルな側面の両方を共同で評価し、談話の全体的な一貫性を包括的に評価する。
コヒーレンス評価における大規模な実験により、CoUDAは233Mのパラメータしか持たず、最近のGPT-3.5とGPT-4を上回りながら、ポイントワイドのスコアリングとペアワイドのランク付けの両方において最先端のパフォーマンスを達成している。
Coherence evaluation aims to assess the organization and structure of a discourse, which remains challenging even in the era of large language models. Due to the scarcity of annotated data, data augmentation is commonly used for training coherence evaluation models. However, previous augmentations for this task primarily rely on heuristic rules, lacking designing criteria as guidance. In this paper, we take inspiration from linguistic theory of discourse structure, and propose a data augmentation framework named CoUDA. CoUDA breaks down discourse coherence into global and local aspects, and designs augmentation strategies for both aspects, respectively. Especially for local coherence, we propose a novel generative strategy for constructing augmentation samples, which involves post-pretraining a generative model and applying two controlling mechanisms to control the difficulty of generated samples. During inference, CoUDA also jointly evaluates both global and local aspects to comprehensively assess the overall coherence of a discourse. Extensive experiments in coherence evaluation show that, with only 233M parameters, CoUDA achieves state-of-the-art performance in both pointwise scoring and pairwise ranking tasks, even surpassing recent GPT-3.5 and GPT-4 based metrics. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 多ベクトルDense Retrievalとしての生成検索
Generative Retrieval as Multi-Vector Dense Retrieval ( http://arxiv.org/abs/2404.00684v1 ) ライセンス: Link先を確認 | Shiguang Wu, Wenda Wei, Mengqi Zhang, Zhumin Chen, Jun Ma, Zhaochun Ren, Maarten de Rijke, Pengjie Ren, | (参考訳) 生成検索は、あるクエリに対してシーケンス・ツー・シーケンスアーキテクチャを用いて、関連するドキュメントの識別子をエンドツーエンドで生成する。
生成的検索法と他の検索法との関係,特に密度の高い検索モデル内のマッチングに基づく検索法は,まだ完全には理解されていない。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
したがって、生成的検索は、階層的セマンティック識別子を使用する場合の高密度検索において、木インデックス内の階層的検索に類似した振舞いを示す。
しかし、先行研究は、生成的検索のデコーダ内での深い相互作用を考慮せずに、検索段階のみに焦点を当てている。
本稿では、生成的検索と多ベクトル密度検索が、文書のクエリとの関連性を測定するのと同じ枠組みを共有していることを示すことで、このギャップを埋める。
具体的には、生成的検索の注意層と予測ヘッドについて検討し、生成的検索が多ベクトル密度検索の特別な場合として理解できることを明らかにする。
どちらの手法も、クエリとドキュメントベクトルとアライメント行列の積の和として関連性を計算する。
次に、文書トークンベクトルとアライメント行列を計算するための異なる戦略を用いて、生成的検索がこのフレームワークをどのように適用するかを考察する。
両パラダイムがアライメント行列における項マッチングの共通性を示すことを示す実験を行った。
Generative retrieval generates identifiers of relevant documents in an end-to-end manner using a sequence-to-sequence architecture for a given query. The relation between generative retrieval and other retrieval methods, especially those based on matching within dense retrieval models, is not yet fully comprehended. Prior work has demonstrated that generative retrieval with atomic identifiers is equivalent to single-vector dense retrieval. Accordingly, generative retrieval exhibits behavior analogous to hierarchical search within a tree index in dense retrieval when using hierarchical semantic identifiers. However, prior work focuses solely on the retrieval stage without considering the deep interactions within the decoder of generative retrieval. In this paper, we fill this gap by demonstrating that generative retrieval and multi-vector dense retrieval share the same framework for measuring the relevance to a query of a document. Specifically, we examine the attention layer and prediction head of generative retrieval, revealing that generative retrieval can be understood as a special case of multi-vector dense retrieval. Both methods compute relevance as a sum of products of query and document vectors and an alignment matrix. We then explore how generative retrieval applies this framework, employing distinct strategies for computing document token vectors and the alignment matrix. We have conducted experiments to verify our conclusions and show that both paradigms exhibit commonalities of term matching in their alignment matrix. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 音声モデルのスケーリング特性
Scaling Properties of Speech Language Models ( http://arxiv.org/abs/2404.00685v1 ) ライセンス: Link先を確認 | Santiago Cuervo, Ricard Marxer, | (参考訳) 音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。
大幅な進歩にもかかわらず、現在のモデルでは構文と意味能力が弱い。
しかし、ニューラルネットワークモデルのスケーリング特性が音声モダリティを保っている場合、トレーニングに使用する計算量が増加するにつれて、これらの能力は向上する。
本稿では,このスケーリング行動モデルを用いて,テキストベース大規模言語モデル(LLM)の英語習熟度で,現在の手法がSLMを生成するスケールを推定する。
我々は,SLM と LLM における事前学習損失と下流構文と意味的性能との間に強い相関関係を確立し,言語性能の予測可能なスケーリングを実現する。
本研究では,SLMの言語的性能がテキストベースのLLMよりも3桁ほど遅いことを示す。
さらに、意味理解を促進するために設計された合成データの利点と、粗い音声トークン化の効果について検討する。
Speech Language Models (SLMs) aim to learn language from raw audio, without textual resources. Despite significant advances, our current models exhibit weak syntax and semantic abilities. However, if the scaling properties of neural language models hold for the speech modality, these abilities will improve as the amount of compute used for training increases. In this paper, we use models of this scaling behavior to estimate the scale at which our current methods will yield a SLM with the English proficiency of text-based Large Language Models (LLMs). We establish a strong correlation between pre-training loss and downstream syntactic and semantic performance in SLMs and LLMs, which results in predictable scaling of linguistic performance. We show that the linguistic performance of SLMs scales up to three orders of magnitude more slowly than that of text-based LLMs. Additionally, we study the benefits of synthetic data designed to boost semantic understanding and the effects of coarser speech tokenization. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 強化学習における価値関数の不確かさの促進を目的とした最大平均差バリーセンタの利用
Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning ( http://arxiv.org/abs/2404.00686v1 ) ライセンス: Link先を確認 | Srinjoy Roy, Swagatam Das, | (参考訳) 価値関数の不確実性の会計は、強化学習(RL)における探索を促進する。
本研究は,時間差(TD)更新時の不確実性伝搬に対するワッサースタインQラーニング(WQL)を改善するために,最大平均離散Qラーニング(MMD-QL)を提案する。
MMD-QLはこの目的のためにMDDバリーセンタを使用し、MDDはワッサーシュタイン距離よりも確率測度間の密接度を厳密に見積もっている。
まず, MMD-QL が平均損失量で MDP (PAC-MDP) のほぼ正当であることが確認された。
累積報酬に関して、表環境の実験では、MDD-QLがWQLやその他のアルゴリズムより優れていることが示されている。
次に、深層ネットワークをMDD-QLに組み込んで、MDD Q-Network(MMD-QN)を作成する。
妥当な仮定を仮定し,関数近似を用いてMDD-QNの収束速度を解析する。
Atariゲームにおける実験的な結果から,MDD-QNはベンチマークの深いRLアルゴリズムと比較して高い性能を示し,大きな状態対応空間を扱う上での有効性を強調した。
Accounting for the uncertainty of value functions boosts exploration in Reinforcement Learning (RL). Our work introduces Maximum Mean Discrepancy Q-Learning (MMD-QL) to improve Wasserstein Q-Learning (WQL) for uncertainty propagation during Temporal Difference (TD) updates. MMD-QL uses the MMD barycenter for this purpose, as MMD provides a tighter estimate of closeness between probability measures than the Wasserstein distance. Firstly, we establish that MMD-QL is Probably Approximately Correct in MDP (PAC-MDP) under the average loss metric. Concerning the accumulated rewards, experiments on tabular environments show that MMD-QL outperforms WQL and other algorithms. Secondly, we incorporate deep networks into MMD-QL to create MMD Q-Network (MMD-QN). Making reasonable assumptions, we analyze the convergence rates of MMD-QN using function approximation. Empirical results on challenging Atari games demonstrate that MMD-QN performs well compared to benchmark deep RL algorithms, highlighting its effectiveness in handling large state-action spaces. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# 共有アフィン部分空間における帯域でのメタ学習
Meta Learning in Bandits within Shared Affine Subspaces ( http://arxiv.org/abs/2404.00688v1 ) ライセンス: Link先を確認 | Steven Bilaj, Sofien Dhouib, Setareh Maghsudi, | (参考訳) 我々は,低次元アフィン部分空間の周囲の濃度を利用して,複数の文脈的確率的包帯課題をメタラーニングすることの課題について検討した。
本稿では,不確実性に直面した楽観主義の原理と,トンプソンサンプリングによる楽観主義の原理に基づいて,この問題を解決するための2つの戦略を提案し,理論的に分析する。
私たちのフレームワークは汎用的であり、これまで提案されていたアプローチを特殊なケースとして含んでいます。
さらに, 実験結果から, バンドイット作業における後悔度を著しく低下させることが示唆された。
We study the problem of meta-learning several contextual stochastic bandits tasks by leveraging their concentration around a low-dimensional affine subspace, which we learn via online principal component analysis to reduce the expected regret over the encountered bandits. We propose and theoretically analyze two strategies that solve the problem: One based on the principle of optimism in the face of uncertainty and the other via Thompson sampling. Our framework is generic and includes previously proposed approaches as special cases. Besides, the empirical results show that our methods significantly reduce the regret on several bandit tasks. | 翻訳日:2024-04-04 02:20:51 公開日:2024-03-31 |
# DMSSN:ハイパースペクトル塩物検出のための混合スペクトル空間ネットワーク
DMSSN: Distilled Mixed Spectral-Spatial Network for Hyperspectral Salient Object Detection ( http://arxiv.org/abs/2404.00694v1 ) ライセンス: Link先を確認 | Haolin Qin, Tingfa Xu, Peifu Liu, Jingxuan Xu, Jianan Li, | (参考訳) 特に従来のRGBベースのアプローチが不十分な複雑なシナリオでは、HSOD(Hyperspectral Salient Object Detection)は様々なアプリケーションで顕著な可能性を秘めている。
HSOD法の進歩は著しいが、2つの重要な課題はすぐに注意が必要である。
第一に、既存のハイパースペクトルデータ次元低減技術は、検出精度に悪影響を及ぼすスペクトル情報の損失をもたらす。
第2に,特徴抽出過程における高スペクトル像の特徴的特性(HSI)を,従来の手法では十分に活用できなかった。
これらの課題に対処するため, DMSSN (Distilled Mixed Spectral-Spatial Network) と呼ばれる新しい手法を提案し, スペクトル符号化プロセスとMSST (Mixed Spectral-Spatial Transformer) 機能抽出ネットワークを含む。
エンコーディングプロセスは知識蒸留を利用して次元縮小のための軽量オートエンコーダを構築し、ロバストエンコーディング能力と低計算コストのバランスを崩す。
MSSTは、複数の注目ヘッドグループを通してスペクトル空間の特徴を抽出し、複雑なシナリオに対する耐性を協調的に強化する。
さらに、この分野でのデータ不足の問題に対処し、深層ネットワークトレーニングの基本データ要件を満たすため、大規模なHSODデータセットHSOD-BITを作成しました。
大規模な実験により,提案したDMSSNは,複数のデータセット上で最先端の性能を実現することができた。
コードとデータセットをhttps://github.com/anonymous0519/HSOD-BITで公開します。
Hyperspectral salient object detection (HSOD) has exhibited remarkable promise across various applications, particularly in intricate scenarios where conventional RGB-based approaches fall short. Despite the considerable progress in HSOD method advancements, two critical challenges require immediate attention. Firstly, existing hyperspectral data dimension reduction techniques incur a loss of spectral information, which adversely affects detection accuracy. Secondly, previous methods insufficiently harness the inherent distinctive attributes of hyperspectral images (HSIs) during the feature extraction process. To address these challenges, we propose a novel approach termed the Distilled Mixed Spectral-Spatial Network (DMSSN), comprising a Distilled Spectral Encoding process and a Mixed Spectral-Spatial Transformer (MSST) feature extraction network. The encoding process utilizes knowledge distillation to construct a lightweight autoencoder for dimension reduction, striking a balance between robust encoding capabilities and low computational costs. The MSST extracts spectral-spatial features through multiple attention head groups, collaboratively enhancing its resistance to intricate scenarios. Moreover, we have created a large-scale HSOD dataset, HSOD-BIT, to tackle the issue of data scarcity in this field and meet the fundamental data requirements of deep network training. Extensive experiments demonstrate that our proposed DMSSN achieves state-of-the-art performance on multiple datasets. We will soon make the code and dataset publicly available on https://github.com/anonymous0519/HSOD-BIT. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# タブラルガンのプライバシ再識別攻撃
Privacy Re-identification Attacks on Tabular GANs ( http://arxiv.org/abs/2404.00696v1 ) ライセンス: Link先を確認 | Abdallah Alshantti, Adil Rasheed, Frank Westad, | (参考訳) 生成モデルは過度に適合し、トレーニングデータから機密情報を漏洩させる可能性がある。
この作品。
本稿では,表層合成データセットの作成にGAN(Generative Adversarial Network)を用いることによって生じる可能性のあるプライバシーリスクについて検討する。
本研究の目的は,合成データに対する再識別攻撃の効果,すなわち,最も近い合成レコードに近接して記憶されたトレーニングサンプルに対応すると予測されるサンプルを選択することを目的とした攻撃について分析することである。
そこで我々は、異なる攻撃者が、生成モデルと予測モデルに関する異なるアクセスレベルや知識を持つかもしれない複数の設定を検討し、どの情報がより成功した再識別攻撃を起動するのに最も有用かを評価する。
また,再同定攻撃が再構成攻撃として定式化される状況,すなわち,攻撃者が学習空間に近い合成サンプルの摂動に進化的多目的最適化を使用する状況についても考察する。
その結果, 記憶されたトレーニングサンプルを代表する合成サンプルを選択することで, 攻撃者が大きなプライバシーリスクを負う可能性が示唆された。
さらに、攻撃者が知識を持つか、生成モデルにブラックボックスアクセスを持つ場合、プライバシの脅威が著しく増加することに気付く。
また,多目的最適化による再建攻撃により,機密サンプルの特定リスクが高まることも見いだされた。
Generative models are subject to overfitting and thus may potentially leak sensitive information from the training data. In this work. we investigate the privacy risks that can potentially arise from the use of generative adversarial networks (GANs) for creating tabular synthetic datasets. For the purpose, we analyse the effects of re-identification attacks on synthetic data, i.e., attacks which aim at selecting samples that are predicted to correspond to memorised training samples based on their proximity to the nearest synthetic records. We thus consider multiple settings where different attackers might have different access levels or knowledge of the generative model and predictive, and assess which information is potentially most useful for launching more successful re-identification attacks. In doing so we also consider the situation for which re-identification attacks are formulated as reconstruction attacks, i.e., the situation where an attacker uses evolutionary multi-objective optimisation for perturbing synthetic samples closer to the training space. The results indicate that attackers can indeed pose major privacy risks by selecting synthetic samples that are likely representative of memorised training samples. In addition, we notice that privacy threats considerably increase when the attacker either has knowledge or has black-box access to the generative models. We also find that reconstruction attacks through multi-objective optimisation even increase the risk of identifying confidential samples. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# LLMはどの程度汚染されているか? : 総合調査とLCM衛生図書館
How Much are LLMs Contaminated? A Comprehensive Survey and the LLMSanitize Library ( http://arxiv.org/abs/2404.00699v1 ) ライセンス: Link先を確認 | Mathieu Ravaut, Bosheng Ding, Fangkai Jiao, Hailin Chen, Xingxuan Li, Ruochen Zhao, Chengwei Qin, Caiming Xiong, Shafiq Joty, | (参考訳) 近年のLarge Language Models(LLM)の台頭に伴い、新たな機会が生まれつつありますが、新たな課題や汚染が急速に深刻化しています。
ビジネスアプリケーションとAIの資金調達は、人気の高い質問回答ベンチマークで得られた数パーセントのポイントが数十万ドルに変換され、モデルの整合性に高い圧力がかかる規模に達している。
GPT-4やClaude-3のようなクローズドソースモデルでは、トレーニングセットに関する情報を漏らすことは不可能ではないが。
その結果、汚染は重要な問題となる: LLMの性能は、少なくとも部分的には、データへの以前の露出のために、もはや信頼性が低いかもしれない。
この制限は、NLPの分野全体の進歩を危険にさらすが、汚染を効果的に対処する方法や、汚染の予防、緩和、分類について明確なコンセンサスを欠いている。
本稿では, LLMによる汚染に関する最近の研究をすべて調査し, LLMSanitizeというオープンソースのPythonライブラリを, https://github.com/ntunlp/LLMSanitizeに実装することで, LLMの汚染レベル追跡を支援する。
With the rise of Large Language Models (LLMs) in recent years, new opportunities are emerging, but also new challenges, and contamination is quickly becoming critical. Business applications and fundraising in AI have reached a scale at which a few percentage points gained on popular question-answering benchmarks could translate into dozens of millions of dollars, placing high pressure on model integrity. At the same time, it is becoming harder and harder to keep track of the data that LLMs have seen; if not impossible with closed-source models like GPT-4 and Claude-3 not divulging any information on the training set. As a result, contamination becomes a critical issue: LLMs' performance may not be reliable anymore, as the high performance may be at least partly due to their previous exposure to the data. This limitation jeopardizes the entire progress in the field of NLP, yet, there remains a lack of methods on how to efficiently address contamination, or a clear consensus on prevention, mitigation and classification of contamination. In this paper, we survey all recent work on contamination with LLMs, and help the community track contamination levels of LLMs by releasing an open-source Python library named LLMSanitize implementing major contamination detection algorithms, which link is: https://github.com/ntunlp/LLMSanitize. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# LLMスーパービジョンによる無訓練セマンティックセマンティックセグメンテーション
Training-Free Semantic Segmentation via LLM-Supervision ( http://arxiv.org/abs/2404.00701v1 ) ライセンス: Link先を確認 | Wenfang Sun, Yingjun Du, Gaowen Liu, Ramana Kompella, Cees G. M. Snoek, | (参考訳) CLIPのようなオープン語彙モデルの最近の進歩は、クラス固有の埋め込みに自然言語を活用することにより、ゼロショット分類とセグメンテーションが著しく進歩している。
しかし、ほとんどの研究は、素早い工学、素早い学習、限られたラベル付きデータによる微調整によるモデル精度の向上に重点を置いており、クラス記述子を書き換えることの重要性を見越している。
本稿では,大規模言語モデル (LLM) を用いたテキスト教師ありセマンティックセマンティックセマンティクスへの新たなアプローチを提案する。
我々の手法は GPT-3 のような LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用し、その結果、各サブクラスの固有の特徴に合わせた多様なセマンティクス結果を得る。
さらに,各サブクラス記述子からのセグメンテーションマップをマージして,テスト画像のさまざまな側面をより包括的に表現するアセンブリを提案する。
3つの標準ベンチマークに関する総合的な実験を通じて、本手法は従来のテキスト教師ありセマンティックセグメンテーション法よりも有意なマージンで優れている。
Recent advancements in open vocabulary models, like CLIP, have notably advanced zero-shot classification and segmentation by utilizing natural language for class-specific embeddings. However, most research has focused on improving model accuracy through prompt engineering, prompt learning, or fine-tuning with limited labeled data, thereby overlooking the importance of refining the class descriptors. This paper introduces a new approach to text-supervised semantic segmentation using supervision by a large language model (LLM) that does not require extra training. Our method starts from an LLM, like GPT-3, to generate a detailed set of subclasses for more accurate class representation. We then employ an advanced text-supervised semantic segmentation model to apply the generated subclasses as target labels, resulting in diverse segmentation results tailored to each subclass's unique characteristics. Additionally, we propose an assembly that merges the segmentation maps from the various subclass descriptors to ensure a more comprehensive representation of the different aspects in the test images. Through comprehensive experiments on three standard benchmarks, our method outperforms traditional text-supervised semantic segmentation methods by a marked margin. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# 唯一のLacunaである未知のPrompt:オープンドメインの一般化へのCLIPの可能性
Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization ( http://arxiv.org/abs/2404.00710v1 ) ライセンス: Link先を確認 | Mainak Singha, Ankit Jha, Shirsha Bose, Ashwin Nair, Moloud Abdar, Biplab Banerjee, | (参考訳) トレーニングのラベル付きソースとテストのラベルなしターゲットドメインの間のドメインとカテゴリのシフトが特徴です。
既存のODGのソリューションは、従来のCNNバックボーンの制約付き一般化と、事前の知識がなければ対象のオープンサンプルを検出する際のエラーにより制限に直面している。
これらの落とし穴に対処するために、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを導入する。
まず、広く普及しているパラダイムとは別個に、ODGを既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化します。
提案手法では,未知のクラスサンプルを検出するためのユニークなプロンプトをモデル化し,これを訓練するために,オープンクラスのプロキシイメージをエレガントに生成する,アクセスしやすい安定拡散モデルを用いる。
第二に、精度と単純性のバランスを確保しつつ、ドメインに適した分類(prompt)の重み付けを目指して、新しい視覚スタイル中心の素早い学習機構を考案する。
最後に,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識を画像に注入する。
本稿では,ドメイン間,特に共有クラス間の情報伝達の連続性を保護するための新しい目標を提案する。
クローズドおよびオープンセットのDGコンテキストをカバーする、さまざまなデータセットの厳格なテストを通じて、ODG-CLIPは明確な優位性を示し、パフォーマンスが8%-16%向上したピアを一貫して上回っている。
コードはhttps://github.com/mainaksingha01/ODG-CLIPで入手できる。
We delve into Open Domain Generalization (ODG), marked by domain and category shifts between training's labeled source and testing's unlabeled target domains. Existing solutions to ODG face limitations due to constrained generalizations of traditional CNN backbones and errors in detecting target open samples in the absence of prior knowledge. Addressing these pitfalls, we introduce ODG-CLIP, harnessing the semantic prowess of the vision-language model, CLIP. Our framework brings forth three primary innovations: Firstly, distinct from prevailing paradigms, we conceptualize ODG as a multi-class classification challenge encompassing both known and novel categories. Central to our approach is modeling a unique prompt tailored for detecting unknown class samples, and to train this, we employ a readily accessible stable diffusion model, elegantly generating proxy images for the open class. Secondly, aiming for domain-tailored classification (prompt) weights while ensuring a balance of precision and simplicity, we devise a novel visual stylecentric prompt learning mechanism. Finally, we infuse images with class-discriminative knowledge derived from the prompt space to augment the fidelity of CLIP's visual embeddings. We introduce a novel objective to safeguard the continuity of this infused semantic intel across domains, especially for the shared classes. Through rigorous testing on diverse datasets, covering closed and open-set DG contexts, ODG-CLIP demonstrates clear supremacy, consistently outpacing peers with performance boosts between 8%-16%. Code will be available at https://github.com/mainaksingha01/ODG-CLIP. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# コンピュータ適応テストに関する調査--機械学習の視点から
Survey of Computerized Adaptive Testing: A Machine Learning Perspective ( http://arxiv.org/abs/2404.00712v1 ) ライセンス: Link先を確認 | Qi Liu, Yan Zhuang, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong Chen, | (参考訳) コンピュータ適応テスト(Computerized Adaptive Testing, CAT)は, 被験者の能力を評価するための, 効率よく調整された手法である。
教育、医療、スポーツ、社会学といった様々な分野に広く採用されているCATは、テストプラクティスに革命をもたらした。
従来の手法は心理測定と統計に頼っているが、大規模なテストの複雑さが増し、機械学習技術の統合が加速した。
本稿では,この適応テスト手法に対する新たな視点を提示し,機械学習に着目したCATに関する調査を行うことを目的とする。
CATの適応性の中心にあるテスト質問選択アルゴリズムを調べることで、我々はその機能に光を当てた。
さらに、認知診断モデル、質問銀行の構築、CAT内のテスト制御について調べ、機械学習がこれらのコンポーネントをどのように最適化できるかを探求する。
現在の手法、強度、限界、課題を分析して、堅牢で公正で効率的なCATシステムを開発する。
この調査は、心理測定駆動のCAT研究を機械学習でブリッジすることで、適応テストの未来に対するより包括的で学際的なアプローチを提唱する。
Computerized Adaptive Testing (CAT) provides an efficient and tailored method for assessing the proficiency of examinees, by dynamically adjusting test questions based on their performance. Widely adopted across diverse fields like education, healthcare, sports, and sociology, CAT has revolutionized testing practices. While traditional methods rely on psychometrics and statistics, the increasing complexity of large-scale testing has spurred the integration of machine learning techniques. This paper aims to provide a machine learning-focused survey on CAT, presenting a fresh perspective on this adaptive testing method. By examining the test question selection algorithm at the heart of CAT's adaptivity, we shed light on its functionality. Furthermore, we delve into cognitive diagnosis models, question bank construction, and test control within CAT, exploring how machine learning can optimize these components. Through an analysis of current methods, strengths, limitations, and challenges, we strive to develop robust, fair, and efficient CAT systems. By bridging psychometric-driven CAT research with machine learning, this survey advocates for a more inclusive and interdisciplinary approach to the future of adaptive testing. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# Neural Radiance Field-based Visual Rendering: A Comprehensive Review
Neural Radiance Field-based Visual Rendering: A Comprehensive Review ( http://arxiv.org/abs/2404.00714v1 ) ライセンス: Link先を確認 | Mingyuan Yao, Yukang Huo, Yang Ran, Qingbin Tian, Ruifeng Wang, Haihua Wang, | (参考訳) 近年,Neural Radiance Fields (NeRF) はコンピュータビジョンとグラフィックスの分野において顕著な進歩を遂げており,3次元シーン理解,新たな視点合成,人体再構築,ロボット工学などの重要な課題を解決するための強力な技術サポートを提供している。
革命的な神経暗黙の場表現として、NeRFは学術界で継続的な研究ブームを引き起こしている。
そこで本研究の目的は,過去2年間にNeRFに関する研究文献を詳細に分析し,創出研究者の総合的な学術的視点を提供することである。
本稿では,NeRFのコアアーキテクチャについて概説し,その後,さまざまなアプリケーションシナリオにおけるNeRFのさまざまな改善戦略や,さまざまな領域におけるその実用性を実証したケーススタディについて述べる。
データセットと評価指標の観点からは、NeRFモデルのトレーニングに必要な重要なリソースについて詳述する。
最後に,NeRFの今後の発展動向と今後の課題について,この分野の研究者に研究インスピレーションを与え,関連技術のさらなる発展を促進することを目的として,将来的な議論を行う。
In recent years, Neural Radiance Fields (NeRF) has made remarkable progress in the field of computer vision and graphics, providing strong technical support for solving key tasks including 3D scene understanding, new perspective synthesis, human body reconstruction, robotics, and so on, the attention of academics to this research result is growing. As a revolutionary neural implicit field representation, NeRF has caused a continuous research boom in the academic community. Therefore, the purpose of this review is to provide an in-depth analysis of the research literature on NeRF within the past two years, to provide a comprehensive academic perspective for budding researchers. In this paper, the core architecture of NeRF is first elaborated in detail, followed by a discussion of various improvement strategies for NeRF, and case studies of NeRF in diverse application scenarios, demonstrating its practical utility in different domains. In terms of datasets and evaluation metrics, This paper details the key resources needed for NeRF model training. Finally, this paper provides a prospective discussion on the future development trends and potential challenges of NeRF, aiming to provide research inspiration for researchers in the field and to promote the further development of related technologies. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# 量子ブラックホールにおけるエンタングルメントエントロピー
Entanglement entropy in quantum black holes ( http://arxiv.org/abs/2404.00715v1 ) ライセンス: Link先を確認 | Alessio Belfiglio, Orlando Luongo, Stefano Mancini, Sebastiano Tomasi, | (参考訳) 2つのシュワルツシルト型量子ブラックホール時空におけるクライン=ゴルドン場の絡み合いエントロピーについて論じ、背景スカラー曲率と最小結合項を含む。
エンタングルメントエントロピーを計算するために, 仮想空間内に存在する自由度を追従する標準的な球殻離散化法から始める。
我々は、ハイゼンベルクの不確実性原理に基づく単純な物理引数を用いて、そのような量子メトリクスの自由パラメータを、漸近的安全性、トレース異常、重力子体スケーリングなどの代替提案とともに推定する。
その結果,量子メトリクスの起源付近の領域法則と比較して,エントロピーが著しく低下していることが判明した。
どちらのシナリオでも、絡み合いエントロピーは、原点から十分に遠い領域法則に収束する。
次に、これらの結果と正規ヘイワードと修正ヘイワード時空のエントロピースケーリングを比較して、そのような正規アプローチの主な違いを明らかにする。
We discuss the entanglement entropy for a massive Klein-Gordon field in two Schwarzschild-like quantum black hole spacetimes, also including a nonminimal coupling term with the background scalar curvature. To compute the entanglement entropy, we start from the standard spherical shell discretisation procedure, tracing over the degrees of freedom residing inside an imaginary surface. We estimate the free parameters for such quantum metrics through a simple physical argument based on Heisenberg uncertainty principle, along with alternative proposals as asymptotic safety, trace anomaly, and graviton corpuscular scaling. Our findings reveal a significant decrease in entropy compared to the area law near the origin for the quantum metrics. In both scenarios, the entanglement entropy converges to the expected area law sufficiently far from the origin. We then compare these results to the entropy scaling in regular Hayward and corrected-Hayward spacetimes to highlight the main differences with such regular approaches. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# V2X連携によるエンド・ツー・エンド自動運転
End-to-End Autonomous Driving through V2X Cooperation ( http://arxiv.org/abs/2404.00717v1 ) ライセンス: Link先を確認 | Haibao Yu, Wenxian Yang, Jiaru Zhong, Zhenwei Yang, Siqi Fan, Ping Luo, Zaiqing Nie, | (参考訳) 先進的な自律運転のための有望なアプローチとして,自走車とV2X通信によるインフラセンサデータの協調利用が出現している。
しかし、現在の研究では、最終的な計画性能を最適化するためにエンドツーエンドの学習を採用するのではなく、個々のモジュールの改善に重点を置いている。
本稿では,UniV2Xについて紹介する。UniV2Xは,多様なビューにまたがる全てのキー駆動モジュールをシームレスに統合し,統合されたネットワークに組み込む,先駆的な自律運転フレームワークである。
車両とインフラの効果的な連携のための疎密度ハイブリッドデータ伝送と融合機構を提案し,その利点を3つ挙げる。
1) エージェント認識, オンラインマッピング, 占有率予測を同時に強化し, 最終的に計画性能を向上する。
2)実用的・限られた通信条件に優しい送信システム。
3) このハイブリッドデータの解釈可能性を備えた信頼性のあるデータ融合。
我々は、実際の協調運転データセットであるDAIR-V2Xに挑戦する上で、UniV2Xといくつかのベンチマークメソッドを再現する。
実験の結果,UniV2Xは計画性能と中間出力性能を大幅に向上させることができた。
コードはhttps://github.com/AIR-THU/UniV2Xにある。
Cooperatively utilizing both ego-vehicle and infrastructure sensor data via V2X communication has emerged as a promising approach for advanced autonomous driving. However, current research mainly focuses on improving individual modules, rather than taking end-to-end learning to optimize final planning performance, resulting in underutilized data potential. In this paper, we introduce UniV2X, a pioneering cooperative autonomous driving framework that seamlessly integrates all key driving modules across diverse views into a unified network. We propose a sparse-dense hybrid data transmission and fusion mechanism for effective vehicle-infrastructure cooperation, offering three advantages: 1) Effective for simultaneously enhancing agent perception, online mapping, and occupancy prediction, ultimately improving planning performance. 2) Transmission-friendly for practical and limited communication conditions. 3) Reliable data fusion with interpretability of this hybrid data. We implement UniV2X, as well as reproducing several benchmark methods, on the challenging DAIR-V2X, the real-world cooperative driving dataset. Experimental results demonstrate the effectiveness of UniV2X in significantly enhancing planning performance, as well as all intermediate output performance. Code is at https://github.com/AIR-THU/UniV2X. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# 密度汎関数理論による超電導構成の解明
Revealing Symmetry-broken Superconducting Configurations by Density Functional Theory ( http://arxiv.org/abs/2404.00719v1 ) ライセンス: Link先を確認 | Zi-Kui Liu, Shun-Li Shang, | (参考訳) 現在、従来の超伝導体と非伝統的な超伝導体のコヒーレント理論は欠落している。
ここでは,Al,YBa2Cu3O7(YBCO),LaH10,Pb,Nb3Snの電子電荷密度が,密度汎関数理論(DFT)に基づく第一原理計算によって予測されるそれぞれの超伝導構成(SCC)において,電子電荷ゲインの同じ特徴を共有することを示す。
SCCsの形成は、通常の伝導配置(NCCs)から局所対称性が破れるためであり、SCCsの電子電荷ゲインは、ポントンに似た結晶に電子トンネルを形成しており、ここでは電子ポントントンネル(EPT)と呼ばれる。
従来の超伝導体におけるETPの形成を促進する核は、他の原子核と強い結合を持ち、その結果、ETPは破壊されやすく、超伝導臨界温度(Tc)が低いが、非伝統的な超伝導体では、YBCOの負の伸張力定数によって示されるように非常に弱い。
SCCの基本的な理解とDFTによる予測能力により、実験モデルなしで室温超伝導体を理論的に探索することができる。
A coherent theory for both conventional and unconventional superconductors is currently lacking. Here we show that the electron charge densities of Al, YBa2Cu3O7 (YBCO), and LaH10 along with Pb and Nb3Sn share the same feature of electron charge gains in their respective superconducting configurations (SCCs) predicted by first-principles calculations based on the density functional theory (DFT). It is discovered that the formation of SCCs is due to the local symmetry breaking from their normal conducting configurations (NCCs), and the electron charge gains in SCCs form electron tunnels in crystals that resemble pontoons, thus termed as electron pontoon tunnel (EPT) here. The nuclei promoting the formation of EPTs in conventional superconductors have strong bonding with other nuclei, resulting in their EPTs easily destroyed and thus low superconducting critical temperature (Tc), while in unconventional superconductor, this bonding is very weak as shown by negative stretching force constants in YBCO, thus resulting in much higher Tc. The fundamental understanding of SCCs and the capability to predict them by DFT enable theoretical search of room temperature superconductors without empirical models. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# Squeezed Magnomechanics を用いた量子弱力センシング
Quantum Weak Force Sensing with Squeezed Magnomechanics ( http://arxiv.org/abs/2404.00723v1 ) ライセンス: Link先を確認 | Qian Zhang, Jie Wang, Tian-Xiang Lu, Franco Nori, Hui Jing, | (参考訳) キャビティ・マグノメカニクスは、卓越した実験的なチューニング性、豊富なマグノニクスの非線形性、および様々な量子システムとの互換性を示しており、近年かなりの進歩を見せている。
しかし、弱力に対する量子増強センシングの性能向上にキャビティ・マグノメカニカル(CMM)システムを使うことの潜在的な利点は、まだ明らかにされていない。
ここでは、量子CMMセンサの性能が標準量子限界(SQL)を超え、マグノンをスクイーズすることで著しく向上できることを示す。
比較パラメータでは, マグノンスクイーズを伴わない場合と比較して, 力の感度向上の2つの順序が達成できることが判明した。
さらに、加算量子雑音を最小化するために、ホモダイン角の最適パラメータ構造を示す。
我々の研究は、量子精度の測定から量子情報処理まで幅広い応用が考えられるハイブリッドCMMデバイスを用いた、高度に調整可能で互換性のある量子力センシングのための有望なアプローチを提供する。
Cavity magnomechanics, exhibiting remarkable experimental tunability, rich magnonic nonlinearities, and compatibility with various quantum systems, has witnessed considerable advances in recent years. However, the potential benefits of using cavity magnomechanical (CMM) systems in further improving the performance of quantum-enhanced sensing for weak forces remain largely unexplored. Here we show that the performance of a quantum CMM sensor can be significantly enhanced beyond the standard quantum limit (SQL), by squeezing the magnons. We find that, for comparable parameters, two orders of enhancement in force sensitivity can be achieved in comparison with the case without the magnon squeezing. Moreover, we show optimal parameter regimes of homodyne angle for minimizing added quantum noise. Our findings provide a promising approach for highly tunable and compatible quantum force sensing using hybrid CMM devices, with potential applications ranging from quantum precision measurements to quantum information processing. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# クラス非依存分布アライメントによる絶対統一型マルチクラス異常検出
Absolute-Unified Multi-Class Anomaly Detection via Class-Agnostic Distribution Alignment ( http://arxiv.org/abs/2404.00724v1 ) ライセンス: Link先を確認 | Jia Guo, Shuai Lu, Weihang Zhang, Huiqi Li, | (参考訳) 従来の教師なし異常検出(UAD)メソッドは、各オブジェクトカテゴリごとに別々のモデルを構築する。
近年の研究では、複数のクラス、すなわちモデル統一 UAD に対する統一モデルのトレーニングが提案されている。
しかし、これらの手法は、画像カテゴリが完全に利用できない場合、各異常判定しきい値の推論中に、各クラスに個別に統一モデルを実装する。
本研究では,クラス情報を一切含まない複数クラス異常検出,すなわちtextit{absolute-unified} UADに対処する,単純かつ強力な手法を提案する。
この困難な環境では、さまざまなオブジェクトが異常スコアの分布をミスマッチさせています。
クラス情報を知ることなく,各暗黙のクラス毎のスコア分布を一致させるクラス非依存分布アライメント(CADA, Class-Agnostic Distribution Alignment)を提案する。
CADAの本質は、このクラスの任意の画像、正常または異常なサンプルのそれぞれのクラスのスコア分布を予測することである。
一般的なコンポーネントとして、CADAは絶対統一設定の下でほぼ全てのUADメソッドのポテンシャルを活性化することができる。
我々のアプローチは、MVTec AD と VisA という2つの人気のある UAD ベンチマークデータセットに対して提案された設定の下で広く評価されている。
Conventional unsupervised anomaly detection (UAD) methods build separate models for each object category. Recent studies have proposed to train a unified model for multiple classes, namely model-unified UAD. However, such methods still implement the unified model separately on each class during inference with respective anomaly decision thresholds, which hinders their application when the image categories are entirely unavailable. In this work, we present a simple yet powerful method to address multi-class anomaly detection without any class information, namely \textit{absolute-unified} UAD. We target the crux of prior works in this challenging setting: different objects have mismatched anomaly score distributions. We propose Class-Agnostic Distribution Alignment (CADA) to align the mismatched score distribution of each implicit class without knowing class information, which enables unified anomaly detection for all classes and samples. The essence of CADA is to predict each class's score distribution of normal samples given any image, normal or anomalous, of this class. As a general component, CADA can activate the potential of nearly all UAD methods under absolute-unified setting. Our approach is extensively evaluated under the proposed setting on two popular UAD benchmark datasets, MVTec AD and VisA, where we exceed previous state-of-the-art by a large margin. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# より大きなもの? 予算再配置によるLLMコード生成の改善
The Larger the Better? Improved LLM Code-Generation via Budget Reallocation ( http://arxiv.org/abs/2404.00725v1 ) ライセンス: Link先を確認 | Michael Hassid, Tal Remez, Jonas Gehring, Roy Schwartz, Yossi Adi, | (参考訳) 大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。
しかし、より大きなモデルでは推論の時間と計算時間もかなり必要である。
両方のモデルが同じ予算の下で動作した場合、どうなるのか?
(例えば、計算、実行時)。
この問題に対処するために、我々は様々なサイズのコード生成LLMを分析し、70Bモデルを一度実行した場合と、13Bモデルから5つの出力を生成して1つを選択する場合の比較を行う。
その結果, 標準の単体テストでは, 小型モデルの繰り返し使用により, 5つのタスクで最大15%向上し, 一貫した改善が得られることがわかった。
一方、単体テストが利用できないシナリオでは、より小さなモデルからの候補のランキングベースの選択は、より大きなモデルからの単一出力のパフォーマンスに劣る。
この結果から,より大きなモデルではなく,より小さなモデルを採用する可能性や,LLM出力のランク付け方法の研究の重要性が浮き彫りになった。
It is a common belief that large language models (LLMs) are better than smaller-sized ones. However, larger models also require significantly more time and compute during inference. This begs the question: what happens when both models operate under the same budget? (e.g., compute, run-time). To address this question, we analyze code generation LLMs of various sizes and make comparisons such as running a 70B model once vs. generating five outputs from a 13B model and selecting one. Our findings reveal that, in a standard unit-test setup, the repeated use of smaller models can yield consistent improvements, with gains of up to 15% across five tasks. On the other hand, in scenarios where unit-tests are unavailable, a ranking-based selection of candidates from the smaller model falls short of the performance of a single output from larger ones. Our results highlight the potential of using smaller models instead of larger ones, and the importance of studying approaches for ranking LLM outputs. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# MugenNet: 新たな畳み込みニューラルネットワークとトランスフォーマーネットワークの併用と植民地ポリプ画像分割への応用
MugenNet: A Novel Combined Convolution Neural Network and Transformer Network with its Application for Colonic Polyp Image Segmentation ( http://arxiv.org/abs/2404.00726v1 ) ライセンス: Link先を確認 | Chen Peng, Zhiqin Qian, Kunyu Wang, Qi Luo, Zhuming Bi, Wenjun Zhang, | (参考訳) バイオメディカルイメージセグメンテーションは、疾患の診断において非常に重要な部分である。
大腸ポリープ(英:colonic polyps)とは、大腸腔内の大腸粘膜表面に発生するポリポイド病変のこと。
臨床では大腸内視鏡検査および生医学的画像処理により早期にポリープの検出を行う。
したがって,大腸内視鏡検査では,正確なポリープ画像分割が重要である。
畳み込みニューラルネットワーク(CNN)は、一般的な自動セグメンテーション手法であるが、その主な欠点は長い訓練時間である。
トランスフォーマーは、本質的に異なる重み付けを各情報に割り当てるセルフアテンション機構を利用し、セグメンテーション中に高い計算効率を達成する。
しかし、潜在的な欠点は情報損失のリスクである。
本稿では,CNNとTransformerを併用して両者の強度を維持する手法を提案し,この手法を用いて,大腸ポリープ画像分割のための MugenNet というシステムを構築した。
5つの公開データセット上で,MugenNetと他のCNNモデルを比較するための総合的な実験を行った。
MugentNetのアブレーション実験も行われた。
実験の結果,MuginNetはCNN単独に比べて処理速度と精度が著しく向上していることがわかった。
我々の研究における一般化された意味は、機械学習の2つの補完的手法を最適に組み合わせる方法である。
Biomedical image segmentation is a very important part in disease diagnosis. The term "colonic polyps" refers to polypoid lesions that occur on the surface of the colonic mucosa within the intestinal lumen. In clinical practice, early detection of polyps is conducted through colonoscopy examinations and biomedical image processing. Therefore, the accurate polyp image segmentation is of great significance in colonoscopy examinations. Convolutional Neural Network (CNN) is a common automatic segmentation method, but its main disadvantage is the long training time. Transformer utilizes a self-attention mechanism, which essentially assigns different importance weights to each piece of information, thus achieving high computational efficiency during segmentation. However, a potential drawback is the risk of information loss. In the study reported in this paper, based on the well-known hybridization principle, we proposed a method to combine CNN and Transformer to retain the strengths of both, and we applied this method to build a system called MugenNet for colonic polyp image segmentation. We conducted a comprehensive experiment to compare MugenNet with other CNN models on five publicly available datasets. The ablation experiment on MugentNet was conducted as well. The experimental results show that MugenNet achieves significantly higher processing speed and accuracy compared with CNN alone. The generalized implication with our work is a method to optimally combine two complimentary methods of machine learning. | 翻訳日:2024-04-04 02:11:04 公開日:2024-03-31 |
# 干渉分解モデルの再評価
A Controlled Reevaluation of Coreference Resolution Models ( http://arxiv.org/abs/2404.00727v1 ) ライセンス: Link先を確認 | Ian Porada, Xiyuan Zou, Jackie Chi Kit Cheung, | (参考訳) すべての最先端コア参照解決(CR)モデルは、事前訓練された言語モデルを微調整する。
1つのCRモデルの優れた性能は、言語モデルの選択によるものか、タスク固有のアーキテクチャのような他の要因によるものか、標準化された実験装置がないため決定が難しいか、あるいは不可能である。
この曖昧さを解決するため、5つのCRモデルを体系的に評価し、それぞれが使用する事前学習言語モデルを含む設計決定の制御を行う。
言語モデルのサイズを制御する場合、エンコーダベースのCRモデルは、精度と推論速度の両方の観点から、より最近のデコーダベースのモデルより優れている。
驚いたことに、エンコーダベースのCRモデルの中で、より最近のモデルは必ずしも正確ではない。
我々は,過去5年間に報告されたF1スコアの増加により,言語モデルの選択に対する制御がほとんどだが,すべてではないと結論付けている。
All state-of-the-art coreference resolution (CR) models involve finetuning a pretrained language model. Whether the superior performance of one CR model over another is due to the choice of language model or other factors, such as the task-specific architecture, is difficult or impossible to determine due to lack of a standardized experimental setup. To resolve this ambiguity, we systematically evaluate five CR models and control for certain design decisions including the pretrained language model used by each. When controlling for language model size, encoder-based CR models outperform more recent decoder-based models in terms of both accuracy and inference speed. Surprisingly, among encoder-based CR models, more recent models are not always more accurate, and the oldest CR model that we test generalizes the best to out-of-domain textual genres. We conclude that controlling for the choice of language model reduces most, but not all, of the increase in F1 score reported in the past five years. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# 機械学習アプリケーションに関する若者の日常的理解を探る:知識と知識の視点
Investigating Youths' Everyday Understanding of Machine Learning Applications: a Knowledge-in-Pieces Perspective ( http://arxiv.org/abs/2404.00728v1 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Yasmin B. Kafai, | (参考訳) 近年、K-12教育に人工知能(AI)リテラシーを取り入れることを求める声が上がっているが、機械学習(ML)に関する若者の日常的な知識を研究するのに十分な注意が払われていない。
ほとんどの研究は、若者がAI/MLシステムにインテリジェンスをどう当てはめるかを調べてきた。
他の研究は、MLに関する若者の理論と仮説に焦点を合わせ、その誤解とこれらが学習を妨げる可能性があることを強調している。
しかし、概念的変化の研究は、若者が科学的現象に関する一貫性のある理論を持っておらず、形式的な学習のために生産的な知識があることを示している。
本研究では,10代におけるMLの日常的理解について,ナレッジ・イン・ピースの観点から検討する。
分析の結果,若年者はMLアプリケーションが学習データから学習し,アプリケーションが入力データのパターンを認識し,それに応じて異なる出力を提供するという理解を示した。
これらの知見が、MLに若者を導入するためのツールや活動の設計において、私たちの知識基盤と意味をいかに拡張するかについて議論する。
Despite recent calls for including artificial intelligence (AI) literacy in K-12 education, not enough attention has been paid to studying youths' everyday knowledge about machine learning (ML). Most research has examined how youths attribute intelligence to AI/ML systems. Other studies have centered on youths' theories and hypotheses about ML highlighting their misconceptions and how these may hinder learning. However, research on conceptual change shows that youths may not have coherent theories about scientific phenomena and instead have knowledge pieces that can be productive for formal learning. We investigate teens' everyday understanding of ML through a knowledge-in-pieces perspective. Our analyses reveal that youths showed some understanding that ML applications learn from training data and that applications recognize patterns in input data and depending on these provide different outputs. We discuss how these findings expand our knowledge base and implications for the design of tools and activities to introduce youths to ML. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# データインプットの欠如を考慮した分散型出力の非パラメトリックエンドツーエンド確率予測
Nonparametric End-to-End Probabilistic Forecasting of Distributed Generation Outputs Considering Missing Data Imputation ( http://arxiv.org/abs/2404.00729v1 ) ライセンス: Link先を確認 | Minghui Chen, Zichao Meng, Yanping Liu, Longbo Luo, Ye Guo, Kang Wang, | (参考訳) 本稿では,分散再生可能出力の確率予測のための非パラメトリックなエンドツーエンド手法を提案する。
まず,長期記憶(LSTM)ネットワークを用いた非パラメトリック確率予測モデルを用いて,分散再生世代出力の確率分布をモデル化する。
第2に,反復的インプットと反復的損失に基づくトレーニング手順を通じて,データインプットの欠如を含むエンドツーエンドのトレーニングプロセスを設計する。
この2段階モデリングアプローチは、非パラメトリック手法の強度とエンドツーエンドアプローチを効果的に組み合わせている。
提案手法は, 分散再生可能世代の出力の確率予測において, 欠落した値を効果的に処理し, 異常な性能を示すものである。
シミュレーションの結果,既存の代替案と比較して,提案手法の優れた性能が確認された。
In this paper, we introduce a nonparametric end-to-end method for probabilistic forecasting of distributed renewable generation outputs while including missing data imputation. Firstly, we employ a nonparametric probabilistic forecast model utilizing the long short-term memory (LSTM) network to model the probability distributions of distributed renewable generations' outputs. Secondly, we design an end-to-end training process that includes missing data imputation through iterative imputation and iterative loss-based training procedures. This two-step modeling approach effectively combines the strengths of the nonparametric method with the end-to-end approach. Consequently, our approach demonstrates exceptional capabilities in probabilistic forecasting for the outputs of distributed renewable generations while effectively handling missing values. Simulation results confirm the superior performance of our approach compared to existing alternatives. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# 因果メディエーション分析のための2段階ニュアンス関数推定
Two-Stage Nuisance Function Estimation for Causal Mediation Analysis ( http://arxiv.org/abs/2404.00735v1 ) ライセンス: Link先を確認 | AmirEmad Ghassami, | (参考訳) メディション関数の作用関数に基づく推定器を用いて直接的および間接的因果効果を推定する場合、治療のどの側面、メディエーター、および結果平均メカニズムに焦点を当てるべきかを理解することが重要である。
特に、これらをニュアンス関数として考慮し、これらのニュアンス関数を可能な限り正確に適合させようとするというのは、必ずしも最善のアプローチではない。
本研究では,媒介関数の作用関数に基づく推定器のバイアスの構造において,それらが果たす役割に基づいてニュアンス関数を推定する2段階のニュアンス関数推定手法を提案する。
提案手法のロバスト性解析と,興味パラメータの推定器の整合性および漸近正規性に関する十分な条件について述べる。
When estimating the direct and indirect causal effects using the influence function-based estimator of the mediation functional, it is crucial to understand what aspects of the treatment, the mediator, and the outcome mean mechanisms should be focused on. Specifically, considering them as nuisance functions and attempting to fit these nuisance functions as accurate as possible is not necessarily the best approach to take. In this work, we propose a two-stage estimation strategy for the nuisance functions that estimates the nuisance functions based on the role they play in the structure of the bias of the influence function-based estimator of the mediation functional. We provide robustness analysis of the proposed method, as well as sufficient conditions for consistency and asymptotic normality of the estimator of the parameter of interest. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# 平面バンドRydberg格子におけるアハロノフ-ボームケージングの相互作用駆動分解
Interaction-driven breakdown of Aharonov--Bohm caging in flat-band Rydberg lattices ( http://arxiv.org/abs/2404.00737v1 ) ライセンス: Link先を確認 | Tao Chen, Chenxi Huang, Ivan Velkovsky, Tomoki Ozawa, Hannah Price, Jacob P. Covey, Bryce Gadway, | (参考訳) フラットバンドは、ツイストされた二層グラフェンの突発的な絶縁状態から、フラストレーションされた磁石や量子ホールの材料に見られる分画化された励起まで、多くの凝縮物質系において、物質の創発的な状態をホストする中心的な役割を担っている。
ここでは、強く相互作用するリドベルク原子に代表される高度に調整可能なフラットバンドモデルの実験的実現について報告する。
合成次元のアプローチを用いて、ツイスト境界を持つ平らなバンドロンボック格子を設計し、非平衡力学により、可変のU(1)$ゲージ場を介してAharonov--Bohm (AB)ケージの制御を探索する。
ライドバーグ対の顕微鏡的測定を通して、格子バンドを混合する強い双極子相互作用の限界におけるABケージの相互作用駆動分解を探索する。
キャジングが持続する弱い相互作用の限界において、縮退したフラットバンド状態の相互作用駆動混合によって生じる有効磁性を観察する。
これらの強く相関したフラットバンド力学の観測は、合成量子材料における新しい創発現象の探索への扉を開く。
Flat bands play a central role in hosting emergent states of matter in many condensed matter systems, from the nascent insulating states of twisted bilayer graphene to the fractionalized excitations found in frustrated magnets and quantum Hall materials. Here, we report on the experimental realization of highly tunable flat-band models populated by strongly interacting Rydberg atoms. Using the approach of synthetic dimensions, we engineer a flat-band rhombic lattice with twisted boundaries, and through nonequilibrium dynamics we explore the control of Aharonov--Bohm (AB) caging via a tunable $U(1)$ gauge field. Through microscopic measurements of Rydberg pairs, we explore the interaction-driven breakdown of AB caging in the limit of strong dipolar interactions that mix the lattice bands. In the limit of weak interactions, where caging remains intact, we observe an effective magnetism that arises due to the interaction-driven mixing of degenerate flat-band states. These observations of strongly correlated flat-band dynamics open the door to explorations of new emergent phenomena in synthetic quantum materials. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# Opera Graeca Adnotata: 古代ギリシアのために34M以上の多層コーパスを作る
Opera Graeca Adnotata: Building a 34M+ Token Multilayer Corpus for Ancient Greek ( http://arxiv.org/abs/2404.00739v1 ) ライセンス: Link先を確認 | Giuseppe G. A. Celano, | (参考訳) 本稿では,古代ギリシア語 (AG) 用のオープンアクセス多層コーパスとして最大である Opera Graeca Adnotata (OGA) のベータ版 0.1.0 を紹介する。
OGAは1,687の著作物と34M以上のトークンで構成されており、PerseusDLとOpenGreekAndLatin GitHubリポジトリから来ている。
テキストには7つのアノテーション層が備わっている。
(i)トークン化層
(ii)文セグメンテーション層
(三)補修層
(四)形態素層
(v)依存性層
(vi)依存性関数層
(vii)標準テキストサービス(CTS)引用層。
各レイヤの作成は、遭遇した主要な技術的およびアノテーションに関する問題を強調することで説明されます。
トークン化、文分割、CTS引用はルールベースのアルゴリズムで行われ、モルフォシンタクティックアノテーションは古代ギリシアの依存木バンクのデータに基づいて訓練されたCOMBOパーサの出力である。
スケーラビリティと再利用性のために、このコーパスはPAULA XMLとその子孫のLAULA XMLのスタンドオフフォーマットでリリースされている。
In this article, the beta version 0.1.0 of Opera Graeca Adnotata (OGA), the largest open-access multilayer corpus for Ancient Greek (AG) is presented. OGA consists of 1,687 literary works and 34M+ tokens coming from the PerseusDL and OpenGreekAndLatin GitHub repositories, which host AG texts ranging from about 800 BCE to about 250 CE. The texts have been enriched with seven annotation layers: (i) tokenization layer; (ii) sentence segmentation layer; (iii) lemmatization layer; (iv) morphological layer; (v) dependency layer; (vi) dependency function layer; (vii) Canonical Text Services (CTS) citation layer. The creation of each layer is described by highlighting the main technical and annotation-related issues encountered. Tokenization, sentence segmentation, and CTS citation are performed by rule-based algorithms, while morphosyntactic annotation is the output of the COMBO parser trained on the data of the Ancient Greek Dependency Treebank. For the sake of scalability and reusability, the corpus is released in the standoff formats PAULA XML and its offspring LAULA XML. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# 相互作用するRydberg格子における量子ウォークと相関ダイナミクス
Quantum walks and correlated dynamics in an interacting synthetic Rydberg lattice ( http://arxiv.org/abs/2404.00740v1 ) ライセンス: Link先を確認 | Tao Chen, Chenxi Huang, Bryce Gadway, Jacob P. Covey, | (参考訳) 相互作用する量子粒子のコヒーレントダイナミクスは、強い相関を持つ量子物質の研究や量子情報プロセッサの追求において中心的な役割を果たす。
ここでは、相互作用するRydberg原子の状態空間を、コヒーレントで相関したダイナミクスを制御し観測する合成ランドスケープとして提示する。
9サイト合成格子中の2つの部位間の結合強度とエネルギーオフセットの完全な制御により、Escher型「連続階段」における量子ウォーク、ブロッホ振動、ダイナミックスを実現する。
相互作用状態において、相関量子ウォーク、ブロッホ振動、粒子対の閉じ込めを観察する。
さらに、格子を上下に同時に傾けて、コヒーレントなペア振動を実現する。
この研究は、相互作用する原子配列の合成Rydberg格子を、実空間格子において実現し難い特徴にアクセスできるプログラム可能な量子多体ダイナミクスのための有望なプラットフォームとして確立する。
Coherent dynamics of interacting quantum particles plays a central role in the study of strongly correlated quantum matter and the pursuit of quantum information processors. Here, we present the state-space of interacting Rydberg atoms as a synthetic landscape on which to control and observe coherent and correlated dynamics. With full control of the coupling strengths and energy offsets between the pairs of sites in a nine-site synthetic lattice, we realize quantum walks, Bloch oscillations, and dynamics in an Escher-type ``continuous staircase". In the interacting regime, we observe correlated quantum walks, Bloch oscillations, and confinement of particle pairs. Additionally, we simultaneously tilt our lattice both up and down to achieve coherent pair oscillations. This work establishes synthetic Rydberg lattices of interacting atom arrays as a promising platform for programmable quantum many-body dynamics with access to features that are difficult to realize in real-space lattices. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# 低レイテンシ, 高品質, ディヴァースプロンプトによるインタラクティブ画像分割の再考
Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse Prompts ( http://arxiv.org/abs/2404.00741v1 ) ライセンス: Link先を確認 | Qin Liu, Jaemin Cho, Mohit Bansal, Marc Niethammer, | (参考訳) インタラクティブなイメージセグメンテーションの目標は、視覚的または言語的プロンプトを通じて、画像内の特定の領域を記述することである。
多様なプロンプトを持つ低レイテンシで高品質な対話的セグメンテーションは、既存のスペシャリストやジェネラリストモデルでは依然として困難である。
限定的なプロンプトとタスク固有の設計を持つスペシャリストモデルは、画像と視覚的プロンプトの共同符号化のため、プロンプトが更新されるたびにイメージを再コンパイルする必要があるため、レイテンシが高い。
SAM(Segment Anything Model)によって実証されたジェネラリストモデルは、最近、多様性と効率の迅速な向上と、基礎モデル時代へのイメージセグメンテーションの引き上げに成功している。
しかし、高品質なセグメンテーションでは、SAMはx100以上のセグメンテーションマスクで訓練されているにもかかわらず、最先端のスペシャリストモデルより遅れている。
本研究では,2種類のモデル間のアーキテクチャ的差異を深く掘り下げる。
視覚的プロンプトの密接な表現と融合が、スペシャリストモデルの高いセグメンテーション品質に寄与する重要な設計選択であることを観察する。
これを踏まえ、我々はこの密集した設計をジェネラリストモデルに再導入し、高いセグメンテーション品質を持つジェネラリストモデルの開発を容易にする。
多様な視覚的プロンプトを密に表現するために,クリック,ボックス,ポリゴン,スクリブル,マスクの5つのタイプを高密度マップで捉えることを提案する。
そこで我々は,低レイテンシ,高品質,多様なプロンプトをサポートする次世代インタラクティブセグメンテーション手法であるSegNextを提案する。
本手法は,HQSeg-44KとDAVISにおいて,定量的かつ定性的に,最先端の手法よりも優れている。
The goal of interactive image segmentation is to delineate specific regions within an image via visual or language prompts. Low-latency and high-quality interactive segmentation with diverse prompts remain challenging for existing specialist and generalist models. Specialist models, with their limited prompts and task-specific designs, experience high latency because the image must be recomputed every time the prompt is updated, due to the joint encoding of image and visual prompts. Generalist models, exemplified by the Segment Anything Model (SAM), have recently excelled in prompt diversity and efficiency, lifting image segmentation to the foundation model era. However, for high-quality segmentations, SAM still lags behind state-of-the-art specialist models despite SAM being trained with x100 more segmentation masks. In this work, we delve deep into the architectural differences between the two types of models. We observe that dense representation and fusion of visual prompts are the key design choices contributing to the high segmentation quality of specialist models. In light of this, we reintroduce this dense design into the generalist models, to facilitate the development of generalist models with high segmentation quality. To densely represent diverse visual prompts, we propose to use a dense map to capture five types: clicks, boxes, polygons, scribbles, and masks. Thus, we propose SegNext, a next-generation interactive segmentation approach offering low latency, high quality, and diverse prompt support. Our method outperforms current state-of-the-art methods on HQSeg-44K and DAVIS, both quantitatively and qualitatively. | 翻訳日:2024-04-04 02:01:09 公開日:2024-03-31 |
# 長さシフトへの適応:軌道予測のためのFlexiLength Network
Adapting to Length Shift: FlexiLength Network for Trajectory Prediction ( http://arxiv.org/abs/2404.00742v1 ) ライセンス: Link先を確認 | Yi Xu, Yun Fu, | (参考訳) 軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
しかし、これらのモデルが様々な観測期間で評価されると顕著な問題が発生し、大きな性能低下が生じ、これは観測長シフトと呼ばれる現象である。
この問題に対処するために,既存の軌道予測技術の様々な観測期間に対する堅牢性を高めるための,汎用的で効果的なフレームワークであるFlexiLength Network(FLN)を導入する。
具体的には、軌跡データを様々な観測長さと統合し、FlexiLength Calibration (FLC) を組み込んで時間不変表現を取得し、FlexiLength Adaptation (FLA) を用いてこれらの表現をさらに洗練し、より正確な将来の軌跡予測を行う。
複数のデータセット、すなわち、ETH/UCY、nuScenes、Argoverse 1に関する総合的な実験は、提案したFLNフレームワークの有効性と柔軟性を実証している。
Trajectory prediction plays an important role in various applications, including autonomous driving, robotics, and scene understanding. Existing approaches mainly focus on developing compact neural networks to increase prediction precision on public datasets, typically employing a standardized input duration. However, a notable issue arises when these models are evaluated with varying observation lengths, leading to a significant performance drop, a phenomenon we term the Observation Length Shift. To address this issue, we introduce a general and effective framework, the FlexiLength Network (FLN), to enhance the robustness of existing trajectory prediction techniques against varying observation periods. Specifically, FLN integrates trajectory data with diverse observation lengths, incorporates FlexiLength Calibration (FLC) to acquire temporal invariant representations, and employs FlexiLength Adaptation (FLA) to further refine these representations for more accurate future trajectory predictions. Comprehensive experiments on multiple datasets, ie, ETH/UCY, nuScenes, and Argoverse 1, demonstrate the effectiveness and flexibility of our proposed FLN framework. | 翻訳日:2024-04-04 02:01:08 公開日:2024-03-31 |
# 量子力学における複素相
Complex phases in quantum mechanics ( http://arxiv.org/abs/2404.00743v1 ) ライセンス: Link先を確認 | Carl M. Bender, Daniel W. Hook, | (参考訳) ハミルトンの運動方程式は局所微分方程式であり、その解を一意に決定するために境界条件が必要である。
境界条件の選択によっては、ハミルトニアンはいくつかの異なる物理的観測可能な位相を記述でき、それぞれが固有の大域対称性を示す。
Hamilton's equations of motion are local differential equations and boundary conditions are required to determine the solution uniquely. Depending on the choice of boundary conditions, a Hamiltonian may thereby describe several different physically observable phases, each exhibiting its own characteristic global symmetry. | 翻訳日:2024-04-04 02:01:08 公開日:2024-03-31 |
# インクリメンタル不確かさデータベースにおける重み付きシーケンスパターンのマイニング
Mining Weighted Sequential Patterns in Incremental Uncertain Databases ( http://arxiv.org/abs/2404.00746v1 ) ライセンス: Link先を確認 | Kashob Kumar Roy, Md Hasibul Haque Moon, Md Mahmudur Rahman, Chowdhury Farhan Ahmed, Carson Kai-Sang Leung, | (参考訳) 科学技術の急速な発展により、不正確、ノイズ、不確実なデータの重要性は指数的な速度で増大している。
このように、不確実なデータベースのマイニングパターンが研究者の注目を集めている。
さらに、これらのデータベースからのアイテムの頻繁なシーケンスは、大きな影響を与える有意義な知識のために見つける必要がある。
多くの実例では、重要度として興味深いシーケンスを見つけるために、アイテムやパターンの重みが導入された。
したがって、シーケンシャルなパターンをマイニングしながら、重みの制約を扱う必要がある。
さらに、データベースの動的な性質のため、重要な情報をマイニングすることがより困難になっている。
インクリメンタルマイニングアルゴリズムは、各インクリメンタルマイニング後のスクラッチからパターンをマイニングする代わりに、それまでのマイニング情報を利用して結果を即座に更新する。
インクリメンタルデータベースから頻繁なパターンと重み付きシーケンスをマイニングするアルゴリズムがいくつか存在する。
しかし、これらのアルゴリズムは正確なアルゴリズムのマイニングに限られている。
そこで本研究では,不確実なデータベースに頻繁なシーケンスをマイニングするアルゴリズムを開発した。
さらに,データベースのインクリメンタルなマイニングには,2つの新しい手法を提案する。
性能評価のための大規模な実験が実施されている。
分析の結果,提案手法の有効性が示された。
Due to the rapid development of science and technology, the importance of imprecise, noisy, and uncertain data is increasing at an exponential rate. Thus, mining patterns in uncertain databases have drawn the attention of researchers. Moreover, frequent sequences of items from these databases need to be discovered for meaningful knowledge with great impact. In many real cases, weights of items and patterns are introduced to find interesting sequences as a measure of importance. Hence, a constraint of weight needs to be handled while mining sequential patterns. Besides, due to the dynamic nature of databases, mining important information has become more challenging. Instead of mining patterns from scratch after each increment, incremental mining algorithms utilize previously mined information to update the result immediately. Several algorithms exist to mine frequent patterns and weighted sequences from incremental databases. However, these algorithms are confined to mine the precise ones. Therefore, we have developed an algorithm to mine frequent sequences in an uncertain database in this work. Furthermore, we have proposed two new techniques for mining when the database is incremental. Extensive experiments have been conducted for performance evaluation. The analysis showed the efficiency of our proposed framework. | 翻訳日:2024-04-04 02:01:08 公開日:2024-03-31 |
# ベンチマークの透明性: 評価に対するデータの影響を測定する
Benchmark Transparency: Measuring the Impact of Data on Evaluation ( http://arxiv.org/abs/2404.00748v1 ) ライセンス: Link先を確認 | Venelin Kovatchev, Matthew Lease, | (参考訳) 本稿では,データ分布がNLPモデルの性能と評価に与える影響を定量化するための探索的研究を行う。
あいまいさ,難易度,識別性,長さ,ノイズ,難易度という6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
我々は2つの異なるデータセット(SQUADとMNLI)を実験し、合計135の異なるモデル(SQUADは125、MNLIは10)をテストする。
データ分散の明示的な制御がなければ、標準評価フレームワークは一貫性がなく信頼できないことが実証された。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
第2の実験では、評価に対するデータの影響は観測可能であるだけでなく、予測可能であることを実証した。
本稿では,データセットの比較と類似性を定量化する手法として,ベンチマーク透過性を用いることを提案する。
モデルが分布からどれだけうまく一般化するかを予測するために、 `dataset similarity vector'' が用いられる。
In this paper we present an exploratory research on quantifying the impact that data distribution has on the performance and evaluation of NLP models. We propose an automated framework that measures the data point distribution across 6 different dimensions: ambiguity, difficulty, discriminability, length, noise, and perplexity. We use disproportional stratified sampling to measure how much the data distribution affects absolute (Acc/F1) and relative (Rank) model performance. We experiment on 2 different datasets (SQUAD and MNLI) and test a total of 135 different models (125 on SQUAD and 10 on MNLI). We demonstrate that without explicit control of the data distribution, standard evaluation frameworks are inconsistent and unreliable. We find that the impact of the data is statistically significant and is often larger than the impact of changing the metric. In a second set of experiments, we demonstrate that the impact of data on evaluation is not just observable, but also predictable. We propose to use benchmark transparency as a method for comparing datasets and quantifying the similarity between them. We find that the ``dataset similarity vector'' can be used to predict how well a model generalizes out of distribution. | 翻訳日:2024-04-04 02:01:08 公開日:2024-03-31 |
# 言語モデルは問題を理解することができるか?
Can Language Models Recognize Convincing Arguments? ( http://arxiv.org/abs/2404.00750v1 ) ライセンス: Link先を確認 | Paula Rescala, Manoel Horta Ribeiro, Tiancheng Hu, Robert West, | (参考訳) LLM(Large Language Models)の目覚ましい能力は、パーソナライズされ、説得力のある誤情報やプロパガンダを作成するために、その潜在的な誤用を懸念している。
そこで本研究では,人間と直接的に実験を行うことなく,LLMの説得能力に関する知見を得るために,説得的議論を検出するための関連課題について,その性能について検討する。
We extended a dataset by Durmus & Cardie (2018) with debates, vote, and user traits and propose task to measure LLMs's ability between strong and weak arguments, (2) predicts based on beliefs and population characteristics, and (3) determine the appeal of an argument to an individual baseds based on their traits。
これらの課題において、LLMは人間と同等の性能を示し、異なるLLMからの予測を組み合わせることで、人のパフォーマンスを超越しても、大きな性能向上が得られることを示した。
本稿では, LLMの急速な発展と潜在的な影響を継続的に評価し, 監視する重要な取り組みに寄与する。
The remarkable and ever-increasing capabilities of Large Language Models (LLMs) have raised concerns about their potential misuse for creating personalized, convincing misinformation and propaganda. To gain insights into LLMs' persuasive capabilities without directly engaging in experimentation with humans, we propose studying their performance on the related task of detecting convincing arguments. We extend a dataset by Durmus & Cardie (2018) with debates, votes, and user traits and propose tasks measuring LLMs' ability to (1) distinguish between strong and weak arguments, (2) predict stances based on beliefs and demographic characteristics, and (3) determine the appeal of an argument to an individual based on their traits. We show that LLMs perform on par with humans in these tasks and that combining predictions from different LLMs yields significant performance gains, even surpassing human performance. The data and code released with this paper contribute to the crucial ongoing effort of continuously evaluating and monitoring the rapidly evolving capabilities and potential impact of LLMs. | 翻訳日:2024-04-04 02:01:08 公開日:2024-03-31 |
# C-XGBoost:因果効果推定のための樹木増進モデル
C-XGBoost: A tree boosting model for causal effect estimation ( http://arxiv.org/abs/2404.00751v1 ) ライセンス: Link先を確認 | Niki Kiriakidou, Ioannis E. Livieris, Christos Diou, | (参考訳) 因果効果推定は、平均処理効果と、治療の条件付き平均処理効果を、利用可能なデータから得られる結果に推定することを目的としている。
この知識は多くの安全クリティカルな領域において重要であり、観測データから抽出する必要があることが多い。
本研究では,新たな因果推論モデルC-XGBoostを提案する。
提案手法の動機は,表層データを扱うための木系モデルと因果推論ニューラルネットワークモデルの特徴を併用して,治療と非治療のどちらにおいても結果を推定するのに有用な表現を学習することにある。
また,XGBoostモデルの利点として,最小限の事前処理を必要とせず,効率よく特徴を扱えることや,過度な適合やバイアスを避けるための正規化技術を備えていることなどがあげられる。
さらに,提案した因果推論モデルを効率的に学習するための新たな損失関数を提案する。
Dolan と Mor{\'e の性能プロファイルとポストホックおよび非パラメトリック統計試験に基づく実験分析は,提案手法の有効性について強い証拠を与える。
Causal effect estimation aims at estimating the Average Treatment Effect as well as the Conditional Average Treatment Effect of a treatment to an outcome from the available data. This knowledge is important in many safety-critical domains, where it often needs to be extracted from observational data. In this work, we propose a new causal inference model, named C-XGBoost, for the prediction of potential outcomes. The motivation of our approach is to exploit the superiority of tree-based models for handling tabular data together with the notable property of causal inference neural network-based models to learn representations that are useful for estimating the outcome for both the treatment and non-treatment cases. The proposed model also inherits the considerable advantages of XGBoost model such as efficiently handling features with missing values requiring minimum preprocessing effort, as well as it is equipped with regularization techniques to avoid overfitting/bias. Furthermore, we propose a new loss function for efficiently training the proposed causal inference model. The experimental analysis, which is based on the performance profiles of Dolan and Mor{\'e} as well as on post-hoc and non-parametric statistical tests, provide strong evidence about the effectiveness of the proposed approach. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 最小ベイズ・リスク復号の真の分布近似について
On the True Distribution Approximation of Minimum Bayes-Risk Decoding ( http://arxiv.org/abs/2404.00752v1 ) ライセンス: Link先を確認 | Atsumoto Ohashi, Ukyo Honda, Tetsuro Morimura, Yuu Jinnai, | (参考訳) 最小ベイズリスク(MBR)復号化はテキスト生成において新たな注目を集めている。
MBR復号法は、モデルからサンプリングされたテキストを擬似参照とみなし、他と最も類似したテキストを選択する。
したがって、サンプリングはMBR復号の鍵となる要素の一つであり、以前の研究ではサンプリング法によって性能が変化すると報告されていた。
理論的な観点からは、この性能変化は、サンプルが参照の真の分布をいかに正確に近似するかに結びついている可能性が高い。
しかし、この近似は詳細な研究の対象にはなっていない。
本研究では,異常検出を用いて近似の度合いを測定することを提案する。
提案手法は,まず性能変動を詳細に検討し,サンプルに関する先行仮説が変動と相関しないことを示すが,導入した異常スコアは一致しない。
結果は、MBR復号化のコア仮定と性能のリンクを経験的にサポートした最初のものである。
Minimum Bayes-risk (MBR) decoding has recently gained renewed attention in text generation. MBR decoding considers texts sampled from a model as pseudo-references and selects the text with the highest similarity to the others. Therefore, sampling is one of the key elements of MBR decoding, and previous studies reported that the performance varies by sampling methods. From a theoretical standpoint, this performance variation is likely tied to how closely the samples approximate the true distribution of references. However, this approximation has not been the subject of in-depth study. In this study, we propose using anomaly detection to measure the degree of approximation. We first closely examine the performance variation and then show that previous hypotheses about samples do not correlate well with the variation, but our introduced anomaly scores do. The results are the first to empirically support the link between the performance and the core assumption of MBR decoding. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# Recover: 障害検出と回復のためのニューロシンボリックフレームワーク
Recover: A Neuro-Symbolic Framework for Failure Detection and Recovery ( http://arxiv.org/abs/2404.00756v1 ) ライセンス: Link先を確認 | Cristina Cornelio, Mohammed Diab, | (参考訳) ロボット工学では,タスク実行時の障害認識とリカバリ手順の実施が困難である。
従来のアプローチは広範なデータや制約の厳密なセットの可用性に依存していたが、近年のアプローチでは大きな言語モデル(LLM)を活用してタスクのステップを検証し、それに従って再計画する。
しかし、これらの手法はしばしばオフラインで動作し、シーンリセットを必要とし、コストがかかる。
本稿では,オンライン障害識別と回復のためのニューロシンボリック・フレームワークであるRecoverを紹介する。
オントロジー、論理ルール、LLMベースのプランナを統合することで、Recoverはシンボル情報を活用して、LCMの回復計画の生成能力を高め、関連するコストを削減する。
シミュレーションキッチン環境における本手法の有効性を示すために,AI2Thorシミュレータ設定を記述するオントロジーであるOntoThorを紹介する。
実証的な評価は、OntoThorの論理ルールが解析されたタスクのすべての障害を正確に検出し、リカバリは失敗の検出とリカバリの両方において、LCMにのみ依存するベースライン法よりもかなり優れていることを示している。
Recognizing failures during task execution and implementing recovery procedures is challenging in robotics. Traditional approaches rely on the availability of extensive data or a tight set of constraints, while more recent approaches leverage large language models (LLMs) to verify task steps and replan accordingly. However, these methods often operate offline, necessitating scene resets and incurring in high costs. This paper introduces Recover, a neuro-symbolic framework for online failure identification and recovery. By integrating ontologies, logical rules, and LLM-based planners, Recover exploits symbolic information to enhance the ability of LLMs to generate recovery plans and also to decrease the associated costs. In order to demonstrate the capabilities of our method in a simulated kitchen environment, we introduce OntoThor, an ontology describing the AI2Thor simulator setting. Empirical evaluation shows that OntoThor's logical rules accurately detect all failures in the analyzed tasks, and that Recover considerably outperforms, for both failure detection and recovery, a baseline method reliant solely on LLMs. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 事前学習言語モデルにおけるロバスト性から一般化と校正の改善へ
From Robustness to Improved Generalization and Calibration in Pre-trained Language Models ( http://arxiv.org/abs/2404.00758v1 ) ライセンス: Link先を確認 | Josip Jukić, Jan Šnajder, | (参考訳) プレトレーニング言語モデル(PLM)の一般化と不確実性定量化の促進は,その有効性と信頼性に不可欠である。
一般化向上のためのロバスト性の重要性を立証した機械学習研究に基づいて, ヤコビアン正規化とヘッセン正規化によって達成された表現の滑らか性の役割について検討した。
このような正規化手法はコンピュータビジョンにおいて有効であることが証明されているが、PLM入力が離散領域から導出される自然言語処理(NLP)への応用は、ユニークな課題を生んでいる。
本稿では, PLM 中間表現におけるヤコビ行列とヘッセン行列のノルムを最小化する2相正規化手法である JacHess を導入する。
GLUE ベンチマークを用いて評価したところ,JacHess は PLM の領域内一般化とキャリブレーションを著しく改善し,非正規化微調整法や類似の正規化法よりも優れていた。
Enhancing generalization and uncertainty quantification in pre-trained language models (PLMs) is crucial for their effectiveness and reliability. Building on machine learning research that established the importance of robustness for improving generalization, we investigate the role of representation smoothness, achieved via Jacobian and Hessian regularization, in enhancing PLM performance. Although such regularization methods have proven effective in computer vision, their application in natural language processing (NLP), where PLM inputs are derived from a discrete domain, poses unique challenges. We introduce a novel two-phase regularization approach, JacHess, which minimizes the norms of the Jacobian and Hessian matrices within PLM intermediate representations relative to their inputs. Our evaluation using the GLUE benchmark demonstrates that JacHess significantly improves in-domain generalization and calibration in PLMs, outperforming unregularized fine-tuning and other similar regularization methods. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 心MR画像における強度に基づく3次元運動補正
Intensity-based 3D motion correction for cardiac MR images ( http://arxiv.org/abs/2404.00767v1 ) ライセンス: Link先を確認 | Nil Stolt-Ansó, Vasiliki Sideri-Lampretsa, Maik Dannecker, Daniel Rueckert, | (参考訳) 心臓磁気共鳴(CMR)画像取得では、被験者は呼吸を保ち、2Dシネ画像を取得する必要がある。
この過程は、心臓がすべてのスライスで同じ位置にあると仮定する。
しかし、呼吸ホールド位置や患者動作の違いは、3Dスライスミスアライメントをもたらす。
本研究では,すべてのSAスライスとLAスライスを同時に整列するアルゴリズムを提案する。
従来の研究とは異なり,本手法は主観的最適化問題として定式化されており,基礎となる解剖学の事前知識は不要である。
提案手法は,10個の動きのないデータセットを合成的に誤アライメントし,提案手法を用いてアライメントすることで,広い範囲の回転・翻訳に対して頑健であることを示す。
Cardiac magnetic resonance (CMR) image acquisition requires subjects to hold their breath while 2D cine images are acquired. This process assumes that the heart remains in the same position across all slices. However, differences in breathhold positions or patient motion introduce 3D slice misalignments. In this work, we propose an algorithm that simultaneously aligns all SA and LA slices by maximizing the pair-wise intensity agreement between their intersections. Unlike previous works, our approach is formulated as a subject-specific optimization problem and requires no prior knowledge of the underlying anatomy. We quantitatively demonstrate that the proposed method is robust against a large range of rotations and translations by synthetically misaligning 10 motion-free datasets and aligning them back using the proposed method. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 確率伝搬による樹木の逆回転推論
Adversarially-Robust Inference on Trees via Belief Propagation ( http://arxiv.org/abs/2404.00768v1 ) ライセンス: Link先を確認 | Samuel B. Hopkins, Anqi Li, | (参考訳) 本研究では, 木構造図形モデルにおいて, 観測ノードを破損させる悪意のある敵の存在下での後方推論の問題を紹介し, 検討する。
外部磁場がゼロの$d$正則木上の強磁性イジングモデルに対応する木モデル上のよく研究された放送では、自然信号対雑音比が1(ケステン・スティグム閾値)を超えると、葉が与えられた根の後方分布が$\mathrm{Ber}(1/2)$から切り離され、根の符号に関する非自明な情報を運ぶ。
この後続分布は動的プログラミングによって正確に計算することができる。
まず,選択した葉の逆ポリノミアルな割合を汚す悪意のある敵が,この推論を不可能にする,という民間伝承の信念を確認した。
我々の主な結果は、信号対雑音比が$O(\log d)$ と $\rho \leq c \varepsilon$ を超える限り、敵がランダムな葉の頂点の$$\rho$-fraction で汚職をするように制約された場合に、葉を与えられた根頂点に関する正確な後部推論が可能であることである。
推論が$\rho \gg \varepsilon$の場合に情報理論上不可能になるので、これは情報理論上最適な汚職の分数であり、一定の乗法係数になる。
さらに、標準信念伝播アルゴリズムがこの推論を行うことを示す。
We introduce and study the problem of posterior inference on tree-structured graphical models in the presence of a malicious adversary who can corrupt some observed nodes. In the well-studied broadcasting on trees model, corresponding to the ferromagnetic Ising model on a $d$-regular tree with zero external field, when a natural signal-to-noise ratio exceeds one (the celebrated Kesten-Stigum threshold), the posterior distribution of the root given the leaves is bounded away from $\mathrm{Ber}(1/2)$, and carries nontrivial information about the sign of the root. This posterior distribution can be computed exactly via dynamic programming, also known as belief propagation. We first confirm a folklore belief that a malicious adversary who can corrupt an inverse-polynomial fraction of the leaves of their choosing makes this inference impossible. Our main result is that accurate posterior inference about the root vertex given the leaves is possible when the adversary is constrained to make corruptions at a $\rho$-fraction of randomly-chosen leaf vertices, so long as the signal-to-noise ratio exceeds $O(\log d)$ and $\rho \leq c \varepsilon$ for some universal $c > 0$. Since inference becomes information-theoretically impossible when $\rho \gg \varepsilon$, this amounts to an information-theoretically optimal fraction of corruptions, up to a constant multiplicative factor. Furthermore, we show that the canonical belief propagation algorithm performs this inference. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# モジュラー超伝導量子系のための低損失液体金属配線
Low-loss liquid metal interconnects for modular superconducting quantum systems ( http://arxiv.org/abs/2404.00770v1 ) ライセンス: Link先を確認 | Zhancheng Yao, Martin Sandberg, David W. Abraham, David J. Bishop, | (参考訳) 超伝導量子コンピューティングチップを用いたモジュラーアーキテクチャの構築は、量子ビットのスケーラビリティを実現する手段のひとつであり、個々の量子ビットモジュールのスクリーニング、選択、置換、および大型量子システムへの統合を可能にする。
しかし、コンパクトアーキテクチャにおけるモジュールの非破壊的な置換は依然として課題である。
液体金属(LM)、特にガリウム合金は、固体ガルバニック配線の代替品である。
これは、自己修復、自己調整、その他の望ましい流動性によって動機付けられ、ミリケルビン政権でシステム全体を操作した後でも、室温でのモジュールの非破壊的な置換を可能にする可能性がある。
本研究では,ガリウム合金液滴を接続した高内部品質コプラナー導波路共振器(CPWR)について,連続固体CPWRと同等の性能を示す。
ガリウム合金の室温における望ましい流動特性とコンパクトな設計を活用して, 液体金属で実現可能なモジュラー量子系を構想する。
Building modular architecture with superconducting quantum computing chips is one of the means to achieve qubit scalability, allowing the screening, selection, replacement, and integration of individual qubit modules into large quantum systems. However, the non-destructive replacement of modules within a compact architecture remains a challenge. Liquid metals (LM), specifically gallium alloys, can be alternatives to solid-state galvanic interconnects. This is motivated by their self-healing, self-aligning, and other desirable fluidic properties, potentially enabling non-destructive replacement of modules at room temperatures, even after operating the entire system at millikelvin regimes. In this study, we present high-internal-quality-factor coplanar waveguide resonators (CPWR) interconnected by gallium alloy droplets, demonstrating performance on par with the continuous solid-state CPWRs. Leveraging the desirable fluidic properties of gallium alloys at room temperature and their compact design, we envision a modular quantum system enabled by liquid metals. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# SOAR: 近似近傍検索のためのインデックス化の改善
SOAR: Improved Indexing for Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2404.00774v1 ) ライセンス: Link先を確認 | Philip Sun, David Simcha, Dave Dopson, Ruiqi Guo, Sanjiv Kumar, | (参考訳) 本稿では, 近似近傍探索(ANN)のための新しいデータインデックス手法である, オルソゴン性増幅残差によるスパイリングについて紹介する。
SOARは、複数の冗長表現を使用しながらデータをパーティショニングすることで、検索中に最も近い隣人を見逃す可能性を減らす、ANN検索に対する以前のアプローチを拡張している。
しかし、これらの冗長表現を個別に訓練し、計算するのではなく、SOARは直交増幅された残留損失を使用し、他の表現が不十分な場合に補償するために各表現を最適化する。
これにより、インデックスの全体的な品質が大幅に向上し、最新のANNベンチマークのパフォーマンスが向上し、インデックスの高速化とメモリ消費の削減が図られる。
This paper introduces SOAR: Spilling with Orthogonality-Amplified Residuals, a novel data indexing technique for approximate nearest neighbor (ANN) search. SOAR extends upon previous approaches to ANN search, such as spill trees, that utilize multiple redundant representations while partitioning the data to reduce the probability of missing a nearest neighbor during search. Rather than training and computing these redundant representations independently, however, SOAR uses an orthogonality-amplified residual loss, which optimizes each representation to compensate for cases where other representations perform poorly. This drastically improves the overall index quality, resulting in state-of-the-art ANN benchmark performance while maintaining fast indexing times and low memory consumption. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# PyTorch Frame:マルチモーダルタブラリ学習のためのモジュールフレームワーク
PyTorch Frame: A Modular Framework for Multi-Modal Tabular Learning ( http://arxiv.org/abs/2404.00776v1 ) ライセンス: Link先を確認 | Weihua Hu, Yiwen Yuan, Zecheng Zhang, Akihiro Nitta, Kaidi Cao, Vid Kocijan, Jure Leskovec, Matthias Fey, | (参考訳) PyTorch Frame は PyTorch をベースとした多モード表データの深層学習フレームワークである。
PyTorch Frameは、複雑な表データを扱うPyTorchベースのデータ構造を提供し、表モデルのモジュラ実装を可能にするモデル抽象化を導入し、複雑な列(例えば、テキスト列のLLM)を扱うために外部基盤モデルを組み込むことによって、表層深層学習を容易にする。
グラフニューラルネットワーク(GNN)のためのPyTorchライブラリであるPyTorch Geometricと統合し、関係データベース上でエンドツーエンドの学習を行う。
We present PyTorch Frame, a PyTorch-based framework for deep learning over multi-modal tabular data. PyTorch Frame makes tabular deep learning easy by providing a PyTorch-based data structure to handle complex tabular data, introducing a model abstraction to enable modular implementation of tabular models, and allowing external foundation models to be incorporated to handle complex columns (e.g., LLMs for text columns). We demonstrate the usefulness of PyTorch Frame by implementing diverse tabular models in a modular way, successfully applying these models to complex multi-modal tabular data, and integrating our framework with PyTorch Geometric, a PyTorch library for Graph Neural Networks (GNNs), to perform end-to-end learning over relational databases. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 顔認識における保護強化のためのプライバシ保護光学
Privacy-preserving Optics for Enhancing Protection in Face De-identification ( http://arxiv.org/abs/2404.00777v1 ) ライセンス: Link先を確認 | Jhon Lopez, Carlos Hinojosa, Henry Arguello, Bernard Ghanem, | (参考訳) 現代のカメラ利用の増加とコンピュータビジョン技術の応用は、プライバシーとセキュリティに大きな懸念をもたらしている。
現在の人工知能(AI)技術は、関連する出来事を認識し、家やオフィス、病院などの日常業務を支援する。
これらの目的のために個人情報にアクセスしたり処理する必要が、プライバシーの懸念を引き起こす。
顔認識などのソフトウェアレベルのソリューションは、優れたプライバシ/ユーティリティトレードオフを提供する一方で、スニッフィング攻撃に対する脆弱性を提供する。
本稿では,この脆弱性を解決するためのハードウェアレベルの顔識別手法を提案する。
具体的には、まず、回帰モデルとともに光学エンコーダを学習し、元の画像から顔のアイデンティティを隠蔽しながら顔のヒートマップを得る。
また、プライバシ保存画像、フェイスヒートマップ、およびパブリックデータセットからの参照顔イメージを入力として、新しい顔を生成する匿名化フレームワークを提案する。
我々は、広範囲なシミュレーションとハードウェア実験により、我々のアプローチを検証する。
The modern surge in camera usage alongside widespread computer vision technology applications poses significant privacy and security concerns. Current artificial intelligence (AI) technologies aid in recognizing relevant events and assisting in daily tasks in homes, offices, hospitals, etc. The need to access or process personal information for these purposes raises privacy concerns. While software-level solutions like face de-identification provide a good privacy/utility trade-off, they present vulnerabilities to sniffing attacks. In this paper, we propose a hardware-level face de-identification method to solve this vulnerability. Specifically, our approach first learns an optical encoder along with a regression model to obtain a face heatmap while hiding the face identity from the source image. We also propose an anonymization framework that generates a new face using the privacy-preserving image, face heatmap, and a reference face image from a public dataset as input. We validate our approach with extensive simulations and hardware experiments. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 連続学習における塑性の喪失と破滅的予測
Addressing Loss of Plasticity and Catastrophic Forgetting in Continual Learning ( http://arxiv.org/abs/2404.00781v1 ) ライセンス: Link先を確認 | Mohamed Elsayed, A. Rupam Mahmood, | (参考訳) 深層表現学習法は、有用な単位の破滅的な忘れと可塑性の喪失に苦しむ連続学習に苦しむ。
多くのメソッドがこれら2つの問題に別々に対処するが、現在、両方を同時に扱うのはわずかである。
本稿では,表現の連続的学習のための新しいアプローチとして,実用性に基づく摂動学習(UPGD)を紹介する。
UPGDは勾配の更新と摂動を組み合わせることで、より有用なユニットに小さな修正を加え、忘れないようにし、あまり役に立たないユニットにより大きな修正を加え、可塑性を回復させる。
連続的な学習問題には数百の非定常性と未知のタスク境界がある。
既存の手法の多くは少なくとも1つの問題に悩まされており、その主な原因はタスクの精度の低下である。
一方、UPGDはパフォーマンスを改善し続け、あらゆる問題において全てのメソッドに勝っているか、競合している。
最後に,PPOを用いた強化学習実験において,Adamは初等学習後に性能低下を示すが,UPGDは2つの連続学習問題に対処することで回避することを示した。
Deep representation learning methods struggle with continual learning, suffering from both catastrophic forgetting of useful units and loss of plasticity, often due to rigid and unuseful units. While many methods address these two issues separately, only a few currently deal with both simultaneously. In this paper, we introduce Utility-based Perturbed Gradient Descent (UPGD) as a novel approach for the continual learning of representations. UPGD combines gradient updates with perturbations, where it applies smaller modifications to more useful units, protecting them from forgetting, and larger modifications to less useful units, rejuvenating their plasticity. We use a challenging streaming learning setup where continual learning problems have hundreds of non-stationarities and unknown task boundaries. We show that many existing methods suffer from at least one of the issues, predominantly manifested by their decreasing accuracy over tasks. On the other hand, UPGD continues to improve performance and surpasses or is competitive with all methods in all problems. Finally, in extended reinforcement learning experiments with PPO, we show that while Adam exhibits a performance drop after initial learning, UPGD avoids it by addressing both continual learning issues. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 遠心性海馬形状変化:グラフ変分オートエンコーダとコントラスト学習を用いた神経障害の研究
Disentangling Hippocampal Shape Variations: A Study of Neurological Disorders Using Graph Variational Autoencoder with Contrastive Learning ( http://arxiv.org/abs/2404.00785v1 ) ライセンス: Link先を確認 | Jakaria Rabbi, Johannes Kiechle, Christian Beaulieu, Nilanjan Ray, Dana Cobzas, | (参考訳) 本稿では、神経疾患の文脈における拡散テンソルイメージング(DTI)データセットからの海馬形状変化の遠ざかることに焦点を当てた総合的研究について述べる。
教師付きコントラスト学習で強化されたグラフ変分オートエンコーダ(VAE)を活用することで,年齢と疾患の有無に応じた2つの異なる潜伏変数を識別し,解釈性を向上させることを目的とする。
アブレーション研究では,VAEアーキテクチャとコントラスト損失関数について検討し,その拡張的アンタングル化能力を示す。
この評価はDTI海馬データセットから得られた合成3Dトーラスメッシュデータと実3D海馬メッシュデータセットを用いる。
教師付きアンタングルメントモデルでは,アトリビュートやガイド付きVAEといったいくつかの最先端(SOTA)手法よりも,アンタングルメントスコアが優れている。
海馬データを用いて,多発性硬化症(MS)患者の年齢群と疾患状態の鑑別を行った。
我々のグラフVAE with Supervised Contrastive Learningは、年齢の異なるMS人口の海馬の体積変化を示し、その結果は現在の神経画像学の文献と一致している。
本研究は, 神経疾患と海馬形状変化との関連性について, グラフVAEを用いた検討を行った。
This paper presents a comprehensive study focused on disentangling hippocampal shape variations from diffusion tensor imaging (DTI) datasets within the context of neurological disorders. Leveraging a Graph Variational Autoencoder (VAE) enhanced with Supervised Contrastive Learning, our approach aims to improve interpretability by disentangling two distinct latent variables corresponding to age and the presence of diseases. In our ablation study, we investigate a range of VAE architectures and contrastive loss functions, showcasing the enhanced disentanglement capabilities of our approach. This evaluation uses synthetic 3D torus mesh data and real 3D hippocampal mesh datasets derived from the DTI hippocampal dataset. Our supervised disentanglement model outperforms several state-of-the-art (SOTA) methods like attribute and guided VAEs in terms of disentanglement scores. Our model distinguishes between age groups and disease status in patients with Multiple Sclerosis (MS) using the hippocampus data. Our Graph VAE with Supervised Contrastive Learning shows the volume changes of the hippocampus of MS populations at different ages, and the result is consistent with the current neuroimaging literature. This research provides valuable insights into the relationship between neurological disorder and hippocampal shape changes in different age groups of MS populations using a Graph VAE with Supervised Contrastive loss. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 言語モデルのためのリハーサルなしモジュール型および構成型連続学習
Rehearsal-Free Modular and Compositional Continual Learning for Language Models ( http://arxiv.org/abs/2404.00790v1 ) ライセンス: Link先を確認 | Mingyang Wang, Heike Adel, Lukas Lange, Jannik Strötgen, Hinrich Schütze, | (参考訳) 継続的な学習は、既存の知識を忘れずに、新たな知識を漸進的に獲得することを目的としています。
破滅的な忘れを克服するために、メソッドはリハーサルベース、すなわちデータ再生のための以前のタスクからのデータ例を保存するか、あるいは各タスク専用のパラメータを分離する。
しかし、リハーサルベースの手法はプライバシとメモリの問題を引き起こすため、パラメータアイソレーションの継続学習はタスク間の相互作用を考慮せず、知識伝達を妨げる。
本研究では,言語モデルに新たなモジュールを継続的に追加し,既存のモジュールで構成する,リハーサルフリーなモジュール型および構成型連続学習フレームワークであるMoCLを提案する。
様々なベンチマーク実験により、MoCLは最先端に優れ、知識伝達を効果的に促進することが示された。
Continual learning aims at incrementally acquiring new knowledge while not forgetting existing knowledge. To overcome catastrophic forgetting, methods are either rehearsal-based, i.e., store data examples from previous tasks for data replay, or isolate parameters dedicated to each task. However, rehearsal-based methods raise privacy and memory issues, and parameter-isolation continual learning does not consider interaction between tasks, thus hindering knowledge transfer. In this work, we propose MoCL, a rehearsal-free Modular and Compositional Continual Learning framework which continually adds new modules to language models and composes them with existing modules. Experiments on various benchmarks show that MoCL outperforms state of the art and effectively facilitates knowledge transfer. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# 局所ベル試験によるデバイス非依存量子鍵分布のエントロピー境界
Entropy bounds for device-independent quantum key distribution with local Bell test ( http://arxiv.org/abs/2404.00792v1 ) ライセンス: Link先を確認 | Ernest Y. -Z. Tan, Ramona Wolf, | (参考訳) デバイス非依存量子鍵分布(DIQKD)における主な課題の1つは、チャネル損失が全体的な検出効率の低下をもたらすため、長い距離にわたってベル違反を達成することである。
最近の研究は、局所ベル試験を用いて、距離を延ばす非局所相関の証明という概念を探求している。
ここでは、長距離での非局所的な振る舞いを検証するために短距離相関を用いて、追加の量子デバイスを一方に近接して配置する。
しかし、既存の作業では、このセットアップにおいてアクティブアタッカーに対するDIQKDセキュリティの問題は解決されていないか、あるいはキーレートに厳密な拘束力を与えないメソッドを使用するかのどちらかである。
本稿では,最近開発された標準DIQKD解析手法と組み合わせて,鍵レート計算タスクの一般的な定式化を行う。
本手法を用いることで、短距離装置が十分に高い検出効率を示す場合、標準のDIQKDよりも検出効率の低い長距離分岐において正のキーレートが得られることを示す。
このことは、短距離相関を利用して量子相関を検証するシナリオにおいて、拡張距離よりもDIQKDの性能を向上させる可能性を強調している。
One of the main challenges in device-independent quantum key distribution (DIQKD) is achieving the required Bell violation over long distances, as the channel losses result in low overall detection efficiencies. Recent works have explored the concept of certifying nonlocal correlations over extended distances through the use of a local Bell test. Here, an additional quantum device is placed in close proximity to one party, using short-distance correlations to verify nonlocal behavior at long distances. However, existing works have either not resolved the question of DIQKD security against active attackers in this setup, or used methods that do not yield tight bounds on the keyrates. In this work, we introduce a general formulation of the key rate computation task in this setup that can be combined with recently developed methods for analyzing standard DIQKD. Using this method, we show that if the short-distance devices exhibit sufficiently high detection efficiencies, positive key rates can be achieved in the long-distance branch with lower detection efficiencies as compared to standard DIQKD setups. This highlights the potential for improved performance of DIQKD over extended distances in scenarios where short-distance correlations are leveraged to validate quantum correlations. | 翻訳日:2024-04-04 01:51:24 公開日:2024-03-31 |
# ネットワーク成長のメカニズムの学習
Learning the mechanisms of network growth ( http://arxiv.org/abs/2404.00793v1 ) ライセンス: Link先を確認 | Lourens Touwen, Doina Bucur, Remco van der Hofstad, Alessandro Garavaglia, Nelly Litvak, | (参考訳) 動的リアルタイムネットワークのための新しいモデル選択法を提案する。
我々のアプローチは、大量の合成ネットワークデータに基づいて分類器を訓練することである。
データは、動的ネットワークのための9つの最先端ランダムグラフモデルをシミュレートし、パラメータ範囲を選択して、ネットワークサイズを指数的に成長させることによって生成される。
我々は,特定の時間間隔で頂点群が受け取る新しいリンクをカウントする,概念的に新しいタイプの動的特徴を設計する。
提案される機能は、計算が容易で、分析的に抽出可能で、解釈可能である。
提案手法は,合成ネットワークのほぼ完全な分類を実現し,最先端のネットワークを大きなマージンで超えている。
我々の分類法を現実世界の引用ネットワークに適用することで、優先的なアタッチメント、フィットネス、老朽化したモデルが現実の引用ネットワークに最も適しているという主張に信頼性を与えるが、予測されたモデルは頂点適合を含まないこともある。
We propose a novel model-selection method for dynamic real-life networks. Our approach involves training a classifier on a large body of synthetic network data. The data is generated by simulating nine state-of-the-art random graph models for dynamic networks, with parameter range chosen to ensure exponential growth of the network size in time. We design a conceptually novel type of dynamic features that count new links received by a group of vertices in a particular time interval. The proposed features are easy to compute, analytically tractable, and interpretable. Our approach achieves a near-perfect classification of synthetic networks, exceeding the state-of-the-art by a large margin. Applying our classification method to real-world citation networks gives credibility to the claims in the literature that models with preferential attachment, fitness and aging fit real-world citation networks best, although sometimes, the predicted model does not involve vertex fitness. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# 実用的要件分析と検証に向けて:航空宇宙組み込みシステムにおけるソフトウェアIPコンポーネントを事例として
Towards Practical Requirement Analysis and Verification: A Case Study on Software IP Components in Aerospace Embedded Systems ( http://arxiv.org/abs/2404.00795v1 ) ライセンス: Link先を確認 | Zhi Ma, Cheng Wen, Jie Su, Ming Zhao, Bin Yu, Xu Lu, Cong Tian, | (参考訳) IPベースのソフトウェア設計は、知的財産権(IP)コンポーネントとして知られる複雑なソフトウェアコンポーネントを再利用することで、効率と信頼性を向上させることを目的とした重要な研究分野である。
これらのコンポーネント、特にセキュリティに敏感なソフトウェアシステムにおいて、これらのコンポーネントの再利用性を確保するためには、要求を分析し、各IPコンポーネントに対して正式な検証を行う必要がある。
しかし、IPコンポーネントの要件を自然言語記述から時相論理に変換し、形式的な検証を行うにはドメインの専門知識と非自明なマンパワーが必要である。
本稿では,空域組み込みシステムから派生したソフトウェアIPコンポーネントを,要求分析と検証プロセスの自動化を目的としたケーススタディを提案する。
この研究は、構造化されていない自然言語を正式な仕様に変換するために、Large Language Modelsを使うことから始まる。
その後、ソースコードが抽出された時間論理特性を満たすかどうかを確認するために、3つの異なる検証手法が使用される。
これにより、中国宇宙技術アカデミー(CAST)の5つの現実世界のIPコンポーネントが検証された。
IP-based software design is a crucial research field that aims to improve efficiency and reliability by reusing complex software components known as intellectual property (IP) components. To ensure the reusability of these components, particularly in security-sensitive software systems, it is necessary to analyze the requirements and perform formal verification for each IP component. However, converting the requirements of IP components from natural language descriptions to temporal logic and subsequently conducting formal verification demands domain expertise and non-trivial manpower. This paper presents a case study on software IP components derived from aerospace embedded systems, with the objective of automating the requirement analysis and verification process. The study begins by employing Large Language Models to convert unstructured natural language into formal specifications. Subsequently, three distinct verification techniques are employed to ascertain whether the source code meets the extracted temporal logic properties. By doing so, five real-world IP components from the China Academy of Space Technology (CAST) have been successfully verified. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# 産業・社会のためのメタロボティクス:ビジョン,技術,機会
Metarobotics for Industry and Society: Vision, Technologies, and Opportunities ( http://arxiv.org/abs/2404.00797v1 ) ライセンス: Link先を確認 | Eric Guiffo Kaigom, | (参考訳) メタロボティクス(Metarobotics)は、次世代の無線通信、マルチセンス没入、および集団知能を組み合わせて、広範で反復的で非侵襲的なアクセスと遠隔ロボット化されたアプリケーションとの相互作用を提供することを目指している。
産業と社会はこれらの機能の恩恵を受けることが期待されている。
例えば、ロボットプログラマーはロボットの動きを計画し、テストするために世界中を旅することはない。
代わりに、ロボットとその環境をどこからでもパーソナライズできるようになり、家族や友人と過ごす時間が増える。
ロボティクスのコースに入学した学生は、リアルタイムで真に工業的な条件下で教えられる。
本稿では,社会,産業,産業におけるメタロボティクスの目的について述べる。
完成する可能性のある技術を特定し、調査し、メタロボティクスの重要なコンポーネントの相互作用を前進させるアーキテクチャを提供する。
学会5.0、産業4.0、産業5.0におけるロボット関連アプリケーションにおける自己決定、自己効力性、ワークライフフレキシビリティの可能性について概説する。
Metarobotics aims to combine next generation wireless communication, multi-sense immersion, and collective intelligence to provide a pervasive, itinerant, and non-invasive access and interaction with distant robotized applications. Industry and society are expected to benefit from these functionalities. For instance, robot programmers will no longer travel worldwide to plan and test robot motions, even collaboratively. Instead, they will have a personalized access to robots and their environments from anywhere, thus spending more time with family and friends. Students enrolled in robotics courses will be taught under authentic industrial conditions in real-time. This paper describes objectives of Metarobotics in society, industry, and in-between. It identifies and surveys technologies likely to enable their completion and provides an architecture to put forward the interplay of key components of Metarobotics. Potentials for self-determination, self-efficacy, and work-life-flexibility in robotics-related applications in Society 5.0, Industry 4.0, and Industry 5.0 are outlined. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# 共有記憶による注意要因化の難しさについて
On Difficulties of Attention Factorization through Shared Memory ( http://arxiv.org/abs/2404.00798v1 ) ライセンス: Link先を確認 | Uladzislau Yorsh, Martin Holeňa, Ondřej Bojar, David Herel, | (参考訳) トランスフォーマーは、自然言語処理、コンピュータビジョン、オーディオ処理など、多くの分野でディープラーニングに革命をもたらした。
彼らの強みは、複雑な入力関係の発見を可能にする注意機構にある。
しかし、このメカニズムの2次時間とメモリの複雑さは、より大きな入力に挑戦する。
研究者は現在、Linear Unified Nested Attention (Luna)やMemory Augmented Transformerなどのモデルを調査している。これは、外部の学習可能なメモリを活用して、注意計算の複雑さを線形に削減するか、チャンクワイズ処理のチャンク間で情報を伝達する。
本研究は,これらのモデルにおける従来の考え方に挑戦し,注意操作を通して直接メモリと対面することが最適であり,メモリとの通信前に入力信号をフィルタリングすることにより,性能が大幅に向上することを示した。
Transformers have revolutionized deep learning in numerous fields, including natural language processing, computer vision, and audio processing. Their strength lies in their attention mechanism, which allows for the discovering of complex input relationships. However, this mechanism's quadratic time and memory complexity pose challenges for larger inputs. Researchers are now investigating models like Linear Unified Nested Attention (Luna) or Memory Augmented Transformer, which leverage external learnable memory to either reduce the attention computation complexity down to linear, or to propagate information between chunks in chunk-wise processing. Our findings challenge the conventional thinking on these models, revealing that interfacing with the memory directly through an attention operation is suboptimal, and that the performance may be considerably improved by filtering the input signal before communicating with memory. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# $R^2$-Tuning:ビデオ時間グラウンドのための効率的な画像-映像間変換学習
$R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding ( http://arxiv.org/abs/2404.00801v1 ) ライセンス: Link先を確認 | Ye Liu, Jixuan He, Wanhua Li, Junsik Kim, Donglai Wei, Hanspeter Pfister, Chang Wen Chen, | (参考訳) ビデオ時間グラウンドリング(VTG)は、自然言語クエリが与えられたビデオに関連性のあるクリップを埋め込むことを目的とした、きめ細かいビデオ理解の問題である。
既存のVTGモデルは、フレームワイドの最終層CLIP機能に基づいて構築されており、洗練された時間的推論機構を備えた追加の時間的バックボーン(例:SlowFast)によって支援されている。
本研究では,CLIP自体が,各層が異なる粒度レベル下で有用な情報を提供するため,より微細な時空間モデリングに非常に有意な可能性を示唆している。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の学習フレームワークであるReversed Recurrent Tuning(R^2$-Tuning)を提案する。
提案手法は,プログレッシブな時空間時間モデリングを行うために,全パラメータの1.5%しか含まない軽量な$R^2$ブロックを学習する。
CLIPの最後のレイヤから始まる$R^2$ Blockは、以前のレイヤから空間的特徴をリカレントに集約し、与えられたクエリの時間的相関条件を洗練し、粗い構造になる。
R^2$-Tuningは、追加のバックボーンなしで6つの公開ベンチマーク(QVHighlights、Charades-STA、Ego4D-NLQ、TACoS、YouTube Highlights、TVSum)における3つのVTGタスク(モーメント検索、ハイライト検出、ビデオ要約)における最先端のパフォーマンスを実現し、提案されたスキームの重要性と効果を実証する。
私たちのコードはhttps://github.com/yeliudev/R2-Tuning.comから入手可能です。
Video temporal grounding (VTG) is a fine-grained video understanding problem that aims to ground relevant clips in untrimmed videos given natural language queries. Most existing VTG models are built upon frame-wise final-layer CLIP features, aided by additional temporal backbones (e.g., SlowFast) with sophisticated temporal reasoning mechanisms. In this work, we claim that CLIP itself already shows great potential for fine-grained spatial-temporal modeling, as each layer offers distinct yet useful information under different granularity levels. Motivated by this, we propose Reversed Recurrent Tuning ($R^2$-Tuning), a parameter- and memory-efficient transfer learning framework for video temporal grounding. Our method learns a lightweight $R^2$ Block containing only 1.5% of the total parameters to perform progressive spatial-temporal modeling. Starting from the last layer of CLIP, $R^2$ Block recurrently aggregates spatial features from earlier layers, then refines temporal correlation conditioning on the given query, resulting in a coarse-to-fine scheme. $R^2$-Tuning achieves state-of-the-art performance across three VTG tasks (i.e., moment retrieval, highlight detection, and video summarization) on six public benchmarks (i.e., QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights, and TVSum) even without the additional backbone, demonstrating the significance and effectiveness of the proposed scheme. Our code is available at https://github.com/yeliudev/R2-Tuning. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# 大規模言語モデルによるアルゴリズムの協調
Algorithmic Collusion by Large Language Models ( http://arxiv.org/abs/2404.00806v1 ) ライセンス: Link先を確認 | Sara Fish, Yannai A. Gonczarowski, Ran I. Shorrer, | (参考訳) アルゴリズム価格の上昇は、アルゴリズムの共謀の懸念を提起する。
我々はLarge Language Models(LLMs)、特にGPT-4に基づくアルゴリズム価格設定エージェントを用いて実験を行う。
1) LLM ベースのエージェントは価格設定に長けており,(2) LLM ベースの価格設定エージェントは,消費者の負担に自律的に協調し,(3) LLM 命令における一見無害なフレーズの変化は,共謀を増大させる可能性がある。
これらの結果はオークションの設定にまで及ぶ。
この結果から,アルゴリズム価格に関する反トラスト規制の必要性を浮き彫りにし,LSMベースの価格設定エージェントに特有の規制課題を明らかにした。
The rise of algorithmic pricing raises concerns of algorithmic collusion. We conduct experiments with algorithmic pricing agents based on Large Language Models (LLMs), and specifically GPT-4. We find that (1) LLM-based agents are adept at pricing tasks, (2) LLM-based pricing agents autonomously collude in oligopoly settings to the detriment of consumers, and (3) variation in seemingly innocuous phrases in LLM instructions ("prompts") may increase collusion. These results extend to auction settings. Our findings underscore the need for antitrust regulation regarding algorithmic pricing, and uncover regulatory challenges unique to LLM-based pricing agents. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# GAMA-IR:高速画像復元のためのグローバル付加多次元平均化
GAMA-IR: Global Additive Multidimensional Averaging for Fast Image Restoration ( http://arxiv.org/abs/2404.00807v1 ) ライセンス: Link先を確認 | Youssef Mansour, Reinhard Heckel, | (参考訳) 深層学習に基づく手法は、デノイングやデブロワーリングといった様々な画像復元タスクにおいて顕著な成功を収めている。
現在の最先端ネットワークは比較的深く、自己注意機構を利用する(様々な)ものである。
これらのネットワークは浅い畳み込みネットワークよりも著しく遅いが、性能は悪い。
本稿では,高速かつ画質の良い画像復元ネットワークを提案する。
このネットワークは、最先端のパフォーマンスを維持しながら、標準的なGPU上で実行する際のレイテンシとメモリ消費を最小限に抑えるように設計されている。
このネットワークは、グローバルな加算多次元平均演算を実装する効率的なブロックを持つ単純な浅層ネットワークである。
このブロックは、計算オーバーヘッドが最小限である浅層ネットワークでも、グローバルな情報をキャプチャし、大きな受信フィールドを可能にする。
多様なタスクに関する広範な実験と評価を通じて、我々のネットワークは、よりレイテンシの低い既存の最先端画像復元ネットワークに匹敵する、あるいはさらに優れた結果が得られることを示した。
例えば、現実世界のSIDDを0.11dB、より2倍から10倍高速にすることで、最先端の結果を上回る。
Deep learning-based methods have shown remarkable success for various image restoration tasks such as denoising and deblurring. The current state-of-the-art networks are relatively deep and utilize (variants of) self attention mechanisms. Those networks are significantly slower than shallow convolutional networks, which however perform worse. In this paper, we introduce an image restoration network that is both fast and yields excellent image quality. The network is designed to minimize the latency and memory consumption when executed on a standard GPU, while maintaining state-of-the-art performance. The network is a simple shallow network with an efficient block that implements global additive multidimensional averaging operations. This block can capture global information and enable a large receptive field even when used in shallow networks with minimal computational overhead. Through extensive experiments and evaluations on diverse tasks, we demonstrate that our network achieves comparable or even superior results to existing state-of-the-art image restoration networks with less latency. For instance, we exceed the state-of-the-art result on real-world SIDD denoising by 0.11dB, while being 2 to 10 times faster. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# LiDAR拡散モデルによるリアルなシーン生成に向けて
Towards Realistic Scene Generation with LiDAR Diffusion Models ( http://arxiv.org/abs/2404.00815v1 ) ライセンス: Link先を確認 | Haoxi Ran, Vitor Guizilini, Yue Wang, | (参考訳) 拡散モデル(DM)はフォトリアリスティック画像合成において優れているが、LiDARシーン生成への適応は大きなハードルとなる。
これは主に、点空間で動作しているDMが、その表現力の多くを消費するLiDARシーンの曲線のようなパターンと3D幾何学を保存するのに苦労しているためである。
本稿では,LiDARシーンのリアリズムを学習パイプラインに組み込むことで,LiDARシーンの現実性を捉えるために,LiDAR拡散モデル(LiDM)を提案する。
本手法は,パターンリアリズム,幾何学リアリズム,オブジェクトリアリズムの3つの主要なデシダータを対象とする。
具体的には、実世界のLiDARパターンをシミュレートするための曲線ワイド圧縮、シーン幾何学を学ぶための点ワイド座標調整、フル3Dオブジェクトコンテキストに対するパッチワイド符号化を導入する。
これら3つのコア設計により,64ビームシナリオにおける非条件付きLiDAR生成と条件付きLiDAR生成の最先端化を両立させるとともに,点ベースDMに比べて高い効率(最大107$\times$ faster)を維持しながら,非条件付きLiDAR生成の競争性能を実現する。
さらに、LiDARシーンを潜在空間に圧縮することにより、セマンティックマップ、カメラビュー、テキストプロンプトなどの様々な条件でDMの制御を可能にする。
私たちのコードと事前訓練されたウェイトはhttps://github.com/hancyran/LiDAR-Diffusion.comで公開されています。
Diffusion models (DMs) excel in photo-realistic image synthesis, but their adaptation to LiDAR scene generation poses a substantial hurdle. This is primarily because DMs operating in the point space struggle to preserve the curve-like patterns and 3D geometry of LiDAR scenes, which consumes much of their representation power. In this paper, we propose LiDAR Diffusion Models (LiDMs) to generate LiDAR-realistic scenes from a latent space tailored to capture the realism of LiDAR scenes by incorporating geometric priors into the learning pipeline. Our method targets three major desiderata: pattern realism, geometry realism, and object realism. Specifically, we introduce curve-wise compression to simulate real-world LiDAR patterns, point-wise coordinate supervision to learn scene geometry, and patch-wise encoding for a full 3D object context. With these three core designs, our method achieves competitive performance on unconditional LiDAR generation in 64-beam scenario and state of the art on conditional LiDAR generation, while maintaining high efficiency compared to point-based DMs (up to 107$\times$ faster). Furthermore, by compressing LiDAR scenes into a latent space, we enable the controllability of DMs with various conditions such as semantic maps, camera views, and text prompts. Our code and pretrained weights are available at https://github.com/hancyran/LiDAR-Diffusion. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# HeteroMILE: 異種グラフのためのマルチレベルグラフ表現学習フレームワーク
HeteroMILE: a Multi-Level Graph Representation Learning Framework for Heterogeneous Graphs ( http://arxiv.org/abs/2404.00816v1 ) ライセンス: Link先を確認 | Yue Zhang, Yuntian He, Saket Gurukar, Srinivasan Parthasarathy, | (参考訳) 異種グラフは、様々な種類の実体の間の様々な関係を表現することができるため、現実世界の応用においてユビキタスである。
したがって、そのようなグラフへの埋め込みを学習することは、グラフ機械学習において重要な問題である。
しかし、この問題の既存の解は計算量が多いため、大きな不均一グラフにスケールできない。
この問題に対処するため,異種グラフ(HeteroMILE)上のノードのマルチレベル埋め込みフレームワークを提案する。
HeteroMILEは、グラフのバックボーン構造を埋め込む前に、大きなグラフを小さなサイズに繰り返し調整し、時間を要する処理操作を避けることで、計算コストを効果的に削減する。
その後、ヘテロジニアスグラフ畳み込みニューラルネットワークを用いて、元のグラフへの粗い埋め込みを洗練する。
一般的な異種グラフデータセットを用いて,本手法の評価を行った。
実験の結果,HeteroMILEは計算時間(約20倍の高速化)を大幅に短縮し,リンク予測やノード分類に優れた品質の埋め込みを生成することができた。
Heterogeneous graphs are ubiquitous in real-world applications because they can represent various relationships between different types of entities. Therefore, learning embeddings in such graphs is a critical problem in graph machine learning. However, existing solutions for this problem fail to scale to large heterogeneous graphs due to their high computational complexity. To address this issue, we propose a Multi-Level Embedding framework of nodes on a heterogeneous graph (HeteroMILE) - a generic methodology that allows contemporary graph embedding methods to scale to large graphs. HeteroMILE repeatedly coarsens the large sized graph into a smaller size while preserving the backbone structure of the graph before embedding it, effectively reducing the computational cost by avoiding time-consuming processing operations. It then refines the coarsened embedding to the original graph using a heterogeneous graph convolution neural network. We evaluate our approach using several popular heterogeneous graph datasets. The experimental results show that HeteroMILE can substantially reduce computational time (approximately 20x speedup) and generate an embedding of better quality for link prediction and node classification. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# 量子コンピュータ上の超相対論的クォーク核散乱
Ultra-relativistic quark-nucleus scattering on quantum computers ( http://arxiv.org/abs/2404.00819v1 ) ライセンス: Link先を確認 | Sihao Wu, Weijie Du, Xingbo Zhao, James P. Vary, | (参考訳) 量子コンピューティングは、古典的コンピュータで計算可能な第一原理計算からクォークとグルーオンからなるシステムのリアルタイム力学を解くための有望なアプローチを提供する。
本研究は、超相対論的クォーク核散乱の初期問題から始まり、光面上の力学を量子的にシミュレートするための効率的かつ正確なアプローチを示す。
このアプローチは漸近散乱系の固有基底を使い、基底符号化のためのコンパクトなスキームを実装している。
これは散乱系の光フロントハミルトニアンの作用素構造を利用しており、量子フーリエ変換を効率よく利用するハミルトニアン入力スキームを可能にする。
トランカテッド・テイラー級数を用いて力学シミュレーションを行う。
我々のアプローチのキュービットコストは散乱系のヒルベルト空間次元と対数的にスケールする。
ゲートコストはシミュレーション誤差による最適スケーリングとシミュレーション時間によるほぼ最適スケーリングである。
これらのスケーリングは、将来のフォールトトレラント量子コンピュータにおける大規模ダイナミクスシミュレーションに有利である。
簡単な散乱問題を用いて本手法を実証し, トロッターアルゴリズムと古典計算の結果とをベンチマークし, 結果の整合性を確認した。
Quantum computing provides a promising approach for solving the real-time dynamics of systems consist of quarks and gluons from first-principle calculations that are intractable with classical computers. In this work, we start with an initial problem of the ultra-relativistic quark-nucleus scattering and present an efficient and precise approach to quantum simulate the dynamics on the light front. This approach employs the eigenbasis of the asymptotic scattering system and implements the compact scheme for basis encoding. It exploits the operator structure of the light-front Hamiltonian of the scattering system, which enables the Hamiltonian input scheme that utilizes the quantum Fourier transform for efficiency. It utilizes the truncated Taylor series for the dynamics simulations. The qubit cost of our approach scales logarithmically with the Hilbert space dimension of the scattering system. The gate cost has optimal scaling with the simulation error and near optimal scaling with the simulation time. These scalings make our approach advantageous for large-scale dynamics simulations on future fault-tolerant quantum computers. We demonstrate our approach with a simple scattering problem and benchmark the results with those from the Trotter algorithm and the classical calculations, where good agreement between the results is found. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# 大規模言語モデルを用いた小児科患者の健康決定要因の抽出:新しいコーパスと方法
Extracting Social Determinants of Health from Pediatric Patient Notes Using Large Language Models: Novel Corpus and Methods ( http://arxiv.org/abs/2404.00826v1 ) ライセンス: Link先を確認 | Yujuan Fu, Giridhar Kaushik Ramachandran, Nicholas J Dobbins, Namu Park, Michael Leu, Abby R. Rosenberg, Kevin Lybarger, Fei Xia, Ozlem Uzuner, Meliha Yetisgen, | (参考訳) 健康の社会的決定因子(SDoH)は、特に介入が長期に影響を及ぼすおそれのある小児において、健康結果を形成する上で重要な役割を担っている。
SDoHは電子健康記録 (Electronic Health Record, EHR) で頻繁に研究されている。
本研究では,新たな注釈付きコーパスであるPedSHAC(Pediatric Social History Annotation Corpus)を提案し,Large Language Models(LLMs)を用いた微調整および文脈内学習手法を用いて,詳細なSDoH表現の自動抽出を評価する。
PedSHACは、ワシントン大学病院システム内の小児患者から得られた1,260の臨床ノートから注釈付き社会史セクションを含む。
イベントベースのアノテーションスキームを用いることで、PedSHACは生活と経済の安定性、先行トラウマ、教育アクセス、物質使用履歴、精神健康などを含む10の異なる健康決定因子を81.9 F1のアノテータ契約で取得する。
提案手法は,イベント引数に対して78.4 F1で高い性能を実現する。
GPT-4を用いたインコンテキスト学習手法は、イベントトリガの82.3 F1の抽出性能を持つ限定的な注釈付き例で、信頼性の高いSDoH抽出を約束する。
Social determinants of health (SDoH) play a critical role in shaping health outcomes, particularly in pediatric populations where interventions can have long-term implications. SDoH are frequently studied in the Electronic Health Record (EHR), which provides a rich repository for diverse patient data. In this work, we present a novel annotated corpus, the Pediatric Social History Annotation Corpus (PedSHAC), and evaluate the automatic extraction of detailed SDoH representations using fine-tuned and in-context learning methods with Large Language Models (LLMs). PedSHAC comprises annotated social history sections from 1,260 clinical notes obtained from pediatric patients within the University of Washington (UW) hospital system. Employing an event-based annotation scheme, PedSHAC captures ten distinct health determinants to encompass living and economic stability, prior trauma, education access, substance use history, and mental health with an overall annotator agreement of 81.9 F1. Our proposed fine-tuning LLM-based extractors achieve high performance at 78.4 F1 for event arguments. In-context learning approaches with GPT-4 demonstrate promise for reliable SDoH extraction with limited annotated examples, with extraction performance at 82.3 F1 for event triggers. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# PID制御による大規模言語モデルのロバスト性向上のための自己修復
PID Control-Based Self-Healing to Improve the Robustness of Large Language Models ( http://arxiv.org/abs/2404.00828v1 ) ライセンス: Link先を確認 | Zhuotong Chen, Zihu Wang, Yifan Yang, Qianxiao Li, Zheng Zhang, | (参考訳) 多くの自然言語処理アプリケーションにおけるディープニューラルネットワークの有効性にもかかわらず、最近の発見は、小さな摂動が導入されたときにこれらの言語モデルの脆弱性を露呈している。
意味的に人間と区別できないように見えるが、これらの摂動は、十分に訓練された言語モデルの性能を大幅に低下させ、安全な状況にデプロイする際の信頼性への懸念を引き起こす。
本研究では,入力データに摂動を適用した場合のオンライン推論において,望ましくないモデル動作を補正する,計算効率のよい自己修復プロセスを構築する。
これは、ニューラルネットワーク層の内部状態をPID(Proportional-Integral-Derivative)制御機構を用いて自動的に補正する軌道最適化問題として定式化される。
Pコントローラは即時状態調整を目標とし、IコントローラとDコントローラはそれぞれ過去の状態と将来の動的傾向を考慮している。
トレーニングデータの幾何学的特性を利用して、効率的な線形PIDコントローラを設計する。
このアプローチは、完全なPID制御ではなく、単にPコントローラを使用する場合の計算コストを削減します。
さらに、最適制御解を近似する解析手法を導入し、この制御系のリアルタイム推論能力を向上する。
さらに,解析解の理論的誤差解析を簡易な設定で行う。
提案したPID制御による自己修復は、幅広い摂動に対して、訓練済みの大規模言語モデルの堅牢性を改善するための、低コストなフレームワークである。
詳細な実装は、https://github.com/zhuotongchen/PID-Control-Based-Self-Healing-to-Improve-the-Robustness-of-Large-La nguage-Modelsにある。
Despite the effectiveness of deep neural networks in numerous natural language processing applications, recent findings have exposed the vulnerability of these language models when minor perturbations are introduced. While appearing semantically indistinguishable to humans, these perturbations can significantly reduce the performance of well-trained language models, raising concerns about the reliability of deploying them in safe-critical situations. In this work, we construct a computationally efficient self-healing process to correct undesired model behavior during online inference when perturbations are applied to input data. This is formulated as a trajectory optimization problem in which the internal states of the neural network layers are automatically corrected using a PID (Proportional-Integral-Derivative) control mechanism. The P controller targets immediate state adjustments, while the I and D controllers consider past states and future dynamical trends, respectively. We leverage the geometrical properties of the training data to design effective linear PID controllers. This approach reduces the computational cost to that of using just the P controller, instead of the full PID control. Further, we introduce an analytical method for approximating the optimal control solutions, enhancing the real-time inference capabilities of this controlled system. Moreover, we conduct a theoretical error analysis of the analytic solution in a simplified setting. The proposed PID control-based self-healing is a low cost framework that improves the robustness of pre-trained large language models, whether standard or robustly trained, against a wide range of perturbations. A detailed implementation can be found in:https://github.com/zhuotongchen/PID-Control-Based-Self-Healing-to-Improve-the-Robustness-of-Large -Language-Models. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# スタートに戻る: 関連するエンドポイントでナラティブを生成する
Returning to the Start: Generating Narratives with Related Endpoints ( http://arxiv.org/abs/2404.00829v1 ) ライセンス: Link先を確認 | Anneliese Brei, Chao Zhao, Snigdha Chaturvedi, | (参考訳) 人間の作家はしばしば「ループを閉じる」満足のいく物語を構成するために、最初の文に遡る文で文章を書記する。
この観察に動機づけられたRENarGenは,第1文と第2文の関連性を確保し,中間文を埋め込むことで物語を生成する制御可能な物語生成パラダイムである。
私たちのコントリビューションには、ナラトロジーからの様々な予約方法がストーリーの言語モデリングにどのように影響するかの最初の調査が含まれている。
自動的および人的評価は、RENarGenが現在の自己回帰モデルよりも物語的なクロージャを持つ優れたストーリーを生成することを示している。
Human writers often bookend their writing with ending sentences that relate back to the beginning sentences in order to compose a satisfying narrative that "closes the loop." Motivated by this observation, we propose RENarGen, a controllable story-generation paradigm that generates narratives by ensuring the first and last sentences are related and then infilling the middle sentences. Our contributions include an initial exploration of how various methods of bookending from Narratology affect language modeling for stories. Automatic and human evaluations indicate RENarGen produces better stories with more narrative closure than current autoregressive models. | 翻訳日:2024-04-04 01:41:21 公開日:2024-03-31 |
# ゼロショット感情と拡散生成によるヒューマン音声合成
Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation ( http://arxiv.org/abs/2404.01339v1 ) ライセンス: Link先を確認 | Rohan Chaudhury, Mihir Godbole, Aakash Garg, Jinsil Hwaryoung Seo, | (参考訳) 現代の会話システムでは、その反応は人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
ユーザーがよりパーソナライズされ共感的な対話を求めると、この欠如は特に顕著になる。
その結果、機械的であり、人間ユーザーにとって相対性が低いように思える。
このギャップを認識して、私たちは機械通信を人間化し、AIシステムが理解されるだけでなく、共鳴することを保証する旅を始めました。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
これらの複雑さは、テキスト生成中に言語モデルによって生成されたテキストにシームレスに統合され、システムは人間の音声パターンをより良くミラーし、より直感的で自然なユーザーインタラクションを促進する。
これらの生成した要素は、テキスト音声フェーズ中に規則に基づくアプローチを用いて、対応する音声パターンと動機音に順応的に変換される。
我々の実験に基づいて、我々の新しいシステムは、本物の人間のコミュニケーションとほとんど区別がつかない合成音声を生成し、それぞれのインタラクションをよりパーソナルで真正に感じさせる。
Contemporary conversational systems often present a significant limitation: their responses lack the emotional depth and disfluent characteristic of human interactions. This absence becomes particularly noticeable when users seek more personalized and empathetic interactions. Consequently, this makes them seem mechanical and less relatable to human users. Recognizing this gap, we embarked on a journey to humanize machine communication, to ensure AI systems not only comprehend but also resonate. To address this shortcoming, we have designed an innovative speech synthesis pipeline. Within this framework, a cutting-edge language model introduces both human-like emotion and disfluencies in a zero-shot setting. These intricacies are seamlessly integrated into the generated text by the language model during text generation, allowing the system to mirror human speech patterns better, promoting more intuitive and natural user interactions. These generated elements are then adeptly transformed into corresponding speech patterns and emotive sounds using a rule-based approach during the text-to-speech phase. Based on our experiments, our novel system produces synthesized speech that's almost indistinguishable from genuine human communication, making each interaction feel more personal and authentic. | 翻訳日:2024-04-03 21:06:49 公開日:2024-03-31 |
# 類似性から上位性へ:時系列予測のためのチャネルクラスタリング
From Similarity to Superiority: Channel Clustering for Time Series Forecasting ( http://arxiv.org/abs/2404.01340v1 ) ライセンス: Link先を確認 | Jialin Chen, Jan Eric Lenssen, Aosong Feng, Weihua Hu, Matthias Fey, Leandros Tassiulas, Jure Leskovec, Rex Ying, | (参考訳) 時系列の予測はここ数十年で大きな注目を集めている。
従来の研究では、チャネル独立(CI)戦略は、異なるチャネルを個別に扱うことによって予測性能を改善する一方で、見えないインスタンスの一般化が貧弱になり、チャネル間の潜在的に必要な相互作用を無視することを示した。
逆に、Channel-Dependent (CD) 戦略は、すべてのチャンネルを無関係で差別的な情報と混在させ、その結果過度な問題が発生し、予測精度が制限される。
チャネル間の本質的な相互作用を見落としずに、予測性能を向上させるために、個別のチャネル処理を効果的にバランスさせるチャネル戦略の欠如がある。
チャネル混合に対する時系列モデルの性能向上と,一対のチャネルの内在的類似性との相関関係を考察し,新しい適応可能なチャネルクラスタリングモジュール(CCM)を開発した。
CCMは、固有の類似性によって特徴づけられるチャネルを動的にグループ化し、CDとCIの世界をうまく組み合わせて、チャネルアイデンティティの代わりにクラスタアイデンティティを利用する。
実世界のデータセットに対する大規模な実験により,(1)CIモデルとCDモデルの平均マージンが平均2.4%,(2)長期予測が7.2%向上し,(2)主流時系列予測モデルによるゼロショット予測が可能となり,(3)チャネル間の固有時系列パターンが明らかになり,複雑な時系列モデルの解釈可能性が改善された。
Time series forecasting has attracted significant attention in recent decades. Previous studies have demonstrated that the Channel-Independent (CI) strategy improves forecasting performance by treating different channels individually, while it leads to poor generalization on unseen instances and ignores potentially necessary interactions between channels. Conversely, the Channel-Dependent (CD) strategy mixes all channels with even irrelevant and indiscriminate information, which, however, results in oversmoothing issues and limits forecasting accuracy. There is a lack of channel strategy that effectively balances individual channel treatment for improved forecasting performance without overlooking essential interactions between channels. Motivated by our observation of a correlation between the time series model's performance boost against channel mixing and the intrinsic similarity on a pair of channels, we developed a novel and adaptable Channel Clustering Module (CCM). CCM dynamically groups channels characterized by intrinsic similarities and leverages cluster identity instead of channel identity, combining the best of CD and CI worlds. Extensive experiments on real-world datasets demonstrate that CCM can (1) boost the performance of CI and CD models by an average margin of 2.4% and 7.2% on long-term and short-term forecasting, respectively; (2) enable zero-shot forecasting with mainstream time series forecasting models; (3) uncover intrinsic time series patterns among channels and improve interpretability of complex time series models. | 翻訳日:2024-04-03 21:06:49 公開日:2024-03-31 |
# ブロック対角誘導DBSCANクラスタリング
Block-Diagonal Guided DBSCAN Clustering ( http://arxiv.org/abs/2404.01341v1 ) ライセンス: Link先を確認 | Zheng Xing, Weibing Zhao, | (参考訳) クラスタ分析はデータベースマイニングにおいて重要な役割を担い、この分野で最も広く使われているアルゴリズムの1つはDBSCANである。
しかし、DBSCANには、高次元の大規模データを扱うことの難しさ、入力パラメータに対する感度、クラスタリング結果の生成における堅牢性の欠如など、いくつかの制限がある。
本稿では、類似性グラフのブロック対角特性を利用してDBSCANのクラスタリング手順を導出するDBSCANの改良版を提案する。
鍵となる考え方は、高次元の大規模データポイント間の類似度を測定し、未知の置換によってブロック対角形に変換される可能性を持つグラフを構築することである。
クラスタリング構造は、置換グラフ内の対角ブロックを識別することで容易に決定できる。
そこで本研究では,勾配勾配勾配に基づく解法を提案する。
さらに,DBSCANに基づく点トラバースアルゴリズムを開発し,グラフの密度の高いクラスタを同定し,クラスタの順序付けを高速化する。
グラフのブロック対角構造は、トラバース次数に基づく置換によって達成され、自動的および対話的クラスタ分析のための柔軟な基盤を提供する。
我々は,特定の場合において理論的に最適な保証で,置換グラフ内のすべての対角ブロックを自動的に探索する分割と再定義のアルゴリズムを導入する。
実世界の12のベンチマーククラスタリングデータセットに対する提案手法を広範に評価し、各データセットの最先端クラスタリング手法と比較して優れた性能を示す。
Cluster analysis plays a crucial role in database mining, and one of the most widely used algorithms in this field is DBSCAN. However, DBSCAN has several limitations, such as difficulty in handling high-dimensional large-scale data, sensitivity to input parameters, and lack of robustness in producing clustering results. This paper introduces an improved version of DBSCAN that leverages the block-diagonal property of the similarity graph to guide the clustering procedure of DBSCAN. The key idea is to construct a graph that measures the similarity between high-dimensional large-scale data points and has the potential to be transformed into a block-diagonal form through an unknown permutation, followed by a cluster-ordering procedure to generate the desired permutation. The clustering structure can be easily determined by identifying the diagonal blocks in the permuted graph. We propose a gradient descent-based method to solve the proposed problem. Additionally, we develop a DBSCAN-based points traversal algorithm that identifies clusters with high densities in the graph and generates an augmented ordering of clusters. The block-diagonal structure of the graph is then achieved through permutation based on the traversal order, providing a flexible foundation for both automatic and interactive cluster analysis. We introduce a split-and-refine algorithm to automatically search for all diagonal blocks in the permuted graph with theoretically optimal guarantees under specific cases. We extensively evaluate our proposed approach on twelve challenging real-world benchmark clustering datasets and demonstrate its superior performance compared to the state-of-the-art clustering method on every dataset. | 翻訳日:2024-04-03 21:06:49 公開日:2024-03-31 |
# DiffAgent: 大規模言語モデルによる高速かつ高精度なテキスト・画像API選択
DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model ( http://arxiv.org/abs/2404.01342v1 ) ライセンス: Link先を確認 | Lirui Zhao, Yue Yang, Kaipeng Zhang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Rongrong Ji, | (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
例えば、T2IイノベーションのためのプラットフォームであるCivitaiコミュニティは、現在74,492の異なるモデルの印象的な配列をホストしている。
しかし、この多様性は、多くの試行を要するプロセスである最も適切なモデルとパラメータを選択する際に、非常に難しい課題を提示します。
大規模言語モデル(LLM)のツール利用研究から着想を得たDiffAgentを紹介した。
DiffAgentは、新しい2段階のトレーニングフレームワークSFTAを活用し、T2I APIレスポンスとユーザの入力を人間の好みに応じて正確に調整することを可能にする。
DiffAgentの能力をトレーニングし、評価するために、コミュニティから幅広いT2I APIを含む包括的なデータセットであるDABenchを紹介します。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けていることがわかった。
コードはhttps://github.com/OpenGVLab/DiffAgent.comで入手できる。
Text-to-image (T2I) generative models have attracted significant attention and found extensive applications within and beyond academic research. For example, the Civitai community, a platform for T2I innovation, currently hosts an impressive array of 74,492 distinct models. However, this diversity presents a formidable challenge in selecting the most appropriate model and parameters, a process that typically requires numerous trials. Drawing inspiration from the tool usage research of large language models (LLMs), we introduce DiffAgent, an LLM agent designed to screen the accurate selection in seconds via API calls. DiffAgent leverages a novel two-stage training framework, SFTA, enabling it to accurately align T2I API responses with user input in accordance with human preferences. To train and evaluate DiffAgent's capabilities, we present DABench, a comprehensive dataset encompassing an extensive range of T2I APIs from the community. Our evaluations reveal that DiffAgent not only excels in identifying the appropriate T2I API but also underscores the effectiveness of the SFTA training framework. Codes are available at https://github.com/OpenGVLab/DiffAgent. | 翻訳日:2024-04-03 21:06:49 公開日:2024-03-31 |
# CHOPS: LLMを使った顧客サービスのためのcustOmerプロファイルシステムとのチャット
CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs ( http://arxiv.org/abs/2404.01343v1 ) ライセンス: Link先を確認 | Jingzhe Shi, Jialuo Li, Qinwei Ma, Zaiwen Yang, Huan Ma, Lei Li, | (参考訳) GPT-3.5、GPT-4、GLM-3、LLaMa-2といった大企業やソフトウェアプラットフォームは、ファイルアクセスやカスタマーサービスの推論エージェントとして、より大規模な言語モデル(LLM)に移行しつつある。
しかし、現在のLLMベースのカスタマーサービスモデルでは、顧客プロファイルとの統合が限られており、効果的なサービスに必要な運用機能が欠如している。
さらに、既存のAPI統合は、現実世界のカスタマーサービスシナリオに不可欠な精度とエラー回避の多様性を強調している。
これらの問題に対処するために,1)既存のデータベースやシステムを利用してユーザ情報にアクセスしたり,既存のガイドラインに従ってシステムと対話したりすること,2)有害な操作を回避しつつ,正確で合理的な応答を提供したり,あるいは必要な操作をシステム内で行うこと,3)小規模と大規模のLCMの組み合わせを活用して,合理的な推論コストで性能を満足させること,などを目的とする,CHOPS (CHAT with custOmer Profile in existing System) という LLM エージェントを提案する。
我々は,CPHOSから収集したデータベース,ファイルの案内,QAペアを含む,実践的なデータセットであるCPHOSデータセットを紹介した。
我々はCPHOSデータセットを用いて提案したCHOPSアーキテクチャの性能を検証するための広範な実験を行い、LLMがヒューマンカスタマーサービスの代替品としてどのように機能するかを実証した。
コードとデータセットは近くオープンソース化される予定です。
Businesses and software platforms are increasingly turning to Large Language Models (LLMs) such as GPT-3.5, GPT-4, GLM-3, and LLaMa-2 for chat assistance with file access or as reasoning agents for customer service. However, current LLM-based customer service models have limited integration with customer profiles and lack the operational capabilities necessary for effective service. Moreover, existing API integrations emphasize diversity over the precision and error avoidance essential in real-world customer service scenarios. To address these issues, we propose an LLM agent named CHOPS (CHat with custOmer Profile in existing System), designed to: (1) efficiently utilize existing databases or systems for accessing user information or interacting with these systems following existing guidelines; (2) provide accurate and reasonable responses or carry out required operations in the system while avoiding harmful operations; and (3) leverage a combination of small and large LLMs to achieve satisfying performance at a reasonable inference cost. We introduce a practical dataset, the CPHOS-dataset, which includes a database, guiding files, and QA pairs collected from CPHOS, an online platform that facilitates the organization of simulated Physics Olympiads for high school teachers and students. We have conducted extensive experiments to validate the performance of our proposed CHOPS architecture using the CPHOS-dataset, with the aim of demonstrating how LLMs can enhance or serve as alternatives to human customer service. Our code and dataset will be open-sourced soon. | 翻訳日:2024-04-03 20:56:59 公開日:2024-03-31 |
# Mind Your Neighbours: 法的文書の修辞的役割ラベル付けにアナロジーインスタンスを活用する
Mind Your Neighbours: Leveraging Analogous Instances for Rhetorical Role Labeling for Legal Documents ( http://arxiv.org/abs/2404.01344v1 ) ライセンス: Link先を確認 | T. Y. S. S Santosh, Hassan Sarwat, Ahmed Abdou, Matthias Grabmair, | (参考訳) 法的判断の修辞的役割ラベルリング(RRL)は、ケース要約、セマンティックサーチ、引数マイニングといった様々なタスクに不可欠である。
しかし、文脈や関係する役割、注釈付きデータに制限されたデータ、ラベルの不均衡から文の役割を推測するといった課題が提示される。
本研究は, 近辺のセマンティック類似事例からの知識を活用することにより, RRL性能を向上させる新しい手法を提案する。
我々は推論とトレーニングに基づくアプローチを探求し、マクロF1スコアの挑戦において顕著な改善を実現した。
推論に基づく手法では、ラベル予測を再学習せずに促進する補間手法を検討する。
トレーニングベースの手法では, 組込み空間に直接作用する新しい談話対応コントラスト手法と, プロトタイプ学習を統合した。
さらに,本手法のクロスドメイン適用性を評価し,多種多様な法域にわたる知識の伝達の有効性を実証した。
Rhetorical Role Labeling (RRL) of legal judgments is essential for various tasks, such as case summarization, semantic search and argument mining. However, it presents challenges such as inferring sentence roles from context, interrelated roles, limited annotated data, and label imbalance. This study introduces novel techniques to enhance RRL performance by leveraging knowledge from semantically similar instances (neighbours). We explore inference-based and training-based approaches, achieving remarkable improvements in challenging macro-F1 scores. For inference-based methods, we explore interpolation techniques that bolster label predictions without re-training. While in training-based methods, we integrate prototypical learning with our novel discourse-aware contrastive method that work directly on embedding spaces. Additionally, we assess the cross-domain applicability of our methods, demonstrating their effectiveness in transferring knowledge across diverse legal domains. | 翻訳日:2024-04-03 20:56:59 公開日:2024-03-31 |
# 双方向Gated Recurrent Unitとディープラーニング技術を用いたバングラフェイクニュース検出の強化
Enhancing Bangla Fake News Detection Using Bidirectional Gated Recurrent Units and Deep Learning Techniques ( http://arxiv.org/abs/2404.01345v1 ) ライセンス: Link先を確認 | Utsha Roy, Mst. Sazia Tahosin, Md. Mahedi Hassan, Taminul Islam, Fahim Imtiaz, Md Rezwane Sadik, Yassine Maleh, Rejwan Bin Sulaiman, Md. Simul Hasan Talukder, | (参考訳) フェイクニュースの出現により、英語以外の言語を含む効果的な検出方法の必要性が高まっている。
この研究は、重要でない言語と見なされるバングラの課題に対処することを目的としている。
この目的のために,約5万件のニュース記事を含む完全なデータセットを提案する。
このデータセットでは、双方向ゲートリカレントユニット(GRU)、長い短期記憶(LSTM)、1D畳み込みニューラルネットワーク(CNN)、ハイブリッドアーキテクチャなど、いくつかのディープラーニングモデルがテストされている。
本研究は、リコール、精度、F1スコア、精度など、様々な有用な尺度を用いて、モデルの有効性を評価した。
これは大きなアプリケーションを採用することで実現した。
両方向性GRUモデルは99.16%の精度で、バングラのボグニュースを識別する上でこれらのモデルの有効性を示す包括的な試行を行った。
分析では、データセットのバランスの重要性と、継続的な改善努力の必要性をある程度強調した。
本研究は,限られた資源を持つ偽ニュース検知システムの構築に大きく貢献する。
The rise of fake news has made the need for effective detection methods, including in languages other than English, increasingly important. The study aims to address the challenges of Bangla which is considered a less important language. To this end, a complete dataset containing about 50,000 news items is proposed. Several deep learning models have been tested on this dataset, including the bidirectional gated recurrent unit (GRU), the long short-term memory (LSTM), the 1D convolutional neural network (CNN), and hybrid architectures. For this research, we assessed the efficacy of the model utilizing a range of useful measures, including recall, precision, F1 score, and accuracy. This was done by employing a big application. We carry out comprehensive trials to show the effectiveness of these models in identifying bogus news in Bangla, with the Bidirectional GRU model having a stunning accuracy of 99.16%. Our analysis highlights the importance of dataset balance and the need for continual improvement efforts to a substantial degree. This study makes a major contribution to the creation of Bangla fake news detecting systems with limited resources, thereby setting the stage for future improvements in the detection process. | 翻訳日:2024-04-03 20:56:59 公開日:2024-03-31 |
# 大規模言語モデルの公正性:分類学的調査
Fairness in Large Language Models: A Taxonomic Survey ( http://arxiv.org/abs/2404.01349v1 ) ライセンス: Link先を確認 | Zhibo Chu, Zichong Wang, Wenbin Zhang, | (参考訳) 大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
しかし、多くの実世界のアプリケーションで有望な性能を示したにもかかわらず、これらのアルゴリズムのほとんどは公平性を考慮していない。
その結果、特定のコミュニティ、特に疎外化人口に対して差別的な結果をもたらす可能性があり、公正なLLMにおいて広範な研究が進められる。
一方、LLMの公平さは、従来の機械学習の公平さとは対照的に、排他的背景、分類学、充足技術を含んでいる。
そこで本研究では, フェアLLMに関する文献の最近の進歩を概観する。
具体的には、LLMの簡単な紹介と、LLMのバイアスに寄与する要因の分析を行う。
さらに、LLMにおける公平性の概念を分類的に議論し、LLMにおけるバイアスを評価するためのメトリクスと、公正性を促進するための既存のアルゴリズムを要約する。
さらに、ツールキットやデータセットを含むLCMのバイアスを評価するためのリソースを要約する。
最後に、既存の研究課題とオープンな質問について論じる。
Large Language Models (LLMs) have demonstrated remarkable success across various domains. However, despite their promising performance in numerous real-world applications, most of these algorithms lack fairness considerations. Consequently, they may lead to discriminatory outcomes against certain communities, particularly marginalized populations, prompting extensive study in fair LLMs. On the other hand, fairness in LLMs, in contrast to fairness in traditional machine learning, entails exclusive backgrounds, taxonomies, and fulfillment techniques. To this end, this survey presents a comprehensive overview of recent advances in the existing literature concerning fair LLMs. Specifically, a brief introduction to LLMs is provided, followed by an analysis of factors contributing to bias in LLMs. Additionally, the concept of fairness in LLMs is discussed categorically, summarizing metrics for evaluating bias in LLMs and existing algorithms for promoting fairness. Furthermore, resources for evaluating bias in LLMs, including toolkits and datasets, are summarized. Finally, existing research challenges and open questions are discussed. | 翻訳日:2024-04-03 20:56:59 公開日:2024-03-31 |
# 周期結合クラスタ理論における有限サイズ誤差の逆体積スケーリング
Inverse Volume Scaling of Finite-Size Error in Periodic Coupled Cluster Theory ( http://arxiv.org/abs/2304.03330v2 ) ライセンス: Link先を確認 | Xin Xing, Lin Lin, | (参考訳) 結合クラスター理論は、初期分子量子化学において最も一般的なハートリー・フォック法の一つである。
三次元絶縁系における周期結合クラスタ計算における相関エネルギーの有限サイズ誤差は、補正スキームがなくても逆体積スケーリングを満たすことが観察されている。
結合されたクラスタ図のサブセットのみを利用する単純な理論は、システムの長さと逆スケールする有限サイズの誤差の非常に遅い崩壊を示すため、これは驚くべきことである。
本研究では,周期系の量子化学法における有限サイズ誤差の現在の理解について概説する。
本稿では,この現象の背後にあるメカニズムを,クラスタ連成計算の文脈で解明する新しいツールを紹介する。
これは、有限サイズのスケーリングに関連する、一見パラドックス的なステートメントを再構成する。
また, 周期系の量子化学計算において, 特異性減算は有限サイズの誤差を効果的に低減する強力な手法であることを示す。
Coupled cluster theory is one of the most popular post-Hartree-Fock methods for ab initio molecular quantum chemistry. The finite-size error of the correlation energy in periodic coupled cluster calculations for three-dimensional insulating systems has been observed to satisfy the inverse volume scaling, even in the absence of any correction schemes. This is surprising, as simpler theories that utilize only a subset of the coupled cluster diagrams exhibit much slower decay of the finite-size error, which scales inversely with the length of the system. In this study, we review the current understanding of finite-size error in quantum chemistry methods for periodic systems. We introduce new tools that elucidate the mechanisms behind this phenomenon in the context of coupled cluster doubles calculations. This reconciles some seemingly paradoxical statements related to finite-size scaling. Our findings also show that singularity subtraction can be a powerful method to effectively reduce finite-size errors in practical quantum chemistry calculations for periodic systems. | 翻訳日:2024-04-02 19:58:13 公開日:2024-03-31 |
# WeisfeilerとLehman Go Paths:パスコンプレックスによるトポロジ的特徴の学習
Weisfeiler and Lehman Go Paths: Learning Topological Features via Path Complexes ( http://arxiv.org/abs/2308.06838v6 ) ライセンス: Link先を確認 | Quang Truong, Peter Chin, | (参考訳) グラフニューラルネットワーク(GNN)は、異なるタスクにまたがる顕著な性能を達成しているが、理論上は1-Weisfeiler-Lehmanテストによって拘束され、グラフ表現性の限界が生じる。
トポロジカル高次GNNに関する以前の研究はその境界を克服したが、これらのモデルはグラフのサブ構造に関する仮定に依存することが多い。
具体的には、トポロジカルGNNは、クリフ、サイクル、リングの頻度を利用してメッセージパッシングの手順を強化する。
本研究は,トポロジカルメッセージパッシング過程におけるグラフ内の単純な経路に着目し,制約的帰納的バイアスからモデルを解放することで,新たな視点を示す。
グラフをパス複体に持ち上げることで、我々のモデルは、単純複体および正規セル複体に関するいくつかの理論的結果を継承しながら、トポロジーに関する既存の研究を一般化することができることを証明した。
グラフのサブ構造に関する事前の仮定がなければ、この手法は他のトポロジ的領域での先行研究よりも優れ、様々なベンチマークで最先端の結果が得られます。
Graph Neural Networks (GNNs), despite achieving remarkable performance across different tasks, are theoretically bounded by the 1-Weisfeiler-Lehman test, resulting in limitations in terms of graph expressivity. Even though prior works on topological higher-order GNNs overcome that boundary, these models often depend on assumptions about sub-structures of graphs. Specifically, topological GNNs leverage the prevalence of cliques, cycles, and rings to enhance the message-passing procedure. Our study presents a novel perspective by focusing on simple paths within graphs during the topological message-passing process, thus liberating the model from restrictive inductive biases. We prove that by lifting graphs to path complexes, our model can generalize the existing works on topology while inheriting several theoretical results on simplicial complexes and regular cell complexes. Without making prior assumptions about graph sub-structures, our method outperforms earlier works in other topological domains and achieves state-of-the-art results on various benchmarks. | 翻訳日:2024-04-02 19:58:13 公開日:2024-03-31 |
# 視覚言語モデルのためのソフトコンテキスト共有によるプロンプトチューニング
Prompt Tuning with Soft Context Sharing for Vision-Language Models ( http://arxiv.org/abs/2208.13474v2 ) ライセンス: Link先を確認 | Kun Ding, Ying Wang, Pengzhang Liu, Qiang Yu, Haojian Zhang, Shiming Xiang, Chunhong Pan, | (参考訳) ビジョン言語モデルは近年、コンピュータビジョンにおける多くのタスクにおいて大きな可能性を示している。
一方、事前の研究では、視覚言語モデル用に設計されたプロンプトチューニングは、強力なベースラインである線形プローブに比べて、数ショット画像認識において優れた性能が得られることを示した。
実際には、多くの少数ショットタスクは本質的に相関関係にある。
しかし、そのような情報は以前にも見過ごされている。
マルチタスク学習によるタスク関係のモデル化は、通常、性能を高めることができるという事実に着想を得て、複数目標の複数ショットタスクに対して事前学習された視覚言語モデルを協調的に調整するための、SoftCPT(Soft Context Sharing for Prompt Tuning)を提案する。
具体的には、タスク名と学習可能なタスクコンテキストを入力として、タスク名を用いてタスク毎のプロンプトコンテキストを生成するタスク共有メタネットワークを設計する。
このメタネットワークのパラメータとタスクコンテキストは、すべてのタスクの共同トレーニングセットに基づいて調整される。
したがって、全てのタスクの迅速なコンテキストは、ソフトな方法で共有される。
44のタスクと1593のカテゴリを対象とする4つのマルチタスク・ショットデータセットに対する大規模な実験により、SoftCPTはシングルタスク・プロンプト・チューニング法を著しく上回り、視覚言語によるプロンプト・チューニングにおけるマルチタスク・ラーニングの有効性を強調した。
コードはhttps://github.com/kding1225/softcpt.comから入手できる。
Vision-language models have recently shown great potential on many tasks in computer vision. Meanwhile, prior work demonstrates prompt tuning designed for vision-language models could acquire superior performance on few-shot image recognition compared to linear probe, a strong baseline. In practice, many few-shot tasks are inherently correlated, particularly within specialized domains. However, such information is overlooked previously. Inspired by the fact that modeling task relationship by multi-task learning can usually boost performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt Tuning) to tune pre-trained vision-language models on multiple target few-shot tasks jointly. Specifically, we design a task-shared meta network to generate prompt context for each task using task name together with a learnable task context as input. The parameters of this meta network as well as the task context are tuned on the joint training set of all tasks. As such, the prompt context of all tasks will be shared in a soft manner. Extensive experiments across four multi-task few-shot datasets covering 44 tasks and 1593 categories demonstrate that SoftCPT significantly outperforms single-task prompt tuning methods, highlighting the effectiveness of multi-task learning for vision-language prompt tuning. Code is available at https://github.com/kding1225/softcpt. | 翻訳日:2024-04-02 16:23:34 公開日:2024-03-31 |
# G-PECNet: 一般化可能な歩行者軌道予測システムを目指して
G-PECNet: Towards a Generalizable Pedestrian Trajectory Prediction System ( http://arxiv.org/abs/2210.09846v3 ) ライセンス: Link先を確認 | Aryan Garg, Renu M. Rameshan, | (参考訳) 人的資産を妨害したり損傷させたりすることなく、ダイナミックな物理的環境をナビゲートすることは、社会ロボットにとって極めて重要である。
本研究では,自律型ドローンナビゲーションのサブプロブレムを,深層生成モデルを用いて,ドメイン外の人間とエージェントの軌道を予測する。
提案手法は,2020年のベンチマークでは, 周期的アクティベーション関数にインスパイアされたアーキテクチャ改善と, 隠れマルコフモデル(HMM)と強化学習(RL)を用いた合成軌道(データ)拡張を併用して, 最終変位誤差(FDE)の9.5倍の改善を観測する。
さらに,軌道の非線形性および外乱検出のための簡易な幾何学的インスピレーション付き計量を提案し,その課題に役立てる。
https://github.com/Aryan-Garg/PECNet-Pedestrian-Trajectory-Prediction.gitで公開されている。
Navigating dynamic physical environments without obstructing or damaging human assets is of quintessential importance for social robots. In this work, we solve autonomous drone navigation's sub-problem of predicting out-of-domain human and agent trajectories using a deep generative model. Our method: General-PECNet or G-PECNet observes an improvement of 9.5\% on the Final Displacement Error (FDE) on 2020's benchmark: PECNet through a combination of architectural improvements inspired by periodic activation functions and synthetic trajectory (data) augmentations using Hidden Markov Models (HMMs) and Reinforcement Learning (RL). Additionally, we propose a simple geometry-inspired metric for trajectory non-linearity and outlier detection, helpful for the task. Code available at https://github.com/Aryan-Garg/PECNet-Pedestrian-Trajectory-Prediction.git | 翻訳日:2024-04-02 16:13:48 公開日:2024-03-31 |
# ボットだ! - Twitterにおけるボット非難の展開についての研究
You are a Bot! -- Studying the Development of Bot Accusations on Twitter ( http://arxiv.org/abs/2302.00546v3 ) ライセンス: Link先を確認 | Dennis Assenmacher, Leon Fröhling, Claudia Wagner, | (参考訳) ソーシャルメディアプラットフォーム上で社会を操作できると推定されるボットの特性と検出は、過去10年間に多くの研究課題に直面してきた。
根拠となる真理データ(すなわち、専門家によってボットとしてラベル付けされたアカウント、あるいは自動化された性質を自己宣言するアカウント)が存在しない場合、ボットの特性や検出に関心のある研究者は、群衆の知恵を取り入れたいかもしれない。
しかし、アカウントが自動化されていると仮定する前に、ボットとして他のユーザーを非難する必要がある人はどのくらいいるだろうか?
さらに重要なのは、ボットを検知するための有効なシグナルとして、ソーシャルメディアに対するボットの告発があるか?
本研究は、Twitter上でのボットの告発に関する大規模な研究であり、会話相手の人間性を否定するために主に使用されているため、ソーシャルメディアの会話においてボットという用語が非人間化の手段となったことを示すものである。
したがって、ソーシャルメディアに対するボットの告発は、ボット検出モデルを訓練またはテストするための信号として、否定的に使用するべきではない。
The characterization and detection of bots with their presumed ability to manipulate society on social media platforms have been subject to many research endeavors over the last decade. In the absence of ground truth data (i.e., accounts that are labeled as bots by experts or self-declare their automated nature), researchers interested in the characterization and detection of bots may want to tap into the wisdom of the crowd. But how many people need to accuse another user as a bot before we can assume that the account is most likely automated? And more importantly, are bot accusations on social media at all a valid signal for the detection of bots? Our research presents the first large-scale study of bot accusations on Twitter and shows how the term bot became an instrument of dehumanization in social media conversations since it is predominantly used to deny the humanness of conversation partners. Consequently, bot accusations on social media should not be naively used as a signal to train or test bot detection models. | 翻訳日:2024-04-02 16:13:48 公開日:2024-03-31 |
# CECT:CNNとトランスフォーマーによる新型コロナウイルス画像分類
CECT: Controllable Ensemble CNN and Transformer for COVID-19 Image Classification ( http://arxiv.org/abs/2302.02314v4 ) ライセンス: Link先を確認 | Zhaoshan Liu, Lei Shen, | (参考訳) 新型コロナウイルスのパンデミックにより、世界中で数億件の感染者と多数の死者が出た。
そこで我々は,制御可能なアンサンブル畳み込みニューラルネットワークとトランスフォーマーによる新しい分類ネットワークCECTを開発し,時間的かつ正確な新型コロナウイルスの診断を行う。
CECTは、並列畳み込みエンコーダブロック、集合畳み込み畳み込みデコーダブロック、および窓付きアテンション分類ブロックからなる。
各ブロックは28$\times$28から224$\times$224の異なるスケールで機能をキャプチャし、リッチで包括的な情報を構成する。
既存の方法とは異なり、CECTは高度なモジュール設計をすることなく、マルチローカルとグローバルの両方のスケールで機能をキャプチャできる。
さらに、異なるスケールでの局所的特徴の寄与は、提案したアンサンブル係数によって制御できる。
我々は、CECTを2つの公開COVID-19データセットで評価し、既存の最先端手法よりも高い精度で、データセット内評価で98.1%に達する。
さらに、開発されたCECTは、データセット間評価において、未知のデータセットに対して90.9%の精度を実現し、異常な一般化能力を示す。
特徴捕捉能力と一般化能力により、CECTは強力な診断ツールとして他の医療シナリオにも拡張できると考えています。
コードはhttps://github.com/NUS-Tim/CECT.comで入手できる。
The COVID-19 pandemic has resulted in hundreds of million cases and numerous deaths worldwide. Here, we develop a novel classification network CECT by controllable ensemble convolutional neural network and transformer to provide a timely and accurate COVID-19 diagnosis. The CECT is composed of a parallel convolutional encoder block, an aggregate transposed-convolutional decoder block, and a windowed attention classification block. Each block captures features at different scales from 28 $\times$ 28 to 224 $\times$ 224 from the input, composing enriched and comprehensive information. Different from existing methods, our CECT can capture features at both multi-local and global scales without any sophisticated module design. Moreover, the contribution of local features at different scales can be controlled with the proposed ensemble coefficients. We evaluate CECT on two public COVID-19 datasets and it reaches the highest accuracy of 98.1% in the intra-dataset evaluation, outperforming existing state-of-the-art methods. Moreover, the developed CECT achieves an accuracy of 90.9% on the unseen dataset in the inter-dataset evaluation, showing extraordinary generalization ability. With remarkable feature capture ability and generalization ability, we believe CECT can be extended to other medical scenarios as a powerful diagnosis tool. Code is available at https://github.com/NUS-Tim/CECT. | 翻訳日:2024-04-02 16:13:48 公開日:2024-03-31 |
# 混合ウェーブレット統合によるパノラマの深部畳み込み
Deep Convolutional Framelet Denoising for Panoramic by Mixed Wavelet Integration ( http://arxiv.org/abs/2302.10306v2 ) ライセンス: Link先を確認 | Masoud Shahraki Mohammadi, Seyed Javad Seyed Mahdavi Chabok, | (参考訳) 前処理における品質向上とノイズ除去は、画像処理における最も重要なステップの1つである。
X線画像は、原子と衝突する光子と散乱ノイズ吸収のばらつきによって生成される。
このノイズは、グラフの医療的品質を低下させ、時には反復し、患者の有効用量を増加させる。
この領域で最も重要な課題の1つは、常に画像ノイズを下げることである。
BM3dやローパスフィルタ、Autoencoderといった技術がこの一歩を踏み出した。
構造設計と高い繰り返し率のため、様々なアーキテクチャを用いたニューラルネットワークは、過去10年間で、従来のBM3Dやローパスフィルタを超越して、良好な結果でノイズ低減を実現している。
ハンケル行列とニューラルネットワークの組み合わせは、これらの構成の1つである。
ハンケル行列は、非局所行列を用いて、個々の値を局所成分と非局所成分に分離することで局所円を識別することを目的としている。
非局所行列は波動またはDCTを用いて作成することができる。
本稿では,この波形をダウブチー(D4)ウェーブレットに高エネルギー濃度で統合し,各段階でのみ波形を組み込むu-Netニューラルネットワークアーキテクチャを採用することを提案する。
結果はPSNRとSSIMの基準を用いて評価され,様々な波を用いて検証された。
他のデータセットによる研究によると、ワンウェーブネットワークの有効性は0.5%から1.2%に増加した。
Enhancing quality and removing noise during preprocessing is one of the most critical steps in image processing. X-ray images are created by photons colliding with atoms and the variation in scattered noise absorption. This noise leads to a deterioration in the graph's medical quality and, at times, results in repetition, thereby increasing the patient's effective dose. One of the most critical challenges in this area has consistently been lowering the image noise. Techniques like BM3d, low-pass filters, and Autoencoder have taken this step. Owing to their structural design and high rate of repetition, neural networks employing diverse architectures have, over the past decade, achieved noise reduction with satisfactory outcomes, surpassing the traditional BM3D and low-pass filters. The combination of the Hankel matrix with neural networks represents one of these configurations. The Hankel matrix aims to identify a local circle by separating individual values into local and non-local components, utilizing a non-local matrix. A non-local matrix can be created using the wave or DCT. This paper suggests integrating the waveform with the Daubechies (D4) wavelet due to its higher energy concentration and employs the u-Net neural network architecture, which incorporates the waveform exclusively at each stage. The outcomes were evaluated using the PSNR and SSIM criteria, and the outcomes were verified by using various waves. The effectiveness of a one-wave network has increased from 0.5% to 1.2%, according to studies done on other datasets. | 翻訳日:2024-04-02 16:13:48 公開日:2024-03-31 |
# 意味融合多粒性都市交通予測
Semantic-Fused Multi-Granularity Cross-City Traffic Prediction ( http://arxiv.org/abs/2302.11774v2 ) ライセンス: Link先を確認 | Kehua Chen, Yuxuan Liang, Jindong Han, Siyuan Feng, Meixin Zhu, Hai Yang, | (参考訳) 正確な交通予測は、効果的な都市管理と交通効率の向上に不可欠である。
近年,データ駆動型トラフィック予測手法が広く採用され,従来の手法よりも性能が向上している。
しかし、それらは効果的なトレーニングのために大量のデータを必要とすることが多く、センサインフラが不十分な地域ではデータの不足が頻発しているため、困難になる。
この問題に対処するために,異なる粒度で融合意味を持つ都市間における知識伝達を実現するために,セマンティック・フューズド・マルチグラニュラリティ・トランスファー・ラーニング(SFMGTL)モデルを提案する。
そこで本研究では,静的な空間依存を再構築損失を通じて保存しながら,様々な意味を融合する意味融合モジュールを設計する。
そして、グラフ構造学習により、ノード特徴に基づいて融合グラフを構築する。
その後、階層的なノードクラスタリングを実装し、粒度の異なるグラフを生成する。
実現可能なメタ知識を抽出するために,共有記憶とプライベート記憶を更に導入し,敵対的学習を通じてドメイン不変の特徴を得る。
我々の研究は、伝達学習における意味融合と多粒度問題に共同で取り組むことに注意する必要がある。
SFMGTLモデルの有効性を他の最先端のベースラインと比較することにより検証するため、6つの実世界のデータセットに対して広範な実験を行った。
その後、我々はアブレーションとケーススタディを行い、ベースラインモデルと比較して、我々のモデルがかなり少ないパラメータを持つことを示した。
さらに,特にピーク時の要求を正確に予測する上で,知識伝達がモデルにどのように役立つかを説明する。
コードはhttps://github.com/zeonchen/SFMGTLで見ることができる。
Accurate traffic prediction is essential for effective urban management and the improvement of transportation efficiency. Recently, data-driven traffic prediction methods have been widely adopted, with better performance than traditional approaches. However, they often require large amounts of data for effective training, which becomes challenging given the prevalence of data scarcity in regions with inadequate sensing infrastructures. To address this issue, we propose a Semantic-Fused Multi-Granularity Transfer Learning (SFMGTL) model to achieve knowledge transfer across cities with fused semantics at different granularities. In detail, we design a semantic fusion module to fuse various semantics while conserving static spatial dependencies via reconstruction losses. Then, a fused graph is constructed based on node features through graph structure learning. Afterwards, we implement hierarchical node clustering to generate graphs with different granularity. To extract feasible meta-knowledge, we further introduce common and private memories and obtain domain-invariant features via adversarial training. It is worth noting that our work jointly addresses semantic fusion and multi-granularity issues in transfer learning. We conduct extensive experiments on six real-world datasets to verify the effectiveness of our SFMGTL model by comparing it with other state-of-the-art baselines. Afterwards, we also perform ablation and case studies, demonstrating that our model possesses substantially fewer parameters compared to baseline models. Moreover, we illustrate how knowledge transfer aids the model in accurately predicting demands, especially during peak hours. The codes can be found at https://github.com/zeonchen/SFMGTL. | 翻訳日:2024-04-02 16:13:48 公開日:2024-03-31 |
# 効率的なResNetのためのマルチチャネル直交変換型パーセプトロン層
Multi-Channel Orthogonal Transform-Based Perceptron Layers for Efficient ResNets ( http://arxiv.org/abs/2303.06797v2 ) ライセンス: Link先を確認 | Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Salih Atici, Ahmet Enis Cetin, | (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)における3ドル3ドルのConv2Dの代替として,変換ベースのニューラルネットワーク層を提案する。
提案した層は、離散コサイン変換(DCT)、アダマール変換(HT)、生物直交ブロックウェーブレット変換(BWT)などの直交変換に基づいて実装することができる。
さらに、畳み込み定理を生かして、要素ワイド乗算を用いた畳み込みフィルタリング演算を変換領域で行う。
変換領域のノイズを除去する訓練可能な軟保持層は、変換ドメイン層に非線形性をもたらす。
Conv2D層と比較すると,提案層は位置特異的であり,チャネル特異的である。
さらに、これらのレイヤは、ImageNet-1K分類タスクにおける正規ResNetの精度を向上しつつ、パラメータと乗算の数を著しく削減する。
さらに、従来のResNetsのグローバル平均プール層の前にバッチ正規化層を挿入することで、分類精度を向上させることができる。
In this paper, we propose a set of transform-based neural network layers as an alternative to the $3\times3$ Conv2D layers in Convolutional Neural Networks (CNNs). The proposed layers can be implemented based on orthogonal transforms such as the Discrete Cosine Transform (DCT), Hadamard transform (HT), and biorthogonal Block Wavelet Transform (BWT). Furthermore, by taking advantage of the convolution theorems, convolutional filtering operations are performed in the transform domain using element-wise multiplications. Trainable soft-thresholding layers, that remove noise in the transform domain, bring nonlinearity to the transform domain layers. Compared to the Conv2D layer, which is spatial-agnostic and channel-specific, the proposed layers are location-specific and channel-specific. Moreover, these proposed layers reduce the number of parameters and multiplications significantly while improving the accuracy results of regular ResNets on the ImageNet-1K classification task. Furthermore, they can be inserted with a batch normalization layer before the global average pooling layer in the conventional ResNets as an additional layer to improve classification accuracy. | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# 教師なしビデオオブジェクトセグメンテーションのためのガイドスロットアテンション
Guided Slot Attention for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2303.08314v3 ) ライセンス: Link先を確認 | Minhyeok Lee, Suhwan Cho, Dogyoon Lee, Chaewon Park, Jungho Lee, Sangyoun Lee, | (参考訳) 教師なしビデオオブジェクトセグメンテーションは、ビデオシーケンスにおいて最も顕著なオブジェクトをセグメンテーションすることを目的としている。
しかし、複雑な背景と複数の前景オブジェクトの存在は、この課題を難しくしている。
そこで,本稿では,空間構造情報を強化し,前景と背景の分離性を向上するガイド付きスロットアテンションネットワークを提案する。クエリガイダンスで初期化されている前景と背景のスロットは,テンプレート情報とのインタラクションに基づいて反復的に洗練されている。また,スロット-テンプレート間相互作用を改善し,ターゲットおよび参照フレームにおけるグローバルおよびローカルな特徴を効果的に融合させるため,K-アネレスト近傍フィルタと特徴集約変換器を導入する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
さらに, 様々な比較実験により, 挑戦場面におけるモデルの有効性を実証した。
Unsupervised video object segmentation aims to segment the most prominent object in a video sequence. However, the existence of complex backgrounds and multiple foreground objects make this task challenging. To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground--background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot--template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced. The proposed model achieves state-of-the-art performance on two popular datasets. Additionally, we demonstrate the robustness of the proposed model in challenging scenes through various comparative experiments. | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# CAT-Seg:オープンボキャブラリセマンティックセグメンテーションのコスト集約
CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2303.11797v2 ) ライセンス: Link先を確認 | Seokju Cho, Heeseong Shin, Sunghwan Hong, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim, | (参考訳) オープンボキャブラリセマンティックセグメンテーションは、幅広いテキスト記述に基づいて、画像内の各ピクセルにラベルを付けるという課題を示す。
本研究では, セマンティックセグメンテーションの複雑な課題に対して, 視覚言語基盤モデル(特にCLIP)を適応させる新しいコストベースアプローチを提案する。
この手法は,コサイン類似度スコア,すなわち画像とテキストの埋め込みの間のコストボリュームを集約することにより,エンコーダを微調整することにより,CLIPをセグメント化や未確認のクラスに適応させ,未確認クラスの扱いにおいて既存の手法が直面する課題に対処する。
そこで我々は,画像とテキストの埋め込みのマルチモーダルな性質を考慮し,コストを効果的に集約する方法を検討する。
さらに,CLIPを効率よく微調整する方法について検討した。
Open-vocabulary semantic segmentation presents the challenge of labeling each pixel within an image based on a wide range of text descriptions. In this work, we introduce a novel cost-based approach to adapt vision-language foundation models, notably CLIP, for the intricate task of semantic segmentation. Through aggregating the cosine similarity score, i.e., the cost volume between image and text embeddings, our method potently adapts CLIP for segmenting seen and unseen classes by fine-tuning its encoders, addressing the challenges faced by existing methods in handling unseen classes. Building upon this, we explore methods to effectively aggregate the cost volume considering its multi-modal nature of being established between image and text embeddings. Furthermore, we examine various methods for efficiently fine-tuning CLIP. | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# 変圧器の変圧器の変圧等価性とその応用
Permutation Equivariance of Transformers and Its Applications ( http://arxiv.org/abs/2304.07735v3 ) ライセンス: Link先を確認 | Hengyuan Xu, Liyao Xiang, Hangyu Ye, Dixi Yao, Pengzhi Chu, Baochun Li, | (参考訳) ディープラーニングの分野に革命をもたらしたTransformerベースのモデルは、多くのタスクにおいて顕著なパフォーマンスを達成した。
近年の研究では、これらのモデルはシャッフルに頑健であるが、前方伝播におけるトークン間の置換に制限されていることが確認されている。
本研究では,ニューラルネットワークの前方及び後方伝播におけるトークン間置換とトークン内置換の両方を包含するより広範な概念である置換同値の定義を提案する。
我々は、ほとんど適応しないほとんどのバニラトランスフォーマーモデルにおいて、そのような置換同値性が満足できることを厳密に証明した。
本研究では,ViT,Bert,GPTなどの最先端モデルに対する特性を実験的に検証した。
さらに、概念実証として、プライバシ強化分割学習やモデル認可を含む現実世界のアプリケーションが、より広範で興味深いアプリケーションシナリオを暗示する置換同値性を活用する方法について検討する。
Revolutionizing the field of deep learning, Transformer-based models have achieved remarkable performance in many tasks. Recent research has recognized these models are robust to shuffling but are limited to inter-token permutation in the forward propagation. In this work, we propose our definition of permutation equivariance, a broader concept covering both inter- and intra- token permutation in the forward and backward propagation of neural networks. We rigorously proved that such permutation equivariance property can be satisfied on most vanilla Transformer-based models with almost no adaptation. We examine the property over a range of state-of-the-art models including ViT, Bert, GPT, and others, with experimental validations. Further, as a proof-of-concept, we explore how real-world applications including privacy-enhancing split learning, and model authorization, could exploit the permutation equivariance property, which implicates wider, intriguing application scenarios. | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# パラメタライズド量子パルスの利点
Towards Advantages of Parameterized Quantum Pulses ( http://arxiv.org/abs/2304.09253v2 ) ライセンス: Link先を確認 | Zhiding Liang, Jinglei Cheng, Zhixin Song, Hang Ren, Rui Yang, Kecheng Liu, Peter Kogge, Tongyang Li, Yongshan Ding, Yiyu Shi, | (参考訳) 量子ゲート上の量子パルスの利点は、研究者の注目を集めている。
量子パルスは、柔軟性、高忠実性、スケーラビリティ、リアルタイムチューニングなどの利点を提供する。
しかし、量子ゲートの性能を評価するためのワークフローやプロセスは確立されているが、パラメータ化パルスのプロファイリングとパルス回路設計のためのガイダンスが限られている。
このギャップに対処するために, パラメータ化パルスの設計空間を提案し, 表現性, 絡み合い, 有効パラメータ次元などの指標に基づいてこれらのパルスを評価する。
これらの設計空間を用いて、時間と性能の両面においてゲート回路よりもパラメータ化されたパルスの利点を実証し、高性能な量子コンピューティングを実現する。
パラメータ化パルス回路の設計空間は,量子化学ベンチマークにおいて有望な結果を示した。
The advantages of quantum pulses over quantum gates have attracted increasing attention from researchers. Quantum pulses offer benefits such as flexibility, high fidelity, scalability, and real-time tuning. However, while there are established workflows and processes to evaluate the performance of quantum gates, there has been limited research on profiling parameterized pulses and providing guidance for pulse circuit design. To address this gap, our study proposes a set of design spaces for parameterized pulses, evaluating these pulses based on metrics such as expressivity, entanglement capability, and effective parameter dimension. Using these design spaces, we demonstrate the advantages of parameterized pulses over gate circuits in the aspect of duration and performance at the same time thus enabling high-performance quantum computing. Our proposed design space for parameterized pulse circuits has shown promising results in quantum chemistry benchmarks. | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# 大規模言語モデルを用いた知識グラフ上の複雑論理的推論
Complex Logical Reasoning over Knowledge Graphs using Large Language Models ( http://arxiv.org/abs/2305.01157v3 ) ライセンス: Link先を確認 | Nurendra Choudhary, Chandan K. Reddy, | (参考訳) 知識グラフ(KG)に対する推論(Reasoning over knowledge graph)は、エンティティとそれらの関係の基盤となる論理の間の複雑な関係を深く理解する必要がある課題である。
現在のアプローチは、論理的なクエリ操作のために、ベクトル空間にエンティティを埋め込むための学習ジオメトリに依存しているが、それらは複雑なクエリやデータセット固有の表現のサブパーパフォーマンスに悩まされている。
本稿では,文脈的KG探索と論理的クエリ推論の組合せとして複雑なKG推論を定式化して,グラフ抽出アルゴリズムと大規模言語モデル(LLM)の長所を活用する,新たな疎結合な言語誘導型知識グラフ(LARK)を提案する。
実験の結果,提案手法はいくつかの論理的クエリ構造にまたがって,標準的なベンチマークデータセット上での最先端KG推論手法よりも優れており,複雑度の高いクエリに対して高い性能向上が期待できることがわかった。
さらに,本手法の性能は基礎となるLLMの増大に比例して向上し,KGに対する論理的推論のためのLLMの最新の進歩が実現された。
本研究は, 複雑なKG推論の課題に対処するための新たな方向性を示し, 今後の研究の道を開くものである。
Reasoning over knowledge graphs (KGs) is a challenging task that requires a deep understanding of the complex relationships between entities and the underlying logic of their relations. Current approaches rely on learning geometries to embed entities in vector space for logical query operations, but they suffer from subpar performance on complex queries and dataset-specific representations. In this paper, we propose a novel decoupled approach, Language-guided Abstract Reasoning over Knowledge graphs (LARK), that formulates complex KG reasoning as a combination of contextual KG search and logical query reasoning, to leverage the strengths of graph extraction algorithms and large language models (LLM), respectively. Our experiments demonstrate that the proposed approach outperforms state-of-the-art KG reasoning methods on standard benchmark datasets across several logical query constructs, with significant performance gain for queries of higher complexity. Furthermore, we show that the performance of our approach improves proportionally to the increase in size of the underlying LLM, enabling the integration of the latest advancements in LLMs for logical reasoning over KGs. Our work presents a new direction for addressing the challenges of complex KG reasoning and paves the way for future research in this area. | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# gRNAde:3次元RNA逆設計のための幾何学的深層学習
gRNAde: Geometric Deep Learning for 3D RNA inverse design ( http://arxiv.org/abs/2305.14749v4 ) ライセンス: Link先を確認 | Chaitanya K. Joshi, Arian R. Jamasb, Ramon Viñas, Charles Harris, Simon Mathis, Alex Morehead, Pietro Liò, | (参考訳) 計算RNA設計タスクは、しばしば逆問題として表され、配列は3次元幾何学とコンフォメーションの多様性を考慮せずに、単一の望まれる二次構造を採用するために設計される。
本稿では,3次元RNAバックボーンで動作する幾何学的RNA設計パイプラインであるgRNAdeを紹介し,構造と力学を明示的に考慮した配列を設計する。
内部では、gRNAdeは多状態グラフニューラルネットワークであり、塩基のアイデンティティが不明な1つ以上の3Dバックボーン構造に条件付けられた候補RNA配列を生成する。
Das et al [2010]により同定されたPDBの14個のRNA構造の単一状態固定バックボーン再設計ベンチマークにおいて、gRNAdeはRosetta (平均45%) よりも高いネイティブシークエンス回復率(平均56%)を得る。
また,近年のRNAポリメラーゼリボザイム構造を振り返って解析した結果,構造的に柔軟なRNAの多状態設計のための新しいベンチマークや,突然変異性ランドスケープのゼロショットランキングにもgRNAdeの有用性が示された。
ソースコード:https://github.com/chaitjo/geometric-rna-design
Computational RNA design tasks are often posed as inverse problems, where sequences are designed based on adopting a single desired secondary structure without considering 3D geometry and conformational diversity. We introduce gRNAde, a geometric RNA design pipeline operating on 3D RNA backbones to design sequences that explicitly account for structure and dynamics. Under the hood, gRNAde is a multi-state Graph Neural Network that generates candidate RNA sequences conditioned on one or more 3D backbone structures where the identities of the bases are unknown. On a single-state fixed backbone re-design benchmark of 14 RNA structures from the PDB identified by Das et al. [2010], gRNAde obtains higher native sequence recovery rates (56% on average) compared to Rosetta (45% on average), taking under a second to produce designs compared to the reported hours for Rosetta. We further demonstrate the utility of gRNAde on a new benchmark of multi-state design for structurally flexible RNAs, as well as zero-shot ranking of mutational fitness landscapes in a retrospective analysis of a recent RNA polymerase ribozyme structure. Open source code: https://github.com/chaitjo/geometric-rna-design | 翻訳日:2024-04-02 16:04:03 公開日:2024-03-31 |
# Citation: 責任と説明責任を持った大規模言語モデルを構築するための鍵
Citation: A Key to Building Responsible and Accountable Large Language Models ( http://arxiv.org/abs/2307.02185v3 ) ライセンス: Link先を確認 | Jie Huang, Kevin Chen-Chuan Chang, | (参考訳) 大規模言語モデル(LLM)は、知的財産権(IP)や倫理的関心事など、ユニークな課題と共に変革的な利益をもたらす。
本稿では、これらのリスクを軽減し、LLMと確立されたWebシステム間の並列性を図り、新しい角度を探索する。
引用” – ソースやエビデンスに対する認識あるいは参照 – を,LLMにおいて重要かつ欠落しているコンポーネントとして識別する。
引用を組み込むことでコンテンツの透明性と妥当性を高め、LLMの展開においてIPと倫理的問題に直面する可能性がある。
さらに、LLMの総合的な引用機構は、非パラメトリックコンテンツとパラメトリックコンテンツの両方を考慮すべきである。
このような励振機構を実装するのが複雑であるにもかかわらず、潜在的な落とし穴とともに、我々はその発展を提唱する。
本財団を基盤として,本分野におけるいくつかの研究課題を概説し,より責任と説明責任を持ったLCMの構築に向けた今後の探索を導くことを目的とする。
Large Language Models (LLMs) bring transformative benefits alongside unique challenges, including intellectual property (IP) and ethical concerns. This position paper explores a novel angle to mitigate these risks, drawing parallels between LLMs and established web systems. We identify "citation" - the acknowledgement or reference to a source or evidence - as a crucial yet missing component in LLMs. Incorporating citation could enhance content transparency and verifiability, thereby confronting the IP and ethical issues in the deployment of LLMs. We further propose that a comprehensive citation mechanism for LLMs should account for both non-parametric and parametric content. Despite the complexity of implementing such a citation mechanism, along with the potential pitfalls, we advocate for its development. Building on this foundation, we outline several research problems in this area, aiming to guide future explorations towards building more responsible and accountable LLMs. | 翻訳日:2024-04-02 15:54:17 公開日:2024-03-31 |
# 効率的なビデオ質問に対する自己適応サンプリング-画像-テキストモデルによる回答
Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models ( http://arxiv.org/abs/2307.04192v4 ) ライセンス: Link先を確認 | Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria, | (参考訳) ビデオ質問応答はビデオ理解の分野における基本的な課題である。
ビデオトランスフォーマーを備えた現在の視覚言語モデル(VLM)では、時間的モデリングが可能であり、優れた結果が得られるが、計算能力の巨大なコストがかかるため、リアルタイムのアプリケーションシナリオにデプロイするにはコストがかかりすぎる。
経済的な回避策として,ビデオの主内容を表すフレームのごく一部だけをサンプリングし,これらのサンプルフレーム上で画像テキストモデルをチューニングする手法が提案されている。近年の映像理解モデルでは,視覚的内容間の内部的相関や問題への関連性に関わらず,フレームやクリップの集合をランダムにサンプリングすることが多い。このような目的のないサンプリングは,適切な回答が導出可能なキーフレームを省略する可能性があり,また,サンプリング間隔が常に大きくなると状況が悪化する可能性がある。この問題を緩和するために,最もドメインフレーム(MDF)とほとんどのインプリッドフレーム(MIF)の2つのフレームサンプリング戦略を提案する。
3つの高度なVLM(CLIP, GIT, All-in-one)から得られた3つの公開データセットに対する実験結果から,提案手法が画像テキスト事前学習モデルの性能を向上させることを示す。
本論文で提案されている手法に関するソースコードはhttps://github.com/declare-lab/sas-vqa.comで公開されている。
Video question-answering is a fundamental task in the field of video understanding. Although current vision--language models (VLMs) equipped with Video Transformers have enabled temporal modeling and yielded superior results, they are at the cost of huge computational power and thus too expensive to deploy in real-time application scenarios. An economical workaround only samples a small portion of frames to represent the main content of that video and tune an image--text model on these sampled frames. Recent video understanding models usually randomly sample a set of frames or clips, regardless of internal correlations between their visual contents, nor their relevance to the problem. We argue that such kinds of aimless sampling may omit the key frames from which the correct answer can be deduced, and the situation gets worse when the sampling sparsity increases, which always happens as the video lengths increase. To mitigate this issue, we propose two frame sampling strategies, namely the most domain frames (MDF) and most implied frames (MIF), to maximally preserve those frames that are most likely vital to the given questions. MDF passively minimizes the risk of key frame omission in a bootstrap manner, while MIS actively searches key frames customized for each video--question pair with the assistance of auxiliary models. The experimental results on three public datasets from three advanced VLMs (CLIP, GIT and All-in-one) demonstrate that our proposed strategies can boost the performance for image-text pretrained models. The source codes pertaining to the method proposed in this paper are publicly available at https://github.com/declare-lab/sas-vqa. | 翻訳日:2024-04-02 15:54:17 公開日:2024-03-31 |
# Weisfeiler と Leman Go の測定モデル: WL テストの有効性の検証
Weisfeiler and Leman Go Measurement Modeling: Probing the Validity of the WL Test ( http://arxiv.org/abs/2307.05775v3 ) ライセンス: Link先を確認 | Arjun Subramonian, Adina Williams, Maximilian Nickel, Yizhou Sun, Levent Sagun, | (参考訳) グラフニューラルネットワークの表現力は、通常、アーキテクチャが$k$-dimensional Weisfeiler-Leman(k$-WL)テストで区別できるグラフやノードの数を比較することで測定される。
本稿では,グラフ学習実践者の表現力の概念化と$k$-WLの信頼性と妥当性の体系的分析により,グラフ機械学習実践者のミスアライメントを明らかにする。
我々は,表現力の概念化と約$k$-WLの仮定を明らかにするために,実践者の調査(n = 18$)を行う。
実践者の信念とは対照的に、我々の分析(グラフ理論とベンチマーク監査から導かれる)は、$k$-WLは等尺性を保証せず、現実世界のグラフタスクとは無関係であり、一般化や信頼性を促進できないことを明らかにしている。
ベンチマークに基づく表現力の拡張的定義と測定について論じる。
グラフ機械学習の実践者にとって、表現力の理解を深め、透過的に伝達することが重要である。
The expressive power of graph neural networks is usually measured by comparing how many pairs of graphs or nodes an architecture can possibly distinguish as non-isomorphic to those distinguishable by the $k$-dimensional Weisfeiler-Leman ($k$-WL) test. In this paper, we uncover misalignments between graph machine learning practitioners' conceptualizations of expressive power and $k$-WL through a systematic analysis of the reliability and validity of $k$-WL. We conduct a survey ($n = 18$) of practitioners to surface their conceptualizations of expressive power and their assumptions about $k$-WL. In contrast to practitioners' beliefs, our analysis (which draws from graph theory and benchmark auditing) reveals that $k$-WL does not guarantee isometry, can be irrelevant to real-world graph tasks, and may not promote generalization or trustworthiness. We argue for extensional definitions and measurement of expressive power based on benchmarks. We further contribute guiding questions for constructing such benchmarks, which is critical for graph machine learning practitioners to develop and transparently communicate our understandings of expressive power. | 翻訳日:2024-04-02 15:54:17 公開日:2024-03-31 |
# 非線形逆問題に対する繰り返しモーメント加速度付きディープアンローリングネットワーク
Deep Unrolling Networks with Recurrent Momentum Acceleration for Nonlinear Inverse Problems ( http://arxiv.org/abs/2307.16120v4 ) ライセンス: Link先を確認 | Qingping Zhou, Jiayu Qian, Junqi Tang, Jinglai Li, | (参考訳) モデルに基づく反復アルゴリズムとデータ駆動型ディープラーニングソリューションの強みを組み合わせることで、ディープ・アンローリング・ネットワーク(DuNets)は、逆画像問題を解決する一般的なツールとなっている。
DuNetは、多くの線形逆問題にうまく適用されているが、非線形問題は、その手法の性能を損なう傾向がある。
最適化アルゴリズムでよく用いられる運動量加速技術に着想を得て,長期記憶再帰ニューラルネットワーク(LSTM-RNN)を用いて運動量加速過程をシミュレートするリカレント運動量加速(RMA)フレームワークを提案する。
RMAモジュールは、LSTM-RNNが以前の勾配から知識を学び、保持する能力を活用する。
RMAを学習近位勾配降下法(LPGD)と学習原始双対法(LPD)の2つの人気DuNetに適用し,それぞれLPGD-RMAとLPD-RMAが得られた。
非線形デコンボリューション問題と境界値が制限された電気インピーダンストモグラフィ問題という2つの非線形逆問題に関する実験結果を提供する。
最初の実験で、RMAによる改善は問題の非線形性に関して大きく増加することがわかった。
第2の例の結果はさらに、RMAスキームがDuNetの性能を著しく改善することを示した。
Combining the strengths of model-based iterative algorithms and data-driven deep learning solutions, deep unrolling networks (DuNets) have become a popular tool to solve inverse imaging problems. While DuNets have been successfully applied to many linear inverse problems, nonlinear problems tend to impair the performance of the method. Inspired by momentum acceleration techniques that are often used in optimization algorithms, we propose a recurrent momentum acceleration (RMA) framework that uses a long short-term memory recurrent neural network (LSTM-RNN) to simulate the momentum acceleration process. The RMA module leverages the ability of the LSTM-RNN to learn and retain knowledge from the previous gradients. We apply RMA to two popular DuNets -- the learned proximal gradient descent (LPGD) and the learned primal-dual (LPD) methods, resulting in LPGD-RMA and LPD-RMA respectively. We provide experimental results on two nonlinear inverse problems: a nonlinear deconvolution problem, and an electrical impedance tomography problem with limited boundary measurements. In the first experiment we have observed that the improvement due to RMA largely increases with respect to the nonlinearity of the problem. The results of the second example further demonstrate that the RMA schemes can significantly improve the performance of DuNets in strongly ill-posed problems. | 翻訳日:2024-04-02 15:54:17 公開日:2024-03-31 |
# バイアスに指示:認知バイアスを排除した指導型言語モデル
Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias ( http://arxiv.org/abs/2308.00225v2 ) ライセンス: Link先を確認 | Itay Itzhak, Gabriel Stanovsky, Nir Rosenfeld, Yonatan Belinkov, | (参考訳) 近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
これらのチューニング手法は、モデルを人間の目的と整合させ、高品質なテキストを生成するのに役立つが、その潜在的な副作用についてはあまり知られていない。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討し,認知バイアス(デコイ効果,確実性効果,信念バイアス)に着目した。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
特に,Flan-T5,Mistral-Instruct,GPT3.5,GPT4などの命令チューニングを行うモデルでは,バイアスの存在が強くなる。
我々の研究は、より信頼性が高くバイアスのない言語モデルの開発に不可欠である、命令調整型LMにおける認知バイアスを理解するためのステップを構成する。
Recent studies show that instruction tuning (IT) and reinforcement learning from human feedback (RLHF) improve the abilities of large language models (LMs) dramatically. While these tuning methods can help align models with human objectives and generate high-quality text, not much is known about their potential adverse effects. In this work, we investigate the effect of IT and RLHF on decision making and reasoning in LMs, focusing on three cognitive biases - the decoy effect, the certainty effect, and the belief bias - all of which are known to influence human decision-making and reasoning. Our findings highlight the presence of these biases in various models from the GPT-3, Mistral, and T5 families. Notably, we find a stronger presence of biases in models that have undergone instruction tuning, such as Flan-T5, Mistral-Instruct, GPT3.5, and GPT4. Our work constitutes a step toward comprehending cognitive biases in instruction-tuned LMs, which is crucial for the development of more reliable and unbiased language models. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# 画像分類のためのテクスチャを融合したディープニューラルネットワーク
Deep Neural Networks Fused with Textures for Image Classification ( http://arxiv.org/abs/2308.01813v2 ) ライセンス: Link先を確認 | Asish Bera, Debotosh Bhattacharjee, Mita Nasipuri, | (参考訳) 細粒度画像分類(FGIC)は、サブカテゴリ間の視覚的差異が小さいため、コンピュータビジョンにおいて難しい課題であるが、クラス内の大きなバリエーションがある。
深層学習法はFGICの解法において顕著な成功を収めた。
本稿では,グローバルテクスチャと局所パッチ情報を組み合わせたFGICの融合手法を提案する。
最初のパイプラインは、様々な固定サイズの非重複パッチから深い特徴を抽出し、長い短期メモリ(LSTM)を使用して連続的なモデリングによって特徴を符号化する。
別のパスは、ローカルバイナリパターン(LBP)を使用して、複数のスケールで画像レベルのテクスチャを計算する。
両方のストリームの利点は、画像分類のための効率的な特徴ベクトルを表現するために統合される。
この方法は、標準的な4つの背骨CNNを用いて、ヒトの顔、皮膚病変、食器、海洋生物などを表す8つのデータセットで試験される。
提案手法は,有意なマージンを有する既存手法よりも高い分類精度を達成できた。
Fine-grained image classification (FGIC) is a challenging task in computer vision for due to small visual differences among inter-subcategories, but, large intra-class variations. Deep learning methods have achieved remarkable success in solving FGIC. In this paper, we propose a fusion approach to address FGIC by combining global texture with local patch-based information. The first pipeline extracts deep features from various fixed-size non-overlapping patches and encodes features by sequential modelling using the long short-term memory (LSTM). Another path computes image-level textures at multiple scales using the local binary patterns (LBP). The advantages of both streams are integrated to represent an efficient feature vector for image classification. The method is tested on eight datasets representing the human faces, skin lesions, food dishes, marine lives, etc. using four standard backbone CNNs. Our method has attained better classification accuracy over existing methods with notable margins. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# セキュアコード回帰のための反復スケッチ
Iterative Sketching for Secure Coded Regression ( http://arxiv.org/abs/2308.04185v2 ) ライセンス: Link先を確認 | Neophytos Charalambides, Hessam Mahdavifar, Mert Pilanci, Alfred O. Hero III, | (参考訳) 線形回帰は、疫学からファイナンスに至るまで、教師あり機械学習の基本的な、原始的な問題である。
本研究では,分散線形回帰を高速化する手法を提案する。
ランダム化技術を活用しながら、非同期分散コンピューティングシステムにおけるセキュリティとストラグラーレジリエンスを確保する。
具体的には、方程式の系の基礎をランダムに回転させ、次にサブサンプルブロックを回転させ、情報を同時に確保し、回帰問題の次元を小さくする。
我々の設定では、ベースローテーションは近似勾配符号化方式で符号化された暗号化に対応し、サブサンプリングは集中型符号化計算フレームワークにおける非ストラグリングサーバの応答に対応する。
これにより、行列圧縮と最も急降下に対する分配的反復確率的アプローチが導かれる。
Linear regression is a fundamental and primitive problem in supervised machine learning, with applications ranging from epidemiology to finance. In this work, we propose methods for speeding up distributed linear regression. We do so by leveraging randomized techniques, while also ensuring security and straggler resiliency in asynchronous distributed computing systems. Specifically, we randomly rotate the basis of the system of equations and then subsample blocks, to simultaneously secure the information and reduce the dimension of the regression problem. In our setup, the basis rotation corresponds to an encoded encryption in an approximate gradient coding scheme, and the subsampling corresponds to the responses of the non-straggling servers in the centralized coded computing framework. This results in a distributive iterative stochastic approach for matrix compression and steepest descent. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# DiagGPT:タスク指向対話のための自動トピック管理によるLLMベースのチャットボット
DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue ( http://arxiv.org/abs/2308.08043v3 ) ライセンス: Link先を確認 | Lang Cao, | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、ますます洗練され、人間のものとよく似た能力を示している。
これらのLLMの重要な応用は、チャットエージェントとしての使用であり、さまざまなドメインにわたる人間の問い合わせに応答する。
現在のLSMは一般的な質問に答えるが、法律、医学、その他の専門的な相談のような複雑な診断シナリオでは不足することが多い。
これらのシナリオは一般的にタスク指向対話(TOD)を必要とし、AIチャットエージェントは積極的に質問を提起し、特定の目標やタスク完了に向けてユーザを誘導する必要がある。
従来の微調整モデルはTODでは性能が劣り、現在のLLMにおけるこの能力の潜在能力は、まだ完全には研究されていない。
本稿では,LLMをより多くのTODシナリオに拡張する革新的なアプローチであるDiagGPT(Dialogue in diagnosis GPT)を紹介する。
DiagGPTは、ユーザがタスクを完了させるだけでなく、対話開発全体を通して、すべてのトピックの状態を効果的に管理できる。
この機能により、ユーザエクスペリエンスが向上し、TODにおけるよりフレキシブルなインタラクションが提供される。
実験により,DiagGPTはユーザとTODを行う上で優れた性能を示し,様々な分野の実用化の可能性を示した。
Large Language Models (LLMs), such as ChatGPT, are increasingly sophisticated and exhibit capabilities closely resembling those of humans. A significant application of these LLMs is their use as chat agents, responding to human inquiries across various domains. While current LLMs proficiently answer general questions, they often fall short in complex diagnostic scenarios such as legal, medical, or other specialized consultations. These scenarios typically require Task-Oriented Dialogue (TOD), where an AI chat agent must proactively pose questions and guide users toward specific goals or task completion. Previous fine-tuning models have underperformed in TOD and the full potential of this capability in current LLMs has not yet been fully explored. In this paper, we introduce DiagGPT (Dialogue in Diagnosis GPT), an innovative approach that extends LLMs to more TOD scenarios. In addition to guiding users to complete tasks, DiagGPT can effectively manage the status of all topics throughout the dialogue development. This feature enhances user experience and offers a more flexible interaction in TOD. Our experiments demonstrate that DiagGPT exhibits outstanding performance in conducting TOD with users, showing its potential for practical applications in various fields. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# 2段階のプロンプト拡張による高忠実性湖沼抽出:新しいベースラインの構築とベンチマーク
High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark ( http://arxiv.org/abs/2308.08443v2 ) ライセンス: Link先を確認 | Ben Chen, Xuechao Zou, Kai Li, Yu Zhang, Junliang Xing, Pin Tao, | (参考訳) リモートセンシング画像からの湖の抽出は、様々な湖の形状とデータノイズのために複雑な課題である。
現在の手法はマルチスペクトル画像データセットに依存しており、画素配置からレイクの特徴を正確に学習することは困難である。
これは、モデル学習と正確なセグメンテーションマスクの作成に影響を与える。
本稿では, 点, ボックス, マスクプロンプトを用いて, 近似的な湖沼位置を提供する, プロンプトに基づくデータセット構築手法を提案する。
また,2段階のプロンプト強化フレームワークLEPrompterを提案する。
プロンプトベースのステージでは、プロンプトエンコーダを使用して事前情報を抽出し、プロンプトトークンと、プロンプトデコーダ内の自己およびクロスアテンションによるイメージ埋め込みを統合する。
プロンプトは推論中に独立性を確保するために非活性化され、追加パラメータやGFlopを導入することなく自動的な湖の抽出が可能となる。
大規模実験では,従来の最先端手法と比較して,提案手法の性能改善が見られた。
ソースコードはhttps://github.com/BastianChen/LEPrompter.comで入手できる。
Lake extraction from remote sensing imagery is a complex challenge due to the varied lake shapes and data noise. Current methods rely on multispectral image datasets, making it challenging to learn lake features accurately from pixel arrangements. This, in turn, affects model learning and the creation of accurate segmentation masks. This paper introduces a prompt-based dataset construction approach that provides approximate lake locations using point, box, and mask prompts. We also propose a two-stage prompt enhancement framework, LEPrompter, with prompt-based and prompt-free stages during training. The prompt-based stage employs a prompt encoder to extract prior information, integrating prompt tokens and image embedding through self- and cross-attention in the prompt decoder. Prompts are deactivated to ensure independence during inference, enabling automated lake extraction without introducing additional parameters and GFlops. Extensive experiments showcase performance improvements of our proposed approach compared to the previous state-of-the-art method. The source code is available at https://github.com/BastianChen/LEPrompter. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# 仮想画像検査は、新型コロナウイルス画像におけるAIシステムの透明性と信頼性を改善した
Virtual imaging trials improved the transparency and reliability of AI systems in COVID-19 imaging ( http://arxiv.org/abs/2308.09730v2 ) ライセンス: Link先を確認 | Fakrul Islam Tushar, Lavsen Dahal, Saman Sotoudeh-Paima, Ehsan Abadi, W. Paul Segars, Ehsan Samei, Joseph Y. Lo, | (参考訳) 医療画像におけるAIモデルの信頼性は、再現性の問題や臨床的洞察の曖昧さによってしばしば疑問視される。
これらの問題に対処するために,臨床とシミュレーションの両方の医療画像の多種多様なコレクションを活用する仮想画像トライアルフレームワークを提案する。
本研究は、AIのパフォーマンスに影響を与える本質的および外因的要因を明らかにするための事例として、COVID-19が役立ちます。
以上の結果から,データセット特性がAIの有効性に与える影響が示唆された。
何千もの患者による大規模で多様な臨床データセットをトレーニングしても、AIのパフォーマンスは最大20%低下した。
しかし、仮想画像治験は客観的評価のための堅牢なプラットフォームを提供し、患者と物理学に基づく要因とAIのパフォーマンスの関係に関する微妙な洞察を明らかにしている。
例えば、疾患の範囲はAIの有効性に大きな影響を与え、CT(Computerd tomography)は胸部X線撮影(CXR)より優れ、画像線量による影響は最小限であった。
この仮想画像実験は、新型コロナウイルスをケーススタディとして、放射線学のAIモデルが再現性の危機に悩まされることを実証した。
仮想画像検査は、客観的なパフォーマンス評価のソリューションを提供するだけでなく、いくつかの臨床的知見も抽出した。
本研究は, 医用画像におけるAIの信頼性, 透明性, 臨床的妥当性を高めるために, 仮想画像を活用するための道筋を照らすものである。
The credibility of AI models in medical imaging is often challenged by reproducibility issues and obscured clinical insights, a reality highlighted during the COVID-19 pandemic by many reports of near-perfect artificial intelligence (AI) models that all failed to generalize. To address these concerns, we propose a virtual imaging trial framework, employing a diverse collection of medical images that are both clinical and simulated. In this study, COVID-19 serves as a case example to unveil the intrinsic and extrinsic factors influencing AI performance. Our findings underscore a significant impact of dataset characteristics on AI efficacy. Even when trained on large, diverse clinical datasets with thousands of patients, AI performance plummeted by up to 20% in generalization. However, virtual imaging trials offer a robust platform for objective assessment, unveiling nuanced insights into the relationships between patient- and physics-based factors and AI performance. For instance, disease extent markedly influenced AI efficacy, computed tomography (CT) out-performed chest radiography (CXR), while imaging dose exhibited minimal impact. Using COVID-19 as a case study, this virtual imaging trial study verified that radiology AI models often suffer from a reproducibility crisis. Virtual imaging trials not only offered a solution for objective performance assessment but also extracted several clinical insights. This study illuminates the path for leveraging virtual imaging to augment the reliability, transparency, and clinical relevance of AI in medical imaging. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# DiffBIR: 生成拡散に先立ってブラインド画像復元を目指す
DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior ( http://arxiv.org/abs/2308.15070v2 ) ライセンス: Link先を確認 | Xinqi Lin, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Bo Dai, Fanghua Yu, Wanli Ouyang, Yu Qiao, Chao Dong, | (参考訳) DiffBIRは、異なる視覚的画像復元タスクを統一されたフレームワークで処理できる一般的な修復パイプラインである。
DiffBIRはブラインド画像復元問題を2段階に分割する。
1)劣化除去:画像に依存しない内容の除去
2)情報再生:失われた画像内容を生成する。
各ステージは独立して開発されるが、シームレスにカスケードされた方法で機能する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
具体的には、IRControlNetは、安定な生成性能のためにノイズの内容に気を散らすことなく、特別に生成された条件画像に基づいて訓練される。
さらに,モデル再学習を伴わずに推論中の復調過程を修正可能な地域適応型復元ガイダンスを設計し,調整可能な指導尺度を用いて実感と忠実さのバランスをとることができる。
大規模な実験により、DiffBIRは、合成データセットと実世界のデータセットの両方において、ブラインドイメージの超解像、ブラインドフェイスの復元、およびブラインドイメージの認知タスクに対する最先端のアプローチよりも優れていることが証明された。
コードはhttps://github.com/XPixelGroup/DiffBIRで入手できる。
We present DiffBIR, a general restoration pipeline that could handle different blind image restoration tasks in a unified framework. DiffBIR decouples blind image restoration problem into two stages: 1) degradation removal: removing image-independent content; 2) information regeneration: generating the lost image content. Each stage is developed independently but they work seamlessly in a cascaded manner. In the first stage, we use restoration modules to remove degradations and obtain high-fidelity restored results. For the second stage, we propose IRControlNet that leverages the generative ability of latent diffusion models to generate realistic details. Specifically, IRControlNet is trained based on specially produced condition images without distracting noisy content for stable generation performance. Moreover, we design a region-adaptive restoration guidance that can modify the denoising process during inference without model re-training, allowing users to balance realness and fidelity through a tunable guidance scale. Extensive experiments have demonstrated DiffBIR's superiority over state-of-the-art approaches for blind image super-resolution, blind face restoration and blind image denoising tasks on both synthetic and real-world datasets. The code is available at https://github.com/XPixelGroup/DiffBIR. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# 動的レコメンダシステムにおけるユーザ側の公正性の確保
Ensuring User-side Fairness in Dynamic Recommender Systems ( http://arxiv.org/abs/2308.15651v2 ) ライセンス: Link先を確認 | Hyunsik Yoo, Zhichen Zeng, Jian Kang, Ruizhong Qiu, David Zhou, Zhining Liu, Fei Wang, Charlie Xu, Eunice Chan, Hanghang Tong, | (参考訳) ユーザ側のグループフェアネスは、性別、人種、年齢といったセンシティブな属性によって定義されたユーザグループ間のパフォーマンス格差を軽減することを目的として、現代のレコメンデーションシステムにとって不可欠である。
ユーザとイテムのインタラクションの絶え間なく進化している状況において、新しく収集されたデータへの継続的な適応は、レコメンダシステムにとって最新のユーザの好みに沿うことが不可欠である。
しかし,このような連続的な適応は性能格差を悪化させることが多い。
このことは、動的レコメンデーションシステムにおけるユーザ側の公正性の徹底的な調査を必要とする。
この問題は、分散シフト、頻繁なモデル更新、ランキングメトリクスの非微分性によって困難である。
本稿では,動的レコメンデーションシステムにおけるユーザ側の公平性を保証するための,最初の原則的研究について述べる。
まず、微調整v.s.再訓練に関する理論的分析から始め、再学習を伴う漸進的な微調整がベストプラクティスであることを示す。
本稿では,FAir Dynamic rEcommender (FADE)を提案する。
フェアネス損失におけるレコメンデーション指標の非微分性を克服するため,近年のNeuralNDCG法に比較して改良された微分ヒット(DH)を導入する。
さらに, フェアネス損失とリコメンデーション損失の競合特性を活用することで, フェアネス損失の不安定性問題にも対処する。
実世界のデータセットに関する広範な実験を通じて、FADEは全体のレコメンデーション性能を犠牲にすることなく、パフォーマンスの格差を効果的かつ効率的に低減することを示した。
User-side group fairness is crucial for modern recommender systems, aiming to alleviate performance disparities among user groups defined by sensitive attributes like gender, race, or age. In the ever-evolving landscape of user-item interactions, continual adaptation to newly collected data is crucial for recommender systems to stay aligned with the latest user preferences. However, we observe that such continual adaptation often exacerbates performance disparities. This necessitates a thorough investigation into user-side fairness in dynamic recommender systems, an area that has been unexplored in the literature. This problem is challenging due to distribution shifts, frequent model updates, and non-differentiability of ranking metrics. To our knowledge, this paper presents the first principled study on ensuring user-side fairness in dynamic recommender systems. We start with theoretical analyses on fine-tuning v.s. retraining, showing that the best practice is incremental fine-tuning with restart. Guided by our theoretical analyses, we propose FAir Dynamic rEcommender (FADE), an end-to-end fine-tuning framework to dynamically ensure user-side fairness over time. To overcome the non-differentiability of recommendation metrics in the fairness loss, we further introduce Differentiable Hit (DH) as an improvement over the recent NeuralNDCG method, not only alleviating its gradient vanishing issue but also achieving higher efficiency. Besides that, we also address the instability issue of the fairness loss by leveraging the competing nature between the recommendation loss and the fairness loss. Through extensive experiments on real-world datasets, we demonstrate that FADE effectively and efficiently reduces performance disparities with little sacrifice in the overall recommendation performance. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# 動的指向非巡回グラフ学習における情報理論的に最適サンプル複雑度
Information Theoretically Optimal Sample Complexity of Learning Dynamical Directed Acyclic Graphs ( http://arxiv.org/abs/2308.16859v2 ) ライセンス: Link先を確認 | Mishfad Shaikh Veedu, Deepjyoti Deka, Murti V. Salapaka, | (参考訳) 本稿では,DAG(Directed Acyclic Graph)上での線形力学系(LDS)の相互作用や依存性を学習する際の最適なサンプル複雑性について検討する。
このようなDAGを動的DAG (DDAG) と呼ぶ。
特に,広義の定常雑音源(WSS)と相互に相関がなく,スペクトル密度(PSD)が同じであるDDAGについて考察する。
静的DAG設定にインスパイアされ,観測時系列のPSD行列に基づくメトリックとアルゴリズムが提案され,DDAGを再構築する。
DDAGを学習するのに最適なサンプルの複雑さ(あるいは状態軌跡の長さ)は$n=\Theta(q\log(p/q))$であり、$p$はノード数、$q$はノード当たりの親数の最大値である。
試料の複雑さ上限を証明するために,2つの異なるサンプリング戦略の下でPSD推定のための濃度境界を導出する。
一般化されたファノの不等式を用いた min-max 下限のマッチングも提供され、提案アルゴリズムの順序最適性を示す。
In this article, the optimal sample complexity of learning the underlying interactions or dependencies of a Linear Dynamical System (LDS) over a Directed Acyclic Graph (DAG) is studied. We call such a DAG underlying an LDS as dynamical DAG (DDAG). In particular, we consider a DDAG where the nodal dynamics are driven by unobserved exogenous noise sources that are wide-sense stationary (WSS) in time but are mutually uncorrelated, and have the same {power spectral density (PSD)}. Inspired by the static DAG setting, a metric and an algorithm based on the PSD matrix of the observed time series are proposed to reconstruct the DDAG. It is shown that the optimal sample complexity (or length of state trajectory) needed to learn the DDAG is $n=\Theta(q\log(p/q))$, where $p$ is the number of nodes and $q$ is the maximum number of parents per node. To prove the sample complexity upper bound, a concentration bound for the PSD estimation is derived, under two different sampling strategies. A matching min-max lower bound using generalized Fano's inequality also is provided, thus showing the order optimality of the proposed algorithm. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# スケッチによるロボットの指導:確率的ダイアグラムによる実証から学ぶ
Instructing Robots by Sketching: Learning from Demonstration via Probabilistic Diagrammatic Teaching ( http://arxiv.org/abs/2309.03835v3 ) ライセンス: Link先を確認 | Weiming Zhi, Tianyi Zhang, Matthew Johnson-Roberson, | (参考訳) Learning for Demonstration (LfD)は、専門家によるデモンストレーションを模倣することで、ロボットが新しいスキルを習得し、ユーザーが直感的に指示を伝えることを可能にする。
近年のLfDの進歩は、ユーザがデモを指定するための媒体として、審美的教育や遠隔操作に依存していることが多い。
体操教育はロボットの物理的操作を必要とするが、遠隔操作は追加のハードウェアで熟練を必要とする。
本稿では,LfDの代替パラダイムであるダイアグラム教育を紹介する。
ダイアグラマティック・インストラクション(Diagrammatic teaching)は、ロボットにシーンの2次元画像のデモ・トラジェクトリをスケッチするよう促すことで、ロボットに新しいスキルを教えることを目的としており、これらは3次元タスク空間における動き・トラジェクトリの生成モデルとして合成される。
さらに,言語教育のためのレイトレーシング確率軌道学習(RPTL)フレームワークを提案する。
RPTLは2次元スケッチから時間変化確率密度を抽出し、3次元カルト空間の対応する領域を見つけるためにレイトレーシングを適用し、これらの領域に運動軌跡の確率モデルを適用する。
ユーザによってスケッチされたスケッチを模倣する新しいモーショントラジェクトリは、確率モデルから生成される。
我々は,固定ベースマニピュレータと四足歩行マニピュレータを含む,シミュレーションと実際のロボットの両方において,我々のフレームワークを実証的に検証する。
Learning for Demonstration (LfD) enables robots to acquire new skills by imitating expert demonstrations, allowing users to communicate their instructions in an intuitive manner. Recent progress in LfD often relies on kinesthetic teaching or teleoperation as the medium for users to specify the demonstrations. Kinesthetic teaching requires physical handling of the robot, while teleoperation demands proficiency with additional hardware. This paper introduces an alternative paradigm for LfD called Diagrammatic Teaching. Diagrammatic Teaching aims to teach robots novel skills by prompting the user to sketch out demonstration trajectories on 2D images of the scene, these are then synthesised as a generative model of motion trajectories in 3D task space. Additionally, we present the Ray-tracing Probabilistic Trajectory Learning (RPTL) framework for Diagrammatic Teaching. RPTL extracts time-varying probability densities from the 2D sketches, applies ray-tracing to find corresponding regions in 3D Cartesian space, and fits a probabilistic model of motion trajectories to these regions. New motion trajectories, which mimic those sketched by the user, can then be generated from the probabilistic model. We empirically validate our framework both in simulation and on real robots, which include a fixed-base manipulator and a quadruped-mounted manipulator. | 翻訳日:2024-04-02 15:44:31 公開日:2024-03-31 |
# 毒性を下げるRabbit Hole:大規模言語モデルを監査するための新しいフレームワーク
Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models ( http://arxiv.org/abs/2309.06415v4 ) ライセンス: Link先を確認 | Arka Dutta, Adel Khorramrouz, Sujan Dutta, Ashiqur R. KhudaBukhsh, | (参考訳) この論文には3つの貢献がある。
まず、幅広い言語モデルから有害な内容を反復的に引き出す「textit{toxicity rabbit hole」と呼ばれる、一般化可能な新しいフレームワークを示す。
まず,1,266個の識別グループからなるガードレールのバイアス監査を行い,重要な知見を提示する。
次に、他のいくつかのモデルにまたがる一般化可能性について報告する。
有害な内容の抽出を通じて、人種差別、反ユダヤ主義、ミソジニー、イスラム恐怖症、ホモフォビア、トランスフォビアに重点を置き、幅広い分析を行う。
最後に、具体的な例により、潜在的な影響について論じる。
This paper makes three contributions. First, it presents a generalizable, novel framework dubbed \textit{toxicity rabbit hole} that iteratively elicits toxic content from a wide suite of large language models. Spanning a set of 1,266 identity groups, we first conduct a bias audit of \texttt{PaLM 2} guardrails presenting key insights. Next, we report generalizability across several other models. Through the elicited toxic content, we present a broad analysis with a key emphasis on racism, antisemitism, misogyny, Islamophobia, homophobia, and transphobia. Finally, driven by concrete examples, we discuss potential ramifications. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# Pose-Conditioned Dataset Updates を用いた言語駆動型物体融合
Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates ( http://arxiv.org/abs/2309.11281v3 ) ライセンス: Link先を確認 | Ka Chun Shum, Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung, | (参考訳) ニューラル・ラディアンス・フィールド(Neural radiance Field)は、ニューラル・シーンの表現とボリューム・レンダリングから高品質なマルチビュー・一貫性のある画像を生成する新しいレンダリング法である。
ニューラルラディアンス場に基づく技術はシーン再構成には堅牢であるが、物体の追加や除去の能力は限られている。
本稿では,データセット更新によるニューラルラディアンスフィールドを用いたオブジェクト操作のための新しい言語駆動型アプローチを提案する。
具体的には、背景放射場に複数ビュー画像の集合で表される新しい前景オブジェクトを挿入するために、テキスト・ツー・イメージ拡散モデルを用いて、対象物を対象の背景に融合させる合成画像の学習と生成を行う。
これらの組み合わせされた画像は、背景放射場を精製するために使用され、オブジェクトと背景の両方を含むビュー一貫性のある画像を描画することができる。
視界の整合性を確保するために,既存の視界に近いカメラビューによる照準場訓練を優先したデータセット更新戦略を提案する。
我々は,同じデータセット更新戦略の下で,テキストから3Dモデルへのデータとオブジェクト除去を用いて,オブジェクト挿入のためのメソッドを簡単に適用できることを実証した。
実験結果から,本手法は編集シーンの写実的画像を生成するとともに,3次元再構成やニューラルラディアンスフィールドブレンディングにおいて最先端の手法より優れることがわかった。
Neural radiance field is an emerging rendering method that generates high-quality multi-view consistent images from a neural scene representation and volume rendering. Although neural radiance field-based techniques are robust for scene reconstruction, their ability to add or remove objects remains limited. This paper proposes a new language-driven approach for object manipulation with neural radiance fields through dataset updates. Specifically, to insert a new foreground object represented by a set of multi-view images into a background radiance field, we use a text-to-image diffusion model to learn and generate combined images that fuse the object of interest into the given background across views. These combined images are then used for refining the background radiance field so that we can render view-consistent images containing both the object and the background. To ensure view consistency, we propose a dataset updates strategy that prioritizes radiance field training with camera views close to the already-trained views prior to propagating the training to remaining views. We show that under the same dataset updates strategy, we can easily adapt our method for object insertion using data from text-to-3D models as well as object removal. Experimental results show that our method generates photorealistic images of the edited scenes, and outperforms state-of-the-art methods in 3D reconstruction and neural radiance field blending. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# FP8フォーマットによる学習後量子化の効率化
Efficient Post-training Quantization with FP8 Formats ( http://arxiv.org/abs/2309.14592v2 ) ライセンス: Link先を確認 | Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang, | (参考訳) LLMや拡散モデルのようなディープラーニング手法の最近の進歩は、これらの現代的なアーキテクチャの計算要求を満たすために、精度を維持しながら量子化法を改善する必要性を生み出している。
この目的に向けて,機械翻訳,言語モデリング,テキスト生成,画像分類,生成,セグメンテーションなど,幅広いタスクをカバーする75のユニークなネットワークアーキテクチャを対象としたポストトレーニング量子化のためのFP8データフォーマットの利点について検討する。
本研究では,3種類のFP8表現(E5M2,E4M3,E3M4)について,ダイナミックレンジと精度の違いがモデル精度に及ぼす影響について検討した。
広範にわたる研究に基づいて、異なるネットワークアーキテクチャをまたいで一般化する量子化ワークフローを開発した。
実験の結果、FP8フォーマットは、ワークロードカバレッジ(92.64%対65.87%)、モデルの正確性、幅広い操作に適した機能など、複数の面でINT8より優れていることが示された。
さらに,我々は,E4M3がNLPモデルに適していることを示し,E3M4はコンピュータビジョンタスクにおいてE4M3よりも極端に優れていることを示した。
コードはIntel Neural Compressorで公開されている。
Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintaining accuracy. Towards this goal, we study the advantages of FP8 data formats for post-training quantization across 75 unique network architectures covering a wide range of tasks, including machine translation, language modeling, text generation, image classification, generation, and segmentation. We examine three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects of varying degrees of trade-off between dynamic range and precision on model accuracy. Based on our extensive study, we developed a quantization workflow that generalizes across different network architectures. Our empirical results show that FP8 formats outperform INT8 in multiple aspects, including workload coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader range of operations. Furthermore, our findings suggest that E4M3 is better suited for NLP models, whereas E3M4 performs marginally better than E4M3 on computer vision tasks. The code is publicly available on Intel Neural Compressor: https://github.com/intel/neural-compressor. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# 理解可能なインコンテキストチューニング:インコンテキスト学習のためのファクチュアル知識の探索と展開
Knowledgeable In-Context Tuning: Exploring and Exploiting Factual Knowledge for In-Context Learning ( http://arxiv.org/abs/2309.14771v2 ) ライセンス: Link先を確認 | Jianing Wang, Chengyu Wang, Chuanqi Tan, Jun Huang, Ming Gao, | (参考訳) 大規模言語モデル(LLM)は、テキストベースのプロンプトとしてラベル付きトレーニングサンプルを条件付けして、パラメータ更新の必要性を排除し、競合性能を達成することで、コンテキスト内学習(ICL)を可能にする。
本稿では,3つの中核領域におけるICLの性能に事実知識が不可欠であることを実証する: LLMで学習した固有知識,選択したインコンテキストの例から得られた事実知識,出力生成のためのLCMにおける知識バイアス。
数ショットの学習シナリオにおいてLLMの力を解き放つために、ICLの性能をさらに向上させるために、新しいKICTフレームワークを導入する。
1) 継続的な自己指導型プレトレーニング中に LLM に知識を注入すること。
2)知識関連性の高いICLの事例を司法的に選定し、
3)事前知識に基づいて予測結果を校正する。
本稿では,複数のテキスト分類や質問応答タスクに対する自己回帰モデル(例えば GPT スタイル LLM など)に対する提案手法の評価を行う。
実験の結果,KICTはテキスト分類や質問応答タスクにおいて,強いベースラインを著しく上回り,13%以上,7%以上向上していることがわかった。
Large language models (LLMs) enable in-context learning (ICL) by conditioning on a few labeled training examples as a text-based prompt, eliminating the need for parameter updates and achieving competitive performance. In this paper, we demonstrate that factual knowledge is imperative for the performance of ICL in three core facets: the inherent knowledge learned in LLMs, the factual knowledge derived from the selected in-context examples, and the knowledge biases in LLMs for output generation. To unleash the power of LLMs in few-shot learning scenarios, we introduce a novel Knowledgeable In-Context Tuning (KICT) framework to further improve the performance of ICL: 1) injecting knowledge into LLMs during continual self-supervised pre-training, 2) judiciously selecting the examples for ICL with high knowledge relevance, and 3) calibrating the prediction results based on prior knowledge. We evaluate the proposed approaches on autoregressive models (e.g., GPT-style LLMs) over multiple text classification and question-answering tasks. Experimental results demonstrate that KICT substantially outperforms strong baselines and improves by more than 13% and 7% on text classification and question-answering tasks, respectively. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# CLRmatchNet:ディープマッチングプロセスによる曲線線検出の強化
CLRmatchNet: Enhancing Curved Lane Detection with Deep Matching Process ( http://arxiv.org/abs/2309.15204v2 ) ライセンス: Link先を確認 | Sapir Kontente, Roy Orfaig, Ben-Zion Bobrovsky, | (参考訳) レーン検出は、安全なナビゲーションを確保するために重要なデータを提供することによって、自動運転において重要な役割を果たす。
現代のアルゴリズムはアンカーベースの検出器に依存しており、学習された幾何学的属性に基づいてトレーニング検出を正または負のインスタンスとして分類するラベル割り当てプロセスが続く。
正確なラベル割り当てはモデル性能に大きな影響を与え、通常はGT予測アライメントを評価する古典的コスト関数に依存している。
しかし、古典的なラベル割り当て手法は、低次元モデルから導かれる事前定義されたコスト関数に依存するため、その最適性に影響を及ぼす可能性があるため、制限に直面している。
我々の研究は、ラベル割り当てプロセスを改善することを目的とした、ディープラーニングサブモジュールベースのアプローチであるMatchNetを紹介した。
CLRNet(Cross Layer Refinement Network for Lane Detection)のような最先端のレーン検出ネットワークに統合され、MatchNetは従来のラベル割り当てプロセスをサブモジュールネットワークに置き換える。
統合モデルであるCLRmatchNetはCLRNetを抜いて、カーブしたレーンを含むシナリオを大幅に改善し、ResNet34の+2.8%、ResNet101の+2.3%、DLA34の+2.96%のすべてのバックボーンが大幅に改善された。
さらに、他のセクションで同等の結果を維持するか、改善する。
本手法は車線検出における信頼度を高め,信頼性閾値の上昇を可能にする。
私たちのコードは、https://github.com/sapirkontente/CLRmatchNet.gitで利用可能です。
Lane detection plays a crucial role in autonomous driving by providing vital data to ensure safe navigation. Modern algorithms rely on anchor-based detectors, which are then followed by a label-assignment process to categorize training detections as positive or negative instances based on learned geometric attributes. Accurate label assignment has great impact on the model performance, that is usually relying on a pre-defined classical cost function evaluating GT-prediction alignment. However, classical label assignment methods face limitations due to their reliance on predefined cost functions derived from low-dimensional models, potentially impacting their optimality. Our research introduces MatchNet, a deep learning submodule-based approach aimed at improving the label assignment process. Integrated into a state-of-the-art lane detection network such as the Cross Layer Refinement Network for Lane Detection (CLRNet), MatchNet replaces the conventional label assignment process with a submodule network. The integrated model, CLRmatchNet, surpasses CLRNet, showing substantial improvements in scenarios involving curved lanes, with remarkable improvement across all backbones of +2.8% for ResNet34, +2.3% for ResNet101, and +2.96% for DLA34. In addition, it maintains or even improves comparable results in other sections. Our method boosts the confidence level in lane detection, allowing an increase in the confidence threshold. Our code is available at: https://github.com/sapirkontente/CLRmatchNet.git | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# LogiGLUE: 言語モデルの論理推論能力分析のための簡単な調査とベンチマーク
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models ( http://arxiv.org/abs/2310.00836v3 ) ライセンス: Link先を確認 | Man Luo, Shrinidhi Kumbhar, Ming shen, Mihir Parmar, Neeraj Varshney, Pratyay Banerjee, Somak Aditya, Chitta Baral, | (参考訳) 論理的推論は人間にとって基本的なものであるが、人工知能の領域ではかなりの課題を提示している。
当初、研究者はKR(Knowledge Representation and Reasoning)システムを使用していた。
近年,大規模言語モデル (LLM) の出現は,形式的知識表現 (KR) システムの様々な限界を克服する能力を示している。
その結果、自然言語による論理的推論にLLMを使うことへの関心が高まっている。
本研究は,LLMを論理的推論に活用するための論理的推論データセット,タスク,手法を中心に,この領域における最新の進歩の簡単なレビューを提供することで,論理的推論におけるLLMの習熟度を理解することを目的とする。
詳細な分析を行うため、LogiGLUEというベンチマークをコンパイルしました。
これには、帰納的、帰納的、帰納的推論を含む24種類のデータセットが含まれる。
基礎としてLogiGLUEを利用することで、命令の微調整された言語モデルを訓練し、結果としてLogiT5となった。
本研究では, 単一タスクトレーニング, マルチタスクトレーニング, および「チェーン・オブ・ソート」知識蒸留微調整技術について検討し, 異なる論理的推論カテゴリにおけるモデルの性能を評価する。
また,LogiGLUE を用いて各種 LLM の評価を行ったところ, LLM は誘導的推論において最も優れており, 誘導的推論では最も有効ではないものの, 誘導的推論では誘導的推論よりも優れていることが示唆された。
我々は,LLMの論理的推論能力の向上と,この臨界領域におけるより先進的で曖昧な発展への道を開くことを目的としている。
Logical reasoning is fundamental for humans yet presents a substantial challenge in the domain of Artificial Intelligence. Initially, researchers used Knowledge Representation and Reasoning (KR) systems that did not scale and required non-trivial manual effort. Recently, the emergence of large language models (LLMs) has demonstrated the ability to overcome various limitations of formal Knowledge Representation (KR) systems. Consequently, there's a growing interest in using LLMs for logical reasoning via natural language. This work strives to understand the proficiency of LLMs in logical reasoning by offering a brief review of the latest progress in this area; with a focus on the logical reasoning datasets, tasks, and the methods adopted to utilize LLMs for reasoning. To offer a thorough analysis, we have compiled a benchmark titled LogiGLUE. This includes 24 varied datasets encompassing deductive, abductive, and inductive reasoning. Utilizing LogiGLUE as a foundation, we have trained an instruction fine-tuned language model, resulting in LogiT5. We study single-task training, multi-task training, and "chain-of-thought" knowledge distillation fine-tuning technique to assess the performance of model across the different logical reasoning categories. We also assess various LLMs using LogiGLUE, and the findings indicate that LLMs excel most in abductive reasoning, followed by deductive reasoning, while they are least effective at inductive reasoning. We aim to shed light on the capabilities and potential pathways for enhancing logical reasoning proficiency in LLMs, paving the way for more advanced and nuanced developments in this critical field. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# SE(3)-Stochastic Flow Matching for protein Backbone Generation (特集 バイオサイバネティックスとバイオサイバネティックス)
SE(3)-Stochastic Flow Matching for Protein Backbone Generation ( http://arxiv.org/abs/2310.02391v3 ) ライセンス: Link先を確認 | Avishek Joey Bose, Tara Akhound-Sadegh, Guillaume Huguet, Kilian Fatras, Jarrid Rector-Brooks, Cheng-Hao Liu, Andrei Cristian Nica, Maksym Korablyov, Michael Bronstein, Alexander Tong, | (参考訳) 新規タンパク質構造の計算設計は、多くの科学分野に大きな影響を与える可能性がある。
この目標に向けて、FoldFlowを紹介します。FoldFlowは、フローマッチングパラダイムに基づくモデリングパワーを3ドル(約3,300円)以上の剛性運動(つまり、グループ$\text{SE}(3)$)で増加させ、タンパク質のバックボーンの正確なモデリングを可能にします。
最初にFoldFlow-Baseを紹介した。FoldFlow-Baseは決定論的連続時間力学を学習するためのシミュレーションのないアプローチで、$\text{SE}(3)$で不変なターゲット分布をマッチングする。
次に、FoldFlow-OTを作成するためにリーマン最適輸送を組み込むことで、より単純で安定したフローの構築に繋がる訓練を加速する。
最後に、FoldFlow-SFMを設計し、Riemannian OTとシミュレーションフリーのトレーニングを結合して、$\text{SE}(3)上で確率的連続時間ダイナミクスを学習する。
FoldFlowのファミリーである生成モデルは、タンパク質の生成モデルに対する従来のアプローチよりもいくつかの重要な利点を提供している:それらは拡散ベースのアプローチよりも安定で訓練が速い。
実験により、FoldFlowは、最大300ドルのアミノ酸でタンパク質のバックボーンを生成することで、高品質で多種多様で斬新なサンプルを生み出すことを実証した。
The computational design of novel protein structures has the potential to impact numerous scientific disciplines greatly. Toward this goal, we introduce FoldFlow, a series of novel generative models of increasing modeling power based on the flow-matching paradigm over $3\mathrm{D}$ rigid motions -- i.e. the group $\text{SE}(3)$ -- enabling accurate modeling of protein backbones. We first introduce FoldFlow-Base, a simulation-free approach to learning deterministic continuous-time dynamics and matching invariant target distributions on $\text{SE}(3)$. We next accelerate training by incorporating Riemannian optimal transport to create FoldFlow-OT, leading to the construction of both more simple and stable flows. Finally, we design FoldFlow-SFM, coupling both Riemannian OT and simulation-free training to learn stochastic continuous-time dynamics over $\text{SE}(3). Our family of FoldFlow, generative models offers several key advantages over previous approaches to the generative modeling of proteins: they are more stable and faster to train than diffusion-based approaches, and our models enjoy the ability to map any invariant source distribution to any invariant target distribution over $\text{SE}(3)$. Empirically, we validate FoldFlow, on protein backbone generation of up to $300$ amino acids leading to high-quality designable, diverse, and novel samples. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# DISTFLASHATTN:長期LLMトレーニングのための分散メモリ効率注意
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training ( http://arxiv.org/abs/2310.03294v2 ) ライセンス: Link先を確認 | Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Xuezhe Ma, Ion Stoica, Joseph E. Gonzalez, Hao Zhang, | (参考訳) FlashAttention (Dao, 2023) は、1つのGPU上でのトランスフォーマーベースの大規模言語モデル(LLM)のトレーニングにおいて、2次ピークメモリ使用量を線形に削減する。
本稿では,長期LLM学習に最適化された分散メモリ効率アテンション機構であるdisTFLASHATTNを紹介する。
トークンレベルのワークロードバランシング,鍵値通信の重複,および再物質化対応の勾配チェックポイントアルゴリズムの3つの主要な手法を提案する。
Llama-7B上のdisTFLASHATTNと32Kから512Kまでの配列長の変異について検討した。
DISTFLASHATTN は、Ring Self-Attention と比較して8倍のスピードアップ、4.45 - 5.64倍のスピードアップ、2 - 8倍のスピードアップ、1.24 - 2.01倍のスピードアップを達成する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
コードはhttps://github.com/RulinShao/LightSeq.comで入手できる。
FlashAttention (Dao, 2023) effectively reduces the quadratic peak memory usage to linear in training transformer-based large language models (LLMs) on a single GPU. In this paper, we introduce DISTFLASHATTN, a distributed memory-efficient attention mechanism optimized for long-context LLMs training. We propose three key techniques: token-level workload balancing, overlapping key-value communication, and a rematerialization-aware gradient checkpointing algorithm. We evaluate DISTFLASHATTN on Llama-7B and variants with sequence lengths from 32K to 512K. DISTFLASHATTN achieves 8x longer sequences, 4.45 - 5.64x speedup compared to Ring Self-Attention, 2 - 8x longer sequences, 1.24 - 2.01x speedup compared to Megatron-LM with FlashAttention. It achieves 1.67x and 1.26 - 1.88x speedup compared to recent Ring Attention and DeepSpeed-Ulysses. Code is available at https://github.com/RulinShao/LightSeq. | 翻訳日:2024-04-02 15:34:46 公開日:2024-03-31 |
# DistillSpec:知識蒸留による投機的デコードの改善
DistillSpec: Improving Speculative Decoding via Knowledge Distillation ( http://arxiv.org/abs/2310.08461v2 ) ライセンス: Link先を確認 | Yongchao Zhou, Kaifeng Lyu, Ankit Singh Rawat, Aditya Krishna Menon, Afshin Rostamizadeh, Sanjiv Kumar, Jean-François Kagy, Rishabh Agarwal, | (参考訳) 投機的復号(SD)は、複数のトークンを生成するために高速なドラフトモデルを用いることで、より大きなターゲットモデルによって並列に検証され、ターゲットモデル分布に従って生成されたテキストによって、大きな言語モデル推論を加速する。
しかし、ターゲットモデルと十分に整合したコンパクトなドラフトモデルを特定することは困難である。
この問題に対処するために,SD を適用する前に,知識蒸留を用いてドラフトモデルとターゲットモデルとの整合性を向上する DistillSpec を提案する。
DistillSpecは、ドラフトモデルとターゲットアライメントを改善するために、体系的な研究を通じて重要な設計選択を2つ行います。
特筆すべきは、DistillSpecは標準SDよりも10~45%のスピードアップを、greedyとnon-greedyの両方を使って、標準ベンチマークで達成していることだ。
さらに、DistillSpecと損失の少ないSDを組み合わせることで、タスクパフォーマンスのトレードオフに対するレイテンシのきめ細かい制御を実現します。
最後に、様々なサイズのモデルで現実的なシナリオでは、まず蒸留を使用してターゲットモデルのパフォーマンスを向上し、次にDistillSpecを使って適切に整合したドラフトモデルのトレーニングを行うことで、蒸留なしでの標準的な復号と比較して、最小性能でデコード遅延を6~10倍削減することができる。
Speculative decoding (SD) accelerates large language model inference by employing a faster draft model for generating multiple tokens, which are then verified in parallel by the larger target model, resulting in the text generated according to the target model distribution. However, identifying a compact draft model that is well-aligned with the target model is challenging. To tackle this issue, we propose DistillSpec that uses knowledge distillation to better align the draft model with the target model, before applying SD. DistillSpec makes two key design choices, which we demonstrate via systematic study to be crucial to improving the draft and target alignment: utilizing on-policy data generation from the draft model, and tailoring the divergence function to the task and decoding strategy. Notably, DistillSpec yields impressive 10 - 45% speedups over standard SD on a range of standard benchmarks, using both greedy and non-greedy sampling. Furthermore, we combine DistillSpec with lossy SD to achieve fine-grained control over the latency vs. task performance trade-off. Finally, in practical scenarios with models of varying sizes, first using distillation to boost the performance of the target model and then applying DistillSpec to train a well-aligned draft model can reduce decoding latency by 6-10x with minimal performance drop, compared to standard decoding without distillation. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# 人間カリキュラムによる授業チューニング
Instruction Tuning with Human Curriculum ( http://arxiv.org/abs/2310.09518v3 ) ライセンス: Link先を確認 | Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo, | (参考訳) 本研究は,(1)カリキュラム指導チューニングの導入,(2)多様なカリキュラム戦略を採用する可能性を探る,(3)我々の理論的アプローチを補完する合成命令応答生成フレームワークについて述べる。
既存のインストラクションチューニングデータセットとは違い,我々の生成パイプラインは,人間の学習の逐次的かつ秩序的な特徴をエミュレートするために,体系的に構成されている。
さらに,中学校から大学院まで,教育対象のカタログを利用して,幅広い教育段階にまたがる指導応答データセットを生成する手法について述べる。
トレーニングの前には,質問が(A)対象事項と(B)指示の複雑度に関して困難にエスカレートすることを保証するために,指示データを慎重に整理する。
本研究の結果から,授業データへのカリキュラム命令の適用(TruthfulQAでは+4.76,MMLUでは+2.98,OpenbookQAでは+2.8,ARC-hardでは+1.28)により,大幅な性能向上が達成できることがわかった。
この強化は、追加の計算費用を発生させることなく達成される。
総合的な実験により,提案手法の利点は9つのベンチマークにおいて一貫して明らかであることがわかった。
In this work, we (1) introduce Curriculum Instruction Tuning, (2) explore the potential advantages of employing diverse curriculum strategies, and (3) delineate a synthetic instruction-response generation framework that complements our theoretical approach. Distinct from the existing instruction tuning dataset, our generation pipeline is systematically structured to emulate the sequential and orderly characteristic of human learning. Additionally, we describe a methodology for generating instruction-response datasets that extensively span the various stages of human education, from middle school through the graduate level, utilizing educational subject catalogs. Before training, we meticulously organize the instruction data to ensure that questions escalate in difficulty regarding (A) the subject matter and (B) the intricacy of the instructions. The findings of our study reveal that substantial improvements in performance can be achieved through the mere application of curriculum ordering to instruction data (achieving gains of +4.76 on TruthfulQA, +2.98 on MMLU, +2.8 on OpenbookQA, and +1.28 on ARC-hard) compared to random shuffling. This enhancement is achieved without incurring additional computational expenses. Through comprehensive experimentation, we observe that the advantages of our proposed method are consistently evident across nine benchmarks. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# Rydberg原子を持つキラル量子ルータ
Chiral quantum router with Rydberg atoms ( http://arxiv.org/abs/2310.10390v2 ) ライセンス: Link先を確認 | Nikolaos E. Palaiodimopoulos, Simon Ohler, Michael Fleischhauer, David Petrosyan, | (参考訳) 我々は、スピンネットワークにおける量子情報のコヒーレントなルーティングを実現するために、制御された時間反転対称性の破れを利用する。
我々のスキームの鍵となる構成要素は、キラリティが制御量子ビットの量子状態によって決定されるスピン三角形であり、それによって量子情報の伝播方向またはその重畳を定義する。
次に、Rydberg 原子を用いたコヒーレントルータの特殊実現を考える。
この結果により、Rydberg原子の大規模配列におけるスケーラブルな量子情報処理と通信が容易となる。
We exploit controlled breaking of time-reversal symmetry to realize coherent routing of quantum information in spin networks. The key component of our scheme is a spin triangle whose chirality is determined by the quantum state of a control qubit which thus defines the propagation direction, or a superposition thereof, of the quantum information. We then consider a particular realization of a coherent router using Rydberg atoms. Our results can facilitate scalable quantum information processing and communication in large arrays of Rydberg atoms. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# Patch-CLIP: Patch-Text Pre-Trained Model
Patch-CLIP: A Patch-Text Pre-Trained Model ( http://arxiv.org/abs/2310.12753v2 ) ライセンス: Link先を確認 | Xunzhu Tang, Zhenghan Chen, Saad Ezzini, Haoye Tian, Jacques Klein, Tegawende F. Bissyande, | (参考訳) 近年、パッチ表現学習は、ソフトウェア生成における機械学習の能力を活用するための研究の方向性として浮上している。
これらの表現は、コード変更を含むさまざまなタスクにおいて、大幅なパフォーマンス向上をもたらした。
進捗は特定できないが、既存のモデルに共通する制限は、セキュリティパッチ分類のような予測タスクや、パッチ記述生成のような生成タスクにおいて、主に優れていることである。
この二分法は、潜在的にノイズの多いデータソースへの依存によりさらに悪化する。
具体的には、多くのモデルは抽象構文木(AST)と統合されたパッチを利用しており、残念ながら解析の不正確さを含む可能性があるため、最適以下の監督源として機能する。
これらの課題に対応するために、パッチと自然言語テキストのための新しい事前学習フレームワークであるPATCH-CLIPを紹介する。
PATCH-CLIPが3つの訓練戦略を展開
1) 組込み空間におけるパッチと記述の分離を可能にするパッチ記述コントラスト学習。
2) パッチ記述マッチングは、各パッチが埋め込み空間におけるその記述に関連付けられていることを保証する。
これは、パッチの埋め込みが生成に有効であることを保証します。
これらの損失は、パッチを含む予測的タスクと生成的タスクの両方において優れたパフォーマンスを達成するために、共同学習のために実装される。
パッチ記述生成に重点を置いた実証的な評価では、PATCH-CLIPが新しい最先端のパフォーマンスを設定し、BLEU、ROUGE-L、METEOR、リコールといったメトリクスにおける最先端のパフォーマンスを一貫して上回っていることが示されている。
In recent years, patch representation learning has emerged as a necessary research direction for exploiting the capabilities of machine learning in software generation. These representations have driven significant performance enhancements across a variety of tasks involving code changes. While the progress is undeniable, a common limitation among existing models is their specialization: they predominantly excel in either predictive tasks, such as security patch classification, or in generative tasks such as patch description generation. This dichotomy is further exacerbated by a prevalent dependency on potentially noisy data sources. Specifically, many models utilize patches integrated with Abstract Syntax Trees (AST) that, unfortunately, may contain parsing inaccuracies, thus acting as a suboptimal source of supervision. In response to these challenges, we introduce PATCH-CLIP, a novel pre-training framework for patches and natural language text. PATCH-CLIP deploys a triple-loss training strategy for 1) patch-description contrastive learning, which enables to separate patches and descriptions in the embedding space, 2) patch-description matching, which ensures that each patch is associated to its description in the embedding space, and 3) patch-description generation, which ensures that the patch embedding is effective for generation. These losses are implemented for joint learning to achieve good performance in both predictive and generative tasks involving patches. Empirical evaluations focusing on patch description generation, demonstrate that PATCH-CLIP sets new state of the art performance, consistently outperforming the state-of-the-art in metrics like BLEU, ROUGE-L, METEOR, and Recall. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# 対話的デモを通して言語モデルに自己改善を教える
Teaching Language Models to Self-Improve through Interactive Demonstrations ( http://arxiv.org/abs/2310.13522v2 ) ライセンス: Link先を確認 | Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu, | (参考訳) 大規模言語モデル(LLM)の自己改善能力は、彼らのアウトプットを分析して修正することを可能にし、近年の研究において大きな関心を集めている。
しかしながら、この能力はより小型のモデルでは欠如しており、学習が困難であることが示されており、それによって最先端のLLMとよりコスト効率が高くより高速なLCMのパフォーマンスギャップが広がる。
このギャップを減らすために,このような自己改善能力を持つ小型モデルを実現するトレーニングアルゴリズムTriPosTを導入し,LLaMA-7bの性能を最大7.13%向上させることができることを示す。
従来の作業とは対照的に、より小さなモデルを用いてLLMと対話し、フィードバックを収集し、自分自身の世代で改善する。
そして、この経験をリプレイして、小さなモデルをトレーニングします。
4つの数学および推論データセットに関する実験により、小規模モデルでは、学習のインタラクティブな経験と、誤りの修正が、パフォーマンス向上に不可欠であることが示されている。
The self-improving ability of large language models (LLMs), enabled by prompting them to analyze and revise their own outputs, has garnered significant interest in recent research. However, this ability has been shown to be absent and difficult to learn for smaller models, thus widening the performance gap between state-of-the-art LLMs and more cost-effective and faster ones. To reduce this gap, we introduce TriPosT, a training algorithm that endows smaller models with such self-improvement ability, and show that our approach can improve a LLaMA-7b's performance on math and reasoning tasks by up to 7.13%. In contrast to prior work, we achieve this by using the smaller model to interact with LLMs to collect feedback and improvements on its own generations. We then replay this experience to train the small model. Our experiments on four math and reasoning datasets show that the interactive experience of learning from and correcting its own mistakes is crucial for small models to improve their performance. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# YouTubeのショートフォームビデオは、言語モデルに悪影響か?
Can Language Models Laugh at YouTube Short-form Videos? ( http://arxiv.org/abs/2310.14159v3 ) ライセンス: Link先を確認 | Dayoon Ko, Sangho Lee, Gunhee Kim, | (参考訳) ソーシャルネットワーク上の短いビデオが人気を集めている中、人間とのコミュニケーションを改善するためにAIモデルに理解を求める声が高まっている。
残念ながら、以前のビデオユーモアデータセットは、スピーチやシットコムのような特定のドメインをターゲットにしており、主に動詞の手がかりに焦点を当てている。
ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
GPT-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語的要素と視覚的要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートします。
われわれのExFunTubeは、既存のデータセットとは違って、ビデオはさまざまな種類のユーモアを持つ幅広い領域をカバーし、コンテンツに対するマルチモーダルな理解を必要としている。
また,大規模言語モデル (LLM) の映像ユーモア理解を最大化するために,ゼロショットビデオ・トゥ・テキスト・プロンプトを開発した。
自動スコア,合理化実験,人的評価の3つの異なる評価手法を用いて,本手法はユーモアの説明能力を大幅に向上させることを示す。
As short-form funny videos on social networks are gaining popularity, it becomes demanding for AI models to understand them for better communication with humans. Unfortunately, previous video humor datasets target specific domains, such as speeches or sitcoms, and mostly focus on verbal cues. We curate a user-generated dataset of 10K multimodal funny videos from YouTube, called ExFunTube. Using a video filtering pipeline with GPT-3.5, we verify both verbal and visual elements contributing to humor. After filtering, we annotate each video with timestamps and text explanations for funny moments. Our ExFunTube is unique over existing datasets in that our videos cover a wide range of domains with various types of humor that necessitate a multimodal understanding of the content. Also, we develop a zero-shot video-to-text prompting to maximize video humor understanding of large language models (LLMs). With three different evaluation methods using automatic scores, rationale quality experiments, and human evaluations, we show that our prompting significantly improves LLMs' ability for humor explanation. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# スコアベースマルチクラスアテンションのための理論的基盤化ロス関数とアルゴリズム
Theoretically Grounded Loss Functions and Algorithms for Score-Based Multi-Class Abstention ( http://arxiv.org/abs/2310.14770v2 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) 控えめな学習は、学習者が何らかのコストで予測をすることを妨げる重要なシナリオである。
本稿では,多クラス分類設定において,留意を伴う学習のスコアに基づく定式化について分析する。
本稿では, 単一段環境での最先端のサロゲート損失と2段目における新たな損失関数のファミリーを含む, 吸収損失関数に対する新たなサロゲート損失のファミリーを紹介する。
本研究では,これらのサロゲート損失に対する非漸近的・仮説的整合性の強い保証を証明し,サロゲート損失の推定誤差を推定誤差の観点から上界に示す。
我々の限界は、異なるスコアベースのサロゲートを比較し、提案したサロゲート損失を最小限に抑えて、新しいアサートアルゴリズムの設計を導くのに役立つ。
CIFAR-10, CIFAR-100, SVHNデータセットにおける新しいアルゴリズムの有効性を実験的に評価した。
以上の結果から,最新のスコアベースサロゲート損失の相対的性能はデータセットによって異なる可能性が示唆された。
Learning with abstention is a key scenario where the learner can abstain from making a prediction at some cost. In this paper, we analyze the score-based formulation of learning with abstention in the multi-class classification setting. We introduce new families of surrogate losses for the abstention loss function, which include the state-of-the-art surrogate losses in the single-stage setting and a novel family of loss functions in the two-stage setting. We prove strong non-asymptotic and hypothesis set-specific consistency guarantees for these surrogate losses, which upper-bound the estimation error of the abstention loss function in terms of the estimation error of the surrogate loss. Our bounds can help compare different score-based surrogates and guide the design of novel abstention algorithms by minimizing the proposed surrogate losses. We experimentally evaluate our new algorithms on CIFAR-10, CIFAR-100, and SVHN datasets and the practical significance of our new surrogate losses and two-stage abstention algorithms. Our results also show that the relative performance of the state-of-the-art score-based surrogate losses can vary across datasets. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# 予測ジェクタ・リジェクタ マルチクラス留意:理論解析とアルゴリズム
Predictor-Rejector Multi-Class Abstention: Theoretical Analysis and Algorithms ( http://arxiv.org/abs/2310.14772v2 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) マルチクラス分類設定において,留意を伴う学習の鍵となる枠組みについて検討する。
この設定では、学習者は事前に定義されたコストで予測をしないことを選択できる。
本稿では,この学習問題に対する理論的およびアルゴリズム的な新しい結果のシリーズを,予測器・リジェクタフレームワークに提示する。
そこで我々は, 強い非漸近的および仮説的整合性の保証を証明し, 既存の2つのオープンな疑問を正に解決する, 代理損失の新たなファミリーをいくつか導入する。
これらの保証は、サロゲート損失の推定誤差について、サロゲート損失の推定値の上限を与える。
予測器とリジェクタを同時に学習するシングルステージ設定と,アプリケーションにおいて重要な2段階設定の両方を分析し,クロスエントロピーなどの標準的なサロゲート損失を用いて第1段階で予測器を学習する。
これらの保証は、これらのサロゲート損失を最小限に抑えた新しいマルチクラス禁忌アルゴリズムを示唆している。
また、CIFAR-10, CIFAR-100, SVHNデータセット上で、これらのアルゴリズムを現在の最先端アルゴリズムと比較する広範な実験結果について報告する。
以上の結果から,新たなサロゲート損失のメリットを実証的に証明し,広く適用可能な2段階停止アルゴリズムの顕著な性能を示した。
We study the key framework of learning with abstention in the multi-class classification setting. In this setting, the learner can choose to abstain from making a prediction with some pre-defined cost. We present a series of new theoretical and algorithmic results for this learning problem in the predictor-rejector framework. We introduce several new families of surrogate losses for which we prove strong non-asymptotic and hypothesis set-specific consistency guarantees, thereby resolving positively two existing open questions. These guarantees provide upper bounds on the estimation error of the abstention loss function in terms of that of the surrogate loss. We analyze both a single-stage setting where the predictor and rejector are learned simultaneously and a two-stage setting crucial in applications, where the predictor is learned in a first stage using a standard surrogate loss such as cross-entropy. These guarantees suggest new multi-class abstention algorithms based on minimizing these surrogate losses. We also report the results of extensive experiments comparing these algorithms to the current state-of-the-art algorithms on CIFAR-10, CIFAR-100 and SVHN datasets. Our results demonstrate empirically the benefit of our new surrogate losses and show the remarkable performance of our broadly applicable two-stage abstention algorithm. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# 複数の専門家に学ぶための原則的アプローチ
Principled Approaches for Learning to Defer with Multiple Experts ( http://arxiv.org/abs/2310.14774v2 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) 本稿では,複数の専門家と遅延する学習の一般的な問題に対して,サロゲート損失とアルゴリズムについて検討する。
本稿では,まず,予測関数と遅延関数を同時に学習するマルチエキスパート設定に特化して,サロゲート損失の新たなファミリーを導入する。
次に、これらのサロゲート損失が強い$H$一貫性境界の恩恵を受けることを証明します。
本稿では,現実的な代理損失の事例を通して分析の適用について述べる。
これらの損失関数は、その最小化に基づいてアルゴリズムを遅延させる新しい学習の設計につながる。
本研究の主な焦点は理論解析であるが,SVHNとCIFAR-10データセットに関するいくつかの実験の結果も報告する。
We present a study of surrogate losses and algorithms for the general problem of learning to defer with multiple experts. We first introduce a new family of surrogate losses specifically tailored for the multiple-expert setting, where the prediction and deferral functions are learned simultaneously. We then prove that these surrogate losses benefit from strong $H$-consistency bounds. We illustrate the application of our analysis through several examples of practical surrogate losses, for which we give explicit guarantees. These loss functions readily lead to the design of new learning to defer algorithms based on their minimization. While the main focus of this work is a theoretical analysis, we also report the results of several experiments on SVHN and CIFAR-10 datasets. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# 非平衡定常状態における長距離量子相関の励起漸近
Exact asymptotics of long-range quantum correlations in a nonequilibrium steady state ( http://arxiv.org/abs/2310.16901v2 ) ライセンス: Link先を確認 | Shachar Fraenkel, Moshe Goldstein, | (参考訳) 多体系の平衡状態は、標準的な統計力学による記述を避ける傾向にあり、その特異性は、平衡では起こり得ないある種の長距離相関の可能性によって表される。
量子多体系では、この種のコヒーレントな相関が顕著な絡み合い構造の出現につながる可能性がある。
本研究では,非接触不純物を含む一次元格子上の電圧バイアスフリーフェルミオンのゼロ温度定常状態において,量子相関測度の漸近スケーリング(相互情報とフェルミオン負性)を解析的に検討する。
これまで、不純物の反対側にある2つのサブシステムは、不純物の絶対距離に依存しない体積法的な絡み合いを示すことを示した。
ここでは、この結果を超えて、数値計算に優れた一致で、広範な相関測度の項に従属する対数補正の正確な形を導出する。
特に、相互情報漸近の対数項は、サブシステム長スケールの単純な4点比とフェルミエネルギーの不純物散乱確率にのみ依存する、簡潔な公式にカプセル化することができる。
これは平衡状態の場合と似ており、そのような対数項は物理系に関する普遍的な情報を伝達することができる。
これらの正確な結果を計算するために、実空間と運動量空間の相関行列に対するToeplitz行列漸近に依存するハイブリッド手法を考案し、システムの不均一性を回避した。
この手法は、同様のシナリオにおける絡み合いの測定に広く用いられる可能性がある。
Out-of-equilibrium states of many-body systems tend to evade a description by standard statistical mechanics, and their uniqueness is epitomized by the possibility of certain long-range correlations that cannot occur in equilibrium. In quantum many-body systems, coherent correlations of this sort may lead to the emergence of remarkable entanglement structures. In this work, we analytically study the asymptotic scaling of quantum correlation measures -- the mutual information and the fermionic negativity -- within the zero-temperature steady state of voltage-biased free fermions on a one-dimensional lattice containing a noninteracting impurity. Previously, we have shown that two subsystems on opposite sides of the impurity exhibit volume-law entanglement, which is independent of the absolute distances of the subsystems from the impurity. Here we go beyond that result and derive the exact form of the subleading logarithmic corrections to the extensive terms of correlation measures, in excellent agreement with numerical calculations. In particular, the logarithmic term of the mutual information asymptotics can be encapsulated in a concise formula, depending only on simple four-point ratios of subsystem length-scales and on the impurity scattering probabilities at the Fermi energies. This echoes the case of equilibrium states, where such logarithmic terms may convey universal information about the physical system. To compute these exact results, we devise a hybrid method that relies on Toeplitz determinant asymptotics for correlation matrices in both real space and momentum space, successfully circumventing the inhomogeneity of the system. This method can potentially find wider use for analytical calculations of entanglement measures in similar scenarios. | 翻訳日:2024-04-02 15:25:00 公開日:2024-03-31 |
# 多様体上の固有ガウスベクトル場
Intrinsic Gaussian Vector Fields on Manifolds ( http://arxiv.org/abs/2310.18824v2 ) ライセンス: Link先を確認 | Daniel Robert-Nicoud, Andreas Krause, Viacheslav Borovitskiy, | (参考訳) ロボット工学から気候科学まで様々な応用は、球体のような非ユークリッド領域のモデリング信号を必要とする。
多様体上のガウス過程モデルは、特に不確実量化が必要なとき、そのような問題に対して最近提案されている。
多様体の設定では、ベクトル値の信号はスカラー値の信号とは大きく異なる振る舞いをすることができる。
しかし、前者は風速や未知の力学系の力場をモデル化するなど、多くの応用において重要である。
本稿では,本質的に定義された多様体上のベクトル値信号に対する新しいガウス過程モデルを提案する。
2次元球面とハイパートリー上でのHodge-Mat\'ern Gaussianベクトル場の展開に必要な計算的プリミティブを提供する。
さらに、離散2次元メッシュと超球面、リー群、同次空間のような「理想」多様体の2つの一般化方向を強調した。
最後に、ガウスベクトル場は、前述した外生的場よりもかなり洗練された帰納的バイアスを構成することを示す。
Various applications ranging from robotics to climate science require modeling signals on non-Euclidean domains, such as the sphere. Gaussian process models on manifolds have recently been proposed for such tasks, in particular when uncertainty quantification is needed. In the manifold setting, vector-valued signals can behave very differently from scalar-valued ones, with much of the progress so far focused on modeling the latter. The former, however, are crucial for many applications, such as modeling wind speeds or force fields of unknown dynamical systems. In this paper, we propose novel Gaussian process models for vector-valued signals on manifolds that are intrinsically defined and account for the geometry of the space in consideration. We provide computational primitives needed to deploy the resulting Hodge-Mat\'ern Gaussian vector fields on the two-dimensional sphere and the hypertori. Further, we highlight two generalization directions: discrete two-dimensional meshes and "ideal" manifolds like hyperspheres, Lie groups, and homogeneous spaces. Finally, we show that our Gaussian vector fields constitute considerably more refined inductive biases than the extrinsic fields proposed before. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# ニューラル原子:効率的な通信路を通した分子グラフにおける長距離相互作用の促進
Neural Atoms: Propagating Long-range Interaction in Molecular Graphs through Efficient Communication Channel ( http://arxiv.org/abs/2311.01276v3 ) ライセンス: Link先を確認 | Xuan Li, Zhanke Zhou, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han, | (参考訳) グラフニューラルネットワーク(GNN)は、分子グラフを用いた薬物発見に広く採用されている。
しかしながら、現在のGNNは主に短距離相互作用(SRI)の活用に優れ、長距離相互作用(LRI)の獲得に苦慮している。
この問題に対処するために、分子の原子を暗黙的に投影することで、原子群の集合情報をいくつかの$\textit{Neural Atoms}$に抽象化する方法を提案する。
具体的には、ニューラル原子間で情報を明示的に交換し、それをエンハンスメントとして原子の表現に投影する。
この機構により、ニューラルネットワークは遠方のノード間の通信チャネルを確立し、任意のノード対の相互作用範囲を1つのホップに効果的に縮小する。
物理的な観点から,従来のLRI計算手法であるEwald Summationとの関係を明らかにする。
ニューラルアトムは、分子の潜在的LRIを近似することにより、LRIを捕捉するためにGNNを強化することができる。
分子グラフ上のグラフレベルおよびリンクレベルタスクを網羅する4つの長距離グラフベンチマークについて広範な実験を行った。
2Dシナリオと3Dシナリオでそれぞれ27.32%と38.27%の改善を実現しています。
実験では, LRIの捕捉を支援するため, 任意のGNNを組み込むことが可能である。
コードとデータセットはhttps://github.com/tmlr-group/NeuralAtomで公開されている。
Graph Neural Networks (GNNs) have been widely adopted for drug discovery with molecular graphs. Nevertheless, current GNNs mainly excel in leveraging short-range interactions (SRI) but struggle to capture long-range interactions (LRI), both of which are crucial for determining molecular properties. To tackle this issue, we propose a method to abstract the collective information of atomic groups into a few $\textit{Neural Atoms}$ by implicitly projecting the atoms of a molecular. Specifically, we explicitly exchange the information among neural atoms and project them back to the atoms' representations as an enhancement. With this mechanism, neural atoms establish the communication channels among distant nodes, effectively reducing the interaction scope of arbitrary node pairs into a single hop. To provide an inspection of our method from a physical perspective, we reveal its connection to the traditional LRI calculation method, Ewald Summation. The Neural Atom can enhance GNNs to capture LRI by approximating the potential LRI of the molecular. We conduct extensive experiments on four long-range graph benchmarks, covering graph-level and link-level tasks on molecular graphs. We achieve up to a 27.32% and 38.27% improvement in the 2D and 3D scenarios, respectively. Empirically, our method can be equipped with an arbitrary GNN to help capture LRI. Code and datasets are publicly available in https://github.com/tmlr-group/NeuralAtom. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# 漁獲量を用いたリーマンラプラス近似
Riemannian Laplace Approximation with the Fisher Metric ( http://arxiv.org/abs/2311.02766v4 ) ライセンス: Link先を確認 | Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Mark Girolami, Arto Klami, | (参考訳) ラプラスの手法は、目標密度とガウス分布をそのモードで近似する。
ベルンシュタイン=ヴォン・ミセスの定理(英語版)によるベイズ予想(英語版)には計算的に効率的で漸近的に正確であるが、複素対象や有限データ後部に対しては近似が粗すぎることが多い。
ラプラス近似の最近の一般化は、計算効率を保ちながら、よりリッチな近似族を提供するリーマン幾何学の選択に従ってガウス近似を変換する。
しかし、上述の通り、その性質は選択された計量に大きく依存しており、実際、以前の研究で採用された計量は、極端に狭く、無限のデータにも偏りがある近似をもたらす。
我々は、近似系をさらに発展させ、無限データの範囲内で正確な2つの代替変種を導出し、手法の理論解析を拡張し、実験範囲で実践的な改善を示すことにより、この欠点を是正する。
Laplace's method approximates a target density with a Gaussian distribution at its mode. It is computationally efficient and asymptotically exact for Bayesian inference due to the Bernstein-von Mises theorem, but for complex targets and finite-data posteriors it is often too crude an approximation. A recent generalization of the Laplace Approximation transforms the Gaussian approximation according to a chosen Riemannian geometry providing a richer approximation family, while still retaining computational efficiency. However, as shown here, its properties depend heavily on the chosen metric, indeed the metric adopted in previous work results in approximations that are overly narrow as well as being biased even at the limit of infinite data. We correct this shortcoming by developing the approximation family further, deriving two alternative variants that are exact at the limit of infinite data, extending the theoretical analysis of the method, and demonstrating practical improvements in a range of experiments. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# EVORA:リスクを意識したオフロードオートノミーのためのディープ・エビデンシャル・トラバーサビリティ・ラーニング
EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy ( http://arxiv.org/abs/2311.06234v2 ) ライセンス: Link先を確認 | Xiaoyi Cai, Siddharth Ancha, Lakshay Sharma, Philip R. Osteen, Bernadette Bucher, Stephen Phillips, Jiuguang Wang, Michael Everett, Nicholas Roy, Jonathan P. How, | (参考訳) 高速なオフロードナビゲーションを実現するためには、良好なトラクションで地形をトラバースすることが不可欠である。
既存の手法は、地形の特徴に基づくコストを手動で設計する代わりに、自己監督を通じてデータから直接地形特性を学習し、望ましくない地形を移動する軌道を自動でペナルティ化するが、学習モデルにおける不確実性によるリスクを適切に定量化し緩和することが課題である。
そこで本研究では,不確実性を考慮したトラクションモデルを学習し,リスクを考慮したトラジェクトリを計画するための統一的なフレームワークを提案する。
不確実性定量化のために、離散的なトラクション分布とトラクション予測器の潜在特性の確率密度を学習することにより、アレータリックおよびエピステマティック不確実性の両方を効率的にモデル化する。
本研究では, 明らかな深層学習を活用し, ディリクレ分布をネットワーク出力とパラメタライズし, 学習精度とナビゲーション性能を向上させるクローズドフォーム表現を用いて, 新たな不確実性を考慮した2乗地球モーバー距離損失を提案する。
リスクを意識したナビゲーションのために,提案したプランナーは,アレタリックな不確実性に対処するために,最悪のシナリオで状態軌跡をシミュレートし,高度の疫学的な不確実性を伴う地形中を移動する軌跡をペナルティ化する。
提案手法はシミュレーションや車輪付き四足歩行ロボットにおいて広範囲に検証され,スリップを前提とせず,予想されるトラクションを仮定し,最悪の場合の予測コストを最適化する手法と比較して,ナビゲーション性能が向上した。
Traversing terrain with good traction is crucial for achieving fast off-road navigation. Instead of manually designing costs based on terrain features, existing methods learn terrain properties directly from data via self-supervision to automatically penalize trajectories moving through undesirable terrain, but challenges remain to properly quantify and mitigate the risk due to uncertainty in learned models. To this end, this work proposes a unified framework to learn uncertainty-aware traction model and plan risk-aware trajectories. For uncertainty quantification, we efficiently model both aleatoric and epistemic uncertainty by learning discrete traction distributions and probability densities of the traction predictor's latent features. Leveraging evidential deep learning, we parameterize Dirichlet distributions with the network outputs and propose a novel uncertainty-aware squared Earth Mover's distance loss with a closed-form expression that improves learning accuracy and navigation performance. For risk-aware navigation, the proposed planner simulates state trajectories with the worst-case expected traction to handle aleatoric uncertainty, and penalizes trajectories moving through terrain with high epistemic uncertainty. Our approach is extensively validated in simulation and on wheeled and quadruped robots, showing improved navigation performance compared to methods that assume no slip, assume the expected traction, or optimize for the worst-case expected cost. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# In-context Learning と Gradient Descent Revisited
In-context Learning and Gradient Descent Revisited ( http://arxiv.org/abs/2311.07772v4 ) ライセンス: Link先を確認 | Gilad Deutch, Nadav Magar, Tomer Bar Natan, Guy Dar, | (参考訳) In-context Learning (ICL)は、数ショットの学習タスクにおいて印象的な結果を示しているが、その基盤となるメカニズムはまだ完全には理解されていない。
最近の研究は、ICLが勾配降下(GD)に基づく最適化を暗黙的に行うことを示唆している。
魅力的な研究は、浅いモデルのパラメータを最適化したシンプルな設定に焦点を当てている。
本研究では,現実的なNLPタスクとモデルに対するICL-GD対応の証拠を再考する。
評価のギャップは、問題のあるメトリクスと不十分なベースラインの両方で見られます。
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアを得ることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. A recent line of work suggests that ICL performs gradient descent (GD)-based optimization implicitly. While appealing, much of the research focuses on simplified settings, where the parameters of a shallow model are optimized. In this work, we revisit evidence for ICL-GD correspondence on realistic NLP tasks and models. We find gaps in evaluation, both in terms of problematic metrics and insufficient baselines. We show that surprisingly, even untrained models achieve comparable ICL-GD similarity scores despite not exhibiting ICL. Next, we explore a major discrepancy in the flow of information throughout the model between ICL and GD, which we term Layer Causality. We propose a simple GD-based optimization procedure that respects layer causality, and show it improves similarity scores significantly. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# 多言語要約のための低ランク適応:実証的研究
Low-Rank Adaptation for Multilingual Summarization: An Empirical Study ( http://arxiv.org/abs/2311.08572v2 ) ライセンス: Link先を確認 | Chenxi Whitehouse, Fantine Huot, Jasmijn Bastings, Mostafa Dehghani, Chu-Cheng Lin, Mirella Lapata, | (参考訳) 事前学習された大規模言語モデルの進歩は、最近のNLPの進歩を著しく加速しているが、その増大を続けるサイズは、特にメモリ集約的なタスクにおいて、従来の微調整に重大な課題をもたらす。
パラメータ効率の良いファインタニングの可能性について検討し,ローランク適応(LoRA)に着目し,多言語要約の領域における課題(典型的には長い入力のため)と比較的未探索の課題について検討する。
私たちは、さまざまなサイズのモデルを活用しながら、ハイデータとローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
また,言語固有のLoRAモジュールの動的構成において,継続するLoRAチューニングが完全な微調整よりも優れていることを示す。
Although the advancements of pre-trained Large Language Models have significantly accelerated recent progress in NLP, their ever-increasing size poses significant challenges for conventional fine-tuning, especially in memory-intensive tasks. We investigate the potential of Parameter-Efficient Fine-Tuning, focusing on Low-Rank Adaptation (LoRA), in the domain of multilingual summarization, a task that is both challenging (due to typically long inputs), and relatively unexplored. We conduct an extensive study across different data availability scenarios, including high- and low-data settings, and cross-lingual transfer, leveraging models of different sizes. Our findings reveal that LoRA is competitive with full fine-tuning when trained with high quantities of data, and excels in low-data scenarios and cross-lingual transfer. We also study different strategies for few-shot cross-lingual transfer, finding that continued LoRA tuning outperforms full fine-tuning and the dynamic composition of language-specific LoRA modules. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# Safer-Instruct: 自動推論データによる言語モデルの調整
Safer-Instruct: Aligning Language Models with Automated Preference Data ( http://arxiv.org/abs/2311.08685v3 ) ライセンス: Link先を確認 | Taiwei Shi, Kai Chen, Jieyu Zhao, | (参考訳) 人間のフィードバックからの強化学習(RLHF)は、言語モデルにおけるモデル能力を高めるための重要な戦略である。
しかし、RLHFの好みデータの注釈付けはリソース集約的でクリエイティビティを要求するプロセスであり、既存の自動生成手法はデータの多様性と品質の制限に直面している。
そこで本研究では,大規模嗜好データを自動的に構築する新しいパイプラインであるSafer-Instructを提案する。
提案手法は,人間アノテータを使わずに高品質な嗜好データを効率よく生成するために,逆命令チューニング,命令誘導,エキスパートモデル評価を利用する。
サファーインストラクトの有効性を検証するために,安全選好データセットの構築にパイプラインを適用した。
この合成データセット上でAlpacaモデルを微調整すると、無害性が向上するだけでなく、人間の注釈付き安全嗜好データに基づいて微調整されたモデルよりも優れ、下流タスクにおける競争力のあるエッジを維持している。
重要なことは、Salfer-Instructフレームワークは汎用的であり、さまざまなドメインにまたがる嗜好データを生成するために適用でき、そのユーティリティは安全性の選好を超えて拡張されます。
好みのデータ取得の課題に対処し、より有能で責任のあるAIシステムの開発を進める。
データセットとコードの実装については、https://github.com/uscnlp-lime/safer-instructを参照してください。
Reinforcement learning from human feedback (RLHF) is a vital strategy for enhancing model capability in language models. However, annotating preference data for RLHF is a resource-intensive and creativity-demanding process, while existing automatic generation methods face limitations in data diversity and quality. In response, we present Safer-Instruct, a novel pipeline for automatically constructing large-scale preference data. Our approach leverages reversed instruction tuning, instruction induction, and expert model evaluation to efficiently generate high-quality preference data without human annotators. To verify the effectiveness of Safer-Instruct, we apply the pipeline to construct a safety preference dataset as a case study. Finetuning an Alpaca model on this synthetic dataset not only demonstrates improved harmlessness but also outperforms models fine-tuned on human-annotated safety preference data, all the while maintaining a competitive edge in downstream tasks. Importantly, our Safer-Instruct framework is versatile and can be applied to generate preference data across various domains, extending its utility beyond safety preferences. It addresses the challenges in preference data acquisition and advances the development of more capable and responsible AI systems. For dataset and code implementation, see https://github.com/uscnlp-lime/safer-instruct | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# ARES:Retrieval-Augmented Generation Systemのための自動評価フレームワーク
ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems ( http://arxiv.org/abs/2311.09476v2 ) ライセンス: Link先を確認 | Jon Saad-Falcon, Omar Khattab, Christopher Potts, Matei Zaharia, | (参考訳) 検索拡張生成システム(RAG)の評価は、伝統的に、入力クエリ、検索するパス、生成するレスポンスのハンドアノテーションに依存している。
本稿では,自動RAG評価システムであるARESを導入し,文脈関連性,回答忠実性,回答関連性といった側面に沿ったRAGシステムの評価を行う。
独自の合成トレーニングデータを作成することで、ARESは軽量LM判定器を微調整し、個々のRAGコンポーネントの品質を評価する。
潜在的な予測エラーを軽減するため、ARESは予測駆動推論(PPI)のために、人間に注釈を付けた少数のデータポイントを使用する。
KILT、SuperGLUE、AISの8つの異なる知識集約タスクにおいて、ARESは、評価中にわずか数百人のアノテーションを使用しながら、RAGシステムを正確に評価する。
さらに、ARESの判断はドメインシフト全体にわたって有効であり、評価されたRAGシステムで使用されるクエリやドキュメントの種類を変更した後でも正確であることを証明している。
コードとデータセットをGithubで公開しています。
Evaluating retrieval-augmented generation (RAG) systems traditionally relies on hand annotations for input queries, passages to retrieve, and responses to generate. We introduce ARES, an Automated RAG Evaluation System, for evaluating RAG systems along the dimensions of context relevance, answer faithfulness, and answer relevance. By creating its own synthetic training data, ARES finetunes lightweight LM judges to assess the quality of individual RAG components. To mitigate potential prediction errors, ARES utilizes a small set of human-annotated datapoints for prediction-powered inference (PPI). Across eight different knowledge-intensive tasks in KILT, SuperGLUE, and AIS, ARES accurately evaluates RAG systems while using only a few hundred human annotations during evaluation. Furthermore, ARES judges remain effective across domain shifts, proving accurate even after changing the type of queries and/or documents used in the evaluated RAG systems. We make our code and datasets publicly available on Github. | 翻訳日:2024-04-02 15:15:12 公開日:2024-03-31 |
# HiPose:RGB-D 6DoFオブジェクトポス推定のための階層的二元曲面符号化と対応プルーニング
HiPose: Hierarchical Binary Surface Encoding and Correspondence Pruning for RGB-D 6DoF Object Pose Estimation ( http://arxiv.org/abs/2311.12588v2 ) ライセンス: Link先を確認 | Yongliang Lin, Yongzhi Su, Praveen Nathan, Sandeep Inuganti, Yan Di, Martin Sundermeyer, Fabian Manhardt, Didier Stricke, Jason Rambach, Yu Zhang, | (参考訳) 本研究では,1枚のRGB-D画像から6DoFオブジェクトのポーズ推定を行う手法を提案する。
既存のデータ駆動手法の多くは素晴らしいパフォーマンスを達成するが、レンダリングベースの洗練アプローチに依存しているため、時間がかかる傾向にある。
この制限を回避するため,階層的二元曲面符号化を用いて3D-3D対応を粗い方法で確立するHiPoseを提案する。
従来の高密度対応法とは異なり, 点対面マッチングを用いて対応面を推定し, 段階的に外接点を除去し, 対応点となるまで表面を反復的に収縮する。
LM-O, YCB-V, T-Lessのベンチマーク実験により, 本手法はすべての改良フリー手法を超越し, 高価な改良ベース手法と同等であることが示された。
重要な点として,本手法は計算効率が高く,高精度なリアルタイムクリティカルアプリケーションを実現する。
In this work, we present a novel dense-correspondence method for 6DoF object pose estimation from a single RGB-D image. While many existing data-driven methods achieve impressive performance, they tend to be time-consuming due to their reliance on rendering-based refinement approaches. To circumvent this limitation, we present HiPose, which establishes 3D-3D correspondences in a coarse-to-fine manner with a hierarchical binary surface encoding. Unlike previous dense-correspondence methods, we estimate the correspondence surface by employing point-to-surface matching and iteratively constricting the surface until it becomes a correspondence point while gradually removing outliers. Extensive experiments on public benchmarks LM-O, YCB-V, and T-Less demonstrate that our method surpasses all refinement-free methods and is even on par with expensive refinement-based approaches. Crucially, our approach is computationally efficient and enables real-time critical applications with high accuracy requirements. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# DiverseNet:リモートセンシング画像のための決定分割半教師付きセマンティックセマンティックセマンティックネットワーク
DiverseNet: Decision Diversified Semi-supervised Semantic Segmentation Networks for Remote Sensing Imagery ( http://arxiv.org/abs/2311.13716v2 ) ライセンス: Link先を確認 | Wanli Ma, Oktay Karakus, Paul L. Rosin, | (参考訳) 半教師付き学習は、トレーニング期間中にラベル付きデータの限られたセットと共にラベル付きデータの実質的なプールから抽出された貴重な特徴を活用することにより、手動ラベリングプロセスのコストを削減することを目的としている。
大規模リモートセンシング画像における画素レベルの手動ラベリングは高価であるため、半教師付き学習が適切な解決策となる。
しかし、既存の一貫性学習フレームワークのほとんどは、ネットワークの摂動に基づくものです。
トレーニング中に特徴の多様性と擬似ラベルの精度を促進するために、軽量で効率的な摂動法がまだ存在しない。
このギャップを埋めるために、トレーニング中の精度と多様性を同時に向上し、マルチヘッドおよびマルチモデル半教師付き学習アルゴリズムを探索するDiverseNetを提案する。
DiverseNetファミリーで提案されている2つの手法、すなわちDiverseHeadとDiverseModelは、最先端の半教師付き学習法と比較して、広く利用されている4つのリモートセンシング画像データセットにおいて、セマンティックセマンティックセマンティックセマンティクスの性能を向上させる。
一方、提案したDiverseHeadアーキテクチャはパラメータ空間の観点からは単純で比較的軽量である。
Semi-supervised learning aims to help reduce the cost of the manual labelling process by leveraging valuable features extracted from a substantial pool of unlabeled data alongside a limited set of labelled data during the training phase. Since pixel-level manual labelling in large-scale remote sensing imagery is expensive, semi-supervised learning becomes an appropriate solution to this. However, most of the existing consistency learning frameworks based on network perturbation are very bulky. There is still a lack of lightweight and efficient perturbation methods to promote the diversity of features and the precision of pseudo labels during training. In order to fill this gap, we propose DiverseNet which explores multi-head and multi-model semi-supervised learning algorithms by simultaneously enhancing precision and diversity during training. The two proposed methods in the DiverseNet family, namely DiverseHead and DiverseModel, both achieve the better semantic segmentation performance in four widely utilised remote sensing imagery data sets compared to state-of-the-art semi-supervised learning methods. Meanwhile, the proposed DiverseHead architecture is simple and relatively lightweight in terms of parameter space compared to the state-of-the-art methods whilst reaching high-performance results for all the tested data sets. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# テンソルSVDにおける非滑らかな挑戦--多目的テンソル回復フレームワーク
Handling The Non-Smooth Challenge in Tensor SVD: A Multi-Objective Tensor Recovery Framework ( http://arxiv.org/abs/2311.13958v2 ) ライセンス: Link先を確認 | Jingjing Zheng, Wanglong Lu, Wenzhe Wang, Yankai Cao, Xiaoqin Zhang, Xianta Jiang, | (参考訳) 近年,多くのテンソル特異値分解(t-SVD)に基づくテンソルリカバリ手法が,カラー画像やビデオなどの視覚データ処理において有望であることが示されている。
しかし、これらの手法は、非滑らかな変化を示すテンソルデータに直面すると、深刻な性能劣化に悩まされることが多い。
現実のシナリオではよく見られるが、従来のt-SVDベースの手法では無視されている。
本研究では,このような課題に対処するために,学習可能なテンソル核ノルムを持つ新しいテンソル復元モデルを提案する。
我々は,提案するテンソル完備化モデルを反復的に解くために,交代近似乗算法 (APMM) という新しい最適化アルゴリズムを開発した。
理論的解析は最適化問題のKKT(Karush-Kuhn-Tucker)点へのAPMMの収束を示す。
さらに,APMMに基づく多目的テンソル復元フレームワークを提案し,様々な次元にわたるテンソルデータの相関関係を効率的に探索し,t-SVD法を高次テンソルケースに拡張する新たな視点を提供する。
数値実験により, テンソル完成における提案手法の有効性が示された。
Recently, numerous tensor singular value decomposition (t-SVD)-based tensor recovery methods have shown promise in processing visual data, such as color images and videos. However, these methods often suffer from severe performance degradation when confronted with tensor data exhibiting non-smooth changes. It has been commonly observed in real-world scenarios but ignored by the traditional t-SVD-based methods. In this work, we introduce a novel tensor recovery model with a learnable tensor nuclear norm to address such a challenge. We develop a new optimization algorithm named the Alternating Proximal Multiplier Method (APMM) to iteratively solve the proposed tensor completion model. Theoretical analysis demonstrates the convergence of the proposed APMM to the Karush-Kuhn-Tucker (KKT) point of the optimization problem. In addition, we propose a multi-objective tensor recovery framework based on APMM to efficiently explore the correlations of tensor data across its various dimensions, providing a new perspective on extending the t-SVD-based method to higher-order tensor cases. Numerical experiments demonstrated the effectiveness of the proposed method in tensor completion. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# 画像マニピュレーション検出のための新しいベンチマークとモデル
A New Benchmark and Model for Challenging Image Manipulation Detection ( http://arxiv.org/abs/2311.14218v2 ) ライセンス: Link先を確認 | Zhenfei Zhang, Mingyang Li, Ming-Ching Chang, | (参考訳) マルチメディアデータの操作を検出する能力は、デジタル法医学において不可欠である。
既存の画像操作検出(IMD)法は主に、画像編集や二重圧縮アーティファクトから生じる異常な特徴を検出することに基づいている。
既存のIMD技術はすべて、大きな画像から小さな改ざんされた領域を検出するという課題に直面している。
さらに、圧縮に基づくIMDアプローチは、同一品質要因の二重圧縮の場合、困難に直面している。
そこで我々は,これらの課題に対処するために,編集ベースおよび圧縮ベースIMD手法をそれぞれ評価するための2つのサブセットから構成されるChallenging Image Manipulation Detection (CIMD)ベンチマークデータセットを提案する。
データセットのイメージは手動で撮影され、高品質なアノテーションで改ざんされた。
さらに,HRNetに基づく新たな2分岐ネットワークモデルを提案する。
CIMDベンチマークの大規模な実験により,本モデルはCIMD上でのSoTA IMD法よりも有意に優れていた。
The ability to detect manipulation in multimedia data is vital in digital forensics. Existing Image Manipulation Detection (IMD) methods are mainly based on detecting anomalous features arisen from image editing or double compression artifacts. All existing IMD techniques encounter challenges when it comes to detecting small tampered regions from a large image. Moreover, compression-based IMD approaches face difficulties in cases of double compression of identical quality factors. To investigate the State-of-The-Art (SoTA) IMD methods in those challenging conditions, we introduce a new Challenging Image Manipulation Detection (CIMD) benchmark dataset, which consists of two subsets, for evaluating editing-based and compression-based IMD methods, respectively. The dataset images were manually taken and tampered with high-quality annotations. In addition, we propose a new two-branch network model based on HRNet that can better detect both the image-editing and compression artifacts in those challenging conditions. Extensive experiments on the CIMD benchmark show that our model significantly outperforms SoTA IMD methods on CIMD. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# RTPS攻撃データセットの説明
RTPS Attack Dataset Description ( http://arxiv.org/abs/2311.14496v3 ) ライセンス: Link先を確認 | Dong Young Kim, Dongsung Kim, Yuchan Song, Gang Min Kim, Min Geun Song, Jeong Do Yoo, Huy Kang Kim, | (参考訳) 本稿ではRTPSデータセットについて概説する。
我々は、通常状態の無人地上車両(UGV)に攻撃データを注入することで、攻撃データと通常のパケットデータを収集する。
このデータセットを収集するために、UGV、コントローラ、PC、ルータからなるテストベッドを組み立てました。
テストベッド上で「コマンドインジェクション」と「ARPスポーフィング」の2種類の攻撃を行った。
データ収集時間は180、300、600、1200で、シナリオはコレクション時間毎に30である。
全240機。
このデータセットは、ROS2ネットワークやUGVのセキュリティ脅威問題に対処するために、異常検出などの技術の開発に寄与することを期待しています。
This paper explains all about our RTPS datasets. We collect attack and normal packet data by injecting attack data in an Unmanned Ground Vehicle (UGV) which is normal state. To collect this dataset, We assembled a test bed consisting of UGV, controller, PC, and router. We conducted two types of Attacks "Command Injection" and "ARP Spoofing" on the testbed. The data collection time is 180, 300, 600, and 1200, the scenario has 30 each on collection time. 240 total. We expect this dataset will contribute to the development of technologies such as anomaly detection to address security threat issues in ROS2 networks and UGVs. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# HAVE-FUN:Few-Shot Unconstrained Imagesによる人間のアバター再構成
HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images ( http://arxiv.org/abs/2311.15672v2 ) ライセンス: Link先を確認 | Xihe Yang, Xingyu Chen, Daiheng Gao, Shaohui Wang, Xiaoguang Han, Baoyuan Wang, | (参考訳) ヒトのアバター再構成では、現代の技術は一般的に費用のかかるデータの取得を必要とし、少数のカジュアルな画像から満足な結果を得るのに苦労する。
本稿では,この課題を,数枚の未制約写真アルバムから考察する。
このようなデータから人間のアバターを復元することは、限られたデータ量と動的調音されたポーズのために困難である。
動的データを扱うために,DMTetが生成した任意のメッシュトポロジを非拘束画像の適応のために駆動する,乾燥可能な四面体表現を生成するためのスキンニング機構をDMTetと統合する。
少数ショットデータからインストラクティブ情報を効果的にマイニングするために,少数ショット参照と少数ショットガイダンスを備えた2フェーズ最適化手法を考案した。
前者はアバターアイデンティティと参照画像の整合性に着目し,後者は目に見えない領域に対して可視な外観を生成することを目的としている。
全体として、私たちのフレームワークはHaveFunと呼ばれ、アバターの再構築、レンダリング、アニメーションを実行できます。
開発したベンチマークの大規模な実験により、HaveFunは人体と手を再構築する上で、かなり優れたパフォーマンスを示しています。
プロジェクトWebサイト: https://seanchenxy.github.io/HaveFunWeb/.com
As for human avatar reconstruction, contemporary techniques commonly necessitate the acquisition of costly data and struggle to achieve satisfactory results from a small number of casual images. In this paper, we investigate this task from a few-shot unconstrained photo album. The reconstruction of human avatars from such data sources is challenging because of limited data amount and dynamic articulated poses. For handling dynamic data, we integrate a skinning mechanism with deep marching tetrahedra (DMTet) to form a drivable tetrahedral representation, which drives arbitrary mesh topologies generated by the DMTet for the adaptation of unconstrained images. To effectively mine instructive information from few-shot data, we devise a two-phase optimization method with few-shot reference and few-shot guidance. The former focuses on aligning avatar identity with reference images, while the latter aims to generate plausible appearances for unseen regions. Overall, our framework, called HaveFun, can undertake avatar reconstruction, rendering, and animation. Extensive experiments on our developed benchmarks demonstrate that HaveFun exhibits substantially superior performance in reconstructing the human body and hand. Project website: https://seanchenxy.github.io/HaveFunWeb/. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# Animatable Gaussian:高忠実な人間のアバターモデリングのためのPose-dependent Gaussian Mapsの学習
Animatable Gaussians: Learning Pose-dependent Gaussian Maps for High-fidelity Human Avatar Modeling ( http://arxiv.org/abs/2311.16096v3 ) ライセンス: Link先を確認 | Zhe Li, Zerong Zheng, Lizhen Wang, Yebin Liu, | (参考訳) RGBビデオからアニマタブルな人間のアバターをモデル化することは、長年の課題である。
最近の研究は、通常3次元人間を表現するために、MLPベースの神経放射場(NeRF)を採用するが、純粋なMLPがポーズ依存の衣服の詳細を遅らせることは困難である。
この目的のために、強力な2次元CNNと3次元ガウススプラッティングを利用して高忠実度アバターを作成する新しいアバター表現であるAnimatable Gaussianを導入する。
アニマタブルなアバターと3Dガウスアンを関連付けるために,入力ビデオからパラメトリックテンプレートを学習し,各画素が3Dガウスアンを表す2つの前後カノニカルガウス写像上のテンプレートをパラメータ化する。
学習されたテンプレートは、ドレスのようなよりゆるい服をモデル化するための衣服に適応する。
このようなテンプレート誘導2次元パラメータ化により、強力なStyleGANベースのCNNを用いて、ポーズ依存ガウス写像を学習し、詳細な動的外観をモデル化することができる。
さらに,新規なポーズに対して,より優れた一般化のためのポーズプロジェクション戦略を導入する。
全体として,本手法は動的,現実的,一般化された外観を持つ生活型アバターを作成できる。
実験により,本手法が他の最先端手法よりも優れていることが示された。
コード:https://github.com/lizhe00/AnimatableGaussians
Modeling animatable human avatars from RGB videos is a long-standing and challenging problem. Recent works usually adopt MLP-based neural radiance fields (NeRF) to represent 3D humans, but it remains difficult for pure MLPs to regress pose-dependent garment details. To this end, we introduce Animatable Gaussians, a new avatar representation that leverages powerful 2D CNNs and 3D Gaussian splatting to create high-fidelity avatars. To associate 3D Gaussians with the animatable avatar, we learn a parametric template from the input videos, and then parameterize the template on two front \& back canonical Gaussian maps where each pixel represents a 3D Gaussian. The learned template is adaptive to the wearing garments for modeling looser clothes like dresses. Such template-guided 2D parameterization enables us to employ a powerful StyleGAN-based CNN to learn the pose-dependent Gaussian maps for modeling detailed dynamic appearances. Furthermore, we introduce a pose projection strategy for better generalization given novel poses. Overall, our method can create lifelike avatars with dynamic, realistic and generalized appearances. Experiments show that our method outperforms other state-of-the-art approaches. Code: https://github.com/lizhe00/AnimatableGaussians | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# 量子シミュレーションのための平行格子ゲージ理論リンク上の量子ビット変数の実空間ブロッキング
Real-space blocking of qubit variables on parallel lattice gauge theory links for quantum simulation ( http://arxiv.org/abs/2311.16549v2 ) ライセンス: Link先を確認 | Judy Shir, Erez Zohar, | (参考訳) 過去数年間に提案された非摂動ゲージ理論の研究手法の1つは量子シミュレーションであり、格子ゲージ理論は実験室や量子コンピュータで構築できる量子デバイスにマッピングされる。
特に、そのような課題の1つは、無限次元の局所ヒルベルト空間をシミュレートすることの必要性であり、コンパクトリーゲージ群の場合のリンク上のゲージ場を記述することであり、一般の場合では完全に理解されず、制御できないいくつかのトランケーションや近似が必要である。
この研究は、ほとんどの量子シミュレーションプラットフォームで利用可能なコンポーネントからなる単純で低次元の量子ビット系の粗粒化を用いて、任意の大きさの局所ヒルベルト空間を得る方法を提案し、新しいタイプの格子ゲージ理論量子シミュレーションの道を開く。
One of the methods proposed in the last years for studying non-perturbative gauge theory physics is quantum simulation, where lattice gauge theories are mapped onto quantum devices which can be built in the laboratory, or quantum computers. While being very promising and already showing some experimental results, these methods still face several challenges related to the interface between the technological capabilities and the demands of the simulated models; in particular, one such challenge is the need to simulate infinitely dimensional local Hilbert spaces, describing the gauge fields on the links in the case of compact Lie gauge groups, requiring some truncations and approximations which are not completely understood or controllable in the general case. This work proposes a way to obtain arbitrarily large such local Hilbert spaces by using coarse graining of simple, low dimensional qubit systems, made of components available on most quantum simulation platforms, and thus opening the way of new types of lattice gauge theory quantum simulations. | 翻訳日:2024-04-02 15:05:24 公開日:2024-03-31 |
# Sketch Input Method Editor:システム入力認識のための包括的データセットと方法論
Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition ( http://arxiv.org/abs/2311.18254v2 ) ライセンス: Link先を確認 | Guangming Zhu, Siyuan Wang, Qing Cheng, Kelong Wu, Hao Li, Liang Zhang, | (参考訳) 近年、タッチスクリーンデバイスの使用が急増しているため、フリーハンドのスケッチは人間とコンピュータのインタラクションにとって有望なモダリティとして現れてきた。
従来の研究では、認識、検索、日常的なオブジェクトの生成といったタスクに焦点が当てられていたが、本研究では、プロフェッショナルなC4Iシステム用に特別に設計されたSketch Input Method Editor(SketchIME)を作成することを目的としている。
このシステムでは、スケッチを低忠実なプロトタイプとして使用して、総合的な状況マップの作成において、標準化されたシンボルを推奨する。
また,374種類の特殊スケッチ型からなる体系的データセットを提案し,認識とセグメンテーションのマルチレベル管理による同時認識とセグメンテーションアーキテクチャを提案し,性能の向上と解釈可能性の向上を図る。
少数ショットのドメイン適応とクラス増分学習を取り入れることで、ネットワークが新規ユーザに対応し、新しいタスク固有のクラスに拡張する能力は大幅に向上する。
提案したデータセットとSPGデータセットの両方で行った実験の結果は,提案アーキテクチャの優れた性能を示している。
私たちのデータセットとコードはhttps://github.com/GuangmingZhu/SketchIME.comで公開されています。
With the recent surge in the use of touchscreen devices, free-hand sketching has emerged as a promising modality for human-computer interaction. While previous research has focused on tasks such as recognition, retrieval, and generation of familiar everyday objects, this study aims to create a Sketch Input Method Editor (SketchIME) specifically designed for a professional C4I system. Within this system, sketches are utilized as low-fidelity prototypes for recommending standardized symbols in the creation of comprehensive situation maps. This paper also presents a systematic dataset comprising 374 specialized sketch types, and proposes a simultaneous recognition and segmentation architecture with multilevel supervision between recognition and segmentation to improve performance and enhance interpretability. By incorporating few-shot domain adaptation and class-incremental learning, the network's ability to adapt to new users and extend to new task-specific classes is significantly enhanced. Results from experiments conducted on both the proposed dataset and the SPG dataset illustrate the superior performance of the proposed architecture. Our dataset and code are publicly available at https://github.com/GuangmingZhu/SketchIME. | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# ElasticDiffusion:グローバルローカルコンテンツ分離によるトレーニング不要な任意サイズ画像生成
ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation ( http://arxiv.org/abs/2311.18822v2 ) ライセンス: Link先を確認 | Moayed Haji-Ali, Guha Balakrishnan, Vicente Ordonez, | (参考訳) 近年、拡散モデルは画像生成に革命をもたらしたが、それでもいくつかのサイズとアスペクト比に制限されている。
本稿では,事前訓練されたテキスト-画像拡散モデルを用いて,様々なサイズの画像を生成する,新しいトレーニング不要なデコーディング手法であるElasticDiffusionを提案する。
ElasticDiffusionは、事前訓練されたモデルの生成軌跡を局所信号と大域信号に分離しようとする。
局所信号は低レベル画素情報を制御し、局所パッチで推定できる一方、グローバル信号は全体的な構造的一貫性を維持するために使用され、参照画像で推定される。
我々はCelebA-HQ (faces) とLAION-COCO (objects/indoor/outdoor scene) でテストを行った。
実験と定性的な結果から,マルチディフュージョンと安定ディフュージョンの標準デコード戦略と比較して,アスペクト比における画像コヒーレンス品質が優れていた。
プロジェクトページ: https://elasticdiffusion.github.io/
Diffusion models have revolutionized image generation in recent years, yet they are still limited to a few sizes and aspect ratios. We propose ElasticDiffusion, a novel training-free decoding method that enables pretrained text-to-image diffusion models to generate images with various sizes. ElasticDiffusion attempts to decouple the generation trajectory of a pretrained model into local and global signals. The local signal controls low-level pixel information and can be estimated on local patches, while the global signal is used to maintain overall structural consistency and is estimated with a reference image. We test our method on CelebA-HQ (faces) and LAION-COCO (objects/indoor/outdoor scenes). Our experiments and qualitative results show superior image coherence quality across aspect ratios compared to MultiDiffusion and the standard decoding strategy of Stable Diffusion. Project page: https://elasticdiffusion.github.io/ | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# 協調学習によるオンライン連続学習における塑性向上
Improving Plasticity in Online Continual Learning via Collaborative Learning ( http://arxiv.org/abs/2312.00600v2 ) ライセンス: Link先を確認 | Maorong Wang, Nicolas Michel, Ling Xiao, Toshihiko Yamasaki, | (参考訳) オンライン連続学習(CL)は、継続的なデータストリームから新たな分類タスクを継続的に学習する問題の解決である。
オンラインCLのオフライン版とは異なり、トレーニングデータは一度しか見ることができない。
既存のオンラインCL研究の多くは、破滅的な忘れ(すなわちモデル安定性)をほとんど唯一の課題とみなしている。
本稿では,オンラインCLにおける新たな知識(すなわち,モデル可塑性)の獲得能力について論じる。
リプレイベースの戦略は破滅的な忘れを和らげるのに有効であることが示されているが、モデル可塑性の改善に向けた研究の注目の差は顕著である。
そこで本研究では,協調学習に基づく学習戦略である協調継続学習(CCL)を提案する。
さらに,モデルのトレーニングを促進するための協調学習手法であるDistillation Chain (DC)を導入する。
我々はCCL-DCを既存の代表的オンラインCL作品に適用する。
大規模な実験により、学習者が最先端のオンラインCL手法で十分に訓練されているとしても、我々の戦略はモデル可塑性を劇的に改善し、それによって全体的な性能を大きなマージンで向上させることができることを示した。
私たちの作業のソースコードはhttps://github.com/maorong-wang/CCL-DCで公開されています。
Online Continual Learning (CL) solves the problem of learning the ever-emerging new classification tasks from a continuous data stream. Unlike its offline counterpart, in online CL, the training data can only be seen once. Most existing online CL research regards catastrophic forgetting (i.e., model stability) as almost the only challenge. In this paper, we argue that the model's capability to acquire new knowledge (i.e., model plasticity) is another challenge in online CL. While replay-based strategies have been shown to be effective in alleviating catastrophic forgetting, there is a notable gap in research attention toward improving model plasticity. To this end, we propose Collaborative Continual Learning (CCL), a collaborative learning based strategy to improve the model's capability in acquiring new concepts. Additionally, we introduce Distillation Chain (DC), a collaborative learning scheme to boost the training of the models. We adapt CCL-DC to existing representative online CL works. Extensive experiments demonstrate that even if the learners are well-trained with state-of-the-art online CL methods, our strategy can still improve model plasticity dramatically, and thereby improve the overall performance by a large margin. The source code of our work is available at https://github.com/maorong-wang/CCL-DC. | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# 単分子非線形物体再構成のためのニューラルパラメトリックガウス
Neural Parametric Gaussians for Monocular Non-Rigid Object Reconstruction ( http://arxiv.org/abs/2312.01196v2 ) ライセンス: Link先を確認 | Devikalyan Das, Christopher Wewer, Raza Yunus, Eddy Ilg, Jan Eric Lenssen, | (参考訳) モノクロビデオから動的オブジェクトを再構成することは、非常に過小評価され難解な問題であり、最近の研究は様々な方向にアプローチしてきた。
しかし、この問題の性質が不適切であるため、カメラ位置から一貫した高品質なノベルビューを、トレーニングビューと大きく異なる形で提供できるソリューションは存在しない。
本稿では,2段階のアプローチを提案することにより,この課題に対処するニューラルパラメトリック・ガウス (NPG) を導入し,まず低ランクなニューラル変形モデルに適合し,次に2段階の非剛性再構成の正規化として利用する。
第1段階は、新しいビューで一貫性を保つためにオブジェクトの変形を学習する。
第2段階は、粗いモデルによって駆動される3次元ガウスを最適化することにより、高い復元品質を得る。
この目的のために、局所的な3次元ガウス表現を導入し、時間的に共有されたガウス表現を局所的な向きの体積で固定し変形させる。
得られた合成モデルは放射場として表現することができ、非剛性変形物体の高品質な光現実的再構成をもたらす。
我々はNPGが従来の研究よりも優れた結果が得られることを実証した。
Reconstructing dynamic objects from monocular videos is a severely underconstrained and challenging problem, and recent work has approached it in various directions. However, owing to the ill-posed nature of this problem, there has been no solution that can provide consistent, high-quality novel views from camera positions that are significantly different from the training views. In this work, we introduce Neural Parametric Gaussians (NPGs) to take on this challenge by imposing a two-stage approach: first, we fit a low-rank neural deformation model, which then is used as regularization for non-rigid reconstruction in the second stage. The first stage learns the object's deformations such that it preserves consistency in novel views. The second stage obtains high reconstruction quality by optimizing 3D Gaussians that are driven by the coarse model. To this end, we introduce a local 3D Gaussian representation, where temporally shared Gaussians are anchored in and deformed by local oriented volumes. The resulting combined model can be rendered as radiance fields, resulting in high-quality photo-realistic reconstructions of the non-rigidly deforming objects. We demonstrate that NPGs achieve superior results compared to previous works, especially in challenging scenarios with few multi-view cues. | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# SchurVINS: Schur補充型軽量ビジュアル慣性ナビゲーションシステム
SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System ( http://arxiv.org/abs/2312.01616v3 ) ライセンス: Link先を確認 | Yunfei Fan, Tianyu Zhao, Guidong Wang, | (参考訳) 精度と計算効率は、視覚慣性ナビゲーションシステム(VINS)にとって最も重要な指標である。
既存のVINSアルゴリズムは精度が高いか計算量が少ないかのどちらかで、リソース制約のあるデバイスに高精度なローカライゼーションを提供することは困難である。
そこで本研究では, 完全残差モデルを構築し, シュル補数を用いた計算複雑性を低くすることで, 高い精度を保証できる新しいフィルタベースのVINSフレームワークであるSchurVINSを提案する。
技術的には、グラディエント、ヘッセン、観測共分散が明示的にモデル化された完全残留モデルを最初に定式化する。
シュア補数は、完全なモデルをエゴモーション残留モデルとランドマーク残留モデルに分解するために用いられる。
最後に, 拡張カルマンフィルタ (EKF) を高効率で2つのモデルに実装した。
EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。
SchurVINSの実験コードはhttps://github.com/bytedance/SchurVINSで公開されている。
Accuracy and computational efficiency are the most important metrics to Visual Inertial Navigation System (VINS). The existing VINS algorithms with either high accuracy or low computational complexity, are difficult to provide the high precision localization in resource-constrained devices. To this end, we propose a novel filter-based VINS framework named SchurVINS, which could guarantee both high accuracy by building a complete residual model and low computational complexity with Schur complement. Technically, we first formulate the full residual model where Gradient, Hessian and observation covariance are explicitly modeled. Then Schur complement is employed to decompose the full model into ego-motion residual model and landmark residual model. Finally, Extended Kalman Filter (EKF) update is implemented in these two models with high efficiency. Experiments on EuRoC and TUM-VI datasets show that our method notably outperforms state-of-the-art (SOTA) methods in both accuracy and computational complexity. The experimental code of SchurVINS is available at https://github.com/bytedance/SchurVINS. | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# ゼロショット合成画像検索における言語のみの学習
Language-only Efficient Training of Zero-shot Composed Image Retrieval ( http://arxiv.org/abs/2312.01998v2 ) ライセンス: Link先を確認 | Geonmo Gu, Sanghyuk Chun, Wonjae Kim, Yoohoon Kang, Sangdoo Yun, | (参考訳) 合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
従来のCIRアプローチでは、クエリイメージ、クエリテキスト、ターゲットイメージからなるトレーニングデータセットが必要です。
いくつかの最近の研究は、ゼロショット(ZS)のCIRパラダイムを使って、事前にコンパイルされた三つ子を使わずにこの問題に対処している。
しかし、既存のZS-CIR法では、トレーニング中に入力テキストの多様性が欠如しているため、バックボーンのスケーラビリティと一般化性が制限されている。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
我々はトークン埋め込み空間に遅延埋め込みしたテキストを投影し、元のテキストのキーワードトークンを置き換えることで新しいテキストを構築する。
そして、新しいテキストとオリジナルテキストは、同じ遅延埋め込みベクターを持つようにします。
この単純な戦略ではLinCIRは驚くほど効率的かつ効果的で、CLIP ViT-Gバックボーンを使用したLinCIRは48分でトレーニングされ、CIRCO、GeneCIS、FashionIQ、CIRRの4つのCIRベンチマークで最高のZS-CIRパフォーマンスを示し、FashionIQの教師ありメソッドよりも優れています。
コードはhttps://github.com/navervision/lincirで入手できる。
Composed image retrieval (CIR) task takes a composed query of image and text, aiming to search relative images for both conditions. Conventional CIR approaches need a training dataset composed of triplets of query image, query text, and target image, which is very expensive to collect. Several recent works have worked on the zero-shot (ZS) CIR paradigm to tackle the issue without using pre-collected triplets. However, the existing ZS-CIR methods show limited backbone scalability and generalizability due to the lack of diversity of the input texts during training. We propose a novel CIR framework, only using language for its training. Our LinCIR (Language-only training for CIR) can be trained only with text datasets by a novel self-supervision named self-masking projection (SMP). We project the text latent embedding to the token embedding space and construct a new text by replacing the keyword tokens of the original text. Then, we let the new and original texts have the same latent embedding vector. With this simple strategy, LinCIR is surprisingly efficient and highly effective; LinCIR with CLIP ViT-G backbone is trained in 48 minutes and shows the best ZS-CIR performances on four different CIR benchmarks, CIRCO, GeneCIS, FashionIQ, and CIRR, even outperforming supervised method on FashionIQ. Code is available at https://github.com/navervision/lincir | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# 次のトークン予測としての物体認識
Object Recognition as Next Token Prediction ( http://arxiv.org/abs/2312.02142v4 ) ライセンス: Link先を確認 | Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim, | (参考訳) オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
この予測処理を自動回帰で行うために,デコーダの非因果注意マスクをカスタマイズし,異なるラベルから独立したトークンをモデリングし,画像トークンをプレフィックスとして扱うという2つの重要な特徴を取り入れた。
このマスキング機構は、推論中に複数のラベルのトークンを並列にサンプリングし、その確率によって生成されたラベルをランク付けする効率的な方法であるワンショットサンプリングを誘導する。
効率をさらに高めるため,事前訓練された言語モデルの中間ブロックを簡易に破棄することで,コンパクトなデコーダを構築するための簡単な戦略を提案する。
このアプローチでは、デコーダが完全なモデルのパフォーマンスにマッチし、より効率的である。
コードはhttps://github.com/kaiyuyue/nxtpで公開されている。
We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method - one-shot sampling - to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model's performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp | 翻訳日:2024-04-02 14:55:32 公開日:2024-03-31 |
# 変圧器を用いたバンコク地盤の杭荷重変形予測のための深層学習モデル
Transformer-Based Deep Learning Model for Bored Pile Load-Deformation Prediction in Bangkok Subsoil ( http://arxiv.org/abs/2312.03041v2 ) ライセンス: Link先を確認 | Sompote Youwai, Chissanupong Thongnoo, | (参考訳) 本稿では,バンコク亜土壌における大規模掘削杭の荷重変形挙動を予測するために,トランスフォーマーアーキテクチャに基づく新しいディープラーニングモデルを提案する。
モデルは、土壌プロファイルと杭の特徴をトークン化入力として符号化し、負荷変形曲線を出力として生成する。
モデルはまた、予測精度を向上させるために、ロード・デフォーメーション曲線の以前のシーケンシャルなデータをデコーダに組み込む。
このモデルは、ロード・デフォーメーション・カーブの以前のシーケンシャルなデータをデコーダに組み込む。
このモデルは、負荷変形曲線予測に十分な精度と一般化能力を示し、平均絶対誤差はテストデータに対して5.72%である。
このモデルは, 異なる土壌, 杭条件, 杭断面, 杭長さ, タイプの杭のパラメトリック解析および設計最適化にも利用できる。
This paper presents a novel deep learning model based on the transformer architecture to predict the load-deformation behavior of large bored piles in Bangkok subsoil. The model encodes the soil profile and pile features as tokenization input, and generates the load-deformation curve as output. The model also incorporates the previous sequential data of load-deformation curve into the decoder to improve the prediction accuracy. The model also incorporates the previous sequential data of load-deformation curve into the decoder. The model shows a satisfactory accuracy and generalization ability for the load-deformation curve prediction, with a mean absolute error of 5.72% for the test data. The model could also be used for parametric analysis and design optimization of piles under different soil and pile conditions, pile cross section, pile length and type of pile. | 翻訳日:2024-04-02 14:45:23 公開日:2024-03-31 |
# SPIDeRS:可視深度と反射センシングのための構造偏光
SPIDeRS: Structured Polarization for Invisible Depth and Reflectance Sensing ( http://arxiv.org/abs/2312.04553v2 ) ライセンス: Link先を確認 | Tomoki Ichikawa, Shohei Nobuhara, Ko Nishino, | (参考訳) ステルスで形状と反射率を捉えられるか?
このような能力は、視覚、xR、ロボティクス、HCIといった多くのアプリケーション領域で有用だろう。
偏光パターンを用いた第1深度・反射センシング法SPIDeRS(Structured polarization for visible depth and Reflectance Sensor)を導入する。
鍵となる考え方は、各画素における投射光の線形偏光(AoLP)の角度を変調することである。
偏光は目に見えず、深度だけでなく、直接表面の正常や反射までも取り戻すことができます。
液晶空間光変調器(SLM)と偏光カメラを用いてSPIDeRSを実装した。
我々は、偏光度オブジェクトの外観から投影された構造偏光パターンを頑健に抽出する新しい手法を導出する。
実世界のオブジェクトにSPIDeRSを適用し,SPIDeRSの有効性を評価する。
提案手法は, 各種材料の物体形状の再構成に成功し, 反射光や周囲光の拡散に強いことを示す。
また,回復表面の正常値と反射率を用いたリライティングの実証を行った。
我々はSPIDeRSが視覚センシングに新しい偏光の道を開くと信じている。
Can we capture shape and reflectance in stealth? Such capability would be valuable for many application domains in vision, xR, robotics, and HCI. We introduce structured polarization for invisible depth and reflectance sensing (SPIDeRS), the first depth and reflectance sensing method using patterns of polarized light. The key idea is to modulate the angle of linear polarization (AoLP) of projected light at each pixel. The use of polarization makes it invisible and lets us recover not only depth but also directly surface normals and even reflectance. We implement SPIDeRS with a liquid crystal spatial light modulator (SLM) and a polarimetric camera. We derive a novel method for robustly extracting the projected structured polarization pattern from the polarimetric object appearance. We evaluate the effectiveness of SPIDeRS by applying it to a number of real-world objects. The results show that our method successfully reconstructs object shapes of various materials and is robust to diffuse reflection and ambient light. We also demonstrate relighting using recovered surface normals and reflectance. We believe SPIDeRS opens a new avenue of polarization use in visual sensing. | 翻訳日:2024-04-02 14:45:23 公開日:2024-03-31 |
# OCTDL:画像に基づく深層学習のための光コヒーレンストモグラフィデータセット
OCTDL: Optical Coherence Tomography Dataset for Image-Based Deep Learning Methods ( http://arxiv.org/abs/2312.08255v3 ) ライセンス: Link先を確認 | Mikhail Kulyabin, Aleksei Zhdanov, Anastasia Nikiforova, Andrey Stepichev, Anna Kuznetsova, Mikhail Ronkin, Vasilii Borisov, Alexander Bogachev, Sergey Korotkich, Paul A Constable, Andreas Maier, | (参考訳) 光コヒーレンス断層撮影(OCT)は、眼科領域に広く応用された非侵襲的画像診断技術である。
OCTは網膜層の可視化を可能にし、網膜疾患の早期発見とモニタリングにおいて重要な役割を果たす。
OCTは光波干渉の原理を用いて網膜の微細構造の詳細な画像を作成する。
本研究は,2000枚以上の OCT 画像からなるオープンアクセス型 OCT データセット (OCTDL) を提案する。
このデータセットは、加齢関連黄斑変性症(AMD)、糖尿病黄斑浮腫(DME)、網膜膜(ERM)、網膜動脈閉塞症(RAO)、網膜静脈閉塞症(RVO)、およびVID患者のOCT記録からなる。
これらの画像は、動的スキャン長と画像解像度を持つラスタ走査プロトコルを用いて、Optovue Avanti RTVue XRで取得された。
各網膜b-スキャンは、胎児に集中して取得され、経験豊富な網膜専門家によって解釈され、カタログ化された。
本研究では,新しいオープンアクセスデータセットにディープラーニングの分類手法を適用した。
Optical coherence tomography (OCT) is a non-invasive imaging technique with extensive clinical applications in ophthalmology. OCT enables the visualization of the retinal layers, playing a vital role in the early detection and monitoring of retinal diseases. OCT uses the principle of light wave interference to create detailed images of the retinal microstructures, making it a valuable tool for diagnosing ocular conditions. This work presents an open-access OCT dataset (OCTDL) comprising over 2000 OCT images labeled according to disease group and retinal pathology. The dataset consists of OCT records of patients with Age-related Macular Degeneration (AMD), Diabetic Macular Edema (DME), Epiretinal Membrane (ERM), Retinal Artery Occlusion (RAO), Retinal Vein Occlusion (RVO), and Vitreomacular Interface Disease (VID). The images were acquired with an Optovue Avanti RTVue XR using raster scanning protocols with dynamic scan length and image resolution. Each retinal b-scan was acquired by centering on the fovea and interpreted and cataloged by an experienced retinal specialist. In this work, we applied Deep Learning classification techniques to this new open-access dataset. | 翻訳日:2024-04-02 14:45:23 公開日:2024-03-31 |
# LEMON:2次元画像から3Dオブジェクトインタラクションを学習する
LEMON: Learning 3D Human-Object Interaction Relation from 2D Images ( http://arxiv.org/abs/2312.08963v2 ) ライセンス: Link先を確認 | Yuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Zheng-Jun Zha, | (参考訳) 人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、主に人間または物体の観点から、例えば、人間の接触、物価、人間と物体の空間的関係といった、孤立した相互作用要素を予測することを学ぶことで目標にアプローチする。
相互作用(人間と物体)の間の特定の相関関係を過小評価し、相互作用の不確実性に対処するのに苦労する。
実際、物体の機能は人間の相互作用の意図に影響を与え、その相互作用が何であるかを明らかにする。
一方、相互作用する人間と物体は一致する幾何学的構造を示し、相互作用の仕方を示す。
そこで本研究では,これらの相互作用要素間の関係を利用して不確実性を緩和し,上記の相互作用要素を3次元空間内で共同予測する手法を提案する。
これを実現するために、LEMON(Learning 3D human-Object iNteraction relation)という、相互作用の意図をマイニングし、曲線を用いて幾何学的相関の抽出を誘導し、それらを組み合わせて相互作用要素を予測する統一モデルを提案する。
さらに、3Dインタラクション関係データセット(3DIR)が収集され、トレーニングと評価のためのテストベッドとして機能する。
大規模な実験は、各要素を独立に推定する手法よりもLEMONの方が優れていることを示す。
Learning 3D human-object interaction relation is pivotal to embodied AI and interaction modeling. Most existing methods approach the goal by learning to predict isolated interaction elements, e.g., human contact, object affordance, and human-object spatial relation, primarily from the perspective of either the human or the object. Which underexploit certain correlations between the interaction counterparts (human and object), and struggle to address the uncertainty in interactions. Actually, objects' functionalities potentially affect humans' interaction intentions, which reveals what the interaction is. Meanwhile, the interacting humans and objects exhibit matching geometric structures, which presents how to interact. In light of this, we propose harnessing these inherent correlations between interaction counterparts to mitigate the uncertainty and jointly anticipate the above interaction elements in 3D space. To achieve this, we present LEMON (LEarning 3D huMan-Object iNteraction relation), a unified model that mines interaction intentions of the counterparts and employs curvatures to guide the extraction of geometric correlations, combining them to anticipate the interaction elements. Besides, the 3D Interaction Relation dataset (3DIR) is collected to serve as the test bed for training and evaluation. Extensive experiments demonstrate the superiority of LEMON over methods estimating each element in isolation. | 翻訳日:2024-04-02 14:45:23 公開日:2024-03-31 |
# Open3DIS: 2Dマスクガイダンスを備えたオープンボキャブラリ3Dインスタンスセグメンテーション
Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance ( http://arxiv.org/abs/2312.10671v2 ) ライセンス: Link先を確認 | Phuc D. A. Nguyen, Tuan Duc Ngo, Chuang Gan, Evangelos Kalogerakis, Anh Tran, Cuong Pham, Khoi Nguyen, | (参考訳) オープンボキャブラリインスタンスセグメンテーション(Open-Vocabulary Instance Segmentation)の問題に、3Dシーンで対処するために設計された新しいソリューションであるOpen3DISを紹介する。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
近年のオープン・ボキャブラリ・シーン理解の進歩は,オブジェクトのローカライゼーションにクラスに依存しない3Dインスタンスの提案ネットワークを導入し,各3Dマスクに対してクエリ可能な特徴を学習することによって,この分野において大きな進歩を遂げている。
これらの手法は高品質なインスタンスの提案を生成するが、小型で幾何学的にあいまいな対象を特定するのに苦労する。
提案手法のキーとなるアイデアは,フレームにまたがって2次元のインスタンスマスクを集約し,それらを幾何学的に整合した点クラウド領域にマッピングする,上述の制限に対処する高品質なオブジェクトの提案である。
これらを3Dクラスに依存しないインスタンスの提案と組み合わせて、現実世界に幅広いオブジェクトを含める。
本研究では,ScanNet200,S3DIS,Replicaの3つの顕著なデータセットについて実験を行った。
We introduce Open3DIS, a novel solution designed to tackle the problem of Open-Vocabulary Instance Segmentation within 3D scenes. Objects within 3D environments exhibit diverse shapes, scales, and colors, making precise instance-level identification a challenging task. Recent advancements in Open-Vocabulary scene understanding have made significant strides in this area by employing class-agnostic 3D instance proposal networks for object localization and learning queryable features for each 3D mask. While these methods produce high-quality instance proposals, they struggle with identifying small-scale and geometrically ambiguous objects. The key idea of our method is a new module that aggregates 2D instance masks across frames and maps them to geometrically coherent point cloud regions as high-quality object proposals addressing the above limitations. These are then combined with 3D class-agnostic instance proposals to include a wide range of objects in the real world. To validate our approach, we conducted experiments on three prominent datasets, including ScanNet200, S3DIS, and Replica, demonstrating significant performance gains in segmenting objects with diverse categories over the state-of-the-art approaches. | 翻訳日:2024-04-02 14:35:39 公開日:2024-03-31 |
# 1中心1平均クラスタリングと1平均クラスタリングを用いた分散学習用ニア最適レジリエントアグリゲーションルール
Near-Optimal Resilient Aggregation Rules for Distributed Learning Using 1-Center and 1-Mean Clustering with Outliers ( http://arxiv.org/abs/2312.12835v2 ) ライセンス: Link先を確認 | Yuhao Yi, Ronghui You, Hong Liu, Changxin Liu, Yuan Wang, Jiancheng Lv, | (参考訳) ビザンティンの機械学習は、大規模分散学習システムで起こりうる予測不可能な欠陥に照らして、かなりの注目を集めている。
分散学習におけるビザンチンマシンに対するレジリエンスを確保する鍵は、レジリエントな集約メカニズムである。
レジリエンスなアグリゲーションルールが数多く提案されているが、これらはアドホックな方法で設計されており、パフォーマンス基準を越えてルールを比較し、分析し、改善するための余分な障壁を課している。
本稿では,外乱の存在下でのクラスタリングを用いた準最適アグリゲーション規則について検討する。
我々のアウトリア・ロバストクラスタリング手法は、労働者によって提供される更新ベクトルの幾何学的性質を利用する。
分析の結果,1中心と1平均のクラスタリング問題に対する不均一な近似は,それぞれ同種および異種ケースにおいて重要であることが証明された,メートル法に基づく基準に対して,ほぼ最適のレジリエントアグリゲータを提供することがわかった。
さらに,1つのアグリゲーションルールが保証されない2種類のアタックについても,ナイーブ平均で改善することが保証されている。
本稿では,2相レジリエントアグリゲーションフレームワークを提案する。
非凸損失関数を用いた画像分類実験を行った。
提案アルゴリズムは, 既知のアグリゲーション規則を, 非フォウティ作業者間での同質データ分布と異質データ分布で大差で上回っている。
コードと付録はhttps://github.com/jerry907/AAAI24-RASHBで入手できる。
Byzantine machine learning has garnered considerable attention in light of the unpredictable faults that can occur in large-scale distributed learning systems. The key to secure resilience against Byzantine machines in distributed learning is resilient aggregation mechanisms. Although abundant resilient aggregation rules have been proposed, they are designed in ad-hoc manners, imposing extra barriers on comparing, analyzing, and improving the rules across performance criteria. This paper studies near-optimal aggregation rules using clustering in the presence of outliers. Our outlier-robust clustering approach utilizes geometric properties of the update vectors provided by workers. Our analysis show that constant approximations to the 1-center and 1-mean clustering problems with outliers provide near-optimal resilient aggregators for metric-based criteria, which have been proven to be crucial in the homogeneous and heterogeneous cases respectively. In addition, we discuss two contradicting types of attacks under which no single aggregation rule is guaranteed to improve upon the naive average. Based on the discussion, we propose a two-phase resilient aggregation framework. We run experiments for image classification using a non-convex loss function. The proposed algorithms outperform previously known aggregation rules by a large margin with both homogeneous and heterogeneous data distributions among non-faulty workers. Code and appendix are available at https://github.com/jerry907/AAAI24-RASHB. | 翻訳日:2024-04-02 14:35:39 公開日:2024-03-31 |
# LangSplat: 3D言語ガウススティング
LangSplat: 3D Language Gaussian Splatting ( http://arxiv.org/abs/2312.16084v2 ) ライセンス: Link先を確認 | Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister, | (参考訳) 人間は3Dの世界に住んでおり、一般的に自然言語を使って3Dシーンと対話する。
3Dでオープンな言語クエリをサポートするために、3D言語フィールドをモデル化することは、最近注目を集めている。
本稿では,3次元空間内でのオープン語彙クエリを高精度かつ効率的に行える3次元言語フィールドを構築するLangSplatを紹介する。
NeRFモデルにCLIP言語を埋め込む既存の方法とは異なり、LangSplatは言語分野を表現するためにCLIPから蒸留された3Dガウシアン(英語版)のコレクションを利用して、フィールドを前進させる。
タイルベースのスプラッティング技術を用いて言語特徴をレンダリングすることで、NeRF固有のコストのかかるレンダリングプロセスを回避できる。
CLIPの埋め込みを直接学習する代わりに、LangSplatはまずシーンワイドな言語オートエンコーダをトレーニングし、次にシーン固有の潜在空間で言語機能を学ぶ。
既存のメソッドは不正確で曖昧な3D言語フィールドに苦しむため、オブジェクト間の明確な境界を識別できない。
この問題を掘り下げ,SAMを用いて階層的意味論を学習することを提案する。これにより,さまざまなスケールで言語フィールドを広範囲に問い合わせる必要がなくなり,DINO機能の正規化も不要になる。
実験結果から,LangSplatは従来手法のLERFよりも高い性能を示した。
特に、LangSplatは非常に効率的で、LERFに比べて199ドル(約1万4000円)のスピードアップを実現しています。
ビデオの結果はhttps://langsplat.github.io/で確認することを強く推奨します。
Humans live in a 3D world and commonly use natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experimental results show that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a 199 $\times$ speedup compared to LERF at the resolution of 1440 $\times$ 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io/ | 翻訳日:2024-04-02 14:35:39 公開日:2024-03-31 |
# マルチポートビームスプリッターの多部絡み合いクラス
The multipartite entanglement classes of a multiport beam-splitter ( http://arxiv.org/abs/2401.02619v3 ) ライセンス: Link先を確認 | F. E. S. Steinhoff, | (参考訳) マルチポートビームスプリッターが生成する状態は、通常、多くの空間モード間の真のマルチパートの絡み合いを示す。
本稿では,古典的コミュニケーションを伴う確率的局所操作のパラダイムの中で,この実践的な状況で生じる多部交絡状態の異なるクラスについて検討する。
一つは、多部交絡クラスが総数階層に従うシナリオであり、もう一つは、様々なクラスが非古典的次数階層に従うシナリオであり、もうひとつは、前の2つの組み合わせである第3のシナリオである。
さらに、Dicke状態の高次元バージョンの多部絡み合いは、我々の結果に自然に関係している。
The states generated by a multiport beam-splitter usually display genuine multipartite entanglement between the many spatial modes. Here we investigate the different classes of multipartite entangled states that arise in this practical situation, working within the paradigm of Stochastic Local Operations with Classical Communication. We highlight three scenarios, one where the multipartite entanglement classes follow a total number hierarchy, another where the various classes follow a nonclassicality degree hierarchy and a third one that is a combination of the previous two. Moreover, the multipartite entanglement of higher-dimensional versions of Dicke states relate naturally to our results. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# SPADE: 大規模言語モデルパイプラインのためのデータ品質アサーションの合成
SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines ( http://arxiv.org/abs/2401.03038v2 ) ライセンス: Link先を確認 | Shreya Shankar, Haotian Li, Parth Asawa, Madelon Hulsebos, Yiming Lin, J. D. Zamfirescu-Pereira, Harrison Chase, Will Fu-Hinthorn, Aditya G. Parameswaran, Eugene Wu, | (参考訳) 大規模言語モデル(LLM)は、ある種のデータを繰り返し処理または生成するパイプラインの一部として、ますますデプロイされている。
しかしながら、デプロイメントの一般的な障壁は、LSMを悩ませる頻繁で予測不可能なエラーである。
これらの誤りの必然性を認識して、LCMがいつ間違いを犯しているのかを特定するために、データ品質のアサーションを提案する。
本研究では,データ品質アサーションの自動合成手法であるSPADEについて述べる。
開発者は、デプロイ前にプロトタイピング中にしばしばデータ品質の問題を特定し、LLMプロンプトにインストラクションを追加して対処しようとする。
SPADEは、プロンプトバージョンの履歴を分析して、候補アサーション関数を生成し、カバー範囲と精度の両方を満たす最小限のセットを選択する。
実世界の9つのLLMパイプラインのテストにおいて、SPADEはより単純なベースラインと比較して、アサーションの数を14\%削減し、偽の失敗を21\%削減する。
SPADEはLangChainのLLMパイプラインハブであるLangSmith内で提供され、さまざまな産業で2000以上のパイプラインのデータ品質アサーションを生成するために使用されている。
Large language models (LLMs) are being increasingly deployed as part of pipelines that repeatedly process or generate data of some sort. However, a common barrier to deployment are the frequent and often unpredictable errors that plague LLMs. Acknowledging the inevitability of these errors, we propose {\em data quality assertions} to identify when LLMs may be making mistakes. We present SPADE, a method for automatically synthesizing data quality assertions that identify bad LLM outputs. We make the observation that developers often identify data quality issues during prototyping prior to deployment, and attempt to address them by adding instructions to the LLM prompt over time. SPADE therefore analyzes histories of prompt versions over time to create candidate assertion functions and then selects a minimal set that fulfills both coverage and accuracy requirements. In testing across nine different real-world LLM pipelines, SPADE efficiently reduces the number of assertions by 14\% and decreases false failures by 21\% when compared to simpler baselines. SPADE has been deployed as an offering within LangSmith, LangChain's LLM pipeline hub, and has been used to generate data quality assertions for over 2000 pipelines across a spectrum of industries. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# 単一画像からの対話型マルチパーソンの3次元再構築
3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image ( http://arxiv.org/abs/2401.06415v2 ) ライセンス: Link先を確認 | Junuk Cha, Hansol Lee, Jaewon Kim, Nhat Nguyen Bao Truong, Jae Shin Yoon, Seungryul Baek, | (参考訳) 本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する,新しいパイプラインを提案する。
主な課題は、人体の一部が、他者や自己の隠蔽によって単一の視点から見えず、幾何学と身体的不確実性(例えば、浸透)が欠如していることである。
この課題を克服するために、人間の2つの先駆体を完全な3次元形状と表面接触に活用する。
事前に、エンコーダは、欠落した身体部分を持つ人のイメージを潜伏ベクトルに回帰させることを学び、デコーダはこれらのベクトルをデコードして関連する幾何学の3D特徴を生成し、暗黙のネットワークはこれらの特徴を表面正規写像と組み合わせて、完全で詳細な3D人間を再構築する。
本研究では,3次元の人物間の接触の確率分布を出力する画像空間接触検出器を開発した。
我々はこれらの先行技術を用いて、身体のポーズを世界規模で洗練し、シーン空間における多人数の対話を、無浸透で正確に再現することを可能にする。
その結果,本手法は既存の手法と比較して完全で,グローバルに一貫性があり,物理的に妥当であることがわかった。
This paper introduces a novel pipeline to reconstruct the geometry of interacting multi-person in clothing on a globally coherent scene space from a single image. The main challenge arises from the occlusion: a part of a human body is not visible from a single view due to the occlusion by others or the self, which introduces missing geometry and physical implausibility (e.g., penetration). We overcome this challenge by utilizing two human priors for complete 3D geometry and surface contacts. For the geometry prior, an encoder learns to regress the image of a person with missing body parts to the latent vectors; a decoder decodes these vectors to produce 3D features of the associated geometry; and an implicit network combines these features with a surface normal map to reconstruct a complete and detailed 3D humans. For the contact prior, we develop an image-space contact detector that outputs a probability distribution of surface contacts between people in 3D. We use these priors to globally refine the body poses, enabling the penetration-free and accurate reconstruction of interacting multi-person in clothing on the scene space. The results demonstrate that our method is complete, globally coherent, and physically plausible compared to existing methods. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# 逐次測定量子系における漁業情報率
Fisher information rates in sequentially measured quantum systems ( http://arxiv.org/abs/2401.06543v2 ) ライセンス: Link先を確認 | Eoin O'Connor, Steve Campbell, Gabriel T. Landi, | (参考訳) 本稿では,測度統計における時間相関が,逐次気象プロトコルにおける達成可能な精度に与える影響を考察する。
この設定では、単一の量子プローブに対して、測定基底状態間の遷移が、精度を決定する上で最も重要な役割を担い、結果として得られた条件付きフィッシャー情報が情報取得の速度として解釈可能であることを確かめる。
プロジェクティブ測定は、2つの異なる推定設定でこれをエレガントに示す。
第一に、環境の温度を決定するとき、第二に、ハミルトニアン系のパラメータを確認するときである。
いずれの設定においても、逐次推定手法は達成可能な精度を高めるのに有用な方法であることを示す。
We consider the impact that temporal correlations in the measurement statistics can have on the achievable precision in a sequential metrological protocol. In this setting, and for a single quantum probe, we establish that it is the transitions between the measurement basis states that plays the most significant role in determining the precision, with the resulting conditional Fisher information being interpretable as a rate of information acquisition. Projective measurements are shown to elegantly demonstrate this in two disparate estimation settings. Firstly, in determining the temperature of an environment and, secondly, to ascertain a parameter of the system Hamiltonian. In both settings we show that the sequential estimation approach can provide a useful method to enhance the achievable precision. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# ディープニューラルネットワークによるバックグラウンドバイアス軽減のための高速ISNet
Faster ISNet for Background Bias Mitigation on Deep Neural Networks ( http://arxiv.org/abs/2401.08409v2 ) ライセンス: Link先を確認 | Pedro R. A. S. Bassi, Sergio Decherchi, Andrea Cavalli, | (参考訳) 画像背景のバイアスや刺激的な相関はニューラルネットワークに影響を与え、ショートカット学習(クリーバーハンス効果)を引き起こし、現実世界のデータへの一般化を妨げる。
最近導入されたアーキテクチャであるISNetは、深い分類器に対する背景の影響を軽減するために、レイヤワイズ関連伝播(LRP、説明手法)ヒートマップの最適化を提案した。
しかし、ISNetのトレーニング時間はアプリケーション内のクラス数と線形にスケールする。
本稿では,この数からトレーニング時間が独立したアーキテクチャを提案する。
さらに,簡潔かつモデルに依存しないLRP実装を提案する。
我々は、合成背景バイアスと、一般的に背景バイアスを示すアプリケーションである胸部X線における新型コロナウイルス検出を用いて、提案したアーキテクチャに挑戦する。
ネットワークはバックグラウンドの注意とショートカット学習を妨げ、アウト・オブ・ディストリビューションテストデータセット上の複数の最先端モデルを上回った。
提案したアーキテクチャでは、ISNetによるトレーニング速度の大幅な改善を反映して、LRP最適化を元のモデルでは対応できないような、多数のアプリケーションに導入している。
Bias or spurious correlations in image backgrounds can impact neural networks, causing shortcut learning (Clever Hans Effect) and hampering generalization to real-world data. ISNet, a recently introduced architecture, proposed the optimization of Layer-Wise Relevance Propagation (LRP, an explanation technique) heatmaps, to mitigate the influence of backgrounds on deep classifiers. However, ISNet's training time scales linearly with the number of classes in an application. Here, we propose reformulated architectures whose training time becomes independent from this number. Additionally, we introduce a concise and model-agnostic LRP implementation. We challenge the proposed architectures using synthetic background bias, and COVID-19 detection in chest X-rays, an application that commonly presents background bias. The networks hindered background attention and shortcut learning, surpassing multiple state-of-the-art models on out-of-distribution test datasets. Representing a potentially massive training speed improvement over ISNet, the proposed architectures introduce LRP optimization into a gamut of applications that the original model cannot feasibly handle. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# 量子機械学習の総合的レビュー:NISQからフォールトトレランスへ
A comprehensive review of Quantum Machine Learning: from NISQ to Fault Tolerance ( http://arxiv.org/abs/2401.11351v2 ) ライセンス: Link先を確認 | Yunfei Wang, Junyu Liu, | (参考訳) 量子デバイス上で機械学習アルゴリズムを実行する量子機械学習は、学術とビジネスの両方で大きな注目を集めている。
本稿では,量子機械学習の分野に現れた様々な概念について,包括的で偏見のないレビューを行う。
これには、NISQ(Noisy Intermediate-Scale Quantum)技術で使用される技術や、フォールトトレラントな量子コンピューティングハードウェアと互換性のあるアルゴリズムに対するアプローチが含まれる。
本稿では,量子機械学習に関連する基本概念,アルゴリズム,統計的学習理論について概説する。
Quantum machine learning, which involves running machine learning algorithms on quantum devices, has garnered significant attention in both academic and business circles. In this paper, we offer a comprehensive and unbiased review of the various concepts that have emerged in the field of quantum machine learning. This includes techniques used in Noisy Intermediate-Scale Quantum (NISQ) technologies and approaches for algorithms compatible with fault-tolerant quantum computing hardware. Our review covers fundamental concepts, algorithms, and the statistical learning theory pertinent to quantum machine learning. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# TelME:会話における感情認識のための教師主導型マルチモーダルフュージョンネットワーク
TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation ( http://arxiv.org/abs/2401.12987v2 ) ライセンス: Link先を確認 | Taeyang Yun, Hyunkuk Lim, Jeonghwan Lee, Min Song, | (参考訳) 会話における感情認識(Emotion Recognition in Conversation、ERC)は、対話システムがユーザの要求に効果的に対応できるようにする上で重要な役割を担っている。
会話中の感情は、音声、視覚、テキストなどの様々なモダリティの表現によって識別することができる。
しかし、感情を認識するための非言語的モダリティの弱い貢献により、マルチモーダルERCは常に困難な課題とみなされてきた。
本稿では,ERC(TelME)のための教師主導型マルチモーダル核融合ネットワークを提案する。
TelMEは、教師として働く言語モデルから非言語学生に情報を伝達するために、クロスモーダルな知識蒸留を取り入れ、弱いモダリティの有効性を最適化する。
次に、学生ネットワークが教師を支援するシフト・フュージョン・アプローチを用いて、マルチモーダルな特徴を組み合わせる。
TelMEは、ERCのためのマルチ話者会話データセットであるMELDで最先端のパフォーマンスを達成する。
最後に、追加実験により、コンポーネントの有効性を実証する。
Emotion Recognition in Conversation (ERC) plays a crucial role in enabling dialogue systems to effectively respond to user requests. The emotions in a conversation can be identified by the representations from various modalities, such as audio, visual, and text. However, due to the weak contribution of non-verbal modalities to recognize emotions, multimodal ERC has always been considered a challenging task. In this paper, we propose Teacher-leading Multimodal fusion network for ERC (TelME). TelME incorporates cross-modal knowledge distillation to transfer information from a language model acting as the teacher to the non-verbal students, thereby optimizing the efficacy of the weak modalities. We then combine multimodal features using a shifting fusion approach in which student networks support the teacher. TelME achieves state-of-the-art performance in MELD, a multi-speaker conversation dataset for ERC. Finally, we demonstrate the effectiveness of our components through additional experiments. | 翻訳日:2024-04-02 14:25:45 公開日:2024-03-31 |
# 局所ニューラルネットワークと有限要素入力データを用いたPNPイオンチャネル深層学習法
A PNP ion channel deep learning solver with local neural network and finite element input data ( http://arxiv.org/abs/2401.17513v2 ) ライセンス: Link先を確認 | Hwi Lee, Zhen Chao, Harris Cobb, Yingjie Liu, Dexuan Xie, | (参考訳) 本稿では,PNPic Deep Learning solverと呼ばれる改良された1次元ポアソン・ナンスト・プランクイオンチャネル(PNPic)モデルについて述べる。
特に、新しい局所ニューラルネットワークスキームと有効なPNPic有限要素解法を組み合わせる。
ニューラルネットワークスキームの入力データは、有限要素ソルバが迅速に生成できる粗いグリッド解の小さな局所パッチのみを含むため、PNPicディープラーニングソルバは、対応する従来のグローバルニューラルネットワークソルバよりもはるかに高速に訓練することができる。
適切に訓練した後、予測されたPNPic解を低コストの粗いグリッド解よりもはるかに高い精度で出力することができ、パラメータ、イオンチャネルサブリージョン、およびインターフェースと境界値などに対して異なる摂動ケースを反映することができる。
これにより、PNPicディープラーニング解法は、PNPicモデルのファミリーに対して高い精度で数値解を生成することができる。
最初の研究では、PNPicモデルの1パラメータと2パラメータを摂動させて2種類の数値実験を行い、モデルのいくつかの摂動界面位置をトレーニングサンプルとして使用した。
これらの実験により, PNPic 深層学習解法は高精度な PNPic 数値解を生成することができることが示された。
In this paper, a deep learning method for solving an improved one-dimensional Poisson-Nernst-Planck ion channel (PNPic) model, called the PNPic deep learning solver, is presented. In particular, it combines a novel local neural network scheme with an effective PNPic finite element solver. Since the input data of the neural network scheme only involves a small local patch of coarse grid solutions, which the finite element solver can quickly produce, the PNPic deep learning solver can be trained much faster than any corresponding conventional global neural network solvers. After properly trained, it can output a predicted PNPic solution in a much higher degree of accuracy than the low cost coarse grid solutions and can reflect different perturbation cases on the parameters, ion channel subregions, and interface and boundary values, etc. Consequently, the PNPic deep learning solver can generate a numerical solution with high accuracy for a family of PNPic models. As an initial study, two types of numerical tests were done by perturbing one and two parameters of the PNPic model, respectively, as well as the tests done by using a few perturbed interface positions of the model as training samples. These tests demonstrate that the PNPic deep learning solver can generate highly accurate PNPic numerical solutions. | 翻訳日:2024-04-02 14:15:46 公開日:2024-03-31 |
# 動的ハルトを用いたリカレント変圧器の検討
Investigating Recurrent Transformers with Dynamic Halt ( http://arxiv.org/abs/2402.00976v2 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea, | (参考訳) 本稿では,変圧器の繰り返し機構を付加する2つの主要な手法の帰納的バイアスについて検討する。(1)ユニバーサル変圧器に類似した深度的再帰のアプローチ,(2)時間的潜伏ボトルネックのように時間的再帰のチャンク的再帰のアプローチについて述べる。
さらに, 上記の手法を拡張し, 組み合わせる新しい手法を提案する。例えば, ユニバーサルトランスフォーマーのグローバル平均値に基づく動的停止機構と, テンポラルラテントボトルネックをユニバーサルトランスフォーマーの要素で拡張する機構を提案する。
モデルを比較し,Long Range Arena(LRA)やフリップフロップ言語モデリング,ListOps,Logical Inferenceなど,いくつかの診断タスクにおける帰納バイアスを探索する。
In this paper, we study the inductive biases of two major approaches to augmenting Transformers with a recurrent mechanism - (1) the approach of incorporating a depth-wise recurrence similar to Universal Transformers; and (2) the approach of incorporating a chunk-wise temporal recurrence like Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways to extend and combine the above methods - for example, we propose a global mean-based dynamic halting mechanism for Universal Transformer and an augmentation of Temporal Latent Bottleneck with elements from Universal Transformer. We compare the models and probe their inductive biases in several diagnostic tasks such as Long Range Arena (LRA), flip-flop language modeling, ListOps, and Logical Inference. | 翻訳日:2024-04-02 14:15:46 公開日:2024-03-31 |
# 単眼画像からの幾何推定のための適応表面正規化
Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images ( http://arxiv.org/abs/2402.05869v2 ) ライセンス: Link先を確認 | Xiaoxiao Long, Yuhang Zheng, Yupeng Zheng, Beiwen Tian, Cheng Lin, Lingjie Liu, Hao Zhao, Guyue Zhou, Wenping Wang, | (参考訳) 本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
既存の手法における幾何学的文脈を確実に捉えることの難しさは、異なる幾何学的特性間の一貫性を正確に強制する能力を妨げるため、幾何学的推定品質のボトルネックにつながる。
そこで我々は,適応曲面正規化(ASN)制約を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
ランダムにサンプリングされた候補から信頼性のある局所幾何学を動的に決定することにより、これらの候補の有効性を幾何学的文脈を用いて評価する表面正規制約を確立する。
さらに、我々の正規推定では、幾何学的文脈を利用して重要な幾何学的変動を示す領域を優先順位付けし、予測された正規度が複雑かつ詳細な幾何学的情報を正確にキャプチャする。
幾何学的文脈の統合により,結束フレームワーク内での深度と表面の正規分布推定を統一し,画像から高品質な3次元幾何を生成する。
室内および屋外の多様なデータセットに対する広範な評価と比較を通じて、最先端手法に対するアプローチの優位性を検証し、その効率性と堅牢性を示す。
We introduce a novel approach to learn geometries such as depth and surface normal from images while incorporating geometric context. The difficulty of reliably capturing geometric context in existing methods impedes their ability to accurately enforce the consistency between the different geometric properties, thereby leading to a bottleneck of geometric estimation quality. We therefore propose the Adaptive Surface Normal (ASN) constraint, a simple yet efficient method. Our approach extracts geometric context that encodes the geometric variations present in the input image and correlates depth estimation with geometric constraints. By dynamically determining reliable local geometry from randomly sampled candidates, we establish a surface normal constraint, where the validity of these candidates is evaluated using the geometric context. Furthermore, our normal estimation leverages the geometric context to prioritize regions that exhibit significant geometric variations, which makes the predicted normals accurately capture intricate and detailed geometric information. Through the integration of geometric context, our method unifies depth and surface normal estimations within a cohesive framework, which enables the generation of high-quality 3D geometry from images. We validate the superiority of our approach over state-of-the-art methods through extensive evaluations and comparisons on diverse indoor and outdoor datasets, showcasing its efficiency and robustness. | 翻訳日:2024-04-02 14:15:46 公開日:2024-03-31 |
# LLMs as Bridges:Reformulating Grounded Multimodal Named Entity Recognition
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition ( http://arxiv.org/abs/2402.09989v3 ) ライセンス: Link先を確認 | Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan, | (参考訳) Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
GMNERタスクは2つの難しい特性を示す。
1) ソーシャルメディアにおける画像テキストペア間の相関が弱かったため, 名前付きエンティティのかなりの部分が接地不能となった。
2) 類似したタスク(例えば,句の局所化,表現理解の参照など)でよく用いられる粗粒度参照表現と細粒度名前付きエンティティとの区別がある。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統合フレームワークであるRiVEGを提案する。
この改革は2つの利点をもたらす。
1) MNERの最適性能を維持し, 地域特徴を事前に抽出するためにオブジェクト検出手法を用いることの必要性を排除し, 既存のGMNER手法の2つの大きな限界に自然に対処する。
2) エンティティ拡張表現とビジュアルエンタテインメント(VE)モジュールの導入により,ビジュアルグラウンド(VG)とエンティティグラウンド(EG)が統合される。
これによってRiVEGは,現在のあるいは将来的なマルチモーダル事前トレーニングモデルのVisual EntailmentとVisual Grounding機能を,懸命に継承することが可能になります。
大規模な実験により、RiVEGは既存のGMNERデータセットの最先端の手法より優れており、全3つのサブタスクで10.65%、6.21%、および8.83%の絶対的なリードを達成している。
Grounded Multimodal Named Entity Recognition (GMNER) is a nascent multimodal task that aims to identify named entities, entity types and their corresponding visual regions. GMNER task exhibits two challenging properties: 1) The weak correlation between image-text pairs in social media results in a significant portion of named entities being ungroundable. 2) There exists a distinction between coarse-grained referring expressions commonly used in similar tasks (e.g., phrase localization, referring expression comprehension) and fine-grained named entities. In this paper, we propose RiVEG, a unified framework that reformulates GMNER into a joint MNER-VE-VG task by leveraging large language models (LLMs) as a connecting bridge. This reformulation brings two benefits: 1) It maintains the optimal MNER performance and eliminates the need for employing object detection methods to pre-extract regional features, thereby naturally addressing two major limitations of existing GMNER methods. 2) The introduction of entity expansion expression and Visual Entailment (VE) Module unifies Visual Grounding (VG) and Entity Grounding (EG). It enables RiVEG to effortlessly inherit the Visual Entailment and Visual Grounding capabilities of any current or prospective multimodal pretraining models. Extensive experiments demonstrate that RiVEG outperforms state-of-the-art methods on the existing GMNER dataset and achieves absolute leads of 10.65%, 6.21%, and 8.83% in all three subtasks. | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# DriveVLM: 自律走行と大規模ビジョンランゲージモデルの収束性
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models ( http://arxiv.org/abs/2402.12289v3 ) ライセンス: Link先を確認 | Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Chenxu Hu, Yang Wang, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao, | (参考訳) 都市環境における自律運転の主なハードルは、困難な道路条件や繊細な人間の行動など、複雑で長い尾のシナリオを理解することである。
本稿では,視覚言語モデル(VLM)を活用した自律走行システムであるDriveVLMを紹介した。
DriveVLMは、シーン記述、シーン分析、階層的計画のためのチェーン・オブ・シント(CoT)モジュールのユニークな組み合わせを統合している。
さらに,空間的推論におけるVLMの限界を認識し,従来の自律走行パイプラインとDriveVLMの強みを相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
DriveVLM-Dualは、堅牢な空間理解とリアルタイム推論速度を実現する。
nuScenesデータセットとSUP-ADデータセットの併用実験により,DriveVLMの有効性とDriveVLM-Dualの性能向上が実証された。
A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of chain-of-thought (CoT) modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. DriveVLM-Dual achieves robust spatial understanding and real-time inference speed. Extensive experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the effectiveness of DriveVLM and the enhanced performance of DriveVLM-Dual, surpassing existing methods in complex and unpredictable driving conditions. | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# 自然画像ストレッチのためのオブジェクトレベルの幾何構造
Object-level Geometric Structure Preserving for Natural Image Stitching ( http://arxiv.org/abs/2402.12677v2 ) ライセンス: Link先を確認 | Wenxiao Cai, Wankou Yang, | (参考訳) 世界規模の自然構造で画像を縫い合わせるという話題は、最重要事項である。
現在の方法論は、局所的な幾何学的構造を保存する能力を示しているが、これらの幾何学的構造の間の関係を維持するには不足している。
本稿では,グローバル類似性優先に基づく画像内のOBJectレベルの全体構造を保護するとともに,OBJ-GSPによる歪みやゴーストを同時に緩和する。
我々のアプローチでは、セグメンション・アシング・モデルを用いて、意味情報を持つ幾何学的構造を抽出し、人間の知覚と直感的に整合する方法でオブジェクトを保存するアルゴリズムの能力を高める。
種々の幾何学的境界間の関係を規定する空間的制約を同定する。
複数の幾何学的境界が完全な対象を集合的に定義していることを認識し、三角形メッシュを用いて個々の幾何学的構造だけでなく、画像内の物体全体の形状を保護している。
複数の画像縫合データセットにまたがる経験的評価により,本手法が画像縫合における新しい最先端のベンチマークを確立することを示す。
私たちの実装とデータセットはhttps://github.com/RussRobin/OBJ-GSPで公開されています。
The topic of stitching images with globally natural structures holds paramount significance. Current methodologies exhibit the ability to preserve local geometric structures, yet fall short in maintaining relationships between these geometric structures. In this paper, we endeavor to safeguard the overall, OBJect-level structures within images based on Global Similarity Prior, while concurrently mitigating distortion and ghosting artifacts with OBJ-GSP. Our approach leverages the Segment Anything Model to extract geometric structures with semantic information, enhancing the algorithm's ability to preserve objects in a manner that aligns more intuitively with human perception. We seek to identify spatial constraints that govern the relationships between various geometric boundaries. Recognizing that multiple geometric boundaries collectively define complete objects, we employ triangular meshes to safeguard not only individual geometric structures but also the overall shapes of objects within the images. Empirical evaluations across multiple image stitching datasets demonstrate that our method establishes a new state-of-the-art benchmark in image stitching. Our implementation and dataset is publicly available at https://github.com/RussRobin/OBJ-GSP . | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# TofuEval: トピックに焦点をあてた対話要約におけるLLMの幻覚の評価
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization ( http://arxiv.org/abs/2402.13249v2 ) ライセンス: Link先を確認 | Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown, | (参考訳) 単一文書の要約は, 事実整合性の評価や幻覚の研究によって, 近年, 忠実性に大きな進歩を遂げている。
これらの進歩が他のテキスト要約ドメインに受け継がれるかどうかを問う。
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
分析の結果,既存のLLMは,モデルのサイズに関わらず,対話領域においてかなりの量の事実誤りを幻覚させることがわかった。
一方, GPT-4 など LLM が2次ファクトリティー評価器として機能すると, 性能が悪く, 最先端のファクトリティー評価指標により性能が向上する。
最後に,修正誤り分類法を用いて幻覚型の分析を行った。
モデル生成サマリーには多種多様なエラーやエラー分布があり、LLMをベースとしないメトリクスは、LLMベースの評価器よりも全てのエラータイプを捉えることができる。
Single document news summarization has seen substantial progress on faithfulness in recent years, driven by research on the evaluation of factual consistency, or hallucinations. We ask whether these advances carry over to other text summarization domains. We propose a new evaluation benchmark on topic-focused dialogue summarization, generated by LLMs of varying sizes. We provide binary sentence-level human annotations of the factual consistency of these summaries along with detailed explanations of factually inconsistent sentences. Our analysis shows that existing LLMs hallucinate significant amounts of factual errors in the dialogue domain, regardless of the model's size. On the other hand, when LLMs, including GPT-4, serve as binary factual evaluators, they perform poorly and can be outperformed by prevailing state-of-the-art specialized factuality evaluation metrics. Finally, we conducted an analysis of hallucination types with a curated error taxonomy. We find that there are diverse errors and error distributions in model-generated summaries and that non-LLM based metrics can capture all error types better than LLM-based evaluators. | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# Yb$^+$ qubits用マルチチャネルアコスト光変調器の設計と特性評価
Design and characterization of individual addressing optics based on multi-channel acousto-optic modulator for $^{171}$Yb$^+$ qubits ( http://arxiv.org/abs/2402.13560v2 ) ライセンス: Link先を確認 | Sungjoo Lim, Seunghyun Baek, Jacob Whitlow, Marissa D'Onofrio, Tianyi Chen, Samuel Phiri, Stephen Crain, Kenneth R. Brown, Jungsang Kim, Junki Kim, | (参考訳) 本稿では,イッテルビウム-171イオンを捕捉するためのマルチチャネルアコスト光変調器(AOM)を用いた個別アドレッシング光学の設計と特性について述べる。
個々のアドレッシングシステムの設計パラメータは、予測されたクロストークと投影対物レンズの必要な数値開口とのトレードオフに基づいて決定された。
ターゲットビームの直径と分離は、それぞれ1.90$\mu$mと4.28$\mu$mである。
投射光学によって形成された個々のビームは、撮像センサとフィールドプローブイオンで特徴付けられる。
結果として得られた有効ビーム径と分離値は、それぞれ2.34--2.36$\mu$mと4.31$\mu$mであった。
We present the design and characterization of individual addressing optics based on a multi-channel acousto-optic modulator (AOM) for trapped ytterbium-171 ions. The design parameters of the individual addressing system were determined based on the tradeoff between the expected crosstalk and the required numerical aperture of the projection objective lens. The target beam diameter and separation were 1.90 $\mu$m and 4.28 $\mu$m, respectively. The individual beams shaped by the projection optics were characterized by an imaging sensor and a field probe ion. The resulting effective beam diameters and separations were approximately 2.34--2.36 $\mu$m and 4.31 $\mu$m, respectively, owing to residual aberration. | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# 論理的回帰のための確率的確率的ランダム化サンプリングアルゴリズム
A Provably Accurate Randomized Sampling Algorithm for Logistic Regression ( http://arxiv.org/abs/2402.16326v3 ) ライセンス: Link先を確認 | Agniva Chowdhury, Pradeep Ramuhalli, | (参考訳) 統計学と機械学習において、ロジスティック回帰(英: logistic regression)は、主に二項分類タスクに使用される広く使われている教師付き学習技術である。
観測回数が予測変数数を大幅に上回る場合、推定確率とモデル全体の差の両方に対して高品質な近似を保証する、ロジスティック回帰問題に対する単純なランダム化サンプリングベースアルゴリズムを提案する。
我々の解析は、ランダム化された数値線型代数の基本的およびよく理解された原始的行列乗法に沸騰する2つの単純な構造条件に基づいている。
実測値を用いた場合のロジスティック回帰確率の推定特性を解析し,観測値の総数よりはるかに小さい試料を用いて精度の高い近似が可能であることを証明した。
理論的知見をさらに検証するため,包括的経験的評価を行った。
全体として、ロジスティック回帰における推定確率を効率的に近似するためにランダム化サンプリングアプローチを用いる可能性に光を当て、大規模データセットに対して実用的で計算的に効率的なソリューションを提供する。
In statistics and machine learning, logistic regression is a widely-used supervised learning technique primarily employed for binary classification tasks. When the number of observations greatly exceeds the number of predictor variables, we present a simple, randomized sampling-based algorithm for logistic regression problem that guarantees high-quality approximations to both the estimated probabilities and the overall discrepancy of the model. Our analysis builds upon two simple structural conditions that boil down to randomized matrix multiplication, a fundamental and well-understood primitive of randomized numerical linear algebra. We analyze the properties of estimated probabilities of logistic regression when leverage scores are used to sample observations, and prove that accurate approximations can be achieved with a sample whose size is much smaller than the total number of observations. To further validate our theoretical findings, we conduct comprehensive empirical evaluations. Overall, our work sheds light on the potential of using randomized sampling approaches to efficiently approximate the estimated probabilities in logistic regression, offering a practical and computationally efficient solution for large-scale datasets. | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# StructLM:構造化知識接地のためのジェネリストモデルの構築に向けて
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ( http://arxiv.org/abs/2402.16671v3 ) ライセンス: Link先を確認 | Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen, | (参考訳) テーブル、グラフ、データベースなどの構造化データソースはユビキタスな知識ソースである。
プレーンテキスト上での大規模言語モデル(LLM)の実証能力にもかかわらず、構造化データの解釈と利用能力は依然として限られている。
以上の結果から,LLMが構造化データ処理能力に欠如していることが明らかとなった。例えば,最先端(SoTA)モデルよりも平均35%遅れたChatGPTラグについて検討した。
LLMにおける構造化知識基盤(Structured Knowledge Grounding, SKG)機能を強化するため、我々は1100万例からなる総合的な指導チューニングデータセットを開発した。
このデータセットを利用することで、7Bから34BパラメータのCode-LLaMAアーキテクチャに基づいて、StructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち14のタスク固有モデルを超え、7つのSKGタスクに新しいSoTAの成果を確立する。
さらに、StructLMは6つの新しいSKGタスクに対して強力な一般化を示し、TableLlamaを平均35\%、Flan-UL2 20Bを平均10\%で上回る。
予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。
これは、構造化された知識基盤は依然として困難な課題であり、新しいレベルに進むためにはより革新的な設計が必要であることを示唆している。
Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates strong generalization across 6 novel held-out SKG tasks, outperforming TableLlama by an average of 35\% and Flan-UL2 20B by an average of 10\%. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level. | 翻訳日:2024-04-02 14:04:28 公開日:2024-03-31 |
# モジュールブラインド映像の品質評価
Modular Blind Video Quality Assessment ( http://arxiv.org/abs/2402.19276v4 ) ライセンス: Link先を確認 | Wen Wen, Mu Li, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang, Kede Ma, | (参考訳) Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を担っている。
現代のディープラーニングベースのモデルは、主に積極的にサブサンプル化されたフォーマットでビデオコンテンツを分析し、実際の空間解像度とフレームレートがビデオ品質に与える影響を無視する。
本稿では,モジュール性向上のためのモジュール型BVQAモデルとトレーニング方法を提案する。
本モデルは,映像品質における映像内容と歪み,空間解像度,フレームレートの変化に応じて,基本品質予測器,空間整形器,時間整形器から構成される。
トレーニング中、空間的および時間的整流器は、ベース品質予測器をスタンドアロンのBVQAモデルでレンダリングする可能性があり、整流器ではよりうまく動作する。
プロが生成したコンテンツとユーザ生成したコンテンツビデオデータベースの両方に関する大規模な実験は、我々の品質モデルが現行の手法よりも優れているか同等のパフォーマンスを達成していることを示している。
さらに、我々のモデルのモジュラリティは、その空間的および時間的複雑さの観点から、既存のビデオ品質データベースを分析する機会を提供する。
Blind video quality assessment (BVQA) plays a pivotal role in evaluating and improving the viewing experience of end-users across a wide range of video-based platforms and services. Contemporary deep learning-based models primarily analyze video content in its aggressively subsampled format, while being blind to the impact of the actual spatial resolution and frame rate on video quality. In this paper, we propose a modular BVQA model and a method of training it to improve its modularity. Our model comprises a base quality predictor, a spatial rectifier, and a temporal rectifier, responding to the visual content and distortion, spatial resolution, and frame rate changes on video quality, respectively. During training, spatial and temporal rectifiers are dropped out with some probabilities to render the base quality predictor a standalone BVQA model, which should work better with the rectifiers. Extensive experiments on both professionally-generated content and user-generated content video databases show that our quality model achieves superior or comparable performance to current methods. Additionally, the modularity of our model offers an opportunity to analyze existing video quality databases in terms of their spatial and temporal complexity. | 翻訳日:2024-04-02 13:54:43 公開日:2024-03-31 |
# UrbanGPT:時空間大言語モデル
UrbanGPT: Spatio-Temporal Large Language Models ( http://arxiv.org/abs/2403.00813v2 ) ライセンス: Link先を確認 | Zhonghang Li, Lianghao Xia, Jiabin Tang, Yong Xu, Lei Shi, Long Xia, Dawei Yin, Chao Huang, | (参考訳) 時空間予測は、時間と空間の両方にわたる都市環境の変化を予測し、洞察することを目的としている。
その目的は、交通、人口移動、犯罪率など、都市生活の様々な側面における将来のパターン、傾向、出来事を予測することである。
時空間データの正確な予測のためのニューラルネットワーク技術の開発に多くの努力が注がれているが、これらの手法の多くは時空間の正確な表現を生成するのに十分なラベル付きデータを持つことに大きく依存していることに注意する必要がある。
残念なことに、実際の都市センシングシナリオでは、データの不足が大きな問題となっている。
したがって、多様な時空間学習シナリオにまたがる強力な一般化能力を持つ時空間モデルを構築する必要がある。
大規模言語モデル(LLM)の卓越した成果からインスピレーションを得て,広範囲の下流都市課題にまたがる卓越した一般化能力を発揮できる時空間LLMを作ることが目的である。
この目的を達成するために,時空間依存エンコーダと命令チューニングパラダイムをシームレスに統合するUrbanGPTを提案する。
この統合により、LLMは時間と空間の複雑な相互依存性を理解でき、データの不足下でより包括的で正確な予測を可能にします。
提案手法の有効性を検証するため,様々な公開データセットに対して,時空間予測タスクを網羅した広範囲な実験を行った。
結果は、慎重に設計されたアーキテクチャを持つUrbanGPTが、最先端のベースラインを一貫して上回っていることを一貫して示しています。
これらの結果は、特にラベル付きデータが不足しているゼロショットシナリオにおいて、時空間学習のための大規模言語モデルを構築する可能性を示している。
Spatio-temporal prediction aims to forecast and gain insights into the ever-changing dynamics of urban environments across both time and space. Its purpose is to anticipate future patterns, trends, and events in diverse facets of urban life, including transportation, population movement, and crime rates. Although numerous efforts have been dedicated to developing neural network techniques for accurate predictions on spatio-temporal data, it is important to note that many of these methods heavily depend on having sufficient labeled data to generate precise spatio-temporal representations. Unfortunately, the issue of data scarcity is pervasive in practical urban sensing scenarios. Consequently, it becomes necessary to build a spatio-temporal model with strong generalization capabilities across diverse spatio-temporal learning scenarios. Taking inspiration from the remarkable achievements of large language models (LLMs), our objective is to create a spatio-temporal LLM that can exhibit exceptional generalization capabilities across a wide range of downstream urban tasks. To achieve this objective, we present the UrbanGPT, which seamlessly integrates a spatio-temporal dependency encoder with the instruction-tuning paradigm. This integration enables LLMs to comprehend the complex inter-dependencies across time and space, facilitating more comprehensive and accurate predictions under data scarcity. To validate the effectiveness of our approach, we conduct extensive experiments on various public datasets, covering different spatio-temporal prediction tasks. The results consistently demonstrate that our UrbanGPT, with its carefully designed architecture, consistently outperforms state-of-the-art baselines. These findings highlight the potential of building large language models for spatio-temporal learning, particularly in zero-shot scenarios where labeled data is scarce. | 翻訳日:2024-04-02 13:54:43 公開日:2024-03-31 |
# マンバ模型の隠れ注意
The Hidden Attention of Mamba Models ( http://arxiv.org/abs/2403.01590v2 ) ライセンス: Link先を確認 | Ameen Ali, Itamar Zimerman, Lior Wolf, | (参考訳) Mamba層は効率的な選択状態空間モデル(SSM)を提供し、NLP、長距離シーケンス処理、コンピュータビジョンを含む複数のドメインのモデリングに非常に効果的である。
選択的なSSMはデュアルモデルと見なされ、IO対応の並列スキャンを通じてシーケンス全体を並列にトレーニングし、自動回帰的にデプロイする。
第3のビューを追加して、そのようなモデルを注目駆動モデルとみなすことが可能であることを示します。
この新たな視点は、基礎となるメカニズムと変圧器の自己保持層のメカニズムを経験的・理論的に比較し、説明可能性法でマンバモデルの内部構造を覗き込むことを可能にする。
私たちのコードは公開されています。
The Mamba layer offers an efficient selective state space model (SSM) that is highly effective in modeling multiple domains, including NLP, long-range sequence processing, and computer vision. Selective SSMs are viewed as dual models, in which one trains in parallel on the entire sequence via an IO-aware parallel scan, and deploys in an autoregressive manner. We add a third view and show that such models can be viewed as attention-driven models. This new perspective enables us to empirically and theoretically compare the underlying mechanisms to that of the self-attention layers in transformers and allows us to peer inside the inner workings of the Mamba model with explainability methods. Our code is publicly available. | 翻訳日:2024-04-02 13:54:43 公開日:2024-03-31 |
# Vicunaに対するAlpaca: LLMを用いたLLMの記憶の解明
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs ( http://arxiv.org/abs/2403.04801v2 ) ライセンス: Link先を確認 | Aly M. Kassem, Omar Mahmoud, Niloofar Mireshghallah, Hyunwoo Kim, Yulia Tsvetkov, Yejin Choi, Sherif Saad, Santu Rana, | (参考訳) 本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。この手法は,LSMのメモリ化を定量化する主要なアプローチであるトレーニングデータを用いて,ターゲットモデルを直接的に誘導することによって明らかにされるものと比較して,被害者エージェントのメモリ化のレベルを高くするものである。
本研究では,(1)モデルに直接ソリューションを提示するのを避けるため,トレーニングデータとの重複を最小に抑えること,(2) 被害者モデルの出力とトレーニングデータとの重複を最大化し,被害者にトレーニングデータを吐き出すよう誘導すること,という2つの特徴を持つ命令ベースのプロンプトを反復的拒否サンプリング最適化プロセスを用いて探索する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
その結果,(1)訓練済みのモデルがベースモデルと同等に訓練済みデータを公開でき,(2)トレーニングデータ以外のコンテキストが漏洩する可能性があること,(3)他のLSMが提案した命令を用いることで,さらなる研究と探索を行うべき新たな自動攻撃経路が開けること,などが判明した。
コードはhttps://github.com/Alymostafa/Instruction_based_ attack で見ることができる。
In this paper, we introduce a black-box prompt optimization method that uses an attacker LLM agent to uncover higher levels of memorization in a victim agent, compared to what is revealed by prompting the target model with the training data directly, which is the dominant approach of quantifying memorization in LLMs. We use an iterative rejection-sampling optimization process to find instruction-based prompts with two main characteristics: (1) minimal overlap with the training data to avoid presenting the solution directly to the model, and (2) maximal overlap between the victim model's output and the training data, aiming to induce the victim to spit out training data. We observe that our instruction-based prompts generate outputs with 23.7% higher overlap with training data compared to the baseline prefix-suffix measurements. Our findings show that (1) instruction-tuned models can expose pre-training data as much as their base-models, if not more so, (2) contexts other than the original training data can lead to leakage, and (3) using instructions proposed by other LLMs can open a new avenue of automated attacks that we should further study and explore. The code can be found at https://github.com/Alymostafa/Instruction_based_attack . | 翻訳日:2024-04-02 13:54:43 公開日:2024-03-31 |
# FLAP: LLMにおける制約付きデコーディングによるフローアヒーリング計画
FLAP: Flow-Adhering Planning with Constrained Decoding in LLMs ( http://arxiv.org/abs/2403.05766v2 ) ライセンス: Link先を確認 | Shamik Roy, Sailik Sengupta, Daniele Bonadiman, Saab Mansour, Arshit Gupta, | (参考訳) 計画はタスク指向対話(TOD)におけるエージェントにとって重要なタスクである。
ヒューマンエージェントは通常、事前に定義されたワークフローに従い、ワークフローステップを実行可能なアイテムに分解し、APIを順番に実行するアクションを実行することで、ユーザの問題を解決します。
LLMの最近の進歩により、タスク計画とAPI使用のためにそれらを使用する試みが増えている。
しかしながら、事前に定義されたワークフローとAPI依存関係に対する計画の忠実さは、LLMでは保証されていない。
さらに、現実のワークフローは、しばしばカスタム定義され、変更しやすいため、適応が望ましい。
そこで本研究では,事前定義されたフローに従ってAPI依存を保ち,ユーザの意図を解消する必要があるTODにおける忠実なプランニングの問題を提案する。
この問題を解決するために,LLMのルックアヘッドヒューリスティックによる制約付きデコードに基づくフローアダリング計画アルゴリズムであるFLAPを提案する。
提案アルゴリズムは,ドメイン固有(計画/依存性)データを用いたLCMの微調整の必要性を軽減し,事前定義されたフローへの迅速な適応を可能にし,他のデコーディングやプロンプトベースラインよりも優れる。
さらに,本アルゴリズムは,より小さなLLM (7B) に対して,より大きなLLM (30B-40B) で実行する権限を与える。
Planning is a crucial task for agents in task oriented dialogs (TODs). Human agents typically resolve user issues by following predefined workflows, decomposing workflow steps into actionable items, and performing actions by executing APIs in order; all of which require reasoning and planning. With the recent advances in LLMs, there have been increasing attempts to use them for task planning and API usage. However, the faithfulness of the plans to predefined workflows and API dependencies, is not guaranteed with LLMs. Moreover, workflows in real life are often custom-defined and prone to changes; hence, adaptation is desirable. To study this, we propose the problem of faithful planning in TODs that needs to resolve user intents by following predefined flows and preserving API dependencies. To solve this problem, we propose FLAP, a Flow-Adhering Planning algorithm based on constrained decoding with lookahead heuristic for LLMs. Our algorithm alleviates the need for finetuning LLMs using domain specific (plan/dependency) data, enables quick adaptation to predefined flows, and outperforms other decoding and prompting-based baselines. Further, our algorithm empowers smaller LLMs (7B) to perform at par larger LLMs (30B-40B). | 翻訳日:2024-04-02 13:54:43 公開日:2024-03-31 |
# 病態検出のための病状記述の分解:多視点視覚言語事前学習フレームワーク
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework ( http://arxiv.org/abs/2403.07636v4 ) ライセンス: Link先を確認 | Vu Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu, Bowen Zhang, Zhibin Liao, Qi Wu, Minh-Son To, Johan W. Verjans, | (参考訳) 医学的視覚言語事前訓練(VLP)は研究の最前線として現れており、問合せ画像と各疾患のテキスト記述を比較することで、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これにより、対象の疾患のテキスト表現と不一致が生じる。
本稿では,病態の視覚的発現に関する事前知識を活用し,疾患記述をその基本的側面に分解する新しいVLPフレームワークを提案する。
これは、大きな言語モデルと医療専門家に相談することで達成される。
Transformerモジュールを統合することで、入力画像と病気の多様な要素を整合させ、アスペクト中心の画像表現を生成する。
各側面からマッチングを統合することにより、画像とその関連疾患の適合性を改善する。
さらに、アスペクト指向の表現に乗じて、既知の疾患や未知の疾患を処理し、包括的検出の有効性を最適化したデュアルヘッドトランスフォーマーを提案する。
下流の7つのデータセットで実験を行うことで、最新の手法の精度を最大8.56%改善し、17.26%を目に見えないカテゴリで改善した。
私たちのコードはhttps://github.com/HieuPhan33/MAVLで公開されています。
Medical vision language pre-training (VLP) has emerged as a frontier of research, enabling zero-shot pathological recognition by comparing the query image with the textual descriptions for each disease. Due to the complex semantics of biomedical texts, current methods struggle to align medical images with key pathological findings in unstructured reports. This leads to the misalignment with the target disease's textual representation. In this paper, we introduce a novel VLP framework designed to dissect disease descriptions into their fundamental aspects, leveraging prior knowledge about the visual manifestations of pathologies. This is achieved by consulting a large language model and medical experts. Integrating a Transformer module, our approach aligns an input image with the diverse elements of a disease, generating aspect-centric image representations. By consolidating the matches from each aspect, we improve the compatibility between an image and its associated disease. Additionally, capitalizing on the aspect-oriented representations, we present a dual-head Transformer tailored to process known and unknown diseases, optimizing the comprehensive detection efficacy. Conducting experiments on seven downstream datasets, ours improves the accuracy of recent methods by up to 8.56% and 17.26% for seen and unseen categories, respectively. Our code is released at https://github.com/HieuPhan33/MAVL. | 翻訳日:2024-04-02 13:54:43 公開日:2024-03-31 |
# スパーステンソル分解によるスパースDNN加速の抽象化
Abstracting Sparse DNN Acceleration via Structured Sparse Tensor Decomposition ( http://arxiv.org/abs/2403.07953v2 ) ライセンス: Link先を確認 | Geonhwa Jeong, Po-An Tsai, Abhimanyu R. Bambhaniya, Stephen W. Keckler, Tushar Krishna, | (参考訳) ディープニューラルネットワーク(DNN)におけるスパシティの爆発は、現代のDNNの計算ニーズが増大する中で有望な領域である。
しかし実際には、スパースDNNアクセラレーションは依然として重要な課題に直面している。
スパースアクセラレーションのオーバーヘッドを最小限に抑えるため、ハードウェアデザイナは最近、構成されたスパースハードウェアサポートを提案している。
さらに、特定の構造化されたスパースハードウェアのために微調整されたスパースモデルは、他の構造化されたハードウェアによって加速できない。
本稿では, スパースDNNモデルとハードウェア間のギャップを埋めるために, 線形代数の分布特性を利用して任意のスパーステンソルを一連のスパーステンソルに変換する構造分解(TASD)によるテンソル近似を提案する。
次に、重みとアクティベーションテンソルの両方を階層的に高次構造分解してDNNを高速化するソフトウェアフレームワーク、TASDERを開発した。
評価結果から, 既設の疎水化ハードウェアベースラインを有効利用することにより, 細調整をすることなく, 密粒化DNNを高速化し, エネルギー遅延生成物を平均83%, 74%向上させることができることがわかった。
Exploiting sparsity in deep neural networks (DNNs) has been a promising area to meet the growing computation need of modern DNNs. However, in practice, sparse DNN acceleration still faces a key challenge. To minimize the overhead of sparse acceleration, hardware designers have proposed structured sparse hardware support recently, which provides limited flexibility and requires extra model fine-tuning. Moreover, any sparse model fine-tuned for certain structured sparse hardware cannot be accelerated by other structured hardware. To bridge the gap between sparse DNN models and hardware, this paper proposes tensor approximation via structured decomposition (TASD), which leverages the distributive property in linear algebra to turn any sparse tensor into a series of structured sparse tensors. Next, we develop a software framework, TASDER, to accelerate DNNs by searching layer-wise, high-quality structured decomposition for both weight and activation tensors so that they can be accelerated by any systems with structured sparse hardware support. Evaluation results show that, by exploiting prior structured sparse hardware baselines, our method can accelerate off-the-shelf dense and sparse DNNs without fine-tuning and improves energy-delay-product by up to 83% and 74% on average. | 翻訳日:2024-04-02 13:44:58 公開日:2024-03-31 |
# RCooper: 道路沿いの協調知覚のための実世界の大規模データセット
RCooper: A Real-world Large-scale Dataset for Roadside Cooperative Perception ( http://arxiv.org/abs/2403.10145v2 ) ライセンス: Link先を確認 | Ruiyang Hao, Siqi Fan, Yingru Dai, Zhenlin Zhang, Chenxi Li, Yuntian Wang, Haibao Yu, Wenxian Yang, Jirui Yuan, Zaiqing Nie, | (参考訳) 自動運転と交通管理の境界を広げる道路側の認識の価値は、近年徐々に顕著になり、認識されるようになった。
しかし,既存の道路側認識手法は,センサ範囲や盲点が限られているため,交通領域の包括的理解が不可能な単一インフラセンサシステムにのみ焦点をあてている。
道路側認知の質を高めるためには,道路側協調知覚(RCooper)が必要であり,交通量制限による道路側認識の実現が期待できる。
Rcooperには独自のドメイン固有の課題があるが、データセットの欠如によりさらなる探索が妨げられている。
そこで我々は、実世界の大規模なRCooperデータセットをリリースし、検出と追跡を含む実用的な道路側協調認識の研究を華々しくした。
手動で注釈付けされたデータセットは、50kイメージと30kポイントの雲で構成され、2つの代表的な交通シーン(すなわち交差点と廊下)を含む。
構築されたベンチマークは、道路側協調認識の有効性を証明し、さらなる研究の方向性を示す。
コードとデータセットは、https://github.com/AIR-THU/DAIR-RCooper.comでアクセスすることができる。
The value of roadside perception, which could extend the boundaries of autonomous driving and traffic management, has gradually become more prominent and acknowledged in recent years. However, existing roadside perception approaches only focus on the single-infrastructure sensor system, which cannot realize a comprehensive understanding of a traffic area because of the limited sensing range and blind spots. Orienting high-quality roadside perception, we need Roadside Cooperative Perception (RCooper) to achieve practical area-coverage roadside perception for restricted traffic areas. Rcooper has its own domain-specific challenges, but further exploration is hindered due to the lack of datasets. We hence release the first real-world, large-scale RCooper dataset to bloom the research on practical roadside cooperative perception, including detection and tracking. The manually annotated dataset comprises 50k images and 30k point clouds, including two representative traffic scenes (i.e., intersection and corridor). The constructed benchmarks prove the effectiveness of roadside cooperation perception and demonstrate the direction of further research. Codes and dataset can be accessed at: https://github.com/AIR-THU/DAIR-RCooper. | 翻訳日:2024-04-02 13:44:58 公開日:2024-03-31 |
# LLMは人型ウェイフィンディング命令を生成できるか? : プラットフォーム非依存型インストラクション合成に向けて
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis ( http://arxiv.org/abs/2403.11487v2 ) ライセンス: Link先を確認 | Vishnu Sashank Dorbala, Sanjoy Chowdhury, Dinesh Manocha, | (参考訳) 本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
特定のシミュレーションプラットフォーム専用に設計された人間アノテーション付きデータセットに大きく依存する従来のアプローチとは対照的に,本アルゴリズムはLLMを条件付けるためにコンテキスト内学習を用いて,ごく少数の参照を用いて命令を生成する。
LLMに基づく視覚質問応答戦略を用いて,LLMが授業合成に使用する環境に関する詳細な情報を収集する。
我々は、Matterport3D、AI Habitat、ThreeDWorldといった複数のシミュレーションプラットフォームにアプローチを実装し、プラットフォームに依存しない性質を示す。
提案手法をユーザスタディを通じて主観的に評価し,83.3%のユーザが生成した命令が環境の詳細を正確に把握し,人為的な指示に類似した特徴を示すことを観察した。
さらに、生成した命令を用いてREVERIEデータセットに複数のアプローチを施したゼロショットナビゲーションを行い、標準成功指標(SRにおける1%の変更)の基準値と非常に密接な相関を観察し、人間の注釈付きデータを置き換える際に生成された命令の生存可能性の定量化を行う。
我々は最終的に、具体化ナビゲーションポリシーの一般化可能な評価を可能にするためのアプローチの適用性について論じる。
我々の知識を最大限に活用するために、私たちは、学習せずにプラットフォームに依存しない方法で「人間らしい」命令を生成できる最初のLCM駆動型アプローチである。
We present a novel approach to automatically synthesize "wayfinding instructions" for an embodied robot agent. In contrast to prior approaches that are heavily reliant on human-annotated datasets designed exclusively for specific simulation platforms, our algorithm uses in-context learning to condition an LLM to generate instructions using just a few references. Using an LLM-based Visual Question Answering strategy, we gather detailed information about the environment which is used by the LLM for instruction synthesis. We implement our approach on multiple simulation platforms including Matterport3D, AI Habitat and ThreeDWorld, thereby demonstrating its platform-agnostic nature. We subjectively evaluate our approach via a user study and observe that 83.3% of users find the synthesized instructions accurately capture the details of the environment and show characteristics similar to those of human-generated instructions. Further, we conduct zero-shot navigation with multiple approaches on the REVERIE dataset using the generated instructions, and observe very close correlation with the baseline on standard success metrics (< 1% change in SR), quantifying the viability of generated instructions in replacing human-annotated data. We finally discuss the applicability of our approach in enabling a generalizable evaluation of embodied navigation policies. To the best of our knowledge, ours is the first LLM-driven approach capable of generating "human-like" instructions in a platform-agnostic manner, without training. | 翻訳日:2024-04-02 13:44:58 公開日:2024-03-31 |
# STG-Mamba:選択状態空間モデルによる時空間グラフ学習
STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model ( http://arxiv.org/abs/2403.12418v2 ) ライセンス: Link先を確認 | Lincan Li, Hanchen Wang, Wenjie Zhang, Adelle Coster, | (参考訳) 時空間グラフ(STG)データは動的,異種,非定常的に特徴付けられ,空間時空間グラフ学習の継続的な課題に繋がる。
近年,STGネットワークのノード間の関係を模倣することにのみ焦点をあて,STGシステムに存在する固有の特徴をモデル化することの重要性を無視して,様々なGNNベースの手法が提案されている。
対照的に、現代の選択的状態空間モデル(SSSM)は、STGネットワークをシステムとして扱う新しいアプローチを示し、時間次元にわたってSTGシステムの動的状態進化を慎重に探求する。
本研究では,STGネットワークをシステムとして扱うことにより,STG学習のための強力な選択的状態空間モデルを活用するための最初の探索として空間空間グラフマンバ(STG-Mamba)を導入し,グラフ選択的状態空間ブロック(GS3B)を用いてSTGネットワークの動的進化を正確に評価する。
STG-Mamba は Encoder-Decoder アーキテクチャとして定式化され、GS3B を基本モジュールとし、効率的なシーケンシャルなデータモデリングを行う。
さらに、SSSMの設定下でSTGデータをモデル化するGNNの能力を強化するために、適応グラフ構造更新のためのKFGN(Kalman Filtering Graph Neural Networks)を提案する。
KFGNは選択状態空間の進化の文脈にスムーズに適合し、同時に線形複雑性も維持する。
3つのベンチマークSTG予測データセットを用いて,STG-Mambaの性能優位性と計算効率を実証した。
STG予測性能の点で既存の最先端手法を超えるだけでなく、大規模グラフネットワークの計算ボトルネックを効果的に軽減し、FLOPの計算コストとテスト推論時間を削減している。
Spatial-Temporal Graph (STG) data is characterized as dynamic, heterogenous, and non-stationary, leading to the continuous challenge of spatial-temporal graph learning. In the past few years, various GNN-based methods have been proposed to solely focus on mimicking the relationships among node individuals of the STG network, ignoring the significance of modeling the intrinsic features that exist in STG system over time. In contrast, modern Selective State Space Models (SSSMs) present a new approach which treat STG Network as a system, and meticulously explore the STG system's dynamic state evolution across temporal dimension. In this work, we introduce Spatial-Temporal Graph Mamba (STG-Mamba) as the first exploration of leveraging the powerful selective state space models for STG learning by treating STG Network as a system, and employing the Graph Selective State Space Block (GS3B) to precisely characterize the dynamic evolution of STG networks. STG-Mamba is formulated as an Encoder-Decoder architecture, which takes GS3B as the basic module, for efficient sequential data modeling. Furthermore, to strengthen GNN's ability of modeling STG data under the setting of SSSMs, we propose Kalman Filtering Graph Neural Networks (KFGN) for adaptive graph structure upgrading. KFGN smoothly fits in the context of selective state space evolution, and at the same time keeps linear complexity. Extensive empirical studies are conducted on three benchmark STG forecasting datasets, demonstrating the performance superiority and computational efficiency of STG-Mamba. It not only surpasses existing state-of-the-art methods in terms of STG forecasting performance, but also effectively alleviate the computational bottleneck of large-scale graph networks in reducing the computational cost of FLOPs and test inference time. | 翻訳日:2024-04-02 13:44:58 公開日:2024-03-31 |
# C-TPT:テキスト特徴分散による視覚言語モデルの校正テスト時間プロンプトチューニング
C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion ( http://arxiv.org/abs/2403.14119v3 ) ライセンス: Link先を確認 | Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Mark Hasegawa-Johnson, Yingzhen Li, Chang D. Yoo, | (参考訳) 深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
素例は、最近提案されたCLIPのような大規模視覚言語モデルのテスト時間プロンプトチューニングである。
残念ながら、これらのプロンプトは主に精度を向上させるために開発されており、キャリブレーションの重要性を見落としている。
しかし、従来のキャリブレーション手法は大量のラベル付きデータに依存しており、テスト時のシナリオでは実用的ではない。
そこで本研究では,CLIPの特性を活用して,テスト時プロンプトチューニング時の校正について検討する。
一連の観察の結果,CLIP のキャリブレーションに即時選択が大きな影響を与え,高いテキスト特徴分散につながるプロンプトがより良いキャリブレーション予測をもたらすことがわかった。
平均テキスト特徴分散(ATFD)の導入により,キャリブレーションエラーとの関係を確立し,キャリブレーションの強化によるテスト時間中のプロンプトの最適化を目的とした,Callibrated Test-time Prompt Tuning(C-TPT)を提案する。
異なるCLIPアーキテクチャとデータセットに関する広範な実験を通して、C-TPTはラベル付きデータを必要としないテスト時間プロンプトチューニングのキャリブレーションを効果的に改善できることを示す。
コードはhttps://github.com/hee-suk-yoon/C-TPTで公開されている。
In deep learning, test-time adaptation has gained attention as a method for model fine-tuning without the need for labeled data. A prime exemplification is the recently proposed test-time prompt tuning for large-scale vision-language models such as CLIP. Unfortunately, these prompts have been mainly developed to improve accuracy, overlooking the importance of calibration, which is a crucial aspect for quantifying prediction uncertainty. However, traditional calibration methods rely on substantial amounts of labeled data, making them impractical for test-time scenarios. To this end, this paper explores calibration during test-time prompt tuning by leveraging the inherent properties of CLIP. Through a series of observations, we find that the prompt choice significantly affects the calibration in CLIP, where the prompts leading to higher text feature dispersion result in better-calibrated predictions. Introducing the Average Text Feature Dispersion (ATFD), we establish its relationship with calibration error and present a novel method, Calibrated Test-time Prompt Tuning (C-TPT), for optimizing prompts during test-time with enhanced calibration. Through extensive experiments on different CLIP architectures and datasets, we show that C-TPT can effectively improve the calibration of test-time prompt tuning without needing labeled data. The code is publicly accessible at https://github.com/hee-suk-yoon/C-TPT. | 翻訳日:2024-04-02 13:35:12 公開日:2024-03-31 |
# マルチレビューフュージョン・イン・コンテクスト
Multi-Review Fusion-in-Context ( http://arxiv.org/abs/2403.15351v2 ) ライセンス: Link先を確認 | Aviv Slobodkin, Ori Shapira, Ran Levy, Ido Dagan, | (参考訳) 長文質問回答や要約などのタスクを含む接地テキスト生成は、コンテンツ選択とコンテンツ統合の両方を必要とする。
現在のエンドツーエンドの手法は不透明さのために制御や解釈が困難である。
そのため、最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。
具体的には、複数文書設定であらかじめ選択されたコンテンツに対してコヒーレントなテキストを生成する2番目のサブタスクに焦点を当てる。
具体的には、Fusion-in-Context (FiC) を独立したタスクとして定式化し、その入力はターゲットコンテンツが強調されたソーステキストからなる。
モデルが対象情報すべてと対象情報のみを含むコヒーレントパスを生成する必要がある。
我々の研究には、レビュー領域における1000インスタンスのキュレートされたデータセットの開発と、人間の判断に強く相関するハイライトの忠実さとカバレッジを評価するための新しい評価フレームワークが含まれています。
いくつかのベースラインモデルは有望な結果を示し、洞察に富んだ分析を提供する。
本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤を築き,生成したコンテンツの品質と信頼性の潜在的な改善を提供する。
データセット、評価フレームワーク、指定されたリーダボードを含む私たちのベンチマークであるFuseReviewsは、https://fusereviews.github.io/で確認できます。
Grounded text generation, encompassing tasks such as long-form question-answering and summarization, necessitates both content selection and content consolidation. Current end-to-end methods are difficult to control and interpret due to their opaqueness. Accordingly, recent works have proposed a modular approach, with separate components for each step. Specifically, we focus on the second subtask, of generating coherent text given pre-selected content in a multi-document setting. Concretely, we formalize Fusion-in-Context (FiC) as a standalone task, whose input consists of source texts with highlighted spans of targeted content. A model then needs to generate a coherent passage that includes all and only the target information. Our work includes the development of a curated dataset of 1000 instances in the reviews domain, alongside a novel evaluation framework for assessing the faithfulness and coverage of highlights, which strongly correlate to human judgment. Several baseline models exhibit promising outcomes and provide insightful analyses. This study lays the groundwork for further exploration of modular text generation in the multi-document setting, offering potential improvements in the quality and reliability of generated content. Our benchmark, FuseReviews, including the dataset, evaluation framework, and designated leaderboard, can be found at https://fusereviews.github.io/. | 翻訳日:2024-04-02 13:35:12 公開日:2024-03-31 |
# 道路網グラフ抽出のためのセグメンテーションモデル
Segment Anything Model for Road Network Graph Extraction ( http://arxiv.org/abs/2403.16051v2 ) ライセンス: Link先を確認 | Congrui Hetang, Haoru Xue, Cindy Le, Tianwei Yue, Wenping Wang, Yihui He, | (参考訳) 衛星画像から大規模でベクトル化された道路網グラフを抽出するためのSAM-Roadを提案する。
グラフ幾何を予測するために、SAMの固有の強みを活用して、密接なセマンティックセマンティックセグメンテーションタスクとして定式化する。
SAMの画像エンコーダは、道路や交差点の確率マスクを生成するように微調整され、そこからグラフ頂点を単純な非最大抑圧によって抽出する。
グラフトポロジを予測するために,SAM画像の埋め込みを利用して頂点間のエッジ存在確率を推定する,軽量なトランスフォーマーベースグラフニューラルネットワークを設計した。
提案手法は,高価で複雑な後処理ヒューリスティックを伴わない大規模領域のグラフ頂点とエッジを直接予測し,数平方キロメートルにまたがる完全な道路網グラフを数秒で構築することができる。
SAM-Roadはシンプルで単純で最小限の設計で、最先端のRNGDet++で同等の精度を実現し、City-scaleデータセットの40倍高速である。
そこで我々は,グラフ学習タスクに適用した場合,基礎的視覚モデルのパワーを実証する。
コードはhttps://github.com/htcr/sam_road.comで公開されている。
We propose SAM-Road, an adaptation of the Segment Anything Model (SAM) for extracting large-scale, vectorized road network graphs from satellite imagery. To predict graph geometry, we formulate it as a dense semantic segmentation task, leveraging the inherent strengths of SAM. The image encoder of SAM is fine-tuned to produce probability masks for roads and intersections, from which the graph vertices are extracted via simple non-maximum suppression. To predict graph topology, we designed a lightweight transformer-based graph neural network, which leverages the SAM image embeddings to estimate the edge existence probabilities between vertices. Our approach directly predicts the graph vertices and edges for large regions without expensive and complex post-processing heuristics, and is capable of building complete road network graphs spanning multiple square kilometers in a matter of seconds. With its simple, straightforward, and minimalist design, SAM-Road achieves comparable accuracy with the state-of-the-art method RNGDet++, while being 40 times faster on the City-scale dataset. We thus demonstrate the power of a foundational vision model when applied to a graph learning task. The code is available at https://github.com/htcr/sam_road. | 翻訳日:2024-04-02 13:35:12 公開日:2024-03-31 |
# モデルレスは最良のモデル: デバイス上のDLモデルを置き換えるために純粋なコード実装を生成する
Model-less Is the Best Model: Generating Pure Code Implementations to Replace On-Device DL Models ( http://arxiv.org/abs/2403.16479v2 ) ライセンス: Link先を確認 | Mingyi Zhou, Xiang Gao, Pei Liu, John Grundy, Chunyang Chen, Xiao Chen, Li Li, | (参考訳) 近年の研究では、テザーフローライト(TFLite)のようなデプロイされたディープラーニング(DL)モデルが、攻撃者によって現実世界のアプリケーションやデバイスから容易に抽出され、敵攻撃のような様々な種類の攻撃が生成されることが示されている。
デバイス上で配置されたDLモデルの確保は注目されているが、前述の脅威を完全に防止できる既存の手法は存在しない。
従来のソフトウェア保護技術は広く研究されており、デバイス上のモデルがC++のような純粋なコードを使って実装できれば、既存のソフトウェア保護テクニックを再利用する可能性が開ける。
しかし、DLモデルの複雑さのため、DLモデルを純粋なコードに変換する自動メソッドは存在しない。
このギャップを埋めるために、デバイス上のモデル情報を自動的に抽出し、広範囲のDLモデルに対してカスタマイズ可能なプログラムを合成するCustomDLCoderを提案する。
CustomDLCoderはまずDLモデルを解析し、バックエンドの計算ユニットを抽出し、計算ユニットをグラフに設定し、その後、明示的なモデル表現なしでMLソリューションの実装とデプロイのためにカスタマイズされたコードを生成する。
合成プログラムは、明示的なモデル表現を保持する必要がなく、DLモデルに対する多くの攻撃を防止するため、DLデプロイメント環境のモデル情報を隠蔽する。
さらに、カスタマイズされたコードがモデル解析と前処理のステップを削除し、データ処理プロセスのみを保持するため、MLのパフォーマンスが向上する。
実験の結果,CustomDLCoderはデバイス上でのモデルスニッフィングを無効にすることで,モデルのセキュリティを向上させることがわかった。
オリジナルのオンデバイスプラットフォーム(TFLite)と比較すると,x86-64とARM64でそれぞれモデル推論を21.8%,24.3%高速化できる。
最も重要なことは、x86-64とARM64プラットフォームでそれぞれ68.8%と36.0%のメモリ消費を大幅に削減できることである。
Recent studies show that deployed deep learning (DL) models such as those of Tensor Flow Lite (TFLite) can be easily extracted from real-world applications and devices by attackers to generate many kinds of attacks like adversarial attacks. Although securing deployed on-device DL models has gained increasing attention, no existing methods can fully prevent the aforementioned threats. Traditional software protection techniques have been widely explored, if on-device models can be implemented using pure code, such as C++, it will open the possibility of reusing existing software protection techniques. However, due to the complexity of DL models, there is no automatic method that can translate the DL models to pure code. To fill this gap, we propose a novel method, CustomDLCoder, to automatically extract the on-device model information and synthesize a customized executable program for a wide range of DL models. CustomDLCoder first parses the DL model, extracts its backend computing units, configures the computing units to a graph, and then generates customized code to implement and deploy the ML solution without explicit model representation. The synthesized program hides model information for DL deployment environments since it does not need to retain explicit model representation, preventing many attacks on the DL model. In addition, it improves ML performance because the customized code removes model parsing and preprocessing steps and only retains the data computing process. Our experimental results show that CustomDLCoder improves model security by disabling on-device model sniffing. Compared with the original on-device platform (i.e., TFLite), our method can accelerate model inference by 21.8% and 24.3% on x86-64 and ARM64 platforms, respectively. Most importantly, it can significantly reduce memory consumption by 68.8% and 36.0% on x86-64 and ARM64 platforms, respectively. | 翻訳日:2024-04-02 13:35:12 公開日:2024-03-31 |
# 定常状態における無限グラスマン時間進化行列積演算子法
Infinite Grassmann Time-Evolving Matrix Product Operator Method in the Steady State ( http://arxiv.org/abs/2403.16700v2 ) ライセンス: Link先を確認 | Chu Guo, Ruofan Chen, | (参考訳) 量子不純物問題に対する無限のグラスマン時間進化行列積演算子法を提案する。
この手法は、最近開発されたGTEMPO法で確立された無限行列積状態アルゴリズムを採用し、両面の利点を生かし、サンプリングノイズやバスの離散化誤差を伴わずに数値的に正確なグリーン関数を求め、符号問題なく任意の温度に適用でき、計算コストは過渡的ダイナミクスとは独立しており、浴数によらずスケールしない。
本稿では, 有限温度平衡グリーン関数を, 厳密解に対する非干渉極限とGTEMPO計算に対する単軌道アンダーソン不純物モデルでベンチマークする。
また、電圧バイアスを持つ2つの浴槽に結合した不純物の零温度非平衡定常状態について検討し、既存の計算と一貫した粒子電流を得る。
この方法は定常量子輸送の研究に最適であり、動的平均場理論とその非平衡拡張における効率的なリアルタイム不純物解法として容易に利用することができる。
We present an infinite Grassmann time-evolving matrix product operator method for quantum impurity problems, which directly works in the steady state. The method embraces the well-established infinite matrix product state algorithms with the recently developed GTEMPO method, and benefits from both sides: it obtains numerically exact real-time Green's functions without sampling noises and bath discretization error, it is applicable for any temperature without the sign problem, its computational cost is independent of the transient dynamics and does not scale with the number of baths. We benchmark the method on the finite-temperature equilibrium Green's function in the noninteracting limit against exact solutions and in the single-orbital Anderson impurity model against GTEMPO calculations. We also study the zero-temperature non-equilibrium steady state of an impurity coupled to two baths with a voltage bias, obtaining consistent particle currents with existing calculations. The method is ideal for studying steady-state quantum transport, and can be readily used as an efficient real-time impurity solver in the dynamical mean field theory and its non-equilibrium extension. | 翻訳日:2024-04-02 13:35:12 公開日:2024-03-31 |
# 視覚幻覚:定義・定量化・規範的修復
Visual Hallucination: Definition, Quantification, and Prescriptive Remediations ( http://arxiv.org/abs/2403.17306v2 ) ライセンス: Link先を確認 | Anku Rani, Vipula Rawte, Harshad Sharma, Neeraj Anand, Krishnav Rajbangshi, Amit Sheth, Amitava Das, | (参考訳) 幻覚の急激な上昇は、おそらく、責任あるAIの進歩に最も重大な障害をもたらす。
近年,Large Language Models (LLMs) における幻覚の検出と緩和に注目が集まっている。
しかし、幻覚はビジョンランゲージモデル(VLM)でもかなり普及している点に注意が必要だ。
本稿では,2つの課題に基づくVLM幻覚の微細化について述べる。
一 画像キャプション及び画像キャプション
二 視覚質問応答(VQA)
視覚幻覚の8つのきめ細かい方向を明記する。
一 文脈ガイダンス
二 同一性
iii) 地理学的エラトゥム
四 視覚的幻覚
v)性異常
六 分類子としてのVLM
vii)Wrong Reading, and
viii) 数値的不一致
VHILT(Visual Hallucination eLiciTation)は,8つのVLMを用いて2つのタスクのキャプションとVQAにまたがって作成した2,000のサンプルと,前述のカテゴリに対する人間のアノテーションを組み合わせた公開データセットである。
The troubling rise of hallucination presents perhaps the most significant impediment to the advancement of responsible AI. In recent times, considerable research has focused on detecting and mitigating hallucination in Large Language Models (LLMs). However, it's worth noting that hallucination is also quite prevalent in Vision-Language models (VLMs). In this paper, we offer a fine-grained discourse on profiling VLM hallucination based on two tasks: i) image captioning, and ii) Visual Question Answering (VQA). We delineate eight fine-grained orientations of visual hallucination: i) Contextual Guessing, ii) Identity Incongruity, iii) Geographical Erratum, iv) Visual Illusion, v) Gender Anomaly, vi) VLM as Classifier, vii) Wrong Reading, and viii) Numeric Discrepancy. We curate Visual HallucInation eLiciTation (VHILT), a publicly available dataset comprising 2,000 samples generated using eight VLMs across two tasks of captioning and VQA along with human annotations for the categories as mentioned earlier. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |
# ディープラーニングと最先端応用に関する調査研究
A Survey on Deep Learning and State-of-the-art Applications ( http://arxiv.org/abs/2403.17561v2 ) ライセンス: Link先を確認 | Mohd Halim Mohd Noor, Ayokunle Olalekan Ige, | (参考訳) ディープラーニング(Deep Learning)は、人工知能の一分野であり、複数の相互接続されたユニット(ニューロン)を用いて、生の入力データから直接複雑なパターンや表現を学習する計算モデルである。
この学習能力を活用して、複雑な問題を解決する強力なツールとなり、多くの画期的な技術やイノベーションの中核を担っている。
ディープラーニングモデルの構築は、アルゴリズムの複雑さと現実世界の問題の動的な性質のため、難しい作業である。
いくつかの研究はディープラーニングの概念と応用をレビューしている。
しかしながら、研究は主に、ディープラーニングモデルと畳み込みニューラルネットワークアーキテクチャのタイプに注目し、ディープラーニングモデルの最先端技術とその異なるドメインにわたる複雑な問題の解決への応用を限定的にカバーした。
そこで,本研究では,コンピュータビジョン,自然言語処理,時系列解析,広範コンピューティングにおける最先端のディープラーニングモデルを網羅的にレビューすることを目的としている。
モデルの主要な特徴と、各ドメイン内の問題を解決する上での有効性を強調します。
さらに,本研究では,深層学習,各種深層学習モデル,および顕著な畳み込みニューラルネットワークアーキテクチャの基礎について述べる。
最後に、ディープラーニング研究における課題と今後の方向性について論じ、将来の研究者に幅広い視点を提供する。
Deep learning, a branch of artificial intelligence, is a computational model that uses multiple layers of interconnected units (neurons) to learn intricate patterns and representations directly from raw input data. Empowered by this learning capability, it has become a powerful tool for solving complex problems and is the core driver of many groundbreaking technologies and innovations. Building a deep learning model is a challenging task due to the algorithm`s complexity and the dynamic nature of real-world problems. Several studies have reviewed deep learning concepts and applications. However, the studies mostly focused on the types of deep learning models and convolutional neural network architectures, offering limited coverage of the state-of-the-art of deep learning models and their applications in solving complex problems across different domains. Therefore, motivated by the limitations, this study aims to comprehensively review the state-of-the-art deep learning models in computer vision, natural language processing, time series analysis and pervasive computing. We highlight the key features of the models and their effectiveness in solving the problems within each domain. Furthermore, this study presents the fundamentals of deep learning, various deep learning model types and prominent convolutional neural network architectures. Finally, challenges and future directions in deep learning research are discussed to offer a broader perspective for future researchers. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |
# 感情・文化知能AIワークショップの感情予測競争への解法
Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AI ( http://arxiv.org/abs/2403.17683v2 ) ライセンス: Link先を確認 | Shengdong Xu, Zhouyang Chi, Yang Yang, | (参考訳) 本報告では, WECIA感情予測コンペティション(EPC)において, 芸術作品を通して人の感情を予測する手法について解説し, 提案した方法について述べる。
このコンペティションのデータセットはArtELingoで、言語や文化の多様性に関する作業を促進するために設計されている。
このデータセットには、モーダル不均衡問題と言語と文化の違い問題という2つの大きな課題がある。
この問題に対処するために,マルチモーダルモデルの性能向上を目的とした単一モーダルメッセージと,文化的相違を解消するための優れたプロンプトに着目した,シングルマルチモーダル(ECSP)と呼ばれるシンプルなアプローチを提案する。
提案手法は,(1)XLM-R\cite{conneau2019unsupervised} と X$^2$-VLM\cite{zeng2022x} のマルチモーダルモデル(2)感情文化固有のプロンプトを含む。
最終テストでは0.627で1位にランクインした。
This report provide a detailed description of the method that we explored and proposed in the WECIA Emotion Prediction Competition (EPC), which predicts a person's emotion through an artistic work with a comment. The dataset of this competition is ArtELingo, designed to encourage work on diversity across languages and cultures. The dataset has two main challenges, namely modal imbalance problem and language-cultural differences problem. In order to address this issue, we propose a simple yet effective approach called single-multi modal with Emotion-Cultural specific prompt(ECSP), which focuses on using the single modal message to enhance the performance of multimodal models and a well-designed prompt to reduce cultural differences problem. To clarify, our approach contains two main blocks: (1)XLM-R\cite{conneau2019unsupervised} based unimodal model and X$^2$-VLM\cite{zeng2022x} based multimodal model (2) Emotion-Cultural specific prompt. Our approach ranked first in the final test with a score of 0.627. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |
# マイクロサービスシステムにおけるFew-Shotクロスシステム異常トレース分類
Few-Shot Cross-System Anomaly Trace Classification for Microservice-based systems ( http://arxiv.org/abs/2403.18998v2 ) ライセンス: Link先を確認 | Yuqing Wang, Mika V. Mantylä, Serge Demeyer, Mutlu Beyazit, Joanna Kisaakye, Jesse Nyyssölä, | (参考訳) マイクロサービスベースのシステム(MSS)は、複雑で動的な性質のため、さまざまな障害カテゴリで障害を経験する可能性がある。
障害を効果的に処理するために、AIOpsツールはトレースベースの異常検出と根本原因分析を利用する。
本稿では,MSSの異常トレース分類のための新しいフレームワークを提案する。
本フレームワークは,(1)システム固有のトレース表現を構築するためのマルチヘッドアテンションオートエンコーダ,(2)トランスフォーマーエンコーダに基づくモデル非依存メタラーニングの2つの主要コンポーネントから構成される。
提案するフレームワークは、TraticketとOnlineBoutiqueの2つの代表的なMSSで、オープンデータセットで評価されている。
以上の結果から,本フレームワークは学習知識に適応して,従来のMSSと同一システム内および異なるMSS内においても,新たな異常カテゴリの異常なトレースを識別できることが示唆された。
同じMSS内では、TraticketとOnlineBoutiqueの50のメタテストタスクの平均精度は93.26\%と85.2\%に達し、各タスクに10のインスタンスが提供される。
システム間のコンテキストでは、各システムの同じメタテストタスクに対して平均92.19.%と84.77.%の精度が得られ、各タスクに10のインスタンスが提供される。
本研究は,MSSの異常トレース分類を少数の異常トレース分類に適用可能であることを示し,システム間の適応性を実現する方法を示す。
これにより、異常検出と根本原因分析のためにシステム固有のデータラベリングを少なくする、より一般化されたAIOpsツールを構築するための道が開ける。
Microservice-based systems (MSS) may experience failures in various fault categories due to their complex and dynamic nature. To effectively handle failures, AIOps tools utilize trace-based anomaly detection and root cause analysis. In this paper, we propose a novel framework for few-shot abnormal trace classification for MSS. Our framework comprises two main components: (1) Multi-Head Attention Autoencoder for constructing system-specific trace representations, which enables (2) Transformer Encoder-based Model-Agnostic Meta-Learning to perform effective and efficient few-shot learning for abnormal trace classification. The proposed framework is evaluated on two representative MSS, Trainticket and OnlineBoutique, with open datasets. The results show that our framework can adapt the learned knowledge to classify new, unseen abnormal traces of novel fault categories both within the same system it was initially trained on and even in the different MSS. Within the same MSS, our framework achieves an average accuracy of 93.26\% and 85.2\% across 50 meta-testing tasks for Trainticket and OnlineBoutique, respectively, when provided with 10 instances for each task. In a cross-system context, our framework gets an average accuracy of 92.19\% and 84.77\% for the same meta-testing tasks of the respective system, also with 10 instances provided for each task. Our work demonstrates the applicability of achieving few-shot abnormal trace classification for MSS and shows how it can enable cross-system adaptability. This opens an avenue for building more generalized AIOps tools that require less system-specific data labeling for anomaly detection and root cause analysis. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |
# 統一層を合理化して大言語モデルを圧縮する
Compressing Large Language Models by Streamlining the Unimportant Layer ( http://arxiv.org/abs/2403.19135v2 ) ライセンス: Link先を確認 | Xiaodong Chen, Yuxuan Hu, Jing Zhang, | (参考訳) 大規模言語モデル(LLM)は様々な自然言語タスクやドメインに広く適用されてきたが、それらの適用性はモデルの多くのパラメータによって制約されている。
その結果、高性能を示すコンパクトモデルに重点が置かれている。
本研究では,LLMの異なる層が隠れた状態に対して摂動の程度が異なることを観察し,より重要でない層を同定する。
そこで,本研究では, 対象の空間に応じて, モデルに最も重要度の高い連続層群を除去する層プルーニングと, プルーニングによる性能劣化を軽減するために軽量モデルを訓練する層置換という2つの部分からなるLCM-Streamlineを提案する。
実験では,マルチ層パーセプトロン (MLP) やトランスフォーマー層などの構造を軽量モデルとして利用し,最終的に単一のMLPが破砕層に効果的に適合できることを実証した。
総合実験により,提案手法のLLM-Streamlineは,従来のSOTAモデルプルーニング法よりも優れた性能を示した。
Large language models (LLM) have been extensively applied in various natural language tasks and domains, but their applicability is constrained by the large number of parameters of the models. Consequently, there is an increasing emphasis on compact models that exhibit high performance. In this study, we observe that different layers in LLM have varying degrees of perturbation on the hidden states, which allows us to identify less important layers. Based on this phenomenon, we propose LLM-Streamline, which consists of two parts: layer pruning, where we remove a set of consecutive layers with the lowest importance in the model according to the target sparsity; and layer replacement, where we train a lightweight model to substitute the pruned layers, thereby mitigating the performance degradation caused by pruning. In our experiments, we utilize structures such as a multi-layer perceptron (MLP) and a transformer layer as lightweight models and ultimately demonstrate that a single MLP can effectively fit the pruned layers. Comprehensive experiments show that our proposed method, LLM-Streamline, outperforms previous state-of-the-art (SOTA) model pruning methods. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |
# Break-for-Make: 構成可能なコンテンツスタイルのカスタマイズのためのモジュール型低ランク適応
Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization ( http://arxiv.org/abs/2403.19456v2 ) ライセンス: Link先を確認 | Yu Xu, Fan Tang, Juan Cao, Yuxin Zhang, Oliver Deussen, Weiming Dong, Jintao Li, Tong-Yee Lee, | (参考訳) パーソナライズドジェネレーションパラダイムは、いくつかの画像上で事前訓練されたテキスト・ツー・イメージのモデルをチューニングまたは適応することにより、デザイナーがテキスト記述の助けを借りて視覚的知的プロパティをカスタマイズすることを可能にする。
最近の研究は、コンテンツと詳細な視覚スタイルの両方を同時にカスタマイズするためのアプローチを探っている。
しかし、これらの既存のアプローチは、しばしばコンテンツとスタイルが絡み合った画像を生成する。
本研究では,パラメータ空間の構成の観点から,コンテンツとスタイル概念のカスタマイズを再考する。
コンテンツとスタイルの共有パラメータ空間を利用する既存の手法とは違って,コンテンツとスタイルの個別学習を容易にするために,パラメータ空間を分離した学習フレームワークを提案する。
この目的を達成するために、元のアダプタを分割したサブパラメータ空間に分割する「部分学習可能な投影」(PLP)行列を導入する。
PLPに基づく"ブレーク・フォー・メイク"なカスタマイズ学習パイプラインを提案する。
我々は、元のアダプタを「アッププロジェクション」と「ダウンプロジェクション」に分割し、個別に、個別のアダプタで対応するテキストプロンプトのガイダンスを用いて、コンテンツとスタイルのLPをトレーニングし、マルチ対応予測学習戦略を用いて一般化を維持する。
個別のトレーニング内容とスタイルのために分割されたアダプタに基づいて、コンテンツとスタイルのLPPを再構成し、その後、組み合わせたアダプタを微調整し、ターゲットオブジェクトを所望の外観で生成することで、エンティティパラメータ空間を作成する。
テクスチャ,素材,芸術的スタイルなど,さまざまなスタイルの実験により,本手法は,コンテンツスタイルとプロンプトのアライメントの観点から,最先端のシングル/マルチコンセプト学習パイプラインより優れていることが示された。
Personalized generation paradigms empower designers to customize visual intellectual properties with the help of textual descriptions by tuning or adapting pre-trained text-to-image models on a few images. Recent works explore approaches for concurrently customizing both content and detailed visual style appearance. However, these existing approaches often generate images where the content and style are entangled. In this study, we reconsider the customization of content and style concepts from the perspective of parameter space construction. Unlike existing methods that utilize a shared parameter space for content and style, we propose a learning framework that separates the parameter space to facilitate individual learning of content and style, thereby enabling disentangled content and style. To achieve this goal, we introduce "partly learnable projection" (PLP) matrices to separate the original adapters into divided sub-parameter spaces. We propose "break-for-make" customization learning pipeline based on PLP, which is simple yet effective. We break the original adapters into "up projection" and "down projection", train content and style PLPs individually with the guidance of corresponding textual prompts in the separate adapters, and maintain generalization by employing a multi-correspondence projection learning strategy. Based on the adapters broken apart for separate training content and style, we then make the entity parameter space by reconstructing the content and style PLPs matrices, followed by fine-tuning the combined adapter to generate the target object with the desired appearance. Experiments on various styles, including textures, materials, and artistic style, show that our method outperforms state-of-the-art single/multiple concept learning pipelines in terms of content-style-prompt alignment. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |
# スパース特徴回路:言語モデルにおける解釈可能な因果グラフの発見と編集
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models ( http://arxiv.org/abs/2403.19647v2 ) ライセンス: Link先を確認 | Samuel Marks, Can Rager, Eric J. Michaud, Yonatan Belinkov, David Bau, Aaron Mueller, | (参考訳) 本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは、言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係のサブネットワークである。
以前の作業で特定された回路は、注意頭やニューロンのような多意味で解釈が難しいユニットで構成されており、多くの下流アプリケーションには適さない。
対照的に、スパース特徴回路は予期せぬメカニズムの詳細な理解を可能にする。
細粒度単位に基づいており、スパース特徴回路は下流タスクに有用である: ShiFTを導入し、人間の判断がタスク非関連であることを示す特徴を非難することで分類器の一般化を改善する。
最後に、モデル動作を自動的に検出する数千のスパース特徴回路を発見することにより、完全に教師なしかつスケーラブルな解釈可能性パイプラインを実証する。
We introduce methods for discovering and applying sparse feature circuits. These are causally implicated subnetworks of human-interpretable features for explaining language model behaviors. Circuits identified in prior work consist of polysemantic and difficult-to-interpret units like attention heads or neurons, rendering them unsuitable for many downstream applications. In contrast, sparse feature circuits enable detailed understanding of unanticipated mechanisms. Because they are based on fine-grained units, sparse feature circuits are useful for downstream tasks: We introduce SHIFT, where we improve the generalization of a classifier by ablating features that a human judges to be task-irrelevant. Finally, we demonstrate an entirely unsupervised and scalable interpretability pipeline by discovering thousands of sparse feature circuits for automatically discovered model behaviors. | 翻訳日:2024-04-02 13:15:05 公開日:2024-03-31 |