このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231118となっている論文です。

PDF登録状況(公開日: 20231118)

TitleAuthorsAbstract論文公表日・翻訳日
# ハニーワードセキュリティメトリクスの数学的構造を解明する

Reveal the Mathematical Structures of Honeyword Security Metrics ( http://arxiv.org/abs/2311.10960v1 )

ライセンス: Link先を確認
Pengcheng Su, Haibo Cheng, Wenting Li, Ping Wang, (参考訳) ハニーワード(Honeyword)は、デコイデータを使って侵入者を検出するための代表的「ハニー」テクニックである。 この種のハニーテクニックは、プライマリオブジェクト(ディストリビューション$P$から)とデコイサンプル(ディストリビューション$Q$から)をブレンドします。 本研究では,Honeywordのセキュリティ指標として,平坦度関数と成功数関数の2つに着目した。 過去の研究者は、彼らの価値を見積もる実験的な方法の設計に従事している。 我々は、最適推定戦略を用いて、最強の$\mathcal{A}$の両指標に関する理論式を導出し、この分野で最初のものとなる。 平坦関数は $\epsilon(i)=\sum_{j=1}^{i}\int_{0}^{+\infty}\tbinom{k-1}{j-1} f(x)G^{k-j}(x)(1-G(x))^{j-1}dx$ という式を持つ。 特に最も重要なものは、$\epsilon(1)$ is $\frac{1}{k}(M-\int_{0}^{M}G^k(x)dx)+b$, where $M=\max_{x: Q(x)\neq 0}\frac{P(x)}{Q(x)}$, $b=\sum_{x: Q(x)=0}P(x)$, $G$は$P$と$Q$に由来する累積分布関数である。 この式は、異なる蜂蜜の分布を比較するための基準を与え、M$と$b$より小さいものはより満足できる。 成功数関数の数学的構造は、ベータ分布カーネルを持つ一連の畳み込みである: $\lambda_U(i)=U\sum_{j=1}^{i}\int_{\frac{1}{k}}^{1} \frac {\phi(x)}{1-\phi(x)} \tbinom{U-1}{j-1} x^{U-j}(1-x)^{j-1}dx$。 さらなる検討のために、いくつかの代表的な計算を行った。 本研究は,ハニーワードと類似のハニーテクニックのセキュリティアセスメントに関する知見を提供し,これらのシステムにおけるセキュリティ対策の強化に寄与する。

Honeyword is a representative ``honey" technique to detect intruders by luring them with decoy data. This kind of honey technique blends a primary object (from distribution $P$) with decoy samples (from distribution $Q$). In this research, we focus on two key Honeyword security metrics: the flatness function and the success-number function. Previous researchers are engaged in designing experimental methods to estimate their values. We've derived theoretical formulas on both metrics of the strongest $\mathcal{A}$ using the optimal guessing strategy, marking a first in the field. The mathematical structures of these metrics are intriguing: the flatness function has an expression as $\epsilon(i)=\sum_{j=1}^{i}\int_{0}^{+\infty}\tbinom{k-1}{j-1} f(x)G^{k-j}(x)(1-G(x))^{j-1}dx$. In particular, the most important one, $\epsilon(1)$ is $\frac{1}{k}(M-\int_{0}^{M}G^k(x)dx)+b$, where $M=\max_{x: Q(x)\neq 0}\frac{P(x)}{Q(x)}$, $b=\sum_{x: Q(x)=0}P(x)$, and $G$ is a cumulative distribution function derived from $P$ and $Q$. This formula provides a criterion to compare different honey distributions: the one with smaller $M$ and $b$ is more satisfactory. The mathematical structure of the success-number function is a series of convolutions with beta distribution kernels: $\lambda_U(i)=U\sum_{j=1}^{i}\int_{\frac{1}{k}}^{1} \frac{\phi(x)}{1-\phi(x)} \tbinom{U-1}{j-1} x^{U-j}(1-x)^{j-1}dx$, where $U$ is the number of users in the system and $\phi(x)$ is a monotonically increasing function. For further elaboration, we made some representative calculations. Our findings offer insights into security assessments for Honeyword and similar honey techniques, contributing to enhanced security measures in these systems.
翻訳日:2024-03-18 22:53:06 公開日:2023-11-18
# ステアビリティとコンポジションビリティによる視覚AIと言語知能

Visual AI and Linguistic Intelligence Through Steerability and Composability ( http://arxiv.org/abs/2312.12383v1 )

ライセンス: Link先を確認
David Noever and Samantha Elizabeth Miller Noever(参考訳) 本研究では,マルチモーダル大規模言語モデル(llm)の言語とビジョンを融合した多段階タスクの処理能力について検討し,モデルステアビリティ,コンポーザビリティ,長期記憶とコンテキスト理解の応用に焦点をあてた。 問題は、特にステップワイズ命令とシーケンシャルロジックが最重要となる視覚情報とテキスト情報の合成を必要とするタスクを管理するLLMの能力(Nov 2023 GPT-4 Vision Preview)である。 この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多岐にわたる14のタスクを提示している。 800のガイド付きダイアログの評価から得られた重要な発見は、タスク完了の困難さの顕著な相違である。 例えば、'Image to Ingredient AI Bartender' (Low difficulty) は'AI Game Self-Player' (High difficulty) とは対照的で、複雑なビジュアルデータ処理やコヒーレントな命令生成におけるLLMのさまざまな習熟度を強調している。 また,「AI遺伝プログラム」や「AIネゴシエータ」といった課題は,複数段階にわたるコンテキスト維持の難しさを強調した。 この結果は、複雑な問題解決シナリオにおいて、人間のような思考過程を模倣するために、長期記憶と文脈認識を組み合わせたLLMを開発することの重要性を強調している。

This study explores the capabilities of multimodal large language models (LLMs) in handling challenging multistep tasks that integrate language and vision, focusing on model steerability, composability, and the application of long-term memory and context understanding. The problem addressed is the LLM's ability (Nov 2023 GPT-4 Vision Preview) to manage tasks that require synthesizing visual and textual information, especially where stepwise instructions and sequential logic are paramount. The research presents a series of 14 creatively and constructively diverse tasks, ranging from AI Lego Designing to AI Satellite Image Analysis, designed to test the limits of current LLMs in contexts that previously proved difficult without extensive memory and contextual understanding. Key findings from evaluating 800 guided dialogs include notable disparities in task completion difficulty. For instance, 'Image to Ingredient AI Bartender' (Low difficulty) contrasted sharply with 'AI Game Self-Player' (High difficulty), highlighting the LLM's varying proficiency in processing complex visual data and generating coherent instructions. Tasks such as 'AI Genetic Programmer' and 'AI Negotiator' showed high completion difficulty, emphasizing challenges in maintaining context over multiple steps. The results underscore the importance of developing LLMs that combine long-term memory and contextual awareness to mimic human-like thought processes in complex problem-solving scenarios.
翻訳日:2024-01-15 13:28:23 公開日:2023-11-18
# Dresselhaus Spin Orbit Couplingを用いた熱スピン軌道トルク

Thermal Spin Orbit Torque with Dresselhaus Spin Orbit Coupling ( http://arxiv.org/abs/2311.14719v1 )

ライセンス: Link先を確認
Chun Yi Xue, Ya Ru Wang, Zheng Chuan Wang(参考訳) スピノルボルツマン方程式に基づき、ドレッテルハウススピン軌道結合を持つ2次元強磁性体における局所平衡分布関数の観点から温度依存性の熱スピン軌道トルクを求める。 また,局所平衡条件下での熱スピン軌道トルクを含むドレッテルハウス・フェロマグネットのスピン拡散方程式であるスピン蓄積とスピン電流の連続性方程式も導出する。 この温度依存熱スピン軌道トルクは、システムに適用される温度勾配から生じる。 また、局所平衡分布関数により温度にも敏感である。 スピン拡散方程式では、通常のスピン軌道トルクとスピン移動トルクを1つにすることができる。 最後に,温度勾配によるドレッテルハウススピン軌道結合を有する強磁性体中のスピン偏極輸送の例を示し,熱スピン軌道トルクを含むトルクを数値的に示す。

Based on the spinor Boltzmann equation, we obtain a temperature dependent thermal spin-orbit torque in terms of the local equilibrium distribution function in a two dimensional ferromagnet with Dresselhaus spin-orbit coupling. We also derive the continuity equation of spin accumulation and spin current, the spin diffusion equation in Dresselhaus ferromagnet, which contains the thermal spin orbit torque under local equilibrium assumption. This temperature dependent thermal spin-orbit torque originates from the temperature gradient applied to the system. it is also sensitive to temperature due to the local equilibrium distribution function therein. In the spin diffusion equation, we can single out the usual spin-orbit torque as well as the spin transfer torque, which is conceded to our previous results. Finally, we illustrate them by an example of spin-polarized transport through a ferromagnet with Dresselhaus spin-orbit coupling driven by temperature gradient, those torques including thermal spin-orbit torque are demonstrated numerically.
翻訳日:2023-12-03 13:39:59 公開日:2023-11-18
# 陪審裁判における実証的証拠とアルゴリズムの利用

Demonstrative Evidence and the Use of Algorithms in Jury Trials ( http://arxiv.org/abs/2311.14718v1 )

ライセンス: Link先を確認
Rachel Rogers and Susan VanderPlas(参考訳) 我々は,アルゴリズムと実証的証拠の潜在的な使用が,陪審員の信頼性,信頼性,専門家証人の理解にどのように影響するかを調査し,証拠を提示する。 法科学における統計的手法の使用は、科学的な妥当性の欠如と多くの法医学的分析手法に現れる誤り率の問題によって動機付けられている。 我々は、この新手法が法廷でどのように認識されるかを探る - 高度な統計手法に精通していない個人に対して、罪悪感を評価するために、その使用を評価するよう依頼する。 最初の研究の過程で、回答の大規模圧縮と調査フォーマットに問題があることが分かりました。 参加者の音符と提供した音符とを視覚的に比較し,コロケーションに基づくフレーズ頻度を強調した。

We investigate how the potential use of algorithms and demonstrative evidence may affect potential jurors' feelings of reliability, credibility, and understanding of expert witnesses and presented evidence. The use of statistical methods in forensic science is motivated by a lack of scientific validity and error rate issues present in many forensic analysis methods. We explore how this new method may be perceived in the courtroom - where individuals unfamiliar with advanced statistical methods are asked to evaluate its use in order to assess guilt. In the course of our initial study, we discovered issues in scale compression of responses and survey format. We visually compare participants' notes to the provided transcript by highlighting phrase frequency based on collocations.
翻訳日:2023-12-03 13:39:44 公開日:2023-11-18
# 3次元世界におけるエンボディード・ジェネリストエージェント

An Embodied Generalist Agent in 3D World ( http://arxiv.org/abs/2311.12871v1 )

ライセンス: Link先を確認
Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang(参考訳) 大規模言語モデル(LLM)から膨大な知識と学習スキームを活用することで、最近の機械学習モデルは、自然言語処理、コンピュータビジョン、ロボット工学など、さまざまな領域で汎用的なタスク解決能力を示す汎用エージェントの構築において、顕著な成功を収めた。 しかし、これらのモデルが3Dの世界を理解し、相互作用する能力に制限があるため、大きな課題が残る。 この制限は、現在のモデルが現実世界のタスクを実行し、さらに汎用性を達成するのを著しく妨げていると我々は主張する。 この目的のために,3次元の世界において知覚,接地,推論,計画,行動に優れた具体化されたマルチモーダルおよびマルチタスク汎用エージェントを提案する。 提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重量を2段階に分けて学習する。 (i)3次元視覚言語アライメント及び (ii)3次元視覚言語動作命令チューニング。 トレーニングを容易にするために,我々は,オブジェクトレベルおよびシーンレベルのマルチモーダルタスクからなる広範なデータセットを,スケールと複雑性を超越して細心の注意を払ってキュレートし,作成する。 厳密な実験を通じて,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など,多岐にわたるLEOの卓越した熟練度を実証した。 我々のアブレーションの結果はさらに、将来の具体化ジェネリストエージェントの開発に貴重な洞察を与える。

Leveraging massive knowledge and learning schemes from large language models (LLMs), recent machine learning models show notable successes in building generalist agents that exhibit the capability of general-purpose task solving in diverse domains, including natural language processing, computer vision, and robotics. However, a significant challenge remains as these models exhibit limited ability in understanding and interacting with the 3D world. We argue this limitation significantly hinders the current models from performing real-world tasks and further achieving general intelligence. To this end, we introduce an embodied multi-modal and multi-task generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. Our proposed agent, referred to as LEO, is trained with shared LLM-based model architectures, objectives, and weights in two stages: (i) 3D vision-language alignment and (ii) 3D vision-language-action instruction tuning. To facilitate the training, we meticulously curate and generate an extensive dataset comprising object-level and scene-level multi-modal tasks with exceeding scale and complexity, necessitating a deep understanding of and interaction with the 3D world. Through rigorous experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, embodied navigation, and robotic manipulation. Our ablation results further provide valuable insights for the development of future embodied generalist agents.
翻訳日:2023-11-23 18:04:36 公開日:2023-11-18
# ユニバーサル・ベーシック・コンピューティング・パワーのケース

The Case for Universal Basic Computing Power ( http://arxiv.org/abs/2311.12872v1 )

ライセンス: Link先を確認
Yue Zhu(参考訳) UBCP(Universal Basic Computing Power)イニシアチブは、AI研究開発(R&D)に特化した、一定量のコンピューティングパワーに、グローバルかつ無償でアクセスできるようにする。 このイニシアティブは3つの重要な要素からなる。 まず、UBCPの利用はAI R&Dと最小限の追加条件に制限され、費用は無料でなければならない。 第2に、UBCPは、効率的に蒸留、圧縮、デプロイされたトレーニングデータ、基礎モデル、ベンチマーク、ガバナンスツールを含む、AIの進歩の状態を継続的に取り入れるべきである。 最後に、UBCPが普遍的にアクセスでき、すべてのユーザにとって利便性を確保することが不可欠です。 我々は、AI開発における主要なステークホルダー、オープンソースのコントリビュータ、および政策立案者にUBCPイニシアチブを優先するよう促します。

The Universal Basic Computing Power (UBCP) initiative ensures global, free access to a set amount of computing power specifically for AI research and development (R&D). This initiative comprises three key elements. First, UBCP must be cost free, with its usage limited to AI R&D and minimal additional conditions. Second, UBCP should continually incorporate the state of the art AI advancements, including efficiently distilled, compressed, and deployed training data, foundational models, benchmarks, and governance tools. Lastly, it's essential for UBCP to be universally accessible, ensuring convenience for all users. We urge major stakeholders in AI development large platforms, open source contributors, and policymakers to prioritize the UBCP initiative.
翻訳日:2023-11-23 17:48:31 公開日:2023-11-18
# 最適化から制御へ:準政策反復

From Optimization to Control: Quasi Policy Iteration ( http://arxiv.org/abs/2311.11166v1 )

ライセンス: Link先を確認
Mohammad Amin Sharifi Kolarijani and Peyman Mohajerin Esfahani(参考訳) マルコフ決定過程(MDP)の最近の制御アルゴリズムは、よく確立された最適化アルゴリズムと暗黙の類似性を用いて設計されている。 本稿では, この類似性を, 統一解法により4つの問題クラスで明示する。 この新しいフレームワークは、一方のドメインから他方へのアルゴリズムの体系的な変換を可能にする。 特に,既存の文献では指摘されているが,ほとんどが散在的であった同等の最適化と制御アルゴリズムを同定する。 この統一フレームワークを念頭に置いて、二階型アルゴリズムにおけるヘッシアンを近似するためにmdp特有の2つの線形構造制約、すなわちアンダーソン混合を利用する。 これは、2つの新しい方向と適応的なステップサイズを組み込むことで、標準値反復(VI)アルゴリズムを変更する新しい一階制御アルゴリズムをもたらす。 提案手法は準ポリシー反復と呼ばれるが,viと同じ計算複雑性を持つが,割引係数に対する感度が極めて低く,ポリシー反復と類似した経験的収束挙動を示すことが興味深い。

Recent control algorithms for Markov decision processes (MDPs) have been designed using an implicit analogy with well-established optimization algorithms. In this paper, we make this analogy explicit across four problem classes with a unified solution characterization. This novel framework, in turn, allows for a systematic transformation of algorithms from one domain to the other. In particular, we identify equivalent optimization and control algorithms that have already been pointed out in the existing literature, but mostly in a scattered way. With this unifying framework in mind, we then exploit two linear structural constraints specific to MDPs for approximating the Hessian in a second-order-type algorithm from optimization, namely, Anderson mixing. This leads to a novel first-order control algorithm that modifies the standard value iteration (VI) algorithm by incorporating two new directions and adaptive step sizes. While the proposed algorithm, coined as quasi-policy iteration, has the same computational complexity as VI, it interestingly exhibits an empirical convergence behavior similar to policy iteration with a very low sensitivity to the discount factor.
翻訳日:2023-11-23 17:48:18 公開日:2023-11-18
# ML-KFHE:Kalmanフィルタのセンサ融合特性を利用したマルチラベルアンサンブル分類アルゴリズム

ML-KFHE: Multi-label ensemble classification algorithm exploiting sensor fusion properties of the Kalman filter ( http://arxiv.org/abs/1904.10552v4 )

ライセンス: Link先を確認
Arjun Pakrashi, Brian Mac Namee(参考訳) マルチクラス分類問題におけるアンサンブル分類法の成功にもかかわらず、バグング以外のアプローチに基づくアンサンブル法は、マルチラベル分類問題に対して広く研究されていない。 カルマンフィルタに基づくヒューリスティックアンサンブル(kfhe)は、カルマンフィルタのセンサー融合特性を利用して複数の分類器モデルを組み合わせており、非常に効果的であることが示されている。 本研究は,KFHEのマルチラベルバージョンであるML-KFHEを提案し,KFHE法がマルチラベルデータセットに与える影響を実証する。 基礎となるコンポーネント分類アルゴリズムであるML-KFHE-HOMERと,HOMERとCCを用いたML-KFHE-CCの2つのバリエーションを導入している。 ML-KFHE-HOMERとML-KFHE-CCは、複数のHOMERおよびCCマルチラベル分類器を順次訓練し、カルマンフィルタのセンサ融合特性を用いて出力を集約する。 13のマルチラベルデータセットと8つのアルゴリズムに対して、大規模な実験と詳細な分析を行った。 これらの結果から, ml-kfheフレームワークは, 本論文で紹介されたホメーラ (e-homer) の袋詰め組み合わせと, cc, アンサンブル分類チェイン (ecc) の袋詰め組み合わせにより, ml-kfheの有効性を実証し, 予測性能を大幅に向上させた。 また、ML-KFHE-HOMERの変種は、アンサンブルに基づく既存のアプローチを含む比較されたマルチラベル法よりも一貫して、はるかに優れた性能を示した。

Despite the success of ensemble classification methods in multi-class classification problems, ensemble methods based on approaches other than bagging have not been widely explored for multi-label classification problems. The Kalman Filter-based Heuristic Ensemble (KFHE) is an ensemble method that exploits the sensor fusion properties of the Kalman filter to combine several classifier models, and that has been shown to be very effective. This work proposes a multi-label version of KFHE, ML-KFHE, demonstrating the effectiveness of the KFHE method on multi-label datasets. Two variants are introduced based on the underlying component classifier algorithm, ML-KFHE-HOMER, and ML-KFHE-CC which uses HOMER and Classifier Chain (CC) as the underlying multi-label algorithms respectively. ML-KFHE-HOMER and ML-KFHE-CC sequentially train multiple HOMER and CC multi-label classifiers and aggregate their outputs using the sensor fusion properties of the Kalman filter. Extensive experiments and detailed analysis were performed on thirteen multi-label datasets and eight other algorithms, which included state-of-the-art ensemble methods. The results show, for both versions, the ML-KFHE framework improves the predictive performance significantly with respect to bagged combinations of HOMER (named E-HOMER), also introduced in this paper, and bagged combination of CC, Ensemble Classifier Chains (ECC), thus demonstrating the effectiveness of ML-KFHE. Also, the ML-KFHE-HOMER variant was found to perform consistently and significantly better than the compared multi-label methods including existing approaches based on ensembles.
翻訳日:2023-11-23 06:25:55 公開日:2023-11-18
# RNNで必要なのはゲートではない

Gates Are Not What You Need in RNNs ( http://arxiv.org/abs/2108.00527v2 )

ライセンス: Link先を確認
Ronalds Zakovskis, Andis Draguns, Eliza Gaile, Emils Ozolins, Karlis Freivalds(参考訳) リカレントニューラルネットワークは多くの領域で盛んである。 その結果、新しいRNN細胞は、通常、新しいオリジナルな方法でゲートを作成したり使用したりすることで、継続的に開発される。 しかし、もしRNNのゲートが冗長であると言ったらどうでしょう? 本稿では,従来のセルに勝って1つのゲートを使わないResidual Recurrent Unit(RRU)と呼ばれる新しいリカレントセルを提案する。 これは残りのショートカット接続、線形変換、ReLU、正規化に基づいている。 このセルの有効性を評価するために,多声楽曲のモデル化,言語モデル,感情分析など,最近提案されたモグラファイタlstmとの比較を行った。 実験の結果,RRUは従来のゲートユニットよりも優れていることがわかった。 また、パラメータ選択に対する堅牢性も向上し、チューニングをあまり行わずに、新しいタスクに即座に適用できる。 TensorFlowでRRUを実装しており、コードはhttps://github.com/LUMII-Syslab/RRUで公開されている。

Recurrent neural networks have flourished in many areas. Consequently, we can see new RNN cells being developed continuously, usually by creating or using gates in a new, original way. But what if we told you that gates in RNNs are redundant? In this paper, we propose a new recurrent cell called Residual Recurrent Unit (RRU) which beats traditional cells and does not employ a single gate. It is based on the residual shortcut connection, linear transformations, ReLU, and normalization. To evaluate our cell's effectiveness, we compare its performance against the widely-used GRU and LSTM cells and the recently proposed Mogrifier LSTM on several tasks including, polyphonic music modeling, language modeling, and sentiment analysis. Our experiments show that RRU outperforms the traditional gated units on most of these tasks. Also, it has better robustness to parameter selection, allowing immediate application in new tasks without much tuning. We have implemented the RRU in TensorFlow, and the code is made available at https://github.com/LUMII-Syslab/RRU .
翻訳日:2023-11-23 06:16:45 公開日:2023-11-18
# 医用画像分割におけるハウスドルフ距離の一般化した表面損失

A Generalized Surface Loss for Reducing the Hausdorff Distance in Medical Imaging Segmentation ( http://arxiv.org/abs/2302.03868v2 )

ライセンス: Link先を確認
Adrian Celaya, Beatrice Riviere, and David Fuentes(参考訳) 医学画像セグメンテーションでは、dice係数とhausdorffベースのメトリクスは、ディープラーニングモデルの成功の標準尺度である。 しかし、現代の医療画像分割の損失関数は、訓練中のサイス係数や類似の領域ベースメトリクスのみを考慮することが多い。 その結果、そのような損失関数で訓練されたセグメンテーションアーキテクチャは、サイス係数の精度は高いが、ハウスドルフベースのメトリクスの精度は低いというリスクを負う。 Hausdorffベースのメトリクスの低い精度は、そのようなベンチマークが不可欠である腫瘍セグメンテーションのようなアプリケーションで問題となる可能性がある。 例えば、大きなハウスドルフ誤差を伴う高Diceスコアは、予測が小さな腫瘍を検出できないことを示している。 本研究では,現在の手法よりも望ましい数値特性を持ち,クラス不均衡の重み付け項を持つハウスドルフベースメトリクスを最小化する新しい損失関数である一般化表面損失関数を提案する。 我々の損失関数は、最先端のnnUNetアーキテクチャを用いてLiTSとBraTSデータセットでテストした場合、他の損失よりも優れています。 以上の結果から,新しい損失機能により画像分割精度が向上することが示唆された。

Within medical imaging segmentation, the Dice coefficient and Hausdorff-based metrics are standard measures of success for deep learning models. However, modern loss functions for medical image segmentation often only consider the Dice coefficient or similar region-based metrics during training. As a result, segmentation architectures trained over such loss functions run the risk of achieving high accuracy for the Dice coefficient but low accuracy for Hausdorff-based metrics. Low accuracy on Hausdorff-based metrics can be problematic for applications such as tumor segmentation, where such benchmarks are crucial. For example, high Dice scores accompanied by significant Hausdorff errors could indicate that the predictions fail to detect small tumors. We propose the Generalized Surface Loss function, a novel loss function to minimize Hausdorff-based metrics with more desirable numerical properties than current methods and with weighting terms for class imbalance. Our loss function outperforms other losses when tested on the LiTS and BraTS datasets using the state-of-the-art nnUNet architecture. These results suggest we can improve medical imaging segmentation accuracy with our novel loss function.
翻訳日:2023-11-23 05:39:02 公開日:2023-11-18
# マルチモード観測による暗黒シーンの理解

Understanding Dark Scenes by Contrasting Multi-Modal Observations ( http://arxiv.org/abs/2308.12320v2 )

ライセンス: Link先を確認
Xiaoyu Dong and Naoto Yokoya(参考訳) 多モード画像データに基づく暗黒シーンの理解は、視覚と補助の両方がタスクに限定的な意味情報を提供するため困難である。 従来の手法では2つのモダリティを融合するが、損失を最小限にしてピクセルをラベルに合わせると意味クラス間の相関を無視し、結果としてクラス予測が不正確なものになる。 そこで本研究では,教師付きマルチモーダルコントラスト学習手法を導入し,クラス相関の監督下でクロスモーダル・イントラモーダルコントラストを共同で行うことにより,学習したマルチモーダル特徴空間の意味的識別性を高める。 クロスモーダルコントラストは、2つのモダリティを越えて同じクラスの埋め込みを促進し、異なるクラスを分割する。 モーダル内コントラストは、各モダリティ内に同じクラスまたは異なるクラス埋め込みを結合または分離させる。 我々は、様々な光条件と画像のモダリティをカバーする様々なタスクに対するアプローチを検証する。 実験により,提案手法は,意味・識別的特徴空間を形作ることによって,意味を限定したマルチモーダル画像に基づく暗視野理解を効果的に向上できることを示した。 従来の手法との比較により,最先端の性能が示された。 コードと事前訓練されたモデルはhttps://github.com/palmdong/SMMCL.comで入手できる。

Understanding dark scenes based on multi-modal image data is challenging, as both the visible and auxiliary modalities provide limited semantic information for the task. Previous methods focus on fusing the two modalities but neglect the correlations among semantic classes when minimizing losses to align pixels with labels, resulting in inaccurate class predictions. To address these issues, we introduce a supervised multi-modal contrastive learning approach to increase the semantic discriminability of the learned multi-modal feature spaces by jointly performing cross-modal and intra-modal contrast under the supervision of the class correlations. The cross-modal contrast encourages same-class embeddings from across the two modalities to be closer and pushes different-class ones apart. The intra-modal contrast forces same-class or different-class embeddings within each modality to be together or apart. We validate our approach on a variety of tasks that cover diverse light conditions and image modalities. Experiments show that our approach can effectively enhance dark scene understanding based on multi-modal images with limited semantics by shaping semantic-discriminative feature spaces. Comparisons with previous methods demonstrate our state-of-the-art performance. Code and pretrained models are available at https://github.com/palmdong/SMMCL.
翻訳日:2023-11-23 04:50:27 公開日:2023-11-18
# テキスト-画像拡散モデルにおける進行校正と活性化緩和による後学習量子化

Post-training Quantization with Progressive Calibration and Activation Relaxing for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.06322v2 )

ライセンス: Link先を確認
Siao Tang, Xin Wang, Hong Chen, Chaoyu Guan, Zewen Wu, Yansong Tang, Wenwu Zhu(参考訳) 拡散モデルは、その顕著な生成能力のために大きな成功を収めた。 しかし、高い計算オーバーヘッドはいまだに厄介な問題である。 最近の研究は、拡散モデルの圧縮にPTQ(Post-training Quantization)を活用している。 しかし、それらの多くは無条件のモデルにのみ焦点をあてており、広く使われている大きな事前訓練されたテキスト-画像モデルの量子化(例えば、安定拡散)はほとんど探索されていない。 本稿では,時間経過の累積量子化誤差を考慮した漸進的キャリブレーション戦略と,無視可能なコストで性能を向上させるアクティベーション緩和戦略からなる,テキスト・画像拡散モデルのためのポストトレーニング量子化法PCR(Progressive Calibration and Relaxing)を提案する。 さらに,従来のテキスト・画像拡散モデルの量子化は分布ギャップのため正確ではないことを示す。 そこで本研究では,同一領域のデータを用いてより正確な評価を行う新しいQDiffBenchベンチマークを提案する。 さらに、QDiffBenchはキャリブレーションデータセットの外の量子化モデルの一般化性能についても検討している。 安定拡散と安定拡散xlに関する広範な実験により,本手法とベンチマークの有用性が示された。 さらに,我々は安定拡散XLの量子化を初めて達成し,その性能を維持した。

Diffusion models have achieved great success due to their remarkable generation ability. However, their high computational overhead is still a troublesome problem. Recent studies have leveraged post-training quantization (PTQ) to compress diffusion models. However, most of them only focus on unconditional models, leaving the quantization of widely used large pretrained text-to-image models, e.g., Stable Diffusion, largely unexplored. In this paper, we propose a novel post-training quantization method PCR (Progressive Calibration and Relaxing) for text-to-image diffusion models, which consists of a progressive calibration strategy that considers the accumulated quantization error across timesteps, and an activation relaxing strategy that improves the performance with negligible cost. Additionally, we demonstrate the previous metrics for text-to-image diffusion model quantization are not accurate due to the distribution gap. To tackle the problem, we propose a novel QDiffBench benchmark, which utilizes data in the same domain for more accurate evaluation. Besides, QDiffBench also considers the generalization performance of the quantized model outside the calibration dataset. Extensive experiments on Stable Diffusion and Stable Diffusion XL demonstrate the superiority of our method and benchmark. Moreover, we are the first to achieve quantization for Stable Diffusion XL while maintaining the performance.
翻訳日:2023-11-23 04:00:15 公開日:2023-11-18
# FlashOcc:Channel-to-Heightプラグインによる高速かつメモリ効率の良い実行予測

FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin ( http://arxiv.org/abs/2311.12058v1 )

ライセンス: Link先を確認
Zichen Yu, Changyong Shu, Jiajun Deng, Kangjie Lu, Zongdai Liu, Jiangyong Yu, Dawei Yang, Hui Li, Yan Chen(参考訳) 3次元物体検出において長い尾の欠損と複雑な形状の欠如を緩和する能力を考えると、占有予測は自律運転システムにおいて重要な要素となっている。 しかし、3次元voxelレベル表現の処理は、必然的にメモリと計算の両方に大きなオーバーヘッドをもたらし、最新の占有予測アプローチの展開を妨げる。 モデルをより大きく、より複雑にする傾向とは対照的に、我々は、望ましいフレームワークは、高い精度を維持しつつ、多様なチップにデプロイしやすいものであるべきであると主張する。 そこで本研究では,高速かつメモリ効率の高い占有率予測を高精度に行うためのプラグイン・アンド・プレイパラダイムflashoccを提案する。 特に,同時代のボクセルレベルの占有率予測に基づく2つの改善を行った。 まず、特徴をbevに保持し、効率的な2次元畳み込み層による特徴抽出を可能にする。 次に、BEVから3次元空間に出力ロジットを持ち上げるために、チャネル対高さ変換を導入する。 我々は,Occ3D-nuScenesベンチマークに基づいて,FlashOCCを多様な占有率予測基準に適用し,その有効性を検証した。 その結果、従来の最先端手法よりも精度、実行効率、メモリコストの面で、プラグイン・アンド・プレイ・パラダイムの優位性を実証し、デプロイの可能性を示している。 コードは利用可能になります。

Given the capability of mitigating the long-tail deficiencies and intricate-shaped absence prevalent in 3D object detection, occupancy prediction has become a pivotal component in autonomous driving systems. However, the procession of three-dimensional voxel-level representations inevitably introduces large overhead in both memory and computation, obstructing the deployment of to-date occupancy prediction approaches. In contrast to the trend of making the model larger and more complicated, we argue that a desirable framework should be deployment-friendly to diverse chips while maintaining high precision. To this end, we propose a plug-and-play paradigm, namely FlashOCC, to consolidate rapid and memory-efficient occupancy prediction while maintaining high precision. Particularly, our FlashOCC makes two improvements based on the contemporary voxel-level occupancy prediction approaches. Firstly, the features are kept in the BEV, enabling the employment of efficient 2D convolutional layers for feature extraction. Secondly, a channel-to-height transformation is introduced to lift the output logits from the BEV into the 3D space. We apply the FlashOCC to diverse occupancy prediction baselines on the challenging Occ3D-nuScenes benchmarks and conduct extensive experiments to validate the effectiveness. The results substantiate the superiority of our plug-and-play paradigm over previous state-of-the-art methods in terms of precision, runtime efficiency, and memory costs, demonstrating its potential for deployment. The code will be made available.
翻訳日:2023-11-23 03:52:51 公開日:2023-11-18
# 黒色(くろしお):水面下1210億m^2ドル。 急速洪水マッピングのためのグローバル多時衛星データセット

Kuro Siwo: 12.1 billion $m^2$ under the water. A global multi-temporal satellite dataset for rapid flood mapping ( http://arxiv.org/abs/2311.12056v1 )

ライセンス: Link先を確認
Nikolaos Ioannis Bountos, Maria Sdraka, Angelos Zavras, Ilektra Karasante, Andreas Karavias, Themistocles Herekakis, Angeliki Thanasou, Dimitrios Michail, Ioannis Papoutsis(参考訳) 地球規模の洪水は気候変動によって悪化し、人命、インフラ、環境に深刻な脅威をもたらす。 この緊急性は、パキスタンとニュージーランドで最近起きた壊滅的な出来事によって強調され、修復作業のガイド、脆弱性の理解、将来のイベントの準備のための正確な洪水マッピングの必要性が強調されている。 Synthetic Aperture Radar(SAR)は、日夜の全天候イメージング機能を提供するが、ディープラーニングにそれを活用することは、大規模な注釈付きデータセットが欠如していることを妨げる。 このギャップを埋めるために,世界中の32の洪水イベントにまたがる,厳密にキュレートされた多時期データセットであるKuro Siwoを紹介した。 私たちのデータセットは6300億m2以上の土地を地図化しており、そのうち1210億は浸水地域か永久水域です。 黒潮は、管理された環境での迅速な洪水地図作成を容易にするため、無論の注釈品質で際立っている。 また,自己教師付き事前学習を目的とした,ラベルなしの大きなsarサンプルセットを含めることで,学習を増強する。 我々は、ヨーロッパ、アメリカ、アフリカ、オーストラリアからの様々な洪水イベントの広範なベンチマークと強力なベースラインを提供する。 本ベンチマークでは,浸水地域と一般水の検出にそれぞれ約85%,f1-scoreで約87%のトレーニングモデルであるクロシウアノテーションの質を実証した。 この研究は、気候変動の課題の中で市民保護や人道機関を支援する可能性があり、急激な洪水マッピングのためのソリューション駆動アルゴリズムの開発をディープラーニングコミュニティに求めている。 私たちのコードとデータはhttps://github.com/Orion-AI-Lab/KuroSiwoで公開されます。

Global floods, exacerbated by climate change, pose severe threats to human life, infrastructure, and the environment. This urgency is highlighted by recent catastrophic events in Pakistan and New Zealand, underlining the critical need for precise flood mapping for guiding restoration efforts, understanding vulnerabilities, and preparing for future events. While Synthetic Aperture Radar (SAR) offers day-and-night, all-weather imaging capabilities, harnessing it for deep learning is hindered by the absence of a large annotated dataset. To bridge this gap, we introduce Kuro Siwo, a meticulously curated multi-temporal dataset, spanning 32 flood events globally. Our dataset maps more than 63 billion m2 of land, with 12.1 billion of them being either a flooded area or a permanent water body. Kuro Siwo stands out for its unparalleled annotation quality to facilitate rapid flood mapping in a supervised setting. We also augment learning by including a large unlabeled set of SAR samples, aimed at self-supervised pretraining. We provide an extensive benchmark and strong baselines for a diverse set of flood events from Europe, America, Africa and Australia. Our benchmark demonstrates the quality of Kuro Siwo annotations, training models that can achieve $\approx$ 85% and $\approx$ 87% in F1-score for flooded areas and general water detection respectively. This work calls on the deep learning community to develop solution-driven algorithms for rapid flood mapping, with the potential to aid civil protection and humanitarian agencies amid climate change challenges. Our code and data will be made available at https://github.com/Orion-AI-Lab/KuroSiwo
翻訳日:2023-11-23 03:52:24 公開日:2023-11-18
# MagicDance: 動きと表情を伝達したリアルな人間のダンスビデオ生成

MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer ( http://arxiv.org/abs/2311.12052v1 )

ライセンス: Link先を確認
Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani(参考訳) 本研究では,人間のダンスビデオに対する2次元動作と表情の伝達のための拡散モデルであるmagicdanceを提案する。 具体的には、新規なポーズシーケンスによって駆動されるターゲットアイデンティティの人間ダンスビデオを生成し、そのアイデンティティを一定に保ったままにすることを目的とする。 そこで本研究では,人間の動作や外観(表情,肌のトーン,ドレッシングなど)を乱すための2段階のトレーニング戦略を提案し,同じデータセットの人間のダンスポーズに対して,外見制御ブロックの事前訓練と,外見制御ブロックの微調整を行う。 我々の新しいデザインは、時間的に一貫した上半身、顔の特徴、さらには背景を持つ堅牢な外観制御を可能にする。 モデルはまた、画像拡散モデルの事前の知識を活用することで、さまざまな属性を持つ追加データによる微調整を必要とせずに、目に見えない人間のアイデンティティや複雑なモーションシーケンスをうまく一般化する。 さらに,提案モデルの利用は容易であり,安定拡散に対するプラグインモジュール/拡張と考えられる。 また、モデルがゼロショット2Dアニメーションを生成する能力を示し、あるアイデンティティから別のアイデンティティへの外観移動を可能にするだけでなく、ポーズ入力のみの漫画的なスタイル化を可能にする。 tiktokデータセットの優れたパフォーマンスを示す、広範な実験。

In this work, we propose MagicDance, a diffusion-based model for 2D human motion and facial expression transfer on challenging human dance videos. Specifically, we aim to generate human dance videos of any target identity driven by novel pose sequences while keeping the identity unchanged. To this end, we propose a two-stage training strategy to disentangle human motions and appearance (e.g., facial expressions, skin tone and dressing), consisting of the pretraining of an appearance-control block and fine-tuning of an appearance-pose-joint-control block over human dance poses of the same dataset. Our novel design enables robust appearance control with temporally consistent upper body, facial attributes, and even background. The model also generalizes well on unseen human identities and complex motion sequences without the need for any fine-tuning with additional data with diverse human attributes by leveraging the prior knowledge of image diffusion models. Moreover, the proposed model is easy to use and can be considered as a plug-in module/extension to Stable Diffusion. We also demonstrate the model's ability for zero-shot 2D animation generation, enabling not only the appearance transfer from one identity to another but also allowing for cartoon-like stylization given only pose inputs. Extensive experiments demonstrate our superior performance on the TikTok dataset.
翻訳日:2023-11-23 03:51:56 公開日:2023-11-18
# 一様スケールとミックスマスク法による逆移動性の向上

Boost Adversarial Transferability by Uniform Scale and Mix Mask Method ( http://arxiv.org/abs/2311.12051v1 )

ライセンス: Link先を確認
Tao Wang, Zijian Ying, Qianmu Li, zhichao Lian(参考訳) 代理モデルから生成される敵対的な例は、しばしば他のブラックボックスモデルを欺く能力を持っている。 近年の研究では、入力変換が最も効果的なアプローチの1つである対向移動性の向上に焦点が当てられている。 しかし、既存の入力変換手法には2つの問題がある。 第一に、スケール不変法(Scale-Invariant Method)のような特定の手法は指数関数的に減少するスケール不変パラメータを用い、複数のスケールで効果的な逆例を生成する適応性を低下させる。 第2に、ほとんどの混合手法は、候補画像とソース画像とを線形に結合するだけで、特徴の混合効果が低下する。 これらの課題に対処するために,一様スケールと混合マスク法 (US-MM) というフレームワークを提案する。 均一スケールアプローチでは、線形係数による摂動の上下境界を探索し、スケールコピーの負の影響を最小限に抑える。 混合マスク法は, マスクを非線形に混合工程に導入し, 混合戦略の有効性を著しく向上させた。 US-MMにおける各成分の有効性を検証するためのアブレーション実験を行い,ハイパーパラメータの効果について検討した。 標準的なImageNetデータセットに対する実証的な評価は、US-MMが最先端の手法と比較して平均7%の転送攻撃成功率を達成することを示した。

Adversarial examples generated from surrogate models often possess the ability to deceive other black-box models, a property known as transferability. Recent research has focused on enhancing adversarial transferability, with input transformation being one of the most effective approaches. However, existing input transformation methods suffer from two issues. Firstly, certain methods, such as the Scale-Invariant Method, employ exponentially decreasing scale invariant parameters that decrease the adaptability in generating effective adversarial examples across multiple scales. Secondly, most mixup methods only linearly combine candidate images with the source image, leading to reduced features blending effectiveness. To address these challenges, we propose a framework called Uniform Scale and Mix Mask Method (US-MM) for adversarial example generation. The Uniform Scale approach explores the upper and lower boundaries of perturbation with a linear factor, minimizing the negative impact of scale copies. The Mix Mask method introduces masks into the mixing process in a nonlinear manner, significantly improving the effectiveness of mixing strategies. Ablation experiments are conducted to validate the effectiveness of each component in US-MM and explore the effect of hyper-parameters. Empirical evaluations on standard ImageNet datasets demonstrate that US-MM achieves an average of 7% better transfer attack success rate compared to state-of-the-art methods.
翻訳日:2023-11-23 03:51:34 公開日:2023-11-18
# 3D-GOI:多面・多対象編集のための3D GAN Omni-Inversion

3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing ( http://arxiv.org/abs/2311.12050v1 )

ライセンス: Link先を確認
Haoran Li, Long Ma, Yong Liao, Lechao Cheng, Yanbin Hao, Pengyuan Zhou(参考訳) 現在のgan反転法は、通常、空間情報を見落としながら、単一の物体と背景の外観と形状のみを編集できる。 本研究では,アフィン情報の多面的編集(スケール,翻訳,回転)を可能にする3D編集フレームワークである3D-GOIを提案する。 3D-GOIは、有名な3D GANであるGIRAFFEによって制御された属性コード(オブジェクト形状/外観/スケール/回転/変換、背景形状/外観、カメラポーズ)を反転させることで、複雑な編集機能を実現する。 3D-GOIはこの課題を3つの主要なステップに従って解決する。 まず、オブジェクトとバックグラウンドをマルチオブジェクトイメージに分割します。 第二に、各オブジェクトの粗いコードを取得するために、カスタムのNeural Inversion Encoderを使用します。 最後に、ラウンドロビン最適化アルゴリズムを用いて正確なコードを取得し、画像を再構成する。 私たちの知る限りでは、3D-GOIは複数のオブジェクトで多面的な編集を可能にする最初のフレームワークです。 定性的かつ定量的な実験は、3D-GOIが複雑な多目的シーンにおいて柔軟で多面的な編集の可能性を秘めていることを示している。

The current GAN inversion methods typically can only edit the appearance and shape of a single object and background while overlooking spatial information. In this work, we propose a 3D editing framework, 3D-GOI, to enable multifaceted editing of affine information (scale, translation, and rotation) on multiple objects. 3D-GOI realizes the complex editing function by inverting the abundance of attribute codes (object shape/appearance/scale/rotation/translation, background shape/appearance, and camera pose) controlled by GIRAFFE, a renowned 3D GAN. Accurately inverting all the codes is challenging, 3D-GOI solves this challenge following three main steps. First, we segment the objects and the background in a multi-object image. Second, we use a custom Neural Inversion Encoder to obtain coarse codes of each object. Finally, we use a round-robin optimization algorithm to get precise codes to reconstruct the image. To the best of our knowledge, 3D-GOI is the first framework to enable multifaceted editing on multiple objects. Both qualitative and quantitative experiments demonstrate that 3D-GOI holds immense potential for flexible, multifaceted editing in complex multi-object scenes.
翻訳日:2023-11-23 03:51:12 公開日:2023-11-18
# フィルタ認識によるフェデレーション学習の促進

Energizing Federated Learning via Filter-Aware Attention ( http://arxiv.org/abs/2311.12049v1 )

ライセンス: Link先を確認
Ziyuan Yang, Zerui Shao, Huijie Huangfu, Hui Yu, Andrew Beng Jin Teoh, Xiaoxiao Li, Hongming Shan, Yi Zhang(参考訳) 連合学習(federated learning, fl)は有望な分散パラダイムであり、データ共有の必要性は排除するが、データの多様性から課題に直面する。 ハイパーネットワークによるパーソナライズされたパラメータ生成は有効であるが、既存の手法では局所的なモデル構造をパーソナライズできない。 これにより、冗長なパラメータがさまざまなデータ分散への適応に苦しむことになる。 これらの制約に対処するために,パラメータ再校正にパーソナライズされた直交フィルタを用いたFedOFAを提案する。 Two-stream Filter-aware Attention (TFA)モジュールが中心で、IntraFa(IntraFa)ストリームとInterFA(InterFA)ストリームを組み込んだ、パーソナライズされたフィルタ対応アテンションマップの抽出を巧みに設計されている。 これらのストリームは表現能力を高め、局所モデルの最適暗黙構造を探索する。 直交正則化はフィルタ間の相関を回避することで冗長性を最小化する。 さらに,コミュニケーション効率向上のためのAttention-Guided Pruning Strategy (AGPS)を導入する。 AGPSは、冗長なニューロンを隠蔽しながら重要なニューロンを選択的に保持し、性能犠牲なしに通信コストを削減する。 重要なことは、FedOFAはサーバ側で動作し、クライアントに追加の計算コストがかからず、通信制約のあるシナリオで有利である。 広範な実験によって、最先端のアプローチよりも優れたパフォーマンスが検証され、紙が受け入れられるとコードが得られる。

Federated learning (FL) is a promising distributed paradigm, eliminating the need for data sharing but facing challenges from data heterogeneity. Personalized parameter generation through a hypernetwork proves effective, yet existing methods fail to personalize local model structures. This leads to redundant parameters struggling to adapt to diverse data distributions. To address these limitations, we propose FedOFA, utilizing personalized orthogonal filter attention for parameter recalibration. The core is the Two-stream Filter-aware Attention (TFA) module, meticulously designed to extract personalized filter-aware attention maps, incorporating Intra-Filter Attention (IntraFa) and Inter-Filter Attention (InterFA) streams. These streams enhance representation capability and explore optimal implicit structures for local models. Orthogonal regularization minimizes redundancy by averting inter-correlation between filters. Furthermore, we introduce an Attention-Guided Pruning Strategy (AGPS) for communication efficiency. AGPS selectively retains crucial neurons while masking redundant ones, reducing communication costs without performance sacrifice. Importantly, FedOFA operates on the server side, incurring no additional computational cost on the client, making it advantageous in communication-constrained scenarios. Extensive experiments validate superior performance over state-of-the-art approaches, with code availability upon paper acceptance.
翻訳日:2023-11-23 03:50:50 公開日:2023-11-18
# セマンティックシフトのための1つのサイズ:継続的学習のための適応型プロンプトチューニング

One Size Fits All for Semantic Shifts: Adaptive Prompt Tuning for Continual Learning ( http://arxiv.org/abs/2311.12048v1 )

ライセンス: Link先を確認
Doyoung Kim, Susik Yoon, Dongmin Park, Youngjun Lee, Hwanjun Song, Jihwan Bang, Jae-Gil Lee(参考訳) 現実世界の継続的学習シナリオでは、タスクは複雑で予測不能な意味的シフトを示し、固定されたプロンプト管理戦略に挑戦する。 これらの動的シフトに対処する際の普遍的および特異的なプロンプトの不適切さを同定する。 ユニバーサルプロンプトは突然の意味的変化を持つタスクには効果がないが、特定のプロンプトは穏やかな意味的変化下での過剰フィッティングに苦しむ。 これらの制約を克服するために,タスク意味論に基づいた最小かつ十分なプロンプトを調整可能な適応型プロンプト手法を提案する。 提案手法であるSemPromptは,2段階のセマンティックグルーピングプロセスであるマクロ的セマンティック代入と微視的セマンティックグルーピングを取り入れている。 このプロセスは、タスクセマンティクスの最適な迅速な利用を保証し、現実世界のCL設定における学習の効率性と効果を向上させる。 実験の結果,SemPromptはタスクの多種多様なセマンティックシフトに適応する既存手法より一貫して優れていた。

In real-world continual learning scenarios, tasks often exhibit intricate and unpredictable semantic shifts, posing challenges for fixed prompt management strategies. We identify the inadequacy of universal and specific prompting in handling these dynamic shifts. Universal prompting is ineffective for tasks with abrupt semantic changes, while specific prompting struggles with overfitting under mild semantic shifts. To overcome these limitations, we propose an adaptive prompting approach that tailors minimal yet sufficient prompts based on the task semantics. Our methodology, SemPrompt, incorporates a two-level semantic grouping process: macroscopic semantic assignment and microscopic semantic refinement. This process ensures optimal prompt utilization for varying task semantics, improving the efficiency and effectiveness of learning in real-world CL settings. Our experimental results demonstrate that SemPrompt consistently outperforms existing methods in adapting to diverse semantic shifts in tasks.
翻訳日:2023-11-23 03:50:24 公開日:2023-11-18
# マルチモーダルマシンの学習

Multimodal Machine Unlearning ( http://arxiv.org/abs/2311.12047v1 )

ライセンス: Link先を確認
Jiali Cheng, Hadi Amiri(参考訳) Machine Unlearningは、特定のトレーニングデータサンプルとその対応する効果を、すでにトレーニング済みのモデルから削除するプロセスである。 完全再トレーニングを必要とせずに、トレーニングされたモデルからプライベート、不正確、あるいは時代遅れの情報を浄化するなど、重要な実用的なメリットがある。 マルチモーダル設定でのアンラーニングは、異なるデータモダリティ間の固有の依存関係と、大規模なマルチモーダルデータセットとアーキテクチャのトレーニングコストによって、ユニークな課題を提示します。 機械学習に対する現在のアプローチは、これらの課題を完全には解決していない。 このギャップを埋めるために,マルチモーダルデータとモデル専用に設計されたマシンアンラーニングアプローチであるmmulを紹介する。 MMULは3つの重要な特性に着目してマルチモーダル・アンラーニングタスクを定式化する。 (a) モダリティデカップリング(modality decoupling)は、削除をマークしたマルチモーダルインプット内の個々のユニモーダルデータポイント間の関係を効果的に分離し、モデルのコンテキスト内で無関係なデータポイントとして表現する。 (b)学習後のモデルのユニモーダル表現能力を保持するユニモーダル知識保持 (c):学習後のモデルのマルチモーダル表現能力を保持するマルチモーダル知識保持。 MMULは訓練に効率的であり、強い凸損失を使用する必要に制約されない。 2つのマルチモーダルモデルと4つのマルチモーダルベンチマークデータセット(ビジョン言語とグラフ言語データセットを含む)の実験は、MMULが既存のベースラインより優れており、削除されたデータと残りのデータとの区別において、最高のパフォーマンスのユニモーダルベースラインに対して+17.6ポイントの平均的な改善が得られたことを示している。 さらに、mulは、学習後のオリジナルのモデルの既存の知識をほとんど維持でき、新しいモデルをスクラッチから再トレーニングするのに比べ、パフォーマンスのギャップはわずか0.3ポイントである。

Machine Unlearning is the process of removing specific training data samples and their corresponding effects from an already trained model. It has significant practical benefits, such as purging private, inaccurate, or outdated information from trained models without the need for complete re-training. Unlearning within a multimodal setting presents unique challenges due to the intrinsic dependencies between different data modalities and the expensive cost of training on large multimodal datasets and architectures. Current approaches to machine unlearning have not fully addressed these challenges. To bridge this gap, we introduce MMUL, a machine unlearning approach specifically designed for multimodal data and models. MMUL formulates the multimodal unlearning task by focusing on three key properties: (a): modality decoupling, which effectively decouples the association between individual unimodal data points within multimodal inputs marked for deletion, rendering them as unrelated data points within the model's context, (b): unimodal knowledge retention, which retains the unimodal representation capability of the model post-unlearning, and (c): multimodal knowledge retention, which retains the multimodal representation capability of the model post-unlearning. MMUL is efficient to train and is not constrained by the requirement of using a strongly convex loss. Experiments on two multimodal models and four multimodal benchmark datasets, including vision-language and graph-language datasets, show that MMUL outperforms existing baselines, gaining an average improvement of +17.6 points against the best-performing unimodal baseline in distinguishing between deleted and remaining data. In addition, MMUL can largely maintain pre-existing knowledge of the original model post unlearning, with a performance gap of only 0.3 points compared to retraining a new model from scratch.
翻訳日:2023-11-23 03:50:05 公開日:2023-11-18
# LATIS:Lambda抽象化に基づく熱画像超解像

LATIS: Lambda Abstraction-based Thermal Image Super-resolution ( http://arxiv.org/abs/2311.12046v1 )

ライセンス: Link先を確認
Gargi Panda, Soumitra Kundu, Saumik Bhattacharya, Aurobinda Routray(参考訳) 低解像度熱画像の品質向上には, SISR(Single Image Super- resolution)が有効である。 近年,変圧器を用いた手法はSISRにおいて大きな性能を発揮している。 しかし、srタスクでは、注意機構の計算複雑性のため、トランスフォーマーのセルフアテンション(sa)機構には少数のピクセルしか関与していない。 ラムダ抽象化は、計算効率が向上しながら長距離相互作用のモデリングにおいて、saの有望な代替手段である。 本稿では,熱画像のsisrのための新しい軽量アーキテクチャであるlambda abstraction-based thermal image super- resolution (latis)を提案する。 LATISは、ローカルおよびグローバル機能ブロック(LGFB)を使用して、ローカルおよびグローバル情報を逐次キャプチャする。 lgfbでは,ラムダ抽象化機構,チャネルシャッフルおよび畳み込み(csconv)層に基づくグローバル機能抽出(gfe)モジュールを導入し,ローカルコンテキストをエンコードする。 さらに,さらなる性能向上のために,パッチワイドヒストグラムに基づく損失関数を提案する。 実験の結果,モデルパラメータと複雑性が最小のlatisは,複数のデータセットにまたがる最先端のメソッドと同等の性能を実現していることがわかった。

Single image super-resolution (SISR) is an effective technique to improve the quality of low-resolution thermal images. Recently, transformer-based methods have achieved significant performance in SISR. However, in the SR task, only a small number of pixels are involved in the transformers self-attention (SA) mechanism due to the computational complexity of the attention mechanism. The lambda abstraction is a promising alternative to SA in modeling long-range interactions while being computationally more efficient. This paper presents lambda abstraction-based thermal image super-resolution (LATIS), a novel lightweight architecture for SISR of thermal images. LATIS sequentially captures local and global information using the local and global feature block (LGFB). In LGFB, we introduce a global feature extraction (GFE) module based on the lambda abstraction mechanism, channel-shuffle and convolution (CSConv) layer to encode local context. Besides, to improve the performance further, we propose a differentiable patch-wise histogram-based loss function. Experimental results demonstrate that our LATIS, with the least model parameters and complexity, achieves better or comparable performance with state-of-the-art methods across multiple datasets.
翻訳日:2023-11-23 03:49:31 公開日:2023-11-18
# 物体検出による空港のセキュリティフェンス検査

Security Fence Inspection at Airports Using Object Detection ( http://arxiv.org/abs/2311.12064v1 )

ライセンス: Link先を確認
Nils Friederich, Andreas Specker, J\"urgen Beyerer(参考訳) 空港の安全を確保するためには、空港を許可されていないアクセスから守ることが不可欠である。 この目的のために、セキュリティフェンスは一般的に使用されるが、損傷を検出するには定期的な検査が必要である。 しかし,人的専門家の不足や手作業の大規模化などにより,自動化手法の必要性が高まっている。 目的は、自律ロボットの助けを借りてフェンスの損傷を自動的に検査することである。 本研究では,フェンス検査作業に対処し,各種損傷の局所化を行う対象検出手法について検討する。 4つのSOTAオブジェクト検出モデルの評価に加えて,タスク固有の課題への適応を目的とした,いくつかの設計基準の影響を分析した。 これにはコントラスト調整、ハイパーパラメータの最適化、現代のバックボーンの利用が含まれる。 実験の結果,最適化されたYou Only Look Once v5 (YOLOv5) モデルでは,平均精度(AP)が6.9%向上し,4つの手法の最高精度が得られた。 さらに,モデルのリアルタイム機能を示す。 トレーニングされたモデルはGitHubで公開されている。

To ensure the security of airports, it is essential to protect the airside from unauthorized access. For this purpose, security fences are commonly used, but they require regular inspection to detect damages. However, due to the growing shortage of human specialists and the large manual effort, there is the need for automated methods. The aim is to automatically inspect the fence for damage with the help of an autonomous robot. In this work, we explore object detection methods to address the fence inspection task and localize various types of damages. In addition to evaluating four State-of-the-Art (SOTA) object detection models, we analyze the impact of several design criteria, aiming at adapting to the task-specific challenges. This includes contrast adjustment, optimization of hyperparameters, and utilization of modern backbones. The experimental results indicate that our optimized You Only Look Once v5 (YOLOv5) model achieves the highest accuracy of the four methods with an increase of 6.9% points in Average Precision (AP) compared to the baseline. Moreover, we show the real-time capability of the model. The trained models are published on GitHub: https://github.com/N-Friederich/airport_fence_inspection.
翻訳日:2023-11-23 03:36:38 公開日:2023-11-18
# DatasetNeRF: 生成放射場を持つ効率的な3D認識データファクトリ

DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields ( http://arxiv.org/abs/2311.12063v1 )

ライセンス: Link先を確認
Yu Chi, Fangneng Zhan, Sibo Wu, Christian Theobalt, Adam Kortylewski(参考訳) 3dコンピュータビジョンタスクの進歩は、膨大なデータを必要とするが、3d一貫性のあるアノテーションでマルチビューイメージに注釈をつけるか、部分セグメンテーションのあるポイントクラウドは、時間がかかり、困難である。 本稿では,3dポイントクラウドセグメンテーションと並行して,無限かつ高品質な2dアノテーションを生成できる新しい手法であるdatasetnerfについて述べる。 具体的には、3D生成モデルに先行する強力なセマンティクスを活用してセマンティクスデコーダをトレーニングする。 一度訓練すると、デコーダは潜在空間を効率的に一般化し、無限データの生成を可能にする。 生成されたデータは、ビデオセグメンテーションや3Dポイントクラウドセグメンテーションなど、さまざまなコンピュータビジョンタスクに適用できる。 提案手法は, セグメンテーション品質のベースラインモデルを超え, 個々の画像に対して優れた3次元一貫性とセグメンテーション精度を実現するだけでなく, 調音および非調音生成モデルにも適用可能であることを示す。 さらに,3D対応セマンティック編集や3Dインバージョンなど,我々のアプローチに起因したアプリケーションについても検討する。

Progress in 3D computer vision tasks demands a huge amount of data, yet annotating multi-view images with 3D-consistent annotations, or point clouds with part segmentation is both time-consuming and challenging. This paper introduces DatasetNeRF, a novel approach capable of generating infinite, high-quality 3D-consistent 2D annotations alongside 3D point cloud segmentations, while utilizing minimal 2D human-labeled annotations. Specifically, we leverage the strong semantic prior within a 3D generative model to train a semantic decoder, requiring only a handful of fine-grained labeled samples. Once trained, the decoder efficiently generalizes across the latent space, enabling the generation of infinite data. The generated data is applicable across various computer vision tasks, including video segmentation and 3D point cloud segmentation. Our approach not only surpasses baseline models in segmentation quality, achieving superior 3D consistency and segmentation precision on individual images, but also demonstrates versatility by being applicable to both articulated and non-articulated generative models. Furthermore, we explore applications stemming from our approach, such as 3D-aware semantic editing and 3D inversion.
翻訳日:2023-11-23 03:36:22 公開日:2023-11-18
# PBWR:空中LiDAR点雲からのワイヤーフレームのパラメトリック再構築

PBWR: Parametric Building Wireframe Reconstruction from Aerial LiDAR Point Clouds ( http://arxiv.org/abs/2311.12062v1 )

ライセンス: Link先を確認
Shangfeng Huang, Ruisheng Wang, Bo Guo, Hongxin Yang(参考訳) 本稿では,空中LiDAR点雲から直接エッジを回帰するエンド・ツー・エンドの3Dビルディングワイヤフレーム再構築手法を提案する。我々の手法はパラメトリックビルディングワイヤーフレーム再構成 (PBWR) と呼ばれ,空中LiDAR点雲と初期エッジエンティティを入力とし,変圧器の自己保持機構をコーナー予測などの中間ステップを使わずにエッジパラメータを回帰させる。 本稿では,エッジ類似性に基づくエッジ非最大抑圧(E-NMS)モジュールを提案する。 さらに、専用エッジロス関数を用いて、PBWRをエッジ距離ロスの簡単な使用が不適当な回帰エッジパラメータに導出する。 実験では,Building3Dデータセットの最先端結果を示し,エントリーレベルのデータセットエッジ精度が約36%向上し,Tallinnデータセットが約42%改善した。

In this paper, we present an end-to-end 3D building wireframe reconstruction method to regress edges directly from aerial LiDAR point clouds.Our method, named Parametric Building Wireframe Reconstruction (PBWR), takes aerial LiDAR point clouds and initial edge entities as input, and fully uses self-attention mechanism of transformers to regress edge parameters without any intermediate steps such as corner prediction. We propose an edge non-maximum suppression (E-NMS) module based on edge similarityto remove redundant edges. Additionally, a dedicated edge loss function is utilized to guide the PBWR in regressing edges parameters, where simple use of edge distance loss isn't suitable. In our experiments, we demonstrate state-of-the-art results on the Building3D dataset, achieving an improvement of approximately 36% in entry-level dataset edge accuracy and around 42% improvement in the Tallinn dataset.
翻訳日:2023-11-23 03:35:51 公開日:2023-11-18
# 文化多様性をナビゲートする - 多文化アジャイルソフトウェア開発チームの障壁と可能性

Navigating Cultural Diversity: Barriers and Potentials in Multicultural Agile Software Development Teams ( http://arxiv.org/abs/2311.12061v1 )

ライセンス: Link先を確認
Daniel Welsch and Luisa Burk and David M\"otefindt and Michael Neumann(参考訳) コンテキスト: ソフトウェア開発でアジャイル手法を成功させるためには,社会的側面が重要です。 文化的な価値観が私たちの考え方や行動の指針になっているからです。 したがって、多文化のアジャイルソフトウェア開発チームでは、文化的な特性がチームの仕事の質に影響を与え、結果として製品が届けられると仮定できる。 目的: 多文化のアジャイルソフトウェア開発チームで発生しうる障壁と可能性を特定し、障壁や文化多様性の未実現の可能性に直面する研究者と実践者の両方に価値ある戦略を提供することを目標としています。 方法: 定量的および定性的な方法からなる混合メソッド設計を用いて, 分析単位が2つある単一ケーススタディとして設計する。 結果:第1に,チームレベルの文化的特性を文化間チームで個別に分析する必要があること,第2に,オープンコミュニケーションのようなアジャイルの価値観に適合する個々のチームサブカルチャーなど,文化的特性に関する重要な可能性を特定した。 第3に、アジャイルソフトウェア開発チームにおける文化的多様性の可能性をサポートする戦略を導出しました。 結論: 当社の調査結果は、多文化的なアジャイルソフトウェア開発チームにおける文化的影響をより深く理解する必要があることを示している。 結果に基づいて、他の産業での結果を検証するための今後の取り組みを準備している。

Context: Social aspects are of high importance for being successful using agile methods in software development. People are influenced by their cultural imprint, as the underlying cultural values are guiding us in how we think and act. Thus, one may assume that in multicultural agile software development teams, cultural characteristics influence the result in terms of quality of the team work and consequently, the product to be delivered. Objective: We aim to identify barriers and potentials that may arise in multicultural agile software development teams to provide valuable strategies for both researchers and practitioners faced with barriers or unrealized potentials of cultural diversity. Method: The study is designed as a single-case study with two units of analysis using a mixed-method design consisting quantitative and qualitative methods. Results: First, our results suggest that the cultural characteristics at the team level need to be analyzed individually in intercultural teams, Second, we identified key potentials regarding cultural characteristics providing key potentials such as a individual team subculture that fits agile values like open communication. Third, we derived strategies supporting the potentials of cultural diversity in agile software development teams. Conclusion: Our findings show, that a deeper understanding of cultural influences in multicultural agile software development teams is needed. Based on the results, we already prepare future work to validate the results in other industries.
翻訳日:2023-11-23 03:35:19 公開日:2023-11-18
# スパイキング深層学習構造におけるばらばらな制限の解消

Pursing the Sparse Limitation of Spiking Deep Learning Structures ( http://arxiv.org/abs/2311.12060v1 )

ライセンス: Link先を確認
Hao Cheng, Jiahang Cao, Erjia Xiao, Mengshu Sun, Le Yang, Jize Zhang, Xue Lin, Bhavya Kailkhura, Kaidi Xu, Renjing Xu(参考訳) 脳にインスパイアされた新しいアルゴリズムであるspyking neural networks(snns)は、従来のニューラルネットワーク(anns)よりも優れた計算能力とエネルギー効率に注目を集めている。 メモリ制限されたデバイスへの展開を容易にするため、多くの研究がSNNプルーニングを調査している。 しかし、これらの取り組みは、より複雑なアーキテクチャにおけるスケーラビリティの課題や精度の低下といった課題によって妨げられている。 これらの課題の中で、LTH (Lottery Ticket hypothesis) は将来的なプルーニング戦略として現れる。 これは、密集したニューラルネットワーク内には、スパルサーであるがパフォーマンスを損なわない当選チケットやサブネットワークが存在することを仮定している。 本研究では,SNNとLTHの特異な相乗効果について検討し,SNN内の空間境界を推し進めるために,新しい2つの入賞チケットを設計する。 さらに,重みとパッチレベルの入賞チケットを同時に識別し,最終モデルの性能に妥協することなくスパルサー構造の達成を可能にする革新的なアルゴリズムを提案する。 RGBベースとイベントベースの両方のデータセットに関する包括的な実験を通じて、モデル構造が極めて疎い場合でも、スパイキング宝くじが同等または優れたパフォーマンスを達成することを示した。

Spiking Neural Networks (SNNs), a novel brain-inspired algorithm, are garnering increased attention for their superior computation and energy efficiency over traditional artificial neural networks (ANNs). To facilitate deployment on memory-constrained devices, numerous studies have explored SNN pruning. However, these efforts are hindered by challenges such as scalability challenges in more complex architectures and accuracy degradation. Amidst these challenges, the Lottery Ticket Hypothesis (LTH) emerges as a promising pruning strategy. It posits that within dense neural networks, there exist winning tickets or subnetworks that are sparser but do not compromise performance. To explore a more structure-sparse and energy-saving model, we investigate the unique synergy of SNNs with LTH and design two novel spiking winning tickets to push the boundaries of sparsity within SNNs. Furthermore, we introduce an innovative algorithm capable of simultaneously identifying both weight and patch-level winning tickets, enabling the achievement of sparser structures without compromising on the final model's performance. Through comprehensive experiments on both RGB-based and event-based datasets, we demonstrate that our spiking lottery ticket achieves comparable or superior performance even when the model structure is extremely sparse.
翻訳日:2023-11-23 03:34:40 公開日:2023-11-18
# 関数型スペースメッシュウォーターマーキングに向けて:符号付き距離場の著作権保護

Towards Function Space Mesh Watermarking: Protecting the Copyright of Signed Distance Fields ( http://arxiv.org/abs/2311.12059v1 )

ライセンス: Link先を確認
Xingyu Zhu, Guanhui Ye, Chengdong Dong, Xiapu Luo, Xuetao Wei(参考訳) 符号付き距離場(SDF)は連続関数空間における3次元幾何学を表す。 連続的な性質のため、明確な3Dモデル(例えばメッシュ)を任意の解像度で抽出することができるため、SDFを失うことはメッシュを失うことと等価である。 近年の研究では、sdf-enhanced neural radiance fields(nerf)からメッシュを抽出することもできる。 このような信号は、sdf強化を伴う暗黙の神経表現が元のメッシュを抽出できることを警告し、sdfの知的財産を識別することが緊急問題となる。 本稿では,FuncMarkを提案する。FuncMarkは,二次元透かしメッセージに解析的オンサイト変形を利用して,署名された距離フィールドの著作権を保護する。 このような変形はイソサーフィケーションに耐えることができ、さらに透かしメッセージデコードのために抽出されたメッシュによって継承される。 本手法は,SDFから抽出した高分解能メッシュを用いてメッセージを復元し,メッシュ頂点が極めて疎い場合でも透かしを検出する。 さらに, 様々な歪み(リメッシングを含む)に遭遇しても頑健である。 実験の結果,50個の頂点サンプルが与えられた場合でも,そのメッセージは検出可能であることがわかった。

The signed distance field (SDF) represents 3D geometries in continuous function space. Due to its continuous nature, explicit 3D models (e.g., meshes) can be extracted from it at arbitrary resolution, which means losing the SDF is equivalent to losing the mesh. Recent research has shown meshes can also be extracted from SDF-enhanced neural radiance fields (NeRF). Such a signal raises an alarm that any implicit neural representation with SDF enhancement can extract the original mesh, which indicates identifying the SDF's intellectual property becomes an urgent issue. This paper proposes FuncMark, a robust and invisible watermarking method to protect the copyright of signed distance fields by leveraging analytic on-surface deformations to embed binary watermark messages. Such deformation can survive isosurfacing and thus be inherited by the extracted meshes for further watermark message decoding. Our method can recover the message with high-resolution meshes extracted from SDFs and detect the watermark even when mesh vertices are extremely sparse. Furthermore, our method is robust even when various distortions (including remeshing) are encountered. Extensive experiments demonstrate that our \tool significantly outperforms state-of-the-art approaches and the message is still detectable even when only 50 vertex samples are given.
翻訳日:2023-11-23 03:34:11 公開日:2023-11-18
# pssmと単語埋め込みを用いたインフルエンザaウイルス宿主の予測

Predicting Influenza A Viral Host Using PSSM and Word Embeddings ( http://arxiv.org/abs/2201.01140v4 )

ライセンス: Link先を確認
Yanhua Xu, Dominik Wojtczak(参考訳) インフルエンザウイルスの急速な変異は公衆の健康を脅かす。 異なる宿主を持つウイルスの再配列は致命的なパンデミックを引き起こす可能性がある。 しかし、インフルエンザウイルスが異なる種間を循環できるため、感染の間または感染後のウイルスの原宿主を検出することは困難である。 したがって、ウイルス宿主の早期かつ迅速な検出は、ウイルスのさらなる拡散を減少させるのに役立つ。 我々は,位置特異的スコアリングマトリクス(pssm)に由来する特徴を持つ様々な機械学習モデルを用いて,ウイルスの起源を推定するために,単語埋め込みと単語エンコーディングから学習した特徴について述べる。 その結果,PSSMモデルの性能は95%程度に達し,F1は約96%であった。 単語埋め込みモデルを用いて得られたMCCは約96%であり、F1は約97%である。

The rapid mutation of the influenza virus threatens public health. Reassortment among viruses with different hosts can lead to a fatal pandemic. However, it is difficult to detect the original host of the virus during or after an outbreak as influenza viruses can circulate between different species. Therefore, early and rapid detection of the viral host would help reduce the further spread of the virus. We use various machine learning models with features derived from the position-specific scoring matrix (PSSM) and features learned from word embedding and word encoding to infer the origin host of viruses. The results show that the performance of the PSSM-based model reaches the MCC around 95%, and the F1 around 96%. The MCC obtained using the model with word embedding is around 96%, and the F1 is around 97%.
翻訳日:2023-11-22 21:27:44 公開日:2023-11-18
# 幾何学的ブロックモデルにおけるコミュニティリカバリ

Community Recovery in the Geometric Block Model ( http://arxiv.org/abs/2206.11303v3 )

ライセンス: Link先を確認
Sainyam Galhotra, Arya Mazumdar, Soumyabrata Pal, Barna Saha(参考訳) コミュニティ検出問題の多くの本質的な幾何学的特徴を捉えるため,我々は幾何学ブロックモデルと呼ぶコミュニティのランダムグラフモデルを提案する。 幾何学ブロックモデルは、空間ネットワークのランダムグラフの基本モデルの一つであるランダムな幾何学グラフ(Gilbert, 1961)の上に構築され、Erd\H{o}s-R\'{en}yiランダムグラフ上によく研究された確率ブロックモデルが構築されるのと同じように構成される。 コミュニティ検出の最近の理論的および実践的な進歩に触発されたランダムなコミュニティモデルの自然な拡張でもある。 幾何ブロックモデルを分析するために、まずランダムな幾何学グラフの一般化であるランダムアンラスグラフに対する新しい接続結果を提供する。 幾何グラフの接続性は導入以来研究されており、それらの解析は、相関したエッジ形成のため、それらの Erd\H{o}s-R\'{en}yi よりも困難である。 次に,ランダムアニュラスグラフの接続結果を用いて,幾何学的ブロックモデルにおけるコミュニティの効率的な回復に必要な十分条件を提供する。 幾何ブロックモデルのコミュニティを検出する単純な三角計数アルゴリズムがほぼ最適であることを示す。 このため、以下の2つのグラフ密度のレギュレーションを考える。 グラフの平均次数が頂点数と対数的に増加する体制において、我々のアルゴリズムは理論的にも実用的にも非常によく機能することを示す。 対照的に、三角数え上げアルゴリズムは対数次数法における確率的ブロックモデルに最適ではない。 我々は、実データと合成データの両方で結果をシミュレーションし、新しいモデルとアルゴリズムの両方の優れた性能を示す。

To capture the inherent geometric features of many community detection problems, we propose to use a new random graph model of communities that we call a Geometric Block Model. The geometric block model builds on the random geometric graphs (Gilbert, 1961), one of the basic models of random graphs for spatial networks, in the same way that the well-studied stochastic block model builds on the Erd\H{o}s-R\'{en}yi random graphs. It is also a natural extension of random community models inspired by the recent theoretical and practical advancements in community detection. To analyze the geometric block model, we first provide new connectivity results for random annulus graphs which are generalizations of random geometric graphs. The connectivity properties of geometric graphs have been studied since their introduction, and analyzing them has been more difficult than their Erd\H{o}s-R\'{en}yi counterparts due to correlated edge formation. We then use the connectivity results of random annulus graphs to provide necessary and sufficient conditions for efficient recovery of communities for the geometric block model. We show that a simple triangle-counting algorithm to detect communities in the geometric block model is near-optimal. For this we consider the following two regimes of graph density. In the regime where the average degree of the graph grows logarithmically with the number of vertices, we show that our algorithm performs extremely well, both theoretically and practically. In contrast, the triangle-counting algorithm is far from being optimum for the stochastic block model in the logarithmic degree regime. We simulate our results on both real and synthetic datasets to show superior performance of both the new model as well as our algorithm.
翻訳日:2023-11-22 21:16:17 公開日:2023-11-18
# 分類量子プロトコルのための図式計算

A diagrammatic calculus for categorical quantum protocols ( http://arxiv.org/abs/2206.03294v3 )

ライセンス: Link先を確認
Dusan Dordevic, Zoran Petric, Mladen Zekic(参考訳) Abramsky と Coecke が示すように、量子力学は双積を持つダガーコンパクト閉圏で研究することができる。 この構造内では、多くのよく知られた量子プロトコルが記述され、それらの妥当性は、そのカテゴリにおけるあるダイアグラムの可換性を確立することによって示される。 本稿では,ある種類の量子プロトコルの妥当性を確認するのに十分な構造を持つカテゴリの明示的な実現を提案する。 これを実現するために、有限集合によって自由に生成されるある群の要素が付随する1次元コボルディズムに基づく圏を構築する。 私たちはこのカテゴリをグラフィカル言語として使用し、双積で閉じたdagger compactであることを示します。 次に,kelly と laplaza によって証明されたコンパクト閉圏のコヒーレンス結果に依拠して,コヒーレンス結果を示す。 特に、量子テレポーテーション、エンタングルメントスワッピング(Abramsky と Coecke の業績で定式化されている)および超高密度符号化プロトコルの有効性を示す。

As shown by Abramsky and Coecke, quantum mechanics can be studied in terms of dagger compact closed categories with biproducts. Within this structure, many well-known quantum protocols can be described and their validity can be shown by establishing the commutativity of certain diagrams in that category. In this paper, we propose an explicit realisation of a category with enough structure to check the validity of a certain class of quantum protocols. In order to do this, we construct a category based on 1-dimensional cobordisms with attached elements of a certain group freely generated by a finite set. We use this category as a graphical language, and we show that it is dagger compact closed with biproducts. Then, relying on the coherence result for compact closed categories, proved by Kelly and Laplaza, we show the coherence result, which enables us to check the validity of quantum protocols just by drawing diagrams. In particular, we show the validity of quantum teleportation, entanglement swapping (as formulated in the work of Abramsky and Coecke) and superdense coding protocol.
翻訳日:2023-11-22 21:15:47 公開日:2023-11-18
# おそらく安全な強化学習:概念分析、調査、ベンチマーク

Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and Benchmarking ( http://arxiv.org/abs/2205.06750v3 )

ライセンス: Link先を確認
Hanna Krasowski, Jakob Thumm, Marlon M\"uller, Lukas Sch\"afer, Xiao Wang, Matthias Althoff(参考訳) 強化学習(RL)アルゴリズムの安全性の確保は、実世界の多くのタスクにおいてその可能性の解放に不可欠である。 しかし、バニラrlと最も安全なrlアプローチは安全性を保証しない。 近年では、安全でないアクションが破壊的な結果をもたらす可能性のあるアプリケーションに不可欠なRLの安全性を保証するために、いくつかの方法が提案されている。 しかしながら、これらの証明可能な安全なRL法を包括的に比較することはできない。 そこで本研究では,既存の有理安全rl法を分類し,連続的および離散的動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。 本手法は,アクション・リプレース,アクション・プロジェクション,アクション・マスキングといったアクションの適応方法に基づいて分類する。 逆振り子と四重項安定化タスクによる実験は,比較的単純な実現にもかかわらず,これらの応用においてアクション置換が最善のアプローチであることを示している。 さらに,安全性検証を行う度に報奨金を加えることにより,実験のトレーニング性能が向上した。 最後に、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。

Ensuring the safety of reinforcement learning (RL) algorithms is crucial to unlock their potential for many real-world tasks. However, vanilla RL and most safe RL approaches do not guarantee safety. In recent years, several methods have been proposed to provide hard safety guarantees for RL, which is essential for applications where unsafe actions could have disastrous consequences. Nevertheless, there is no comprehensive comparison of these provably safe RL methods. Therefore, we introduce a categorization of existing provably safe RL methods, present the conceptual foundations for both continuous and discrete action spaces, and empirically benchmark existing methods. We categorize the methods based on how they adapt the action: action replacement, action projection, and action masking. Our experiments on an inverted pendulum and a quadrotor stabilization task indicate that action replacement is the best-performing approach for these applications despite its comparatively simple realization. Furthermore, adding a reward penalty, every time the safety verification is engaged, improved training performance in our experiments. Finally, we provide practical guidance on selecting provably safe RL approaches depending on the safety specification, RL algorithm, and type of action space.
翻訳日:2023-11-22 21:14:19 公開日:2023-11-18
# 非対称性の資源理論におけるi.d.を超えて:量子漁業情報に対する情報スペクトルアプローチ

Beyond i.i.d. in the Resource Theory of Asymmetry: An Information-Spectrum Approach for Quantum Fisher Information ( http://arxiv.org/abs/2204.08439v6 )

ライセンス: Link先を確認
Koji Yamaguchi and Hiroyasu Tajima(参考訳) エネルギーコヒーレンスは、時間の測定や量子操作の加速など、様々な操作に不可欠である。 エネルギーコヒーレンスは脆弱であるため、蒸留と希釈の限界を理解して損傷を回復することが不可欠である。 rta(resource theory of asymmetry)は、時間変換対称性を破る資源としてエネルギーコヒーレンスを調べるための厳密な枠組みを提供する。 近年、ある状態の同一コピーを別の状態の同一コピーに変換するi.i.d.体制において、エネルギーコヒーレンスの変換性は量子フィッシャー情報(qfi)と呼ばれる標準的なエネルギーコヒーレンスの尺度によって制御されていることが示されている。 この事実は、エネルギーコヒーレンス理論におけるQFIが熱力学におけるエントロピーとエンタングルメント理論におけるエントロピーに取って代わることを意味する。 しかし、現実的な状況下での蒸留と希釈は、量子状態がしばしば複雑な相関を持つ状態を超えた状態で行われる。 絡み合い理論とは異なり、非i.d.体制における純粋状態におけるエネルギー的コヒーレンス変換理論は開問題である。 本稿では,QFIのための情報スペクトル法という新しい手法を導入することで,この問題を解決する。 コヒーレンスコストと蒸留可能なコヒーレンスという2つの基本量は、純状態の任意の配列に対するスペクトルQFIレートと等しいことが示されている。 その結果, 情報スペクトル法では, エントロピーとQFIがそれぞれ異なる量, エントロピーとQFIに基づいて, 絡み合い理論とRTAの両方が理解されていることがわかった。

Energetic coherence is indispensable for various operations, including precise measurement of time and acceleration of quantum manipulations. Since energetic coherence is fragile, it is essential to understand the limits in distillation and dilution to restore damage. The resource theory of asymmetry (RTA) provides a rigorous framework to investigate energetic coherence as a resource to break time-translation symmetry. Recently, in the i.i.d. regime where identical copies of a state are converted into identical copies of another state, it has been shown that the convertibility of energetic coherence is governed by a standard measure of energetic coherence, called the quantum Fisher information (QFI). This fact means that QFI in the theory of energetic coherence takes the place of entropy in thermodynamics and entanglement entropy in entanglement theory. However, distillation and dilution in realistic situations take place in regimes beyond i.i.d., where quantum states often have complex correlations. Unlike entanglement theory, the conversion theory of energetic coherence in pure states in the non-i.i.d. regime has been an open problem. In this Letter, we solve this problem by introducing a new technique: an information-spectrum method for QFI. Two fundamental quantities, coherence cost and distillable coherence, are shown to be equal to the spectral QFI rates for arbitrary sequences of pure states. As a consequence, we find that both entanglement theory and RTA in the non-i.i.d. regime are understood in the information-spectrum method, while they are based on different quantities, i.e., entropy and QFI, respectively.
翻訳日:2023-11-22 21:12:51 公開日:2023-11-18
# 一般化エントロピー蓄積による量子鍵分布のセキュリティ

Security of quantum key distribution from generalised entropy accumulation ( http://arxiv.org/abs/2203.04993v2 )

ライセンス: Link先を確認
Tony Metger, Renato Renner(参考訳) 量子鍵分布(QKD)の目標は、セキュアでない量子チャネルで接続された2つのパーティ間でセキュアな鍵を確立することである。 QKDプロトコルを実際に使用するには、有限サイズのキーが一般的な攻撃に対して安全であることを証明しなければならない。 より単純なタスクは集団攻撃に対するセキュリティを証明することであり、敵は各ラウンドにおいて同一かつ独立に振る舞うと仮定される。 本研究では,一般的なQKDプロトコルのための公式なフレームワークを提供し,このフレームワークで表現可能なプロトコルに対して,汎用攻撃に対するセキュリティは集団攻撃に対するセキュリティに還元され,数値計算に還元されることを示す。 私たちの証明は、最近開発されたgeneralized entropy accumulationと呼ばれる情報理論ツールに依存しており、エンタングルメントベースのバージョンに切り替えることなく、ジェネリックな準備・測定プロトコルを直接扱うことができる。

The goal of quantum key distribution (QKD) is to establish a secure key between two parties connected by an insecure quantum channel. To use a QKD protocol in practice, one has to prove that a finite size key is secure against general attacks: no matter the adversary's attack, they cannot gain useful information about the key. A much simpler task is to prove security against collective attacks, where the adversary is assumed to behave identically and independently in each round. In this work, we provide a formal framework for general QKD protocols and show that for any protocol that can be expressed in this framework, security against general attacks reduces to security against collective attacks, which in turn reduces to a numerical computation. Our proof relies on a recently developed information-theoretic tool called generalised entropy accumulation and can handle generic prepare-and-measure protocols directly without switching to an entanglement-based version.
翻訳日:2023-11-22 21:11:41 公開日:2023-11-18
# 重力を媒介とする絡み合いは 量子重力について

What gravity mediated entanglement can really tell us about quantum gravity ( http://arxiv.org/abs/2208.09489v5 )

ライセンス: Link先を確認
Eduardo Mart\'in-Mart\'inez and T. Rick Perche(参考訳) 実験における局所性の役割を解析し,重力による量子重力を観測することを目的としたBose-Marletto-Vedral (BMV) テーブルトップ実験を見直した。 まず、物質と重力の相互作用の完全な量子モデリングを行い、次にbmv実験における重力による絡み合いがどのようにして重力場の量子自由度に訴えることなく説明できるかを示す。 我々は、現在のBMV実験の提案を量子重力の証明として解釈するためには、どのような仮定が必要かを議論し、また、BMVのような実験が重力場に局所メディエーターが存在することを仮定することなく、量子重力の証明として役立てることのできる修正を特定する。

We revisit the Bose-Marletto-Vedral (BMV) table-top experimental proposal - which aims to witness quantum gravity using gravity mediated entanglement - analyzing the role of locality in the experiment. We first carry out a fully quantum modelling of the interaction of matter and gravity and then show in what way gravity mediated entanglement in the BMV experiment could be accounted for without appealing to quantum degrees of freedom of the gravitational field. We discuss what assumptions are needed in order to interpret the current BMV experiment proposals as a proof of quantum gravity, and also identify the modifications that a BMV-like experiment could have in order to serve as proof of quantum gravity without having to assume the existence of a local mediators in the gravitational field.
翻訳日:2023-11-22 21:00:59 公開日:2023-11-18
# 離散ウェーブレット変換と生成逆ネットワークに基づくカラー文書画像の3段階二元化

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks ( http://arxiv.org/abs/2211.16098v6 )

ライセンス: Link先を確認
Rui-Yang Ju, Yu-Shian Lin, Yanlin Jin, Chih-Chia Chen, Chun-Tse Chien, Jen-Shiun Chiang(参考訳) 劣化したカラー文書画像における背景テキスト情報の効率的なセグメンテーションは、古写本の保存において重要な課題である。 古写本の不完全な保存は、染色、黄化、インクの浸出など、時間の経過とともに様々な種類の劣化を引き起こし、画像のバイナライゼーションの結果に大きな影響を与えている。 本研究では,劣化したカラー文書画像のバイナライゼーションにGANを用いた3段階の手法を提案する。 ステージ1は離散ウェーブレット変換(DWT)を適用し、ローロー(LL)サブバンド画像を保持する。 ステージ2では、原画像は赤、緑、青(rgb)の3つの単チャンネル画像と1つのグレースケール画像に分割され、各画像は独立した敵ネットワークで訓練され、色前景情報を抽出する。 ステージ3では、ステージ2からの出力画像と再サイズされた入力画像を用いて、文書双対化のための独立した敵ネットワークを訓練し、グローバルな特徴とローカルな特徴の統合を可能にする。 実験の結果,提案手法は文書画像二元化コンテスト(DIBCO)データセットにおいて,従来のSOTA法よりも優れていた。 実装コードはhttps://github.com/abcpp12383/ThreeStageBinarizationでリリースしました。

The efficient segmentation of foreground text information from the background in degraded color document images is a critical challenge in the preservation of ancient manuscripts. The imperfect preservation of ancient manuscripts has led to various types of degradation over time, such as staining, yellowing, and ink seepage, significantly affecting image binarization results. This work proposes a three-stage method using generative adversarial networks (GANs) for the degraded color document images binarization. Stage-1 involves applying discrete wavelet transform (DWT) and retaining the low-low (LL) subband images for image enhancement. In Stage-2, the original input image is split into red, green, and blue (RGB) three single-channel images and one grayscale image, and each image is trained with independent adversarial networks to extract color foreground information. In Stage-3, the output image from Stage-2 and the resized input image are used to train independent adversarial networks for document binarization, enabling the integration of global and local features. The experimental results demonstrate that our proposed method outperforms other traditional and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) datasets. We have released our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.
翻訳日:2023-11-22 20:52:05 公開日:2023-11-18
# 確率符号化連合学習--理論的解析とインセンティブ機構設計

Stochastic Coded Federated Learning: Theoretical Analysis and Incentive Mechanism Design ( http://arxiv.org/abs/2211.04132v2 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Songze Li and Jun Zhang(参考訳) フェデレートラーニング(FL)は、多くのエッジデバイスが、生のデータではなくモデルの更新をサーバと共有することによって、機械学習モデルを協調的にトレーニングする、プライバシ保護分散トレーニングパラダイムとして大きな成功を収めています。 しかし、エッジデバイスの不均一な計算および通信資源は、トレーニングプロセスを著しく減速させるストラグラーを生み出す。 この問題を軽減するために,SCFL(Stochastic Coded Federated Learning)と呼ばれる新しいFLフレームワークを提案する。 SCFLでは、トレーニングプロセスが始まる前に、各エッジデバイスがプライバシを保存するコード化されたデータセットをサーバにアップロードする。 トレーニング中、サーバはグローバルコード化されたデータセットの勾配を計算し、ストラグリングデバイスのモデル更新の欠如を補う。 我々は,集約モデル更新が望ましいグローバル更新の偏りのない推定であることを保証するために,勾配集約スキームを設計する。 さらに、この集約方式により、定期的なモデル平均化により、トレーニング効率が向上する。 SCFLの収束性能とプライバシー保証のトレードオフを特徴付ける。 特に、ノイズの多い符号化データセットは、エッジデバイスに対してより強力なプライバシ保護を提供するが、結果としてパフォーマンス劣化を学習する。 我々は、このような紛争を調整するための契約に基づくインセンティブメカニズムを更に開発する。 シミュレーション結果から,scflは与えられた時間内によりよいモデルを学び,ベースラインメソッドよりも高いプライバシー性能のトレードオフを実現することが示された。 さらに、提案されたインセンティブ機構は、従来のstackelbergゲームアプローチよりも優れたトレーニングパフォーマンスを提供する。

Federated learning (FL) has achieved great success as a privacy-preserving distributed training paradigm, where many edge devices collaboratively train a machine learning model by sharing the model updates instead of the raw data with a server. However, the heterogeneous computational and communication resources of edge devices give rise to stragglers that significantly decelerate the training process. To mitigate this issue, we propose a novel FL framework named stochastic coded federated learning (SCFL) that leverages coded computing techniques. In SCFL, before the training process starts, each edge device uploads a privacy-preserving coded dataset to the server, which is generated by adding Gaussian noise to the projected local dataset. During training, the server computes gradients on the global coded dataset to compensate for the missing model updates of the straggling devices. We design a gradient aggregation scheme to ensure that the aggregated model update is an unbiased estimate of the desired global update. Moreover, this aggregation scheme enables periodical model averaging to improve the training efficiency. We characterize the tradeoff between the convergence performance and privacy guarantee of SCFL. In particular, a more noisy coded dataset provides stronger privacy protection for edge devices but results in learning performance degradation. We further develop a contract-based incentive mechanism to coordinate such a conflict. The simulation results show that SCFL learns a better model within the given time and achieves a better privacy-performance tradeoff than the baseline methods. In addition, the proposed incentive mechanism grants better training performance than the conventional Stackelberg game approach.
翻訳日:2023-11-22 20:48:57 公開日:2023-11-18
# 重力真空からのハーベストング絡み

Harvesting entanglement from the gravitational vacuum ( http://arxiv.org/abs/2210.14921v2 )

ライセンス: Link先を確認
T. Rick Perche, Boris Ragula and Eduardo Mart\'in-Mart\'inez(参考訳) 我々は、量子系が重力場の量子自由度から絡み合いをいかに得るかを研究する。 具体的には、非相対論的量子系と線形量子重力との相互作用を詳細に記述し、この文脈で2つの空間的な分離プローブが重力場の絡み合いをいかに得るかを探究する。 本研究は, 重力の量子自由度の存在の証拠を提供するため, 将来的に実験的に関連のある現実的なプローブに対して, 収穫された絡み合いの推定を行う。

We study how quantum systems can harvest entanglement from the quantum degrees of freedom of the gravitational field. Concretely, we describe in detail the interaction of non-relativistic quantum systems with linearized quantum gravity, and explore how two spacelike separated probes can harvest entanglement from the gravitational field in this context. We provide estimates for the harvested entanglement for realistic probes which can be experimentally relevant in the future, since entanglement harvesting experiments can provide evidence for the existence of quantum degrees of freedom of gravity.
翻訳日:2023-11-22 20:48:10 公開日:2023-11-18
# ARUBA: 空中物体検出のためのアーキテクチャ非依存の平衡損失

ARUBA: An Architecture-Agnostic Balanced Loss for Aerial Object Detection ( http://arxiv.org/abs/2210.04574v3 )

ライセンス: Link先を確認
Rebbapragada V C Sairam, Monish Keswani, Uttaran Sinha, Nishit Shah, Vineeth N Balasubramanian(参考訳) ディープニューラルネットワークは、トレーニングデータセットのバイアスを相反する傾向がある。 オブジェクト検出において、バイアスはクラス、背景、オブジェクトサイズといった様々な不均衡の形で存在する。 本稿では,オブジェクトのサイズを画像中の画素数,サイズ不均衡として,データセット内の特定のオブジェクトサイズの過剰表現として表現する。 我々は,ドローンによる空中画像データセットにおけるサイズ不均衡の問題に対処することを目的とする。 既存のサイズ不均衡の解決方法は、複数のスケールの画像や特徴マップを用いて異なるサイズのオブジェクトを検出するアーキテクチャ上の変更に基づいている。 一方,我々は,任意のオブジェクト検出モデル上でプラグインとして適用可能な,新しいアーキテクチャ非依存な平衡損失(aruba)を提案する。 これは、オブジェクトサイズの順序性にインスパイアされた近傍駆動アプローチに従う。 HRSC2016, DOTAv1.0, DOTAv1.5, VisDroneなどの航空データセットを用いた総合的な実験により, 本手法の有効性を検証し, 一貫した性能向上を実現する。

Deep neural networks tend to reciprocate the bias of their training dataset. In object detection, the bias exists in the form of various imbalances such as class, background-foreground, and object size. In this paper, we denote size of an object as the number of pixels it covers in an image and size imbalance as the over-representation of certain sizes of objects in a dataset. We aim to address the problem of size imbalance in drone-based aerial image datasets. Existing methods for solving size imbalance are based on architectural changes that utilize multiple scales of images or feature maps for detecting objects of different sizes. We, on the other hand, propose a novel ARchitectUre-agnostic BAlanced Loss (ARUBA) that can be applied as a plugin on top of any object detection model. It follows a neighborhood-driven approach inspired by the ordinality of object size. We evaluate the effectiveness of our approach through comprehensive experiments on aerial datasets such as HRSC2016, DOTAv1.0, DOTAv1.5 and VisDrone and obtain consistent improvement in performance.
翻訳日:2023-11-22 20:47:08 公開日:2023-11-18
# 重要再サンプリングによる言語モデルのデータ選択

Data Selection for Language Models via Importance Resampling ( http://arxiv.org/abs/2302.03169v3 )

ライセンス: Link先を確認
Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang(参考訳) 適切な事前学習データセットの選択は、一般ドメイン(gpt-3など)とドメイン固有言語モデル(例えば、コードx)の両方において不可欠である。 この問題を、ラベルなしのターゲットサンプルが与えられた場合に、所望のターゲット分布にマッチするように、大きな生のラベルなしデータセットのサブセットを選択することで定式化する。 生のテキストデータのスケールと寸法のため、既存の手法では単純なヒューリスティックを使うか、人間の専門家が手動でデータをキュレートする必要がある。 代わりに、lmデータ選択に低次元で使用される古典的な重要度再サンプリングアプローチを拡張します。 本研究では,トラクタビリティの低減した特徴空間における重み付けを推定し,重み付けによる重み付けを伴うデータを選択する,効率的でスケーラブルなフレームワークであるData Selection with Importance Resampling(DSIR)を提案する。 DSIRフレームワークを効率よくハッシュn-gram機能でインスタンス化し、完全なPileデータセットから1億のドキュメントを4.5時間で選択できる。 ハッシュn-gram特徴が対象に関連のあるデータの側面を保持するかどうかを測定するために,選択した事前学習データと特徴空間上のターゲットとの近接度を測定するデータ計量であるKL短縮を定義する。 8つのデータ選択方法(専門家の選択を含む)において、ハッシュn-gramのKL削減は平均下流精度と高い相関関係を持つ(r=0.82)。 特定のドメイン上で継続事前学習のためのデータを選択する場合、DSIRは8つのターゲット分布にわたる専門家のキュレーションに相容れない。 汎用ドメインモデル(ウィキペディアと書籍)を事前訓練する場合、DSIRはGLUEベンチマークでランダム選択とヒューリスティックフィルタリングベースラインを2-2.5%改善する。 コードはhttps://github.com/p-lambda/dsirで入手できる。

Selecting a suitable pretraining dataset is crucial for both general-domain (e.g., GPT-3) and domain-specific (e.g., Codex) language models (LMs). We formalize this problem as selecting a subset of a large raw unlabeled dataset to match a desired target distribution given unlabeled target samples. Due to the scale and dimensionality of the raw text data, existing methods use simple heuristics or require human experts to manually curate data. Instead, we extend the classic importance resampling approach used in low-dimensions for LM data selection. We propose Data Selection with Importance Resampling (DSIR), an efficient and scalable framework that estimates importance weights in a reduced feature space for tractability and selects data with importance resampling according to these weights. We instantiate the DSIR framework with hashed n-gram features for efficiency, enabling the selection of 100M documents from the full Pile dataset in 4.5 hours. To measure whether hashed n-gram features preserve the aspects of the data that are relevant to the target, we define KL reduction, a data metric that measures the proximity between the selected pretraining data and the target on some feature space. Across 8 data selection methods (including expert selection), KL reduction on hashed n-gram features highly correlates with average downstream accuracy (r=0.82). When selecting data for continued pretraining on a specific domain, DSIR performs comparably to expert curation across 8 target distributions. When pretraining general-domain models (target is Wikipedia and books), DSIR improves over random selection and heuristic filtering baselines by 2-2.5% on the GLUE benchmark. Code is available at https://github.com/p-lambda/dsir.
翻訳日:2023-11-22 20:39:42 公開日:2023-11-18
# talk the walk: 対話型音楽推薦のための合成データ生成

Talk the Walk: Synthetic Data Generation for Conversational Music Recommendation ( http://arxiv.org/abs/2301.11489v3 )

ライセンス: Link先を確認
Megan Leszczynski, Shu Zhang, Ravi Ganti, Krisztian Balog, Filip Radlinski, Fernando Pereira, Arun Tejasvi Chaganty(参考訳) レコメンデーションシステムは、ユーザーが制御し、レコメンデーション品質が低ければ調整することが困難であることが多い。 これは会話レコメンデーションシステム(CRS)を動機付け、自然言語フィードバックによる制御を提供する。 しかし、ほとんどのアプリケーションドメインと同様に、ロバストなCRSを構築するには、システム利用を反映したトレーニングデータが必要であり、$\unicode{x2014}$here conversation with user utterances with paired with items that cover of various ranges。 これは従来の手法でスカラを収集することの難しさを証明している。 我々は,近年の自然言語の進歩に基づいて,合成可能かどうかという課題に対処する。 本研究は,音楽,ニュース,レシピレコメンデーションといったユースケースによって動機付けられた課題に注目が集まることに着目し,項目セットレコメンデーションの設定において評価を行う。 本研究では,広く利用可能なアイテムコレクションに符号化されたドメイン知識を活用し,仮説的だが実証可能なアイテムセットのシーケンスを生成し,それに対応するユーザ発話を生成する言語モデルを用いて,現実的な高品質な会話データを合成するTalkTheWalkを提案する。 我々は音楽分野において100万以上の多様なプレイリストキュレーション会話を生成し、これらが関連する項目セットとほぼ一致するような一貫性のある発話を含むことを示す。 対話項目検索タスクにおいて生成した合成データセットの有用性を実証し、教師なしベースラインと実際のデータセットで訓練されたシステムの両方で改善されていることを示す。

Recommender systems are ubiquitous yet often difficult for users to control, and adjust if recommendation quality is poor. This has motivated conversational recommender systems (CRSs), with control provided through natural language feedback. However, as with most application domains, building robust CRSs requires training data that reflects system usage$\unicode{x2014}$here conversations with user utterances paired with items that cover a wide range of preferences. This has proved challenging to collect scalably using conventional methods. We address the question of whether it can be generated synthetically, building on recent advances in natural language. We evaluate in the setting of item set recommendation, noting the increasing attention to this task motivated by use cases like music, news, and recipe recommendation. We present TalkTheWalk, which synthesizes realistic high-quality conversational data by leveraging domain expertise encoded in widely available curated item collections, generating a sequence of hypothetical yet plausible item sets, then using a language model to produce corresponding user utterances. We generate over one million diverse playlist curation conversations in the music domain, and show these contain consistent utterances with relevant item sets nearly matching the quality of an existing but small human-collected dataset for this task. We demonstrate the utility of the generated synthetic dataset on a conversational item retrieval task and show that it improves over both unsupervised baselines and systems trained on a real dataset.
翻訳日:2023-11-22 20:38:27 公開日:2023-11-18
# 同時頂点埋め込みとコミュニティ検出のためのグラフエンコーダアンサンブル

Graph Encoder Ensemble for Simultaneous Vertex Embedding and Community Detection ( http://arxiv.org/abs/2301.11290v2 )

ライセンス: Link先を確認
Cencheng Shen, Youngser Park, Carey E. Priebe(参考訳) 本稿では, 頂点埋め込み, コミュニティ検出, コミュニティサイズ決定のための新しい, 計算効率の良い手法を提案する。 本手法では,正規化された1ホットグラフエンコーダと階数に基づくクラスタサイズ測定を利用する。 広範にシミュレーションを行い,提案したグラフエンコーダアンサンブルアルゴリズムの優れた数値性能を示す。

In this paper, we introduce a novel and computationally efficient method for vertex embedding, community detection, and community size determination. Our approach leverages a normalized one-hot graph encoder and a rank-based cluster size measure. Through extensive simulations, we demonstrate the excellent numerical performance of our proposed graph encoder ensemble algorithm.
翻訳日:2023-11-22 20:38:00 公開日:2023-11-18
# 大規模言語モデルにおけるグラフ学習とその進歩:総合的調査

Graph Learning and Its Advancements on Large Language Models: A Holistic Survey ( http://arxiv.org/abs/2212.08966v4 )

ライセンス: Link先を確認
Shaopeng Wei, Yu Zhao, Xingyan Chen, Qing Li, Fuzhen Zhuang, Ji Liu, Fuji Ren, Gang Kou(参考訳) グラフ学習は、ノード間の複雑な関係とグラフのトポロジ的構造を学習する試みである。 長年にわたり、グラフ学習はグラフ理論からグラフデータマイニングへと移行してきた。 表現学習の出現により、多様なシナリオにおいて顕著なパフォーマンスを達成した。 幅広い応用の見通しから、グラフ学習には注意が集まっている。 一部の研究者はグラフ学習に関する素晴らしい調査を達成しているが、関連する目的、方法、アプリケーションをより一貫性のある方法で結びつけることに失敗した。 その結果、グラフ学習の急速な拡大のために、現在の豊富なシナリオや課題を包含することはなかった。 特に、大規模言語モデルは近年、人間の生活に破壊的な影響を与えてきたが、構造化シナリオの相対的な弱点も示している。 これらのモデルをグラフ学習でより強力にする方法については、まだ疑問の余地がある。 我々の調査は、グラフ学習と事前訓練された言語モデルの統合における最新の進歩に焦点を当て、特に大規模言語モデルの領域におけるそれらの応用を強調した。 グラフ学習に関するこれまでの調査とは違って,グラフ構造の観点から現在の成果を分析する総合的なレビューを行い,グラフ学習における最新の応用,トレンド,課題について論じる。 具体的には,分類法を提案し,グラフ学習の手法を要約する。 次に、メインストリームアプリケーションの詳細解明を行う。 最後に,今後の方向性を提案する。

Graph learning is a prevalent domain that endeavors to learn the intricate relationships among nodes and the topological structure of graphs. Over the years, graph learning has transcended from graph theory to graph data mining. With the advent of representation learning, it has attained remarkable performance in diverse scenarios. Owing to its extensive application prospects, graph learning attracts copious attention. While some researchers have accomplished impressive surveys on graph learning, they failed to connect related objectives, methods, and applications in a more coherent way. As a result, they did not encompass current ample scenarios and challenging problems due to the rapid expansion of graph learning. Particularly, large language models have recently had a disruptive effect on human life, but they also show relative weakness in structured scenarios. The question of how to make these models more powerful with graph learning remains open. Our survey focuses on the most recent advancements in integrating graph learning with pre-trained language models, specifically emphasizing their application within the domain of large language models. Different from previous surveys on graph learning, we provide a holistic review that analyzes current works from the perspective of graph structure, and discusses the latest applications, trends, and challenges in graph learning. Specifically, we commence by proposing a taxonomy and then summarize the methods employed in graph learning. We then provide a detailed elucidation of mainstream applications. Finally, we propose future directions.
翻訳日:2023-11-22 20:36:16 公開日:2023-11-18
# 低次モデリングにおける残差学習のためのDeepONet多重忠実度アプローチ

A DeepONet multi-fidelity approach for residual learning in reduced order modeling ( http://arxiv.org/abs/2302.12682v3 )

ライセンス: Link先を確認
Nicola Demo and Marco Tezzele and Gianluigi Rozza(参考訳) 本稿では,多元的視点とdeeponetsを活用し,減少順序モデルの精度を向上させる新しい手法を提案する。 縮小モデルは、元のモデルを単純化することで、リアルタイムな数値近似を提供する。 そのような演算によって引き起こされるエラーは通常、高速な計算に到達するために無視され、犠牲にされる。 そこで本研究では,ニューラルネットワークによって上記の誤差を学習し,新たな予測を推定できるように,機械学習残差学習にモデル還元を組み合わせることを提案する。 我々は,高忠実度情報の利用を最大化し,高次オーダーモデルの構築と残差学習に利用することを強調した。 本研究では,センサデータに対する正規直交分解(POD)とギャップピーPODの統合について,最近のDeepONetアーキテクチャを用いて検討する。 パラメトリックベンチマーク関数と非線形パラメトリックナビエ-ストークス問題に関する数値的研究を行った。

In the present work, we introduce a novel approach to enhance the precision of reduced order models by exploiting a multi-fidelity perspective and DeepONets. Reduced models provide a real-time numerical approximation by simplifying the original model. The error introduced by the such operation is usually neglected and sacrificed in order to reach a fast computation. We propose to couple the model reduction to a machine learning residual learning, such that the above-mentioned error can be learned by a neural network and inferred for new predictions. We emphasize that the framework maximizes the exploitation of high-fidelity information, using it for building the reduced order model and for learning the residual. In this work, we explore the integration of proper orthogonal decomposition (POD), and gappy POD for sensors data, with the recent DeepONet architecture. Numerical investigations for a parametric benchmark function and a nonlinear parametric Navier-Stokes problem are presented.
翻訳日:2023-11-22 20:26:37 公開日:2023-11-18
# 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成

Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC ( http://arxiv.org/abs/2302.11552v4 )

ライセンス: Link先を確認
Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl(参考訳) 導入以来、拡散モデルは急速に多くの領域における生成モデリングへの一般的なアプローチとなっている。 これらは、ログ確率密度関数の時間変化列の勾配を学ぶと解釈できる。 この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。 本研究は, 拡散モデルのスコアに基づく解釈を用いてこれらの概念を構築し, 構成生成と指導を伴うタスクの拡散モデルを条件づけ, 修正, 再利用する方法を検討する。 特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。 この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。 さらに,新しい構成演算子と,より洗練されたメトロポリス補正試料を用いた拡散モデルのエネルギーベースパラメータ化を提案する。 興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題において、構成生成の顕著な改善につながっている。

Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation.
翻訳日:2023-11-22 20:26:09 公開日:2023-11-18
# 一般化ビデオ異常事象検出:系統分類と深部モデルの比較

Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models ( http://arxiv.org/abs/2302.05087v2 )

ライセンス: Link先を確認
Yang Liu, Dingkang Yang, Yan Wang, Jing Liu, Jun Liu, Azzedine Boukerche, Peng Sun, Liang Song(参考訳) ビデオ異常検出(VAD)はインテリジェント監視システムにおいて重要な技術であり、ビデオ内の異常事象の時間的または空間的識別を可能にする。 既存のレビューは、主に従来の教師なしの手法に集中しているが、弱い教師付きアプローチと完全に教師なしアプローチの出現を見落としていることが多い。 このギャップに対処するため、この調査は、一般的なビデオ異常検出(gvaed)と呼ばれる幅広いスペクトルを含む、教師なしの方法を超えて、vadの従来のスコープを拡張している。 多様な仮定や学習フレームワークに根ざした最近の進歩を巧みに取り入れることで、この調査では、教師なし、弱教師付き、教師付き、完全に教師なしのVAD方法論をシームレスにナビゲートする直感的な分類法を導入し、これらの研究軌跡の区別と相互接続を解明する。 さらに、この調査は、公開データセット、利用可能なコードベース、プログラミングツール、関連する文学を含む研究リソースのコンパイルを組み立てることによって、先進的な研究者を促進する。 さらに,本調査では,モデルの性能,課題と方向性を定量的に評価し,今後の探索への可能性について概説する。

Video Anomaly Detection (VAD) serves as a pivotal technology in the intelligent surveillance systems, enabling the temporal or spatial identification of anomalous events within videos. While existing reviews predominantly concentrate on conventional unsupervised methods, they often overlook the emergence of weakly-supervised and fully-unsupervised approaches. To address this gap, this survey extends the conventional scope of VAD beyond unsupervised methods, encompassing a broader spectrum termed Generalized Video Anomaly Event Detection (GVAED). By skillfully incorporating recent advancements rooted in diverse assumptions and learning frameworks, this survey introduces an intuitive taxonomy that seamlessly navigates through unsupervised, weakly-supervised, supervised and fully-unsupervised VAD methodologies, elucidating the distinctions and interconnections within these research trajectories. In addition, this survey facilitates prospective researchers by assembling a compilation of research resources, including public datasets, available codebases, programming tools, and pertinent literature. Furthermore, this survey quantitatively assesses model performance, delves into research challenges and directions, and outlines potential avenues for future exploration.
翻訳日:2023-11-22 20:22:33 公開日:2023-11-18
# 非凸低レベル二値最適化のためのモーメントベース勾配法について

On Momentum-Based Gradient Methods for Bilevel Optimization with Nonconvex Lower-Level ( http://arxiv.org/abs/2303.03944v4 )

ライセンス: Link先を確認
Feihu Huang(参考訳) バイレベル最適化は一般的な2レベル階層最適化であり、ハイパーパラメータ学習、メタ学習、継続的な学習など、多くの機械学習タスクに広く適用されている。 近年, 両レベル最適化法が数多く開発されているが, 両レベル最適化法は低レベル問題が非凸である場合によく研究されていない。 このギャップを埋めるため,本論文では,上層と下層の両方が非凸であり,下層がpolyak-{\l}ojasiewicz (pl) 条件を満たす非凸二層最適化問題について検討する。 本稿では,これらの決定論的問題を解くために,効率的な運動量に基づく勾配バイレベル法(MGBiO)を提案する。 一方,これらの確率問題を解くために,効率的な運動量に基づく確率勾配二段階法(MSGBiOとVR-MSGBiO)を提案する。 さらに,本手法に有用な収束分析フレームワークを提供する。 特に、いくつかの穏やかな条件下では、mgbio法が決定論的双レベル問題(すなわち、$\|\nabla f(x)\|\leq \epsilon$)に対する$\epsilon$-定常解を求めるために$o(\epsilon^{-2})のサンプル(または勾配)の複雑さを持つことが証明され、既存の最良の結果が$o(\epsilon^{-1})$によって改善される。 一方、我々のMSGBiO法とVR-MSGBiO法は、それぞれ$\tilde{O}(\epsilon^{-4})$と$\tilde{O}(\epsilon^{-3})$のサンプル複素量を持ち、確率的二値問題(例えば$\mathbb{E}\|\nabla F(x)\|\leq \epsilon$)の$\epsilon$-定常解を見つける際に、$\tilde{O}(\epsilon^{-3})$の既存の最良の結果を改善する。 2レベルplゲームとハイパー表現学習の広範な実験結果から,アルゴリズムの効率性が示された。 この論文は数学者ボリス・ポリャク(1935–2023)を記念している。

Bilevel optimization is a popular two-level hierarchical optimization, which has been widely applied to many machine learning tasks such as hyperparameter learning, meta learning and continual learning. Although many bilevel optimization methods recently have been developed, the bilevel methods are not well studied when the lower-level problem is nonconvex. To fill this gap, in the paper, we study a class of nonconvex bilevel optimization problems, where both upper-level and lower-level problems are nonconvex, and the lower-level problem satisfies Polyak-{\L}ojasiewicz (PL) condition. We propose an efficient momentum-based gradient bilevel method (MGBiO) to solve these deterministic problems. Meanwhile, we propose a class of efficient momentum-based stochastic gradient bilevel methods (MSGBiO and VR-MSGBiO) to solve these stochastic problems. Moreover, we provide a useful convergence analysis framework for our methods. Specifically, under some mild conditions, we prove that our MGBiO method has a sample (or gradient) complexity of $O(\epsilon^{-2})$ for finding an $\epsilon$-stationary solution of the deterministic bilevel problems (i.e., $\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-1})$. Meanwhile, we prove that our MSGBiO and VR-MSGBiO methods have sample complexities of $\tilde{O}(\epsilon^{-4})$ and $\tilde{O}(\epsilon^{-3})$, respectively, in finding an $\epsilon$-stationary solution of the stochastic bilevel problems (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $\tilde{O}(\epsilon^{-3})$. Extensive experimental results on bilevel PL game and hyper-representation learning demonstrate the efficiency of our algorithms. This paper commemorates the mathematician Boris Polyak (1935 -2023).
翻訳日:2023-11-22 20:11:53 公開日:2023-11-18
# スパースガンのバランス訓練

Balanced Training for Sparse GANs ( http://arxiv.org/abs/2302.14670v2 )

ライセンス: Link先を確認
Yite Wang, Jing Wu, Naira Hovakimyan, Ruoyu Sun(参考訳) 過去数年間、gans(generative adversarial networks)のような深層生成モデルを含む、より大きく深いニューラルネットワークの開発への関心が高まっている。 しかし、GANは一般的に高い計算複雑性を持ち、研究者はトレーニングと推論のコストを削減する方法を模索する。 教師あり学習で人気を博しているアプローチの1つは動的スパーストレーニング(DST)であり、優れたトレーニング効率を享受しながら優れたパフォーマンスを維持している。 その潜在的な利点にもかかわらず、DSTをGANに適用することは、トレーニングプロセスの逆境性に起因する課題を提示する。 本稿では,スパース発生器と判別器のバランスを研究するために,バランス比(br)と呼ばれる新しい指標を提案する。 また、GANトレーニング中にBRを制御し、性能と計算コストのトレードオフを良好に達成するために、バランスドダイナミックスパーストレーニング(ADAPT)と呼ばれる新しい手法を導入する。 提案手法は,複数のデータセットに有望な結果を示し,その効果を示す。

Over the past few years, there has been growing interest in developing larger and deeper neural networks, including deep generative models like generative adversarial networks (GANs). However, GANs typically come with high computational complexity, leading researchers to explore methods for reducing the training and inference costs. One such approach gaining popularity in supervised learning is dynamic sparse training (DST), which maintains good performance while enjoying excellent training efficiency. Despite its potential benefits, applying DST to GANs presents challenges due to the adversarial nature of the training process. In this paper, we propose a novel metric called the balance ratio (BR) to study the balance between the sparse generator and discriminator. We also introduce a new method called balanced dynamic sparse training (ADAPT), which seeks to control the BR during GAN training to achieve a good trade-off between performance and computational cost. Our proposed method shows promising results on multiple datasets, demonstrating its effectiveness.
翻訳日:2023-11-22 20:10:22 公開日:2023-11-18
# 関連判断のための大規模言語モデルへの展望

Perspectives on Large Language Models for Relevance Judgment ( http://arxiv.org/abs/2304.09161v2 )

ライセンス: Link先を確認
Guglielmo Faggioli, Laura Dietz, Charles Clarke, Gianluca Demartini, Matthias Hagen, Claudia Hauff, Noriko Kando, Evangelos Kanoulas, Martin Potthast, Benno Stein, Henning Wachsmuth(参考訳) ChatGPTのような大規模言語モデル(LLM)は、関連判断を支援することができると主張しているが、自動判断が検索システムの評価に確実に利用できるかどうかは不明である。 本稿では, LLM が関連する判断を, 懸念や問題とともに支援できる可能性について論じる。 我々は,人間が機械にどれだけ依存しているかに基づいて,異なる関連性判断戦略を分類できる人間と機械の協調スペクトルを考案する。 完全に自動化された判断」の極端には、訓練された人間評価者の判断とllmベースの関連性判断が相関するかどうかのパイロット実験も含む。 論文は,自動関連判断におけるLLMの使用に対する反対の視点と,文献の分析,予備的実験証拠,IR研究者としての経験から得られた妥協視点を提供することで,結論付けた。

When asked, large language models (LLMs) like ChatGPT claim that they can assist with relevance judgments but it is not clear whether automated judgments can reliably be used in evaluations of retrieval systems. In this perspectives paper, we discuss possible ways for LLMs to support relevance judgments along with concerns and issues that arise. We devise a human--machine collaboration spectrum that allows to categorize different relevance judgment strategies, based on how much humans rely on machines. For the extreme point of "fully automated judgments", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing opposing perspectives for and against the use of~LLMs for automatic relevance judgments, and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers.
翻訳日:2023-11-22 20:03:01 公開日:2023-11-18
# 人口動態や自己表現を制御しても、表情のない顔の画像から顔認識技術と人間のレーダは政治的指向を予測できる

Facial recognition technology and human raters can predict political orientation from images of expressionless faces even when controlling for demographics and self-presentation ( http://arxiv.org/abs/2303.16343v2 )

ライセンス: Link先を確認
Michal Kosinski, Poruz Khambatta, Yilun Wang(参考訳) 自己呈示, 表情, 頭部向き, 画像特性を制御しながら, 591名の被験者の精巧な顔画像が研究室で撮影された。 人間 (r=.21) とアルゴリズム (r=.22) は、年齢、性別、民族と関係のある政治的指向性尺度 (cronbach's alpha=.94) において、参加者のスコアを予測することができた。 これらの効果は、就職面接が仕事の成功を予測できるか、アルコールが攻撃性を高めるかに匹敵する。 アルゴリズムの予測精度はさらに高く(r=.31)、参加者の年齢、性別、民族に関する情報を利用した。 標準化されたイメージ(年齢、性別、民族性を管理する一方で)から派生した予測モデルは、米国、英国、カナダの政治家3,401人の自然主義的なイメージから政治的指向(r=.13)を予測することができる。 政治的指向に関連する顔の特徴の分析により,保守派は下面が大きい傾向が見られた。 標準化された画像からの政治的指向の予測可能性は、プライバシー、顔認識技術の規制、政治的指向の起源と結果の理解に重要な意味を持つ。

Carefully standardized facial images of 591 participants were taken in the laboratory, while controlling for self-presentation, facial expression, head orientation, and image properties. They were presented to human raters and a facial recognition algorithm: both humans (r=.21) and the algorithm (r=.22) could predict participants' scores on a political orientation scale (Cronbach's alpha=.94) decorrelated with age, gender, and ethnicity. These effects are on par with how well job interviews predict job success, or alcohol drives aggressiveness. Algorithm's predictive accuracy was even higher (r=.31) when it leveraged information on participants' age, gender, and ethnicity. Moreover, the associations between facial appearance and political orientation seem to generalize beyond our sample: The predictive model derived from standardized images (while controlling for age, gender, and ethnicity) could predict political orientation (r=.13) from naturalistic images of 3,401 politicians from the U.S., UK, and Canada. The analysis of facial features associated with political orientation revealed that conservatives tended to have larger lower faces. The predictability of political orientation from standardized images has critical implications for privacy, the regulation of facial recognition technology, and understanding the origins and consequences of political orientation.
翻訳日:2023-11-22 19:59:35 公開日:2023-11-18
# ML支援資源配分のための機能停止と新たな損失関数:厳密な分析フレームワーク

Outage Performance and Novel Loss Function for an ML-Assisted Resource Allocation: An Exact Analytical Framework ( http://arxiv.org/abs/2305.09739v2 )

ライセンス: Link先を確認
Nidhi Simmons, David E Simmons, Michel Daoud Yacoub(参考訳) 本稿では,mlに基づくリソース割当システムの停止確率を最小化する新しい損失関数を提案する。 mlバイナリ分類予測器が確立した停止基準を満たすリソース選択を支援するアプリケーションシナリオは,単一ユーザによる複数リソース割り当て戦略を構成する。 他の資源配分政策は適当かもしれないが、これらは我々の研究の焦点ではない。 その代わり、この損失関数を理論的に開発し、mlモデルをトレーニングして停止確率問題に対処することに重点を置いています。 将来のチャネル状態情報にアクセスできないため、この予測器は各リソースの将来の停止状態を予測する。 予測者が満足できると信じているリソースに遭遇すると、それをユーザに割り当てる。 本研究の主な成果は,システム停止確率の正確かつ漸近的な表現を確立することである。 これらの表現は、リソース割り当て(最も適切と思われる戦略)を推奨するML予測器に条件付きリソースごとの停止確率の最適化にのみ焦点をあてることによって、すべてのリソースを拒絶する不適切な予測器を生成する可能性があることを示している。 さらに彼らは、精度、偽陽性率、リコールといった標準メトリクスにフォーカスしても、最適な予測値が得られないことも明らかにした。 その結果、理論上最適で微分可能な損失関数を定式化し、予測器を訓練する。 次に,従来の損失関数である二元クロスエントロピー(bce),平均二乗誤差(mse),平均絶対誤差(mae)を用いて学習した予測器を比較した。 すべてのシナリオにおいて、新しい損失関数を用いてトレーニングされた予測器は、優れた停止確率性能を提供する。 さらに, 損失関数はBCE, MAE, MSEで訓練した予測器よりも, 複数の順序で優れる場合もある。

We introduce a novel loss function to minimize the outage probability of an ML-based resource allocation system. A single-user multi-resource greedy allocation strategy constitutes our application scenario, for which an ML binary classification predictor assists in selecting a resource satisfying the established outage criterium. While other resource allocation policies may be suitable, they are not the focus of our study. Instead, our primary emphasis is on theoretically developing this loss function and leveraging it to train an ML model to address the outage probability challenge. With no access to future channel state information, this predictor foresees each resource's likely future outage status. When the predictor encounters a resource it believes will be satisfactory, it allocates it to the user. Our main result establishes exact and asymptotic expressions for this system's outage probability. These expressions reveal that focusing solely on the optimization of the per-resource outage probability conditioned on the ML predictor recommending resource allocation (a strategy that appears to be most appropriate) may produce inadequate predictors that reject every resource. They also reveal that focusing on standard metrics, like precision, false-positive rate, or recall, may not produce optimal predictors. With our result, we formulate a theoretically optimal, differentiable loss function to train our predictor. We then compare predictors trained using this and traditional loss functions namely, binary cross-entropy (BCE), mean squared error (MSE), and mean absolute error (MAE). In all scenarios, predictors trained using our novel loss function provide superior outage probability performance. Moreover, in some cases, our loss function outperforms predictors trained with BCE, MAE, and MSE by multiple orders of magnitude.
翻訳日:2023-11-22 19:34:22 公開日:2023-11-18
# DAppSCAN: DAppプロジェクトにおけるスマートコントラクト弱さのための大規模データセットの構築

DAppSCAN: Building Large-Scale Datasets for Smart Contract Weaknesses in DApp Projects ( http://arxiv.org/abs/2305.08456v2 )

ライセンス: Link先を確認
Zibin Zheng, Jianzhong Su, Jiachi Chen, David Lo, Zhijie Zhong and Mingxi Ye(参考訳) smart contract weakness classification registry(swcレジストリ)は、ethereumプラットフォーム特有のスマートコントラクトの弱点のリストとして広く認識されている。 SWCレジストリは2020年以降、新たなエントリで更新されていないが、SWCリストの弱点を検出するスマートコントラクト分析ツールの開発は、この分野における彼らの継続的な重要性を強調している。 しかし、これらのツールの評価は、大きな偏りのない現実世界のデータセットがないため、困難であることが証明されている。 この問題に対処するため、実世界のDAppプロジェクトから大規模なSWC弱点データセットを構築することを目指している。 私たちは22人の参加者を募集し、29のセキュリティチームから1,199のオープンソース監査レポートを分析した。 全体で9,154個の弱点を特定し,DAPPSCAN-SOURCEとDAPPSCAN-BYTECODEという2つの異なるデータセットを開発した。 DAPPSCAN-SOURCEデータセットは39,904のSolidityファイルで構成され、682の現実世界のDAppプロジェクトから得られた1,618のSWC脆弱性を特徴としている。 しかし、このデータセットのsolidityファイルは、さらなる分析のために直接コンパイルできないかもしれない。 自動解析を容易にするために,DAppプロジェクト内の依存関係関係を自動的に識別し,欠落した公開ライブラリを補完するツールを開発した。 DAPPSCAN-BYTECODEデータセットは6,665のコンパイルされたスマートコントラクトと888のSWC弱点で構成される。 DAPPSCAN-BYTECODEに基づいて,最先端のスマートコントラクト弱点検出ツールの性能評価実験を行った。 評価結果から,これらのツールの性能は,有効性と成功検出率の両面で比較し,より簡易な玩具契約よりも実世界のデータセットを優先すべきであることが示唆された。

The Smart Contract Weakness Classification Registry (SWC Registry) is a widely recognized list of smart contract weaknesses specific to the Ethereum platform. Despite the SWC Registry not being updated with new entries since 2020, the sustained development of smart contract analysis tools for detecting SWC-listed weaknesses highlights their ongoing significance in the field. However, evaluating these tools has proven challenging due to the absence of a large, unbiased, real-world dataset. To address this problem, we aim to build a large-scale SWC weakness dataset from real-world DApp projects. We recruited 22 participants and spent 44 person-months analyzing 1,199 open source audit reports from 29 security teams. In total, we identified 9,154 weaknesses and developed two distinct datasets, i.e., DAPPSCAN-SOURCE and DAPPSCAN-BYTECODE. The DAPPSCAN-SOURCE dataset comprises 39,904 Solidity files, featuring 1,618 SWC weaknesses sourced from 682 real-world DApp projects. However, the Solidity files in this dataset may not be directly compilable for further analysis. To facilitate automated analysis, we developed a tool capable of automatically identifying dependency relationships within DApp projects and completing missing public libraries. Using this tool, we created DAPPSCAN-BYTECODE dataset, which consists of 6,665 compiled smart contract with 888 SWC weaknesses. Based on DAPPSCAN-BYTECODE, we conducted an empirical study to evaluate the performance of state-of-the-art smart contract weakness detection tools. The evaluation results revealed sub-par performance for these tools in terms of both effectiveness and success detection rate, indicating that future development should prioritize real-world datasets over simplistic toy contracts.
翻訳日:2023-11-22 19:33:39 公開日:2023-11-18
# 事前学習した視覚言語モデルにおける適応法のロバスト性

Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models ( http://arxiv.org/abs/2306.02080v3 )

ライセンス: Link先を確認
Shuo Chen, Jindong Gu, Zhen Han, Yunpu Ma, Philip Torr, Volker Tresp(参考訳) LoRA、プロンプト、アダプタなどの様々な適応手法が提案され、特定の領域における事前学習された視覚言語モデルの性能を向上させる。 これらの分散シフトに対する適応法の堅牢性は研究されていない。 本研究では,4つの視覚言語データセットにまたがる11の適応手法のロバスト性を評価する。 具体的には、異なる適応手法の堅牢性、利用可能な適応例の影響、適応中のトレーニング可能なパラメータサイズの影響を調べるために、96の視覚的および87のテキスト汚職を含む7つのベンチマークデータセットを導入する。 私たちの分析によると、 1)適応手法は視覚的腐敗よりもテキストの腐敗に敏感である。 2) 完全な微調整は、一貫して最も堅牢性を提供しない;代わりに、アダプタは、同等のクリーンな性能で、より優れた堅牢性を達成できる。 3) 予測に反して, 適応データとパラメータの増加は頑健性の向上を保証せず, より低いロバスト性をもたらすことが示唆された。 本研究は,ロバストなマルチモーダル適応法の開発における今後の研究の恩恵を期待する。 この研究で使われているベンチマーク、コード、データセットは、https://adarobustness.github.io.com/でアクセスできる。

Various adaptation methods, such as LoRA, prompts, and adapters, have been proposed to enhance the performance of pre-trained vision-language models in specific domains. The robustness of these adaptation methods against distribution shifts have not been studied. In this study, we assess the robustness of 11 widely-used adaptation methods across 4 vision-language datasets under multimodal corruptions. Concretely, we introduce 7 benchmark datasets, including 96 visual and 87 textual corruptions, to investigate the robustness of different adaptation methods, the impact of available adaptation examples, and the influence of trainable parameter size during adaptation. Our analysis reveals that: 1) Adaptation methods are more sensitive to text corruptions than visual corruptions. 2) Full fine-tuning does not consistently provide the highest robustness; instead, adapters can achieve better robustness with comparable clean performance. 3) Contrary to expectations, our findings indicate that increasing the number of adaptation data and parameters does not guarantee enhanced robustness; instead it results in even lower robustness. We hope this study could benefit future research in the development of robust multimodal adaptation methods. The benchmark, code, and dataset used in this study can be accessed at https://adarobustness.github.io .
翻訳日:2023-11-22 19:26:23 公開日:2023-11-18
# 半古典理論とkoopman-van hove方程式

Semiclassical Theory and the Koopman-van Hove Equation ( http://arxiv.org/abs/2306.01865v2 )

ライセンス: Link先を確認
Ilon Joseph(参考訳) 位相空間 Koopman-van Hove (KvH) 方程式は偏微分方程式の漸近半古典的解析から導かれる。 半古典理論は、複素位相係数に対するハミルトン・ヤコビ方程式と振幅に対する輸送方程式をもたらす。 これらの2つの方程式は結合して構成空間におけるkvh方程式の非線形半古典版を形成することができる。 位相空間への構成空間解の自然な注入と、構成空間への位相空間解の自然な射影がある。 したがって、構成空間 KvH 方程式のすべての解は半古典位相空間 KvH 方程式とハミルトン・ヤコビ制約の両方を満たす。 構成空間の解の場合、この制約は位相空間に2つの異なる保存密度が存在するというパラドックスを解消する。 可積分系では、kvhスペクトルは古典的かつ半古典的スペクトルのデカルト積である。 古典スペクトルが排除されると、ジェフリーズ=ウェンツェル=クラマーズ=ブリルアンマッチング条件(jwkb)の正しい選択により、半古典スペクトルはマスロフ指数による補正を含むアインシュタイン-ブリルアン=ケラー量子化条件を満たす。 しかし、半古典解析は境界条件、連続性要件、定義の領域について異なる選択を用いる。 例えば、複雑なJWKB法を使用すると、位相空間の複素化によるトンネル処理が可能である。 最後に、KvH波動関数は干渉効果の可能性を含むが、位相空間上のすべての観測可能が局所作用素として近似される場合、干渉は観測不可能である。 干渉効果の観測には非局所的な操作、例えば漸近理論の高次を通して考慮する必要がある。

The phase space Koopman-van Hove (KvH) equation can be derived from the asymptotic semiclassical analysis of partial differential equations. Semiclassical theory yields the Hamilton-Jacobi equation for the complex phase factor and the transport equation for the amplitude. These two equations can be combined to form a nonlinear semiclassical version of the KvH equation in configuration space. There is a natural injection of configuration space solutions into phase space and a natural projection of phase space solutions onto configuration space. Hence, every solution of the configuration space KvH equation satisfies both the semiclassical phase space KvH equation and the Hamilton-Jacobi constraint. For configuration space solutions, this constraint resolves the paradox that there are two different conserved densities in phase space. For integrable systems, the KvH spectrum is the Cartesian product of a classical and a semiclassical spectrum. If the classical spectrum is eliminated, then, with the correct choice of Jeffreys-Wentzel-Kramers-Brillouin (JWKB) matching conditions, the semiclassical spectrum satisfies the Einstein-Brillouin-Keller quantization conditions which include the correction due to the Maslov index. However, semiclassical analysis uses different choices for boundary conditions, continuity requirements, and the domain of definition. For example, use of the complex JWKB method allows for the treatment of tunneling through the complexification of phase space. Finally, although KvH wavefunctions include the possibility of interference effects, interference is not observable when all observables are approximated as local operators on phase space. Observing interference effects requires consideration of nonlocal operations, e.g. through higher orders in the asymptotic theory.
翻訳日:2023-11-22 19:25:55 公開日:2023-11-18
# テキスト駆動画像変換のための条件スコアガイダンス

Conditional Score Guidance for Text-Driven Image-to-Image Translation ( http://arxiv.org/abs/2305.18007v3 )

ライセンス: Link先を確認
Hyunsoo Lee, Minsoo Kang, Bohyung Han(参考訳) 本稿では,事前訓練されたテキスト・画像拡散モデルに基づくテキスト駆動画像変換のための新しいアルゴリズムを提案する。 本手法は,修正テキストで定義されたソース画像の関心領域を選択的に編集し,残りの部分を保存し,対象画像を生成することを目的とする。 目標プロンプトのみに依存する既存の手法とは対照的に、特定の翻訳タスクに対応するために調整されたソース画像とソーステキストプロンプトの両方を考慮に入れる新しいスコア関数を導入する。 この目的のために、条件スコア関数を基準スコアと目標画像生成のためのガイド語に分解し、原則的に導出する。 指導項の勾配計算には,後方分布のガウス分布を仮定し,その平均と分散を推定し,追加の訓練をすることなく勾配を調整できる。 さらに,条件付きスコアガイダンスの品質向上のために,ソースとターゲットの潜伏者から得られた2つのクロスアテンションマップを組み合わせた,シンプルで効果的なミックスアップ手法を取り入れた。 この戦略は、ソース画像における不変部分とターゲットプロンプトに整列した編集領域との望ましい融合を促進するのに有効であり、高忠実なターゲット画像を生成する。 総合的な実験により,様々なタスクにおいて優れた画像から画像への翻訳性能を実現することを実証した。

We present a novel algorithm for text-driven image-to-image translation based on a pretrained text-to-image diffusion model. Our method aims to generate a target image by selectively editing the regions of interest in a source image, defined by a modifying text, while preserving the remaining parts. In contrast to existing techniques that solely rely on a target prompt, we introduce a new score function that additionally considers both the source image and the source text prompt, tailored to address specific translation tasks. To this end, we derive the conditional score function in a principled manner, decomposing it into the standard score and a guiding term for target image generation. For the gradient computation of the guiding term, we assume a Gaussian distribution of the posterior distribution and estimate its mean and variance to adjust the gradient without additional training. In addition, to improve the quality of the conditional score guidance, we incorporate a simple yet effective mixup technique, which combines two cross-attention maps derived from the source and target latents. This strategy is effective for promoting a desirable fusion of the invariant parts in the source image and the edited regions aligned with the target prompt, leading to high-fidelity target image generation. Through comprehensive experiments, we demonstrate that our approach achieves outstanding image-to-image translation performance on various tasks.
翻訳日:2023-11-22 19:23:16 公開日:2023-11-18
# gqfedwavg: エッジコンピューティングシステムにおける最適化に基づく量子化連合学習

GQFedWAvg: Optimization-Based Quantized Federated Learning in General Edge Computing Systems ( http://arxiv.org/abs/2306.07497v2 )

ライセンス: Link先を確認
Yangchen Li, Ying Cui, and Vincent Lau(参考訳) 実用エッジコンピューティングシステムにおけるフェデレートラーニング(FL)の最適実装は際立った問題であった。 本稿では,汎用エッジコンピューティングシステムに対して,作業者の一様あるいは非一様計算と通信資源を適切に適合させることができる最適化に基づく量子化flアルゴリズムを提案する。 具体的には,まず新しいランダム量子化スキームを示し,その性質を解析した。 そこで我々はGQFedWAvgという一般量子化FLアルゴリズムを提案する。 具体的には、GQFedWAvgが提案した量子化スキームを適用して、適切に選択されたモデル更新関連ベクトルを定量化し、グローバルモデルアグリゲーションにおける平均局所モデル更新を重み付けした一般化されたミニバッチ確率勾配勾配(SGD)法を採用する。 さらに、GQFedWAvgには、サーバやワーカのコンピューティングおよび通信リソースに柔軟に適応する、いくつかの調整可能なアルゴリズムパラメータがある。 また、GQFedWAvgの収束も解析する。 次に,gqfedwavgのアルゴリズムパラメータを最適化し,時間およびエネルギー制約下での収束誤差を最小化する。 我々は、一般内積近似(GIA)と複数の微妙なトリックを用いて、難解な非凸問題に取り組むことに成功した。 最後に, gqfedwavg の関数原理を解釈し, 計算結果を用いて既存の fl アルゴリズムに対するその有意な向上を示す。

The optimal implementation of federated learning (FL) in practical edge computing systems has been an outstanding problem. In this paper, we propose an optimization-based quantized FL algorithm, which can appropriately fit a general edge computing system with uniform or nonuniform computing and communication resources at the workers. Specifically, we first present a new random quantization scheme and analyze its properties. Then, we propose a general quantized FL algorithm, namely GQFedWAvg. Specifically, GQFedWAvg applies the proposed quantization scheme to quantize wisely chosen model update-related vectors and adopts a generalized mini-batch stochastic gradient descent (SGD) method with the weighted average local model updates in global model aggregation. Besides, GQFedWAvg has several adjustable algorithm parameters to flexibly adapt to the computing and communication resources at the server and workers. We also analyze the convergence of GQFedWAvg. Next, we optimize the algorithm parameters of GQFedWAvg to minimize the convergence error under the time and energy constraints. We successfully tackle the challenging non-convex problem using general inner approximation (GIA) and multiple delicate tricks. Finally, we interpret GQFedWAvg's function principle and show its considerable gains over existing FL algorithms using numerical results.
翻訳日:2023-11-22 19:13:16 公開日:2023-11-18
# 隠れた分類層:ニューラルネットワーク層におけるクラス間の線形分離性を高める

Hidden Classification Layers: Enhancing linear separability between classes in neural networks layers ( http://arxiv.org/abs/2306.06146v2 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Roberto Prevete(参考訳) 分類問題の文脈では、Deep Learning (DL) アプローチは最先端技術を表している。 多くのDLアプローチは、標準的な多層フィードフォワードニューラルネットワークのバリエーションに基づいている。 これらはディープネットワークとも呼ばれる。 基本的な考え方は、各隠れたニューラルネットワーク層がデータ変換を完了し、データ表現を以前のものよりも「線形に分離可能である」と期待し、可能な限り線形に分離可能な最終的なデータ表現を得る。 しかし、これらの変換を実行できる適切なニューラルネットワークパラメータを決定することが重要な問題である。 本稿では,隠れた層におけるデータ表現が,標準手法に対するクラス間の線形分離性が高いソリューションを好む学習手法のディープネットワーク分類器性能への影響について検討する。 そこで本研究では,すべてのネットワーク層の出力を含む誤差関数を誘導するニューラルネットワークアーキテクチャを提案する。 類似したアプローチは過去にも部分的に議論されてきたが,本論文では,新しいエラー関数と広範な実験解析を備えたアーキテクチャを提案する。 この実験解析は,4つのデータセットを考慮した画像分類タスクの文脈で行った。 その結果, 提案手法はすべての事例において, テストセットの精度を向上することがわかった。

In the context of classification problems, Deep Learning (DL) approaches represent state of art. Many DL approaches are based on variations of standard multi-layer feed-forward neural networks. These are also referred to as deep networks. The basic idea is that each hidden neural layer accomplishes a data transformation which is expected to make the data representation "somewhat more linearly separable" than the previous one to obtain a final data representation which is as linearly separable as possible. However, determining the appropriate neural network parameters that can perform these transformations is a critical problem. In this paper, we investigate the impact on deep network classifier performances of a training approach favouring solutions where data representations at the hidden layers have a higher degree of linear separability between the classes with respect to standard methods. To this aim, we propose a neural network architecture which induces an error function involving the outputs of all the network layers. Although similar approaches have already been partially discussed in the past literature, here we propose a new architecture with a novel error function and an extensive experimental analysis. This experimental analysis was made in the context of image classification tasks considering four widely used datasets. The results show that our approach improves the accuracy on the test set in all the considered cases.
翻訳日:2023-11-22 19:12:09 公開日:2023-11-18
# 組合せ最適化のためのニューラルアルゴリズム推論

Neural Algorithmic Reasoning for Combinatorial Optimisation ( http://arxiv.org/abs/2306.06064v2 )

ライセンス: Link先を確認
Dobrik Georgiev and Danilo Numeroso and Davide Bacciu and Pietro Li\`o(参考訳) ニューラルネットワークによるnpハード/完全組合せ問題を解くことは、古典的な近似アルゴリズムを超越することを目的とした、難しい研究領域である。 長期的目的は、訓練データのみから優れた解を生成することを学ぶことにより、NP-hard/complete問題に対する手設計のヒューリスティックスを上回ることにある。 現在のCO問題の解法は、しばしば問題の固有の「アルゴリズム」の性質を見落としている。 対照的に、TSPのようなCO問題のために設計されたヒューリスティックスは、最小分散木を見つけるような、確立されたアルゴリズムを頻繁に活用する。 本稿では,最近のアルゴリズム推論の進歩を活用し,CO問題の学習を改善することを提案する。 具体的には、COインスタンスでトレーニングする前に、関連するアルゴリズムでニューラルネットワークを事前トレーニングすることを提案する。 以上の結果から,この学習装置を用いることで,非アルゴリズム的情報深層学習モデルよりも優れた性能が得られることが示された。

Solving NP-hard/complete combinatorial problems with neural networks is a challenging research area that aims to surpass classical approximate algorithms. The long-term objective is to outperform hand-designed heuristics for NP-hard/complete problems by learning to generate superior solutions solely from training data. Current neural-based methods for solving CO problems often overlook the inherent "algorithmic" nature of the problems. In contrast, heuristics designed for CO problems, e.g. TSP, frequently leverage well-established algorithms, such as those for finding the minimum spanning tree. In this paper, we propose leveraging recent advancements in neural algorithmic reasoning to improve the learning of CO problems. Specifically, we suggest pre-training our neural model on relevant algorithms before training it on CO instances. Our results demonstrate that by using this learning setup, we achieve superior performance compared to non-algorithmically informed deep learning models.
翻訳日:2023-11-22 19:11:52 公開日:2023-11-18
# MIMOにインスパイアされたDPPMAP推論を用いた帯域制約付きマルチソースデータの学習

Learning on Bandwidth Constrained Multi-Source Data with MIMO-inspired DPP MAP Inference ( http://arxiv.org/abs/2306.02497v2 )

ライセンス: Link先を確認
Xiwen Chen, Huayu Li, Rahul Amin, Abolfazl Razi(参考訳) 本稿では,通信帯域に制限のあるマルチソースデータ分散化を実現するために,DPP推論の分散バージョンを提案する。 DPPは、選択されたサブセット内の要素の反発を強制することで、データの多様性を改善する一般的な確率論的アプローチである。 DPPにおけるMAP(Maximum A Posteriori)推論は、DPPによって定量化された最も多様性の高いサブセットを特定することを目的としている。 しかし、このアプローチは、すべてのデータサンプルが1つの時点で利用可能であるという仮定で制限されており、データサンプルがソース間で分散され、それらの間の通信が帯域制限されているトラフィックデータセットのような現実世界のアプリケーションへの適用を妨げている。 マルチ入力多重出力(MIMO)通信システムで使用される技術に着想を得て,分散ソース間でMAP推論を行う手法を提案する。 特に,多様性を最大化する分散サンプル選択問題の下位境界をMIMOシステムにおける電力配分問題として扱うことができることを示す。 選択されたサンプルの行列保存スパース表現を用いて、DPPによって処理されるローカルソースでサンプルプリコーディングを行う。 本手法はソース間の生のデータ交換を必要とせず,mimoシステムにおけるcsiメッセージに類似した,軽量な多様性測定を行うための帯域制限型フィードバックチャネルである。 実験により,本手法は,ランダム選択,無フィードバックで個々のdpp,非i.i.d設定でsvdベースのフィードバックを用いたdppなど,ベースライン手法よりも優れることが示された。 具体的には、CIFAR-10、CIFAR-100、StanfordCars、GTSRBデータセットの潜在表現において、1対6のログ差の多様性向上を達成する。

This paper proposes a distributed version of Determinant Point Processing (DPP) inference to enhance multi-source data diversification under limited communication bandwidth. DPP is a popular probabilistic approach that improves data diversity by enforcing the repulsion of elements in the selected subsets. The well-studied Maximum A Posteriori (MAP) inference in DPP aims to identify the subset with the highest diversity quantified by DPP. However, this approach is limited by the presumption that all data samples are available at one point, which hinders its applicability to real-world applications such as traffic datasets where data samples are distributed across sources and communication between them is band-limited. Inspired by the techniques used in Multiple-Input Multiple-Output (MIMO) communication systems, we propose a strategy for performing MAP inference among distributed sources. Specifically, we show that a lower bound of the diversity-maximized distributed sample selection problem can be treated as a power allocation problem in MIMO systems. A determinant-preserved sparse representation of selected samples is used to perform sample precoding in local sources to be processed by DPP. Our method does not require raw data exchange among sources, but rather a band-limited feedback channel to send lightweight diversity measures, analogous to the CSI message in MIMO systems, from the center to data sources. The experiments show that our scalable approach can outperform baseline methods, including random selection, uninformed individual DPP with no feedback, and DPP with SVD-based feedback, in both i.i.d and non-i.i.d setups. Specifically, it achieves 1 to 6 log-difference diversity gain in the latent representation of CIFAR-10, CIFAR-100, StanfordCars, and GTSRB datasets.
翻訳日:2023-11-22 19:09:17 公開日:2023-11-18
# Waypoint Transformer:中間目標を用いた監視学習による強化学習

Waypoint Transformer: Reinforcement Learning via Supervised Learning with Intermediate Targets ( http://arxiv.org/abs/2306.14069v2 )

ライセンス: Link先を確認
Anirudhan Badrinath and Yannis Flet-Berliac and Allen Nie and Emma Brunskill(参考訳) 教師付き学習(RvS)によるオフライン強化学習の最近の進歩と、さまざまな領域における決定変換器(DT)アーキテクチャの成功にもかかわらず、DTはいくつかの挑戦的なベンチマークで不足している。 この低性能の根本原因は、準最適軌道のセグメントをシームレスに接続できないことである。 この限界を克服するために,中間目標を統合することでrss法を強化する新しい手法を提案する。 我々は、DTフレームワーク上に構築され、自動生成されたウェイポイントに条件付けされたアーキテクチャを用いて、WT(Waypoint Transformer)を導入する。 その結果,従来のRvS法と比較して最終帰納率は有意に増加し,従来の時間差分学習法よりも同等以上の性能を示した。 さらに、パフォーマンスと安定性の改善は、AntMaze Large Play/DiverseやKitchen Mixed/Partialなど、最も困難な環境とデータ構成において最大である。

Despite the recent advancements in offline reinforcement learning via supervised learning (RvS) and the success of the decision transformer (DT) architecture in various domains, DTs have fallen short in several challenging benchmarks. The root cause of this underperformance lies in their inability to seamlessly connect segments of suboptimal trajectories. To overcome this limitation, we present a novel approach to enhance RvS methods by integrating intermediate targets. We introduce the Waypoint Transformer (WT), using an architecture that builds upon the DT framework and conditioned on automatically-generated waypoints. The results show a significant increase in the final return compared to existing RvS methods, with performance on par or greater than existing state-of-the-art temporal difference learning-based methods. Additionally, the performance and stability improvements are largest in the most challenging environments and data configurations, including AntMaze Large Play/Diverse and Kitchen Mixed/Partial.
翻訳日:2023-11-22 19:00:57 公開日:2023-11-18
# 集合効果強化マルチキュービット情報エンジン

Collective effects enhanced multi-qubit information engines ( http://arxiv.org/abs/2306.12072v2 )

ライセンス: Link先を確認
Noufal Jaseem and Victor Mukherjee(参考訳) 本研究では,マルチ量子ビット加工媒体(wm)を単一熱浴に結合した量子情報エンジン(qie)について検討した。 その結果,集合効果を欠いた同等のエンジンと比較して,qieの性能を著しく向上させることができた。 我々はWM磁化に関する情報を熱浴から取り出すために用いている。 本研究では, 作業出力, ノイズ-信号比, 熱力学的不確実性関係を解析し, 集合QIEの性能指標とWM量子ビットが熱浴と独立に結合したエンジンの性能指標とを比較した。 熱浴の高温限界では,集合型qieが常に独立系よりも優れていることを示す。 特定の熱の集合的増強がエンジンの性能向上に直接的な役割を果たす量子熱エンジンとは対照的に、集団的優位性は独立の場合と比較して正磁化状態のより高いエネルギーレベルに対する高い占有確率から生じる。

We study a quantum information engine (QIE) modeled by a multi-qubit working medium (WM) collectively coupled to a single thermal bath. We show that one can harness the collective effects to significantly enhance the performance of the QIE, as compared to equivalent engines lacking collective effects. We use one bit of information about the WM magnetization to extract work from the thermal bath. We analyze the work output, noise-to-signal ratio and thermodynamic uncertainty relation, and contrast these performance metrics of a collective QIE with that of an engine whose WM qubits are coupled independently to a thermal bath. We show that in the limit of high temperatures of the thermal bath, a collective QIE always outperforms its independent counterpart. In contrast to quantum heat engines, where collective enhancement in specific heat plays a direct role in improving the performance of the engines, here the collective advantage stems from higher occupation probabilities for the higher energy levels of the positive magnetization states, as compared to the independent case.
翻訳日:2023-11-22 18:59:26 公開日:2023-11-18
# 自然視覚シーンに対する神経反応の時間的コンディショニングスパイク潜在変数モデル

Temporal Conditioning Spiking Latent Variable Models of the Neural Response to Natural Visual Scenes ( http://arxiv.org/abs/2306.12045v5 )

ライセンス: Link先を確認
Gehua Ma, Runhao Jiang, Rui Yan, Huajin Tang(参考訳) 神経応答の計算モデルの開発は、感覚処理と神経計算を理解する上で重要である。 現在の最先端のニューラルネットワーク手法は、時間的依存関係を処理するために時間的フィルタを使用し、非現実的で柔軟な処理パラダイムをもたらす。 一方、これらの方法は試験的な平均射撃率を目標とし、スパイク列車の重要な特徴を捉えられなかった。 本研究は, 時間条件付潜時変動モデル(TeCoS-LVM)を提示し, 自然視覚刺激に対する神経応答をシミュレートする。 我々はスパイキングニューロンを用いて、記録された列車と直接一致するスパイク出力を生成する。 このアプローチは、オリジナルのスパイク列車に埋め込まれた情報を失うのを避けるのに役立つ。 モデルパラメータ空間から時間次元を除外し、時間条件付き操作を導入し、モデルが自然パラダイムにおける刺激配列の時間依存性を適応的に探索し活用できるようにする。 tecos-lvmモデルはより現実的なスパイクアクティビティを生成でき、強力な代替品よりもスパイク統計に正確に適合する。 さらに、学習したTeCoS-LVMモデルは、より長い時間スケールでうまく一般化することができる。 全体として、計算可能でありながら、我々のモデルは、ニューラルネットワークシステムの重要な特徴を効果的に捉えている。 これにより、様々な知覚知覚回路の正確な予測計算アカウントを構築するための有用なツールを提供する。

Developing computational models of neural response is crucial for understanding sensory processing and neural computations. Current state-of-the-art neural network methods use temporal filters to handle temporal dependencies, resulting in an unrealistic and inflexible processing paradigm. Meanwhile, these methods target trial-averaged firing rates and fail to capture important features in spike trains. This work presents the temporal conditioning spiking latent variable models (TeCoS-LVM) to simulate the neural response to natural visual stimuli. We use spiking neurons to produce spike outputs that directly match the recorded trains. This approach helps to avoid losing information embedded in the original spike trains. We exclude the temporal dimension from the model parameter space and introduce a temporal conditioning operation to allow the model to adaptively explore and exploit temporal dependencies in stimuli sequences in a {\it natural paradigm}. We show that TeCoS-LVM models can produce more realistic spike activities and accurately fit spike statistics than powerful alternatives. Additionally, learned TeCoS-LVM models can generalize well to longer time scales. Overall, while remaining computationally tractable, our model effectively captures key features of neural coding systems. It thus provides a useful tool for building accurate predictive computational accounts for various sensory perception circuits.
翻訳日:2023-11-22 18:59:09 公開日:2023-11-18
# LVM-Med:2次グラフマッチングによる医用イメージングのための大規模自己スーパービジョンモデル学習

LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching ( http://arxiv.org/abs/2306.11925v3 )

ライセンス: Link先を確認
Duy M. H. Nguyen, Hoang Nguyen, Nghiem T. Diep, Tan N. Pham, Tri Cao, Binh T. Nguyen, Paul Swoboda, Nhat Ho, Shadi Albarqouni, Pengtao Xie, Daniel Sonntag, Mathias Niepert(参考訳) 注釈付きサンプルを限定した新しいタスクに微調整できる大規模な事前訓練モデルを持つことは、医療画像データにとってオープンな課題である。 ImageNetの事前訓練されたディープネットワークとWebスケールデータで訓練されたビジョン言語基盤モデルが一般的であるが、天然画像と医用画像のドメインシフトが大きいため、医療タスクにおけるそれらの効果は限られている。 このギャップを埋めるために,大規模医療データセットでトレーニングされた最初のディープネットワークであるlmm-medを紹介する。 我々は、55の公開データセットから約130万の医療画像を収集し、CT、MRI、X線、超音波などの多数の臓器とモダリティをカバーした。 このデータセット上で,最先端の自己教師付きアルゴリズムをベンチマークし,グラフマッチングを用いた新しい自己教師付きコントラスト学習アルゴリズムを提案する。 提案するアプローチには3つの貢献がある。 (i)地域情報及びグローバル情報に基づく先行的な対向画像類似度指標を統合する。 (ii)組合せグラフマッチング目的によって構築された損失関数を通して特徴埋め込みの構造的制約を捉え、 (iii)ブラックボックスソルバに対する現代の勾配推定手法を用いて、エンドツーエンドを効率的に訓練することができる。 提案手法は,セグメンテーションや分類,オブジェクト検出,分布内および分布外の設定など15の下流医療タスクにおいて,提案手法を徹底的に評価した。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。 脳腫瘍分類や糖尿病網膜症グラディングといった課題に対して、LVM-MedはResNet-50のみを使用しながら、10億のマスクでトレーニングされた以前の視覚言語モデルを6~7%改善する。

Obtaining large pre-trained models that can be fine-tuned to new tasks with limited annotated samples has remained an open challenge for medical imaging data. While pre-trained deep networks on ImageNet and vision-language foundation models trained on web-scale data are prevailing approaches, their effectiveness on medical tasks is limited due to the significant domain shift between natural and medical images. To bridge this gap, we introduce LVM-Med, the first family of deep networks trained on large-scale medical datasets. We have collected approximately 1.3 million medical images from 55 publicly available datasets, covering a large number of organs and modalities such as CT, MRI, X-ray, and Ultrasound. We benchmark several state-of-the-art self-supervised algorithms on this dataset and propose a novel self-supervised contrastive learning algorithm using a graph-matching formulation. The proposed approach makes three contributions: (i) it integrates prior pair-wise image similarity metrics based on local and global information; (ii) it captures the structural constraints of feature embeddings through a loss function constructed via a combinatorial graph-matching objective; and (iii) it can be trained efficiently end-to-end using modern gradient-estimation techniques for black-box solvers. We thoroughly evaluate the proposed LVM-Med on 15 downstream medical tasks ranging from segmentation and classification to object detection, and both for the in and out-of-distribution settings. LVM-Med empirically outperforms a number of state-of-the-art supervised, self-supervised, and foundation models. For challenging tasks such as Brain Tumor Classification or Diabetic Retinopathy Grading, LVM-Med improves previous vision-language models trained on 1 billion masks by 6-7% while using only a ResNet-50.
翻訳日:2023-11-22 18:58:45 公開日:2023-11-18
# リンク予測のためのグラフニューラルネットワークの評価:現在の落とし穴とベンチマーク

Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls and New Benchmarking ( http://arxiv.org/abs/2306.10453v3 )

ライセンス: Link先を確認
Juanhui Li, Harry Shomer, Haitao Mao, Shenglai Zeng, Yao Ma, Neil Shah, Jiliang Tang, Dawei Yin(参考訳) リンク予測は、グラフのエッジの一部のみに基づいて、見当たらないエッジが存在するかどうかを予測しようとする。 近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。 さらに、これらの新しいモデルの有効性をより良く評価するために、新しく多様なデータセットも作成されている。 しかし、これらの新しい手法を適切に評価する能力を阻害する複数の落とし穴がある。 これらの落とし穴には、(1)複数のベースラインでの実際のパフォーマンスよりも低いこと、(2)いくつかのデータセットにおける統一データ分割と評価指標の欠如、(3)簡単な負のサンプルを用いた非現実的な評価設定が含まれる。 これらの課題を克服するために、我々はまず、同じデータセットとハイパーパラメータ検索設定を利用して、注目すべきメソッドとデータセットを公正に比較する。 次に,複数のヒューリスティックスを用いて硬い負のサンプルをサンプリングするヒューリスティック関連サンプリング手法(heart)に基づいて,より実用的な評価設定を行う。 新しい評価設定は、評価を現実世界の状況に合わせることによって、リンク予測の新たな挑戦と機会を促進するのに役立つ。 私たちの実装とデータはhttps://github.com/Juanhui28/HeaRTで利用可能です。

Link prediction attempts to predict whether an unseen edge exists based on only a portion of edges of a graph. A flurry of methods have been introduced in recent years that attempt to make use of graph neural networks (GNNs) for this task. Furthermore, new and diverse datasets have also been created to better evaluate the effectiveness of these new models. However, multiple pitfalls currently exist that hinder our ability to properly evaluate these new methods. These pitfalls mainly include: (1) Lower than actual performance on multiple baselines, (2) A lack of a unified data split and evaluation metric on some datasets, and (3) An unrealistic evaluation setting that uses easy negative samples. To overcome these challenges, we first conduct a fair comparison across prominent methods and datasets, utilizing the same dataset and hyperparameter search settings. We then create a more practical evaluation setting based on a Heuristic Related Sampling Technique (HeaRT), which samples hard negative samples via multiple heuristics. The new evaluation setting helps promote new challenges and opportunities in link prediction by aligning the evaluation with real-world situations. Our implementation and data are available at https://github.com/Juanhui28/HeaRT
翻訳日:2023-11-22 18:57:27 公開日:2023-11-18
# 関数近似を用いたCVaR強化学習の高速化

Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation ( http://arxiv.org/abs/2307.02842v2 )

ライセンス: Link先を確認
Yu Chen, Yihan Du, Pihe Hu, Siwei Wang, Desheng Wu, Longbo Huang(参考訳) リスクセンシティブ強化学習(rl)は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。 本稿では,線形および一般関数近似の下での反復条件値-アット・リスク(CVaR)目標を用いたリスク感応性RLの新規な定式化について検討する。 関数近似を備えた ICVaR-RL と呼ばれるこの新しい定式化は、各決定ステップにおける安全性を保証するための原則化された方法を提供する。 線形関数近似を持つicvar-rlに対して、計算効率の良いアルゴリズムicvar-lを提案し、$\widetilde{o}(\sqrt{\alpha^{-(h+1)}(d^2h^4+dh^6)k})$ regret、ここで$\alpha$はリスクレベル、$d$は状態動作特徴の次元、$h$は各エピソードの長さ、$k$はエピソード数である。 また、一致した下界$\Omega(\sqrt{\alpha^{-(H-1)}d^2K})$を確立して、$d$および$K$に対するCVaR-Lの最適性を検証する。 一般関数近似を用いた ICVaR-RL に対し, アルゴリズム ICVaR-G を提案し, ユーラダー次元と被覆数に依存する次元パラメータを $\widetilde{O}(\sqrt{\alpha^{-(H+1)}DH^4K})$ regret とする。 さらに, CVaR 演算子の効率的な近似, CVaR 適応特徴を持つ新しい隆起回帰, 改良された楕円形の潜在性レムマなど, リスクに敏感な RL の新たな手法が提案されている。

Risk-sensitive reinforcement learning (RL) aims to optimize policies that balance the expected reward and risk. In this paper, we investigate a novel risk-sensitive RL formulation with an Iterated Conditional Value-at-Risk (CVaR) objective under linear and general function approximations. This new formulation, named ICVaR-RL with function approximation, provides a principled way to guarantee safety at each decision step. For ICVaR-RL with linear function approximation, we propose a computationally efficient algorithm ICVaR-L, which achieves an $\widetilde{O}(\sqrt{\alpha^{-(H+1)}(d^2H^4+dH^6)K})$ regret, where $\alpha$ is the risk level, $d$ is the dimension of state-action features, $H$ is the length of each episode, and $K$ is the number of episodes. We also establish a matching lower bound $\Omega(\sqrt{\alpha^{-(H-1)}d^2K})$ to validate the optimality of ICVaR-L with respect to $d$ and $K$. For ICVaR-RL with general function approximation, we propose algorithm ICVaR-G, which achieves an $\widetilde{O}(\sqrt{\alpha^{-(H+1)}DH^4K})$ regret, where $D$ is a dimensional parameter that depends on the eluder dimension and covering number. Furthermore, our analysis provides several novel techniques for risk-sensitive RL, including an efficient approximation of the CVaR operator, a new ridge regression with CVaR-adapted features, and a refined elliptical potential lemma.
翻訳日:2023-11-22 18:47:24 公開日:2023-11-18
# 多波長磁気光学トラップのための最適二元格子

Optimal binary gratings for multi-wavelength magneto-optical traps ( http://arxiv.org/abs/2306.17080v3 )

ライセンス: Link先を確認
Oliver S. Burrow, Robert J. Fasano, Wesley Brand, Michael W. Wright, Wenbo Li, Andrew D. Ludlow, Erling Riis, Paul F. Griffin, and Aidan S. Arnold(参考訳) 格子磁気光学トラップは、超低温原子を持つ携帯型気象デバイスのための量子技術である。 しかし、ビーム回折効率と角度は波長に影響され、SrやYbなどの原子を光学格子やツイーザークロックにロードするのによく用いられるように、2つの異なる波長でレーザー冷却を行うための単一光学設計課題が生じる。 本稿では,様々な波長の2次格子を光学的特徴付けし,様々なデューティサイクルの次元のないエッチング深さと周期の観点から,実験格子回折効率データに簡単な経験的適合性を求める。 このモデルでは複雑な3次元光回折表面の計算は避けるが、それでも幅広いパラメータで数パーセントの精度が得られる。 2つまたはそれ以上の波長に最適化されたグレーティングは、先進的な量子技術を実現する幅広い種類の原子種に適した情報的方法で設計することができる。

Grating magneto-optical traps are an enabling quantum technology for portable metrological devices with ultracold atoms. However, beam diffraction efficiency and angle are affected by wavelength, creating a single-optic design challenge for laser cooling in two stages at two distinct wavelengths - as commonly used for loading e.g. Sr or Yb atoms into optical lattice or tweezer clocks. Here, we optically characterize a wide variety of binary gratings at different wavelengths to find a simple empirical fit to experimental grating diffraction efficiency data in terms of dimensionless etch depth and period for various duty cycles. The model avoids complex 3D light-grating surface calculations, yet still yields results accurate to a few percent across a broad range of parameters. Gratings optimized for two (or more) wavelengths can now be designed in an informed manner suitable for a wide class of atomic species enabling advanced quantum technologies.
翻訳日:2023-11-22 18:45:03 公開日:2023-11-18
# SCESAMEによるゼロショットエッジ検出: セグメンテーションモデル推定のためのスペクトルクラスタリングに基づくアンサンブル

Zero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model Estimation ( http://arxiv.org/abs/2308.13779v2 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Yusuke Takase, Hiroyuki Kambe, Ryosuke Nakamoto(参考訳) 本稿では,SCESAMEを用いた新たなゼロショットエッジ検出法を提案する。SCESAMEは,Segment Anything Model(SAM)に基づくSegment Anything Model Estimationのためのスペクトルクラスタリングに基づくアンサンブルである。 SAMはセグメンテーションタスクの基礎モデルであり、SAMの興味深い応用の1つは、画像全体のゼロショットセグメンテーションマスクを生成する自動マスク生成(AMG)である。 AMGはエッジ検出に適用できるが、エッジの過剰検出の問題に悩まされる。 SCESAMEによるエッジ検出は,(1)小さなマスクの除去,(2)スペクトルクラスタリングによるマスクの組み合わせ,(2)マスクの位置と重なりを考慮した,(3)エッジ検出後のアーティファクトの除去という3つのステップでこの問題を克服する。 bsds500とnyudv2の2つのデータセットでエッジ検出実験を行った。 我々のゼロショットアプローチは単純だが、BSDS500の実験結果は7年前の人間のパフォーマンスとCNNベースの手法とほぼ同じ性能を示した。 NYUDv2実験では、最近のCNNベースの手法とほぼ同等の性能を発揮した。 これらの結果から,本手法はSAMの有用性を効果的に向上し,ゼロショットエッジ検出法における新たな方向となる可能性が示唆された。

This paper proposes a novel zero-shot edge detection with SCESAME, which stands for Spectral Clustering-based Ensemble for Segment Anything Model Estimation, based on the recently proposed Segment Anything Model (SAM). SAM is a foundation model for segmentation tasks, and one of the interesting applications of SAM is Automatic Mask Generation (AMG), which generates zero-shot segmentation masks of an entire image. AMG can be applied to edge detection, but suffers from the problem of overdetecting edges. Edge detection with SCESAME overcomes this problem by three steps: (1) eliminating small generated masks, (2) combining masks by spectral clustering, taking into account mask positions and overlaps, and (3) removing artifacts after edge detection. We performed edge detection experiments on two datasets, BSDS500 and NYUDv2. Although our zero-shot approach is simple, the experimental results on BSDS500 showed almost identical performance to human performance and CNN-based methods from seven years ago. In the NYUDv2 experiments, it performed almost as well as recent CNN-based methods. These results indicate that our method effectively enhances the utility of SAM and can be a new direction in zero-shot edge detection methods.
翻訳日:2023-11-22 18:23:42 公開日:2023-11-18
# 3D Pose Nowcasting:未来を予測して現在を改善

3D Pose Nowcasting: Forecast the Future to Improve the Present ( http://arxiv.org/abs/2308.12914v2 )

ライセンス: Link先を確認
Alessandro Simoni, Francesco Marchetti, Guido Borghi, Federico Becattini, Lorenzo Seidenari, Roberto Vezzani, Alberto Del Bimbo(参考訳) 人間とロボットの安全で効果的なコラボレーションと共存を可能にする技術は、ここ数年で重要になっている。 この協調パラダイムを実現する上で重要な要素は、非侵襲システムを用いた人間とロボットの3dポーズを理解することである。 そこで本稿では,深部データを利用して骨格関節の3次元位置を正確に決定するビジョンベースシステムを提案する。 具体的には,現在行われているポーズ推定の精度を,将来的なポーズを予測するために共同学習することで向上させるシステムについて述べる。 実験評価は, 2つの異なるデータセットを用いて実施し, 精度とリアルタイム性を提供し, ロボットと人間の両方のシナリオにおいて提案手法の有効性を確認した。

Technologies to enable safe and effective collaboration and coexistence between humans and robots have gained significant importance in the last few years. A critical component useful for realizing this collaborative paradigm is the understanding of human and robot 3D poses using non-invasive systems. Therefore, in this paper, we propose a novel vision-based system leveraging depth data to accurately establish the 3D locations of skeleton joints. Specifically, we introduce the concept of Pose Nowcasting, denoting the capability of the proposed system to enhance its current pose estimation accuracy by jointly learning to forecast future poses. The experimental evaluation is conducted on two different datasets, providing accurate and real-time performance and confirming the validity of the proposed method on both the robotic and human scenarios.
翻訳日:2023-11-22 18:23:19 公開日:2023-11-18
# MatFuse:拡散モデルによる制御可能な材料生成

MatFuse: Controllable Material Generation with Diffusion Models ( http://arxiv.org/abs/2308.11408v2 )

ライセンス: Link先を確認
Giuseppe Vecchio, Renato Sortino, Simone Palazzo, Concetto Spampinato(参考訳) コンピュータグラフィックスで高品質な素材を作ることは困難で時間を要する作業であり、優れた専門知識を必要とする。 この過程を単純にするために、拡散モデルの生成力を利用してsvbrdfマップを作成する統一的なアプローチであるmatfuseを紹介する。 我々のパイプラインは、カラーパレット、スケッチ、テキスト、画像を含む複数の条件付け源を統合し、材料合成におけるきめ細かい制御と柔軟性を実現する。 このデザインは多様な情報ソース(スケッチ+テキストなど)の組み合わせを可能にし、構成性の原則に従って創造性を高める。 さらに,2つの目的を持つマルチエンコーダ圧縮モデルを提案し,各マップに対して別個の潜在表現を学習することで再構成性能を向上し,マップレベルの素材編集機能を実現する。 複数の条件設定下でのMatFuseの有効性を実証し,材料編集の可能性を探る。 また,CLIP-IQAおよびFIDスコアを用いて,生成材料の品質を定量的に評価した。 MatFuseのトレーニング用ソースコードはhttps://gvecchio.com/matfuse.comで公開されている。

Creating high-quality materials in computer graphics is a challenging and time-consuming task, which requires great expertise. To simply this process, we introduce MatFuse, a unified approach that harnesses the generative power of diffusion models to simplify the creation of SVBRDF maps. Our pipeline integrates multiple sources of conditioning, including color palettes, sketches, text, and pictures, for a fine-grained control and flexibility in material synthesis. This design enables the combination of diverse information sources (e.g., sketch + text), enhancing creative possibilities in line with the principle of compositionality. Additionally, we propose a multi-encoder compression model with a two-fold purpose: it improves reconstruction performance by learning a separate latent representation for each map and enables a map-level material editing capabilities. We demonstrate the effectiveness of MatFuse under multiple conditioning settings and explore the potential of material editing. We also quantitatively assess the quality of the generated materials in terms of CLIP-IQA and FID scores. \\ Source code for training MatFuse will be made publically available at https://gvecchio.com/matfuse.
翻訳日:2023-11-22 18:22:07 公開日:2023-11-18
# 大規模中国語モデルの生成能力の評価

Evaluating the Generation Capabilities of Large Chinese Language Models ( http://arxiv.org/abs/2308.04823v3 )

ライセンス: Link先を確認
Hui Zeng, Jingyuan Xue, Meng Hao, Chen Sun, Bin Ning, Na Zhang(参考訳) 本稿では,幅広い学術分野にわたる大規模中国語モデルの生成能力を総合的に評価したCG-Evalについて述べる。 モデルの性能は, 理工学, 人文科学, 数学計算, 医療実践資格試験, 司法試験, 公認会計士試験の6分野において, 様々な種類の質問に対して, 正確かつ関連性の高い回答を得られる能力に基づいて評価された。 本稿では,複数の指標の重み付け和から導出した合成指標であるGscoreについて,参照に対してモデル生成の品質を測定する。 テストデータとテスト結果はhttp://cgeval.besteasy.com/で確認できる。

This paper presents CG-Eval, the first comprehensive evaluation of the generation capabilities of large Chinese language models across a wide range of academic disciplines. The models' performance was assessed based on their ability to generate accurate and relevant responses to different types of questions in six disciplines, namely, Science and Engineering, Humanities and Social Sciences, Mathematical Calculations, Medical Practitioner Qualification Examination, Judicial Examination, and Certified Public Accountant Examination. This paper also presents Gscore, a composite index derived from the weighted sum of multiple metrics to measure the quality of model's generation against a reference. The test data and test results can be found at http://cgeval.besteasy.com/.
翻訳日:2023-11-22 18:19:02 公開日:2023-11-18
# 確率的プログラミングにおける学習モードとしてのpearlとjeffreyの更新

Pearl's and Jeffrey's Update as Modes of Learning in Probabilistic Programming ( http://arxiv.org/abs/2309.07053v2 )

ライセンス: Link先を確認
Bart Jacobs and Dario Stein(参考訳) 新しい証拠に照らして確率分布を更新するという概念は、統計学と機械学習の中心にある。 パールとジェフリーのルールは、異なる結果をもたらす2つの自然な更新メカニズムであるが、類似点と相違点はまだ謎のままである。 本稿では、確率的プログラムとサンプリングセマンティクスの観点から2つの更新メカニズムを別々に記述し、パールとジェフリーについて)異なる可能性の概念でそれらの関係を明らかにする。 さらに,jeffreyの更新規則は変分推論によって生じることを示した。 カテゴリー的確率論の観点では、これは分布モナドのクライスリ圏に拡張された多重集合関手の振舞いの観点からの状況の分析に相当する。

The concept of updating a probability distribution in the light of new evidence lies at the heart of statistics and machine learning. Pearl's and Jeffrey's rule are two natural update mechanisms which lead to different outcomes, yet the similarities and differences remain mysterious. This paper clarifies their relationship in several ways: via separate descriptions of the two update mechanisms in terms of probabilistic programs and sampling semantics, and via different notions of likelihood (for Pearl and for Jeffrey). Moreover, it is shown that Jeffrey's update rule arises via variational inference. In terms of categorical probability theory, this amounts to an analysis of the situation in terms of the behaviour of the multiset functor, extended to the Kleisli category of the distribution monad.
翻訳日:2023-11-22 18:11:43 公開日:2023-11-18
# 医用画像登録のためのオンザフライ指導

On-the-Fly Guidance Training for Medical Image Registration ( http://arxiv.org/abs/2308.15216v3 )

ライセンス: Link先を確認
Yicheng Chen, Shengxiang Ji, Yuelin Xin, Kun Han, Xiaohui Xie(参考訳) 本研究は,学習に基づく画像登録の分野において,弱い教師付きおよび教師なしの方法に固有の制限に対処した新しいアプローチを探求する。 弱教師付き手法は少ないラベル付きデータに大きく依存するが、教師なし戦略は画像類似性による間接的精度測定に依存する。 特に、従来の教師付き学習は、医療画像の正確な変形の欠如のために使われない。 本研究は,既存のモデルを強化するために,textbf{On-the-Fly Guidance} (OFG) を用いたユニークなトレーニングフレームワークを提案する。 このフレームワークは、トレーニング中に、我々のカスタムオプティマイザで現在の変形予測を精査することで、数ステップ前に擬似地下真実を生成する。 この疑似基底真理は、教師付き学習コンテキストでモデルを直接監督するのに役立ちます。 このプロセスでは、予測変形を限られたステップで最適化し、トレーニング効率を確保し、各トレーニングフェーズの達成可能な目標を設定する。 OFGは、学習ベースの手法の速度を維持しながら、既存の画像登録技術の精度を著しく向上させる。 提案手法は,既定登録モデルからの予測や最適化アウトプットを含む様々な疑似根拠真理生成戦略を用いて評価した。 実験は3つのベンチマークデータセットと3つの最先端モデルにまたがって行われた。 OFGは、学習に基づく画像登録モデルのトレーニング効率を高めるために、容易に統合可能なプラグアンドプレイソリューションを提供する。 コード: https://github.com/miraclefactory/on-the-fly-guidance.com

This research explores a novel approach in the realm of learning-based image registration, addressing the limitations inherent in weakly-supervised and unsupervised methods. Weakly-supervised techniques depend heavily on scarce labeled data, while unsupervised strategies rely on indirect measures of accuracy through image similarity. Notably, traditional supervised learning is not utilized due to the lack of precise deformation ground-truth in medical imaging. Our study introduces a unique training framework with \textbf{On-the-Fly Guidance} (OFG) to enhance existing models. This framework, during training, generates pseudo-ground truth a few steps ahead by refining the current deformation prediction with our custom optimizer. This pseudo-ground truth then serves to directly supervise the model in a supervised learning context. The process involves optimizing the predicted deformation with a limited number of steps, ensuring training efficiency and setting achievable goals for each training phase. OFG notably boosts the precision of existing image registration techniques while maintaining the speed of learning-based methods. We assessed our approach using various pseudo-ground truth generation strategies, including predictions and optimized outputs from established registration models. Our experiments spanned three benchmark datasets and three cutting-edge models, with OFG demonstrating significant and consistent enhancements, surpassing previous state-of-the-arts in the field. OFG offers an easily integrable plug-and-play solution to enhance the training effectiveness of learning-based image registration models. Code at https://github.com/miraclefactory/on-the-fly-guidance.
翻訳日:2023-11-22 18:06:31 公開日:2023-11-18
# 生成型圧縮センシングのためのモデル適応フーリエサンプリング

Model-adapted Fourier sampling for generative compressed sensing ( http://arxiv.org/abs/2310.04984v2 )

ライセンス: Link先を確認
Aaron Berk, Simone Brugiapaglia, Yaniv Plan, Matthew Scott, Xia Sheng, Ozgur Yilmaz(参考訳) 測定行列を単位行列からランダムにサブサンプリングした場合(DFTが重要な場合)に生成的圧縮センシングについて検討する。 最近、$\textit{o}(kdn\| \boldsymbol{\alpha}\|_{\infty}^{2})$一様ランダムフーリエ測定は、ニューラルネットワークの範囲内の信号を回復するのに十分であることが示されている:\mathbb{r}^k \to \mathbb{r}^n$ of depth $d$、ここで、いわゆる局所コヒーレンスベクトル $\boldsymbol{\alpha}$は、対応するフーリエベクトルのアライメントを$g$の範囲で定量化する。 我々は,$\textit{o}(kd\| \boldsymbol{\alpha}\|_{2}^{2})$のサンプル複雑性を改善したモデル適応サンプリング戦略を構築した。 これにより,(1)不均一にランダムなサンプリング分布に対する新たな理論的回復が保証され,(2)サンプリング分布を最適化し,これらの保証に必要な測定回数を最小化する。 この開発は、しばしば低いフーリエ周波数とほぼ極大に一致している自然信号クラスに適用可能なサンプル複雑性を提供する。 最後に,セレバデータセットを用いたリカバリ実験において,サロゲートサンプリング方式を検討し,その性能を検証する。

We study generative compressed sensing when the measurement matrix is randomly subsampled from a unitary matrix (with the DFT as an important special case). It was recently shown that $\textit{O}(kdn\| \boldsymbol{\alpha}\|_{\infty}^{2})$ uniformly random Fourier measurements are sufficient to recover signals in the range of a neural network $G:\mathbb{R}^k \to \mathbb{R}^n$ of depth $d$, where each component of the so-called local coherence vector $\boldsymbol{\alpha}$ quantifies the alignment of a corresponding Fourier vector with the range of $G$. We construct a model-adapted sampling strategy with an improved sample complexity of $\textit{O}(kd\| \boldsymbol{\alpha}\|_{2}^{2})$ measurements. This is enabled by: (1) new theoretical recovery guarantees that we develop for nonuniformly random sampling distributions and then (2) optimizing the sampling distribution to minimize the number of measurements needed for these guarantees. This development offers a sample complexity applicable to natural signal classes, which are often almost maximally coherent with low Fourier frequencies. Finally, we consider a surrogate sampling scheme, and validate its performance in recovery experiments using the CelebA dataset.
翻訳日:2023-11-22 17:47:33 公開日:2023-11-18
# 未特定視覚課題におけるショートカットの緩和のための拡散不整合表現の活用

Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks ( http://arxiv.org/abs/2310.02230v5 )

ライセンス: Link先を確認
Luca Scimeca, Alexander Rubinstein, Armand Mihai Nicolicioiu, Damien Teney and Yoshua Bengio(参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近距離学習現象につながり、モデルが信頼できるものを無視しながら、誤った、分かりやすい手がかりに依存する可能性がある。 本研究では,拡散確率モデル(dpms)を用いた合成反事実生成を利用したアンサンブル多様化フレームワークを提案する。 DPMは、トレーニングデータに大きく相関している場合でも、複数の視覚的手がかりを独立して表現できる固有の能力を持っていることがわかった。 この特徴を利用して、モデルの多様性を奨励し、いくつかの多様化目標に対するアプローチの有効性を実証的に示す。 拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成できることを示す。

Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to shortcut learning phenomena, where a model may rely on erroneous, easy-to-learn, cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting the generation of synthetic counterfactuals using Diffusion Probabilistic Models (DPMs). We discover that DPMs have the inherent capability to represent multiple visual cues independently, even when they are largely correlated in the training data. We leverage this characteristic to encourage model diversity and empirically show the efficacy of the approach with respect to several diversification objectives. We show that diffusion-guided diversification can lead models to avert attention from shortcut cues, achieving ensemble diversity performance comparable to previous methods requiring additional data collection.
翻訳日:2023-11-22 17:45:00 公開日:2023-11-18
# 生産性を駆動する選択性: 伝達学習の効率化のための効率的なデータセット抽出

Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning ( http://arxiv.org/abs/2310.08782v3 )

ライセンス: Link先を確認
Yihua Zhang, Yimeng Zhang, Aochuan Chen, Jinghan Jia, Jiancheng Liu, Gaowen Liu, Mingyi Hong, Shiyu Chang, Sijia Liu(参考訳) 大規模データは深層学習アプリケーションには不可欠であると考えられがちだが、計算コストやインフラコストも大きい。 そのため,データセット解析(DP)は,冗長なトレーニングサンプルを識別・削除することでデータ効率を向上させる効果的な方法として出現している。 本研究は,移動学習におけるDPの課題,すなわち,下流目標タスクにおける事前学習効率の向上と損失のない微調整精度向上のためのソースデータセットの作成方法に対処することを目的とする。 我々の知る限り、転送学習におけるDPの問題は、従来研究が主にDPと転送学習を個別の問題として取り上げてきたため、まだ未解決のままである。 対照的に,トランスファー学習とdpを統合するための統一的な視点を確立し,既存のdp手法がトランスファー学習パラダイムに適さないことを示す。 次に、ソース・ターゲット領域マッピングのレンズを用いてDP問題を再検討することにより、教師付きおよび自己教師型事前学習設定のためのラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。 さらに,多くの伝達学習課題に対するアプローチの有効性を実証する。 我々は、下流のパフォーマンスを犠牲にすることなく、ソースデータクラスを最大40%から80%まで刈り取ることができ、事前学習の段階では2倍から5倍のスピードアップを達成できることを示した。 さらに,提案手法は広く適用可能であり,逆行前学習などの計算集約的なトランスファー学習手法を改善することができる。 コードはhttps://github.com/OPTML-Group/DP4TLで公開されている。

Massive data is often considered essential for deep learning applications, but it also incurs significant computational and infrastructural costs. Therefore, dataset pruning (DP) has emerged as an effective way to improve data efficiency by identifying and removing redundant training samples without sacrificing performance. In this work, we aim to address the problem of DP for transfer learning, i.e., how to prune a source dataset for improved pretraining efficiency and lossless finetuning accuracy on downstream target tasks. To our best knowledge, the problem of DP for transfer learning remains open, as previous studies have primarily addressed DP and transfer learning as separate problems. By contrast, we establish a unified viewpoint to integrate DP with transfer learning and find that existing DP methods are not suitable for the transfer learning paradigm. We then propose two new DP methods, label mapping and feature mapping, for supervised and self-supervised pretraining settings respectively, by revisiting the DP problem through the lens of source-target domain mapping. Furthermore, we demonstrate the effectiveness of our approach on numerous transfer learning tasks. We show that source data classes can be pruned by up to 40% ~ 80% without sacrificing downstream performance, resulting in a significant 2 ~ 5 times speed-up during the pretraining stage. Besides, our proposal exhibits broad applicability and can improve other computationally intensive transfer learning techniques, such as adversarial pretraining. Codes are available at https://github.com/OPTML-Group/DP4TL.
翻訳日:2023-11-22 17:31:51 公開日:2023-11-18
# chatgptはジオコーディングのためのゲームチェンジャーか - ジオコーディングアドレス解析テクニックのベンチマーク

Is ChatGPT a game changer for geocoding -- a benchmark for geocoding address parsing techniques ( http://arxiv.org/abs/2310.14360v3 )

ライセンス: Link先を確認
Zhengcong Yin, Diya Li, Daniel W. Goldberg(参考訳) トポニーミー認識を含む様々なタスクにおけるGPTモデルの顕著な成功は、ジオコーディングアドレス解析タスクにおけるGPT-3モデルの性能を評価する動機となる。 そこで本研究では,実運用中のジオコーディングシステムの実際の入力ログからマイニングした人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。 このデータセットには21の異なる入力エラーとバリエーションがあり、米国50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれており、トレーニング、検証、テストセットとして使用される3つのサブセットで構成されている。 そこで我々は,GPT-3モデルを用いてアドレス成分抽出の性能をトレーニングし,その性能をトランスフォーマモデルとLSTMモデルと対比する。 評価結果から,両方向LSTM-CRFモデルは,これらのトランスモデルとGPT-3モデルよりも優れた性能を示した。 トランスフォーマーベースのモデルは、双方向LSTM-CRFモデルと非常によく似た結果を示す。 GPT-3モデルは性能に追随するが、いくつかの例でアドレス解析タスクのポテンシャルを示し、追加の微調整による改善の余地を示す。 このベンチマークのコードとデータをオープンソースにして、研究者が将来のモデル開発に利用したり、ドキュメントジオコーディングのような同様のタスクを評価するために拡張したりできるようにします。

The remarkable success of GPT models across various tasks, including toponymy recognition motivates us to assess the performance of the GPT-3 model in the geocoding address parsing task. To ensure that the evaluation more accurately mirrors performance in real-world scenarios with diverse user input qualities and resolve the pressing need for a 'gold standard' evaluation dataset for geocoding systems, we introduce a benchmark dataset of low-quality address descriptions synthesized based on human input patterns mining from actual input logs of a geocoding system in production. This dataset has 21 different input errors and variations; contains over 239,000 address records that are uniquely selected from streets across all U.S. 50 states and D.C.; and consists of three subsets to be used as training, validation, and testing sets. Building on this, we train and gauge the performance of the GPT-3 model in extracting address components, contrasting its performance with transformer-based and LSTM-based models. The evaluation results indicate that Bidirectional LSTM-CRF model has achieved the best performance over these transformer-based models and GPT-3 model. Transformer-based models demonstrate very comparable results compared to the Bidirectional LSTM-CRF model. The GPT-3 model, though trailing in performance, showcases potential in the address parsing task with few-shot examples, exhibiting room for improvement with additional fine-tuning. We open source the code and data of this presented benchmark so that researchers can utilize it for future model development or extend it to evaluate similar tasks, such as document geocoding.
翻訳日:2023-11-22 17:19:16 公開日:2023-11-18
# タスク実証による形態的異なるロボットの対応学習

Correspondence learning between morphologically different robots via task demonstrations ( http://arxiv.org/abs/2310.13458v2 )

ライセンス: Link先を確認
Hakan Aktas, Yukie Nagai, Minoru Asada, Erhan Oztop, Emre Ugur(参考訳) 我々は、体、センサー、アクチュエーターの観点から、さまざまなロボットを観察している。 スキルセットの共通性を考えると、個々のロボットに個別に各スキルを教えることは非効率であり、ロボットランドスケープの多様さを考慮するとスケーラビリティがない。 異なるロボットの感覚運動空間間の対応を学習できれば、一つのロボットで学習されたスキルが、より直接的に、そして簡単に他のロボットに移されるようになると期待できる。 本稿では,異なる形態を持つ2つ以上のロボットの対応関係を学習する手法を提案する。 具体的には、異なる自由度を有する同様の形態を持つロボットに加えて、関節制御を備えた固定型マニピュレータロボットと差動駆動移動ロボットが提案フレームワーク内で対応可能であることを示す。 検討したロボット間の対応を確立するために、同じ目標を達成するために最初の基本タスクがロボットに示される。 そして、目標を達成するための個々のロボットポリシーとともに、共通の潜在表現を学ぶ。 最初の学習段階の後、ひとつのロボットによる新しいタスク実行の観察が十分になり、他のロボットに関連する潜在空間表現を生成して同じタスクを達成する。 我々は,(1)ロボットが同じ作業を行うために同じ経路をたどる必要がある場合,(2)ロボットが同じ作業を行うために異なる軌跡をたどる必要がある場合,(3)ロボットに必要な感覚運動軌跡の複雑さが異なる場合に,ロボット同士の対応が学習される一連の実験において,本システムを検証した。 また,実際のマニピュレータロボットとシミュレートされた移動ロボットとの対応学習の概念実証を行う。

We observe a large variety of robots in terms of their bodies, sensors, and actuators. Given the commonalities in the skill sets, teaching each skill to each different robot independently is inefficient and not scalable when the large variety in the robotic landscape is considered. If we can learn the correspondences between the sensorimotor spaces of different robots, we can expect a skill that is learned in one robot can be more directly and easily transferred to other robots. In this paper, we propose a method to learn correspondences among two or more robots that may have different morphologies. To be specific, besides robots with similar morphologies with different degrees of freedom, we show that a fixed-based manipulator robot with joint control and a differential drive mobile robot can be addressed within the proposed framework. To set up the correspondence among the robots considered, an initial base task is demonstrated to the robots to achieve the same goal. Then, a common latent representation is learned along with the individual robot policies for achieving the goal. After the initial learning stage, the observation of a new task execution by one robot becomes sufficient to generate a latent space representation pertaining to the other robots to achieve the same task. We verified our system in a set of experiments where the correspondence between robots is learned (1) when the robots need to follow the same paths to achieve the same task, (2) when the robots need to follow different trajectories to achieve the same task, and (3) when complexities of the required sensorimotor trajectories are different for the robots. We also provide a proof-of-the-concept realization of correspondence learning between a real manipulator robot and a simulated mobile robot.
翻訳日:2023-11-22 17:18:20 公開日:2023-11-18
# GPT-4を用いた自動スコーリングのためのアンバランスデータの拡張

Using GPT-4 to Augment Unbalanced Data for Automatic Scoring ( http://arxiv.org/abs/2310.18365v2 )

ライセンス: Link先を確認
Luyang Fang, Gyeong-Geon Lee and Xiaoming Zhai(参考訳) 機械学習に基づく自動スコアリングは, 学習過程における不確実性を導入するため, スコアリングカテゴリー間で学生の反応が不均衡である場合, 課題となる。 この課題を克服するために,自動スコアリングにおける不均衡データセット用に特別に調整された生成型大規模言語モデルgpt-4を用いた新しいテキストデータ拡張フレームワークを提案する。 実験データセットは2つの科学項目に対する学生による回答からなる。 我々は、GPT-4が学生の回答、特にマイノリティスコアリングクラスに類似した応答を生成し、データを増強するプロンプトを作成した。 次に、拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。 モデル性能は精度、精度、リコール、F1スコアを用いて評価した。 スコアリング性能を調べるために,様々な拡張データを組み込んだ結果,モデル性能が向上したことが判明した。 2つの項目で観測される平均的な最大増加は、精度が3.5%、精度が30.6%、リコールが21.1%、F1スコアが24.2%である。 注目すべきは、拡張データのわずか5%で2.6%、29.2%、15.1%、19.6%という大幅な改善があったことだ。 興味深いことに、改善の程度は特定のデータセットによって異なる。 さらに,安定した改善を得るためには,様々なデータ量(5%~40%)が必要であった。 また、GPT-4の強化データを用いて訓練されたモデルと、追加の学生による回答で訓練されたモデルを比較した。 この結果から,前者が後者のパフォーマンスに匹敵する,あるいは超えていることが示唆された。 具体的には、4つの指標にそれぞれ1.7%、1.9%、11.0%、7.8%の差がある。 本研究は,GPT-4を用いたデータ拡張手法の有効性と有効性について述べる。

Machine learning-based automatic scoring can be challenging if students' responses are unbalanced across scoring categories, as it introduces uncertainty in the machine training process. To meet this challenge, we introduce a novel text data augmentation framework using GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student-written responses to two science items. We crafted prompts for GPT-4 to generate responses resembling student-written answers, particularly for the minority scoring classes, to augment the data. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 score. We incorporate varied amounts of augmented data to examine scoring performance, and our findings revealed remarkedly improved model performance. The average maximum increase observed across two items is: 3.5% for accuracy, 30.6% for precision, 21.1% for recall, and 24.2% for F1 score. Notably, using just 5% of the augmented data led to substantial improvements: 2.6%, 29.2%, 15.1%, and 19.6%. Interestingly, the extent of improvement varied depending on specific datasets. Moreover, we found that a varying amount of augmented data (5%-40%) was needed to obtain a stable improvement. We also compare models trained with GPT-4 augmented data and those trained with additional student-written responses. The findings indicate that former ones match or even exceed the performance of the latter. Specifically, there is an average difference of 1.7%, 1.9%, 11.0%, and 7.8% for four metrics separately. This research underscores the potential and effectiveness of data augmentation techniques utilizing GPT-4 in addressing unbalanced datasets within automated assessment.
翻訳日:2023-11-22 17:08:34 公開日:2023-11-18
# 会話における感情認識のための効率的なモデル非依存教師付きコントラスト学習フレームワークsslcl

SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning Framework for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.16676v2 )

ライセンス: Link先を確認
Tao Shi, Xiao Liang, Yaoyuan Liang, Xinyi Tong, Shao-Lun Huang(参考訳) 会話における感情認識(Emotion Recognition in conversation,ERC)は、会話中に話者が表現する感情を検出することを目的として、自然言語処理コミュニティ内で急速に進化しているタスクである。 近年,教師付きコントラスト学習(SCL)を活用した学習機能の堅牢性と一般化性の向上に重点を置いているERC手法が増えている。 しかし、現在のERCにおけるSCLベースのアプローチは、大きなバッチサイズの制約と既存のERCモデルとの互換性の欠如によって妨げられている。 これらの課題に対処するため,SCLフレームワークであるSupervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)を提案する。 具体的には, 個別のラベルを浅い多層パーセプトロンを介して密な埋め込みに投影し, サンプル特徴と対応する接地トラスラベルの埋め込みとの類似性を最大化し, 異なるクラスのラベル埋め込みとの類似性を最小限に抑えながら, ラベル表現を利用した新しい視点を導入する。 さらに,サンプル特徴量とラベル埋め込み量との類似性の尺度として,Soft-HGRの最大相関を革新的に採用し,従来の類似度尺度よりも優れた性能向上を実現した。 さらに、マルチモーダルな発話キューはSSLCLによってデータ拡張として効果的に活用され、モデル性能が向上する。 ERCベンチマークデータセットであるIEMOCAPとMELDの大規模な実験は、既存の最先端SCL手法と比較して、提案したSSLCLフレームワークの互換性と優位性を実証している。 私たちのコードは \url{https://github.com/TaoShi1998/SSLCL} で利用可能です。

Emotion recognition in conversations (ERC) is a rapidly evolving task within the natural language processing community, which aims to detect the emotions expressed by speakers during a conversation. Recently, a growing number of ERC methods have focused on leveraging supervised contrastive learning (SCL) to enhance the robustness and generalizability of learned features. However, current SCL-based approaches in ERC are impeded by the constraint of large batch sizes and the lack of compatibility with most existing ERC models. To address these challenges, we propose an efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal Correlation (SSLCL), which eliminates the need for a large batch size and can be seamlessly integrated with existing ERC models without introducing any model-specific assumptions. Specifically, we introduce a novel perspective on utilizing label representations by projecting discrete labels into dense embeddings through a shallow multilayer perceptron, and formulate the training objective to maximize the similarity between sample features and their corresponding ground-truth label embeddings, while minimizing the similarity between sample features and label embeddings of disparate classes. Moreover, we innovatively adopt the Soft-HGR maximal correlation as a measure of similarity between sample features and label embeddings, leading to significant performance improvements over conventional similarity measures. Additionally, multimodal cues of utterances are effectively leveraged by SSLCL as data augmentations to boost model performances. Extensive experiments on two ERC benchmark datasets, IEMOCAP and MELD, demonstrate the compatibility and superiority of our proposed SSLCL framework compared to existing state-of-the-art SCL methods. Our code is available at \url{https://github.com/TaoShi1998/SSLCL}.
翻訳日:2023-11-22 17:07:11 公開日:2023-11-18
# 中国メディアバイアス検出におけるデータ拡張・検索コンテキスト強化

Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese Media Bias Detection ( http://arxiv.org/abs/2311.01372v2 )

ライセンス: Link先を確認
Luyang Lin, Jing Li, Kam-Fai Wong(参考訳) 客観的な報告の追求が高まるにつれて、メディアバイアスを自動的に理解する研究が近年注目を集めている。 しかし、以前の研究のほとんどは、西洋のイデオロギーからのメディアバイアス、例えば政治的スペクトルの左右などを調べているが、これは中国のメディアには当てはまらない。 先行する語彙バイアスと情報バイアス構造に基づき,中国の視点から精錬し,さらに7つの細粒度ラベルを用いたデータ作成を一歩進めた。 具体的には、まず、新たに設計されたシステムによってアノテートされたcovid-19に関する中国ニュースレポートを含むデータセットを構築し、その後、メディアバイアスを検出するための実質的な実験を行います。 しかし、注釈付きデータの規模は最新のディープラーニング技術には十分ではなく、専門的な知識を必要とするメディアバイアスにおける人間のアノテーションのコストは高すぎる。 そこで我々は,これらの問題を自動的に改善するためのコンテキストエンリッチメント手法について検討する。 data-augmented context enrichment(dace)では、トレーニングデータを拡大し、 search-augmented context enrichment(race)では、情報検索方法を改善して貴重な情報を選択し、バイアスをよりよく理解するためにモデルに統合します。 我々のデータセットと英語データセットBASILの両方で大規模な実験を行った。 その結果,両手法ともにベースラインを上回っており,競合手法の方が効率的であり,可能性も高いことがわかった。

With the increasing pursuit of objective reports, automatically understanding media bias has drawn more attention in recent research. However, most of the previous work examines media bias from Western ideology, such as the left and right in the political spectrum, which is not applicable to Chinese outlets. Based on the previous lexical bias and informational bias structure, we refine it from the Chinese perspective and go one step further to craft data with 7 fine-grained labels. To be specific, we first construct a dataset with Chinese news reports about COVID-19 which is annotated by our newly designed system, and then conduct substantial experiments on it to detect media bias. However, the scale of the annotated data is not enough for the latest deep-learning technology, and the cost of human annotation in media bias, which needs a lot of professional knowledge, is too expensive. Thus, we explore some context enrichment methods to automatically improve these problems. In Data-Augmented Context Enrichment (DACE), we enlarge the training data; while in Retrieval-Augmented Context Enrichment (RACE), we improve information retrieval methods to select valuable information and integrate it into our models to better understand bias. Extensive experiments are conducted on both our dataset and an English dataset BASIL. Our results show that both methods outperform our baselines, while the RACE methods are more efficient and have more potential.
翻訳日:2023-11-22 16:56:06 公開日:2023-11-18
# 身体ナビゲーション用LCMの開発

The Development of LLMs for Embodied Navigation ( http://arxiv.org/abs/2311.00530v3 )

ライセンス: Link先を確認
Jinzhou Lin, Han Gao, Xuxiang Feng, Rongtao Xu, Changwei Wang, Man Zhang, Li Guo, Shibiao Xu(参考訳) 近年、ジェネラティブ・プレトレーニングトランス(gpt)のような大型言語モデル(llm)の急速な進歩が、様々な実用的応用の可能性から注目を集めている。 エンボディード・インテリジェンス(Embodied Intelligence)によるLLMの応用は、重要な分野として現れている。 LLMの無数の応用の中で、ナビゲーションタスクは環境の深い理解と迅速かつ正確な意思決定を必要とするため特に注目すべきである。 LLMは、洗練された環境認識と意思決定支援を備えたインテリジェンスシステムを強化し、堅牢な言語と画像処理機能を活用する。 本稿では, LLMとインボディードインテリジェンスとの共生について, ナビゲーションを中心に概説する。 最先端のモデル、研究方法論をレビューし、既存の埋め込みナビゲーションモデルとデータセットの利点とデメリットを評価する。 最後に, 本論文は, インテリジェンスにおけるLLMの役割を解明し, 今後の方向性を予測している。 この調査の包括的な研究リストはhttps://github.com/Rongtao-Xu/Awesome-LLM-ENで公開されている。

In recent years, the rapid advancement of Large Language Models (LLMs) such as the Generative Pre-trained Transformer (GPT) has attracted increasing attention due to their potential in a variety of practical applications. The application of LLMs with Embodied Intelligence has emerged as a significant area of focus. Among the myriad applications of LLMs, navigation tasks are particularly noteworthy because they demand a deep understanding of the environment and quick, accurate decision-making. LLMs can augment embodied intelligence systems with sophisticated environmental perception and decision-making support, leveraging their robust language and image-processing capabilities. This article offers an exhaustive summary of the symbiosis between LLMs and embodied intelligence with a focus on navigation. It reviews state-of-the-art models, research methodologies, and assesses the advantages and disadvantages of existing embodied navigation models and datasets. Finally, the article elucidates the role of LLMs in embodied intelligence, based on current research, and forecasts future directions in the field. A comprehensive list of studies in this survey is available at https://github.com/Rongtao-Xu/Awesome-LLM-EN
翻訳日:2023-11-22 16:54:11 公開日:2023-11-18
# クラスタリングによるエントロピーベースのテスト時間適応性の改善

Improving Entropy-Based Test-Time Adaptation from a Clustering View ( http://arxiv.org/abs/2310.20327v4 )

ライセンス: Link先を確認
Guoliang Lin, Hanjiang Lai, Yan Pan, Jian Yin(参考訳) ドメインシフトは現実的な世界で共通の問題であり、トレーニングデータとテストデータは異なるデータ分布に従う。 この問題に対処するために、完全なテスト時間適応(TTA)は、テスト時間中に遭遇したラベルのないデータを利用してモデルを適応する。 特に,テストサンプルにおける予測のエントロピーを最小化するエントロピーベースTTA(EBTTA)法は,大きな成功を収めている。 本稿では,クラスタリングの観点からこれらの手法を解釈するEBTTAの新しい視点を紹介する。 これは反復アルゴリズムである。 1) 課題段階では、EBTTAモデルの前方プロセスは、これらの試験サンプルのラベルの割り当てであり、 2) 更新ステップでは、下位プロセスは割り当てられたサンプルを通してモデルの更新である。 この解釈に基づいて、ETTTAの深い理解を得ることができ、エントロピー損失が最大確率をさらに増大させることを示す。 そこで本研究では,既存のETBTTAメソッドが初期割り当てやアウトレーヤ,バッチサイズに敏感である理由について,別の説明を行う。 この観察は、ETTTAの改善を推し進めるために役立ちます。 上記の問題を緩和するために,ロバストなラベル割り当て,重量調整,勾配蓄積を提案する。 実験の結果,本手法は様々なデータセットに対して一貫した改善が得られた。 コードは補足材料で提供される。

Domain shift is a common problem in the realistic world, where training data and test data follow different data distributions. To deal with this problem, fully test-time adaptation (TTA) leverages the unlabeled data encountered during test time to adapt the model. In particular, Entropy-Based TTA (EBTTA) methods, which minimize the prediction's entropy on test samples, have shown great success. In this paper, we introduce a new perspective on the EBTTA, which interprets these methods from a view of clustering. It is an iterative algorithm: 1) in the assignment step, the forward process of the EBTTA models is the assignment of labels for these test samples, and 2) in the updating step, the backward process is the update of the model via the assigned samples. Based on the interpretation, we can gain a deeper understanding of EBTTA, where we show that the entropy loss would further increase the largest probability. Accordingly, we offer an alternative explanation for why existing EBTTA methods are sensitive to initial assignments, outliers, and batch size. This observation can guide us to put forward the improvement of EBTTA. We propose robust label assignment, weight adjustment, and gradient accumulation to alleviate the above problems. Experimental results demonstrate that our method can achieve consistent improvements on various datasets. Code is provided in the supplementary material.
翻訳日:2023-11-22 16:53:32 公開日:2023-11-18
# 条件付きトランスフォーマによる処方薬の生成

Generating Medical Prescriptions with Conditional Transformer ( http://arxiv.org/abs/2310.19727v2 )

ライセンス: Link先を確認
Samuel Belkadi and Nicolo Micheletti and Lifeng Han and Warren Del-Pinto and Goran Nenadic(参考訳) 現実世界の処方薬へのアクセスは、医療研究と医療の品質改善に不可欠である。 しかし、実際の処方薬へのアクセスは、表現される情報の敏感な性質のため、しばしば制限される。 さらに、これらの命令をトレーニングや微調整の自然言語処理(NLP)モデルに手動でラベル付けするのも面倒でコストがかかる。 本稿では,新たなタスク固有モデルアーキテクチャである Label-To-Text-Transformer (\textbf{LT3}) を導入する。 LT3はMIMIC-IIIデータベースから抽出された約2K行の処方薬のセットで訓練され、モデルが貴重な合成処方薬を生産することができる。 lt3の性能を,最先端の事前学習言語モデル(plm)t5と対比して評価し,生成されたテキストの品質と多様性を分析した。 生成された合成データをデプロイして、n2c2-2018データセット上で名前付きエンティティ認識(NER)タスクのためのSpacyNERモデルをトレーニングする。 実験の結果, 合成データを用いたモデルでは, 薬物, 頻度, 経路, 強度, 形状のラベル認識において96-98\%のf1スコアが得られることがわかった。 LT3 コードとデータは \url{https://github.com/HECTA-UoM/Label-To-Text-Transformer} で共有される。

Access to real-world medication prescriptions is essential for medical research and healthcare quality improvement. However, access to real medication prescriptions is often limited due to the sensitive nature of the information expressed. Additionally, manually labelling these instructions for training and fine-tuning Natural Language Processing (NLP) models can be tedious and expensive. We introduce a novel task-specific model architecture, Label-To-Text-Transformer (\textbf{LT3}), tailored to generate synthetic medication prescriptions based on provided labels, such as a vocabulary list of medications and their attributes. LT3 is trained on a set of around 2K lines of medication prescriptions extracted from the MIMIC-III database, allowing the model to produce valuable synthetic medication prescriptions. We evaluate LT3's performance by contrasting it with a state-of-the-art Pre-trained Language Model (PLM), T5, analysing the quality and diversity of generated texts. We deploy the generated synthetic data to train the SpacyNER model for the Named Entity Recognition (NER) task over the n2c2-2018 dataset. The experiments show that the model trained on synthetic data can achieve a 96-98\% F1 score at Label Recognition on Drug, Frequency, Route, Strength, and Form. LT3 codes and data will be shared at \url{https://github.com/HECTA-UoM/Label-To-Text-Transformer}
翻訳日:2023-11-22 16:52:03 公開日:2023-11-18
# 多経路長期船舶軌道予測によるより安全な海上環境の構築

Building a Safer Maritime Environment Through Multi-Path Long-Term Vessel Trajectory Forecasting ( http://arxiv.org/abs/2310.18948v2 )

ライセンス: Link先を確認
Gabriel Spadon, Jay Kumar, Matthew Smith, Sarah Vela, Romina Gehrmann, Derek Eden, Joshua van Berkel, Amilcar Soares, Ronan Fablet, Ronald Pelot, Stan Matwin(参考訳) 海洋輸送は世界的な経済成長を達成する上で最重要であり、持続可能性と絶滅危惧種の保護に同時に生態的義務を負う。 この点において、自動識別システム(ais)データは、船舶移動に関するリアルタイムストリーミングデータを提供することで、交通監視の強化に重要な役割を果たす。 本研究では,AISデータ系列から長期の船舶軌道を予測することにより,船体衝突を防止するためのAISデータについて検討する。 そこで我々は, 双方向長短期記憶ネットワーク(Bi-LSTM)を用いたエンコーダ・デコーダモデルアーキテクチャを開発し, 入力として1~3時間AISデータを用いて, 次の12時間の船舶軌道を予測した。 我々は,各軌道の潜在的な経路や目的地を示す歴史的AISデータから構築した確率的特徴をモデルに提供する。 このモデルでは,空間的特徴学習における畳み込みレイヤと,時間的特徴学習における時系列の最近の時間ステップの重要性を増大させる位置認識型注意機構を活用することで,船の軌道を予測する。 確率的特徴は、それぞれの特徴タイプに対して約85%と75%のF1スコアを持ち、ニューラルネットワークへの情報拡張の有効性を示す。 我々は、北大西洋右クジラ(NARW)の生息地として知られるセントローレンス湾で、我々のモデルを検証した。 我々のモデルは、様々な技術と特徴を用いて、高いR2スコアを98%以上達成した。 旋回や経路選択の間に複雑な決定をすることができるため、他のアプローチの中でも際立っている。 本研究は,海洋生物種の保全のためのデータ工学および軌道予測モデルの可能性を明らかにする。

Maritime transportation is paramount in achieving global economic growth, entailing concurrent ecological obligations in sustainability and safeguarding endangered marine species, most notably preserving large whale populations. In this regard, the Automatic Identification System (AIS) data plays a significant role by offering real-time streaming data on vessel movement, allowing enhanced traffic monitoring. This study explores using AIS data to prevent vessel-to-whale collisions by forecasting long-term vessel trajectories from engineered AIS data sequences. For such a task, we have developed an encoder-decoder model architecture using Bidirectional Long Short-Term Memory Networks (Bi-LSTM) to predict the next 12 hours of vessel trajectories using 1 to 3 hours of AIS data as input. We feed the model with probabilistic features engineered from historical AIS data that refer to each trajectory's potential route and destination. The model then predicts the vessel's trajectory, considering these additional features by leveraging convolutional layers for spatial feature learning and a position-aware attention mechanism that increases the importance of recent timesteps of a sequence during temporal feature learning. The probabilistic features have an F1 Score of approximately 85% and 75% for each feature type, respectively, demonstrating their effectiveness in augmenting information to the neural network. We test our model on the Gulf of St. Lawrence, a region known to be the habitat of North Atlantic Right Whales (NARW). Our model achieved a high R2 score of over 98% using various techniques and features. It stands out among other approaches as it can make complex decisions during turnings and path selection. Our study highlights the potential of data engineering and trajectory forecasting models for marine life species preservation.
翻訳日:2023-11-22 16:51:27 公開日:2023-11-18
# Compute at Scale - データセンター産業の広範な調査

Compute at Scale -- A Broad Investigation into the Data Center Industry ( http://arxiv.org/abs/2311.02651v3 )

ライセンス: Link先を確認
Konstantin Pilz and Lennart Heim(参考訳) このレポートは、データセンター産業とそのAI開発における重要性を特徴づけるものである。 データセンターは大規模に効率的に計算を提供し、今日のデジタル経済のエンジンルームを構成する産業施設である。 大規模AIトレーニングと推論がますます計算コストが高くなるにつれて、これらのインフラストラクチャは、主にこの指定されたインフラストラクチャから実行されます。 データセンターの重要な機能には、大規模な冷却と大量の電力消費を必要とする大規模な計算クラスタ、データセンターとインターネットの両方で高速接続の必要性、セキュリティと信頼性の重視が含まれる。 世界の産業価値は約250億ドルで、今後7年間で倍増すると予想されている。 米国、ヨーロッパ、中国が最も重要な市場を構成しているため、全世界に約500カ所(約10MW)のデータセンターがある可能性が高い。 このレポートはさらに、重要なアクター、ビジネスモデル、主要なインプット、およびデータセンターの典型的な場所を取り上げている。

This report characterizes the data center industry and its importance for AI development. Data centers are industrial facilities that efficiently provide compute at scale and thus constitute the engine rooms of today's digital economy. As large-scale AI training and inference become increasingly computationally expensive, they are dominantly executed from this designated infrastructure. Key features of data centers include large-scale compute clusters that require extensive cooling and consume large amounts of power, the need for fast connectivity both within the data center and to the internet, and an emphasis on security and reliability. The global industry is valued at approximately $250B and is expected to double over the next seven years. There are likely about 500 large (above 10 MW) data centers globally, with the US, Europe, and China constituting the most important markets. The report further covers important actors, business models, main inputs, and typical locations of data centers.
翻訳日:2023-11-22 16:41:15 公開日:2023-11-18
# 可変長量子鍵分布のセキュリティ証明

Security Proof for Variable-Length Quantum Key Distribution ( http://arxiv.org/abs/2311.01600v2 )

ライセンス: Link先を確認
Devashish Tupkary, Ernest Y.-Z. Tan, Norbert L\"utkenhaus(参考訳) 本稿では,IID集団攻撃に対するLennerフレームワークにおける可変長QKDのセキュリティ証明を提案する。 我々の証明は,ポストセレクション手法を用いてコヒーレントアタックに引き上げることができる。 最初の主要な結果は、一定の条件を満たす固定長プロトコルの一連のセキュリティ証明を可変長プロトコルのセキュリティ証明に変換する定理である。 この変換は、新しい計算を必要とせず、最終鍵の長さやエラー訂正情報の変更は必要とせず、セキュリティパラメータを最大で2倍にする。 第2の成果は、QKDプロトコルの実行前にユーザを接続するチャネルの正直な動作を特徴付ける必要のない、より一般的な可変長QKDプロトコルのクラスの記述とセキュリティ証明である。 代わりに、これらのプロトコルはプロトコル中に行われた観察に基づいて、最終鍵の長さとエラー訂正に使用する情報量を適応的に決定する。 これらの結果をqubit BB84プロトコルに適用し、可変長実装が固定長実装よりも高い期待キーレートをもたらすことを示す。

We present a security proof for variable-length QKD in the Renner framework against IID collective attacks. Our proof can be lifted to coherent attacks using the postselection technique. Our first main result is a theorem to convert a series of security proofs for fixed-length protocols satisfying certain conditions to a security proof for a variable-length protocol. This conversion requires no new calculations, does not require any changes to the final key lengths or the amount of error-correction information, and at most doubles the security parameter. Our second main result is the description and security proof of a more general class of variable-length QKD protocols, which does not require characterizing the honest behaviour of the channel connecting the users before the execution of the QKD protocol. Instead, these protocols adaptively determine the length of the final key, and the amount of information to be used for error-correction, based upon the observations made during the protocol. We apply these results to the qubit BB84 protocol, and show that variable-length implementations lead to higher expected key rates than the fixed-length implementations.
翻訳日:2023-11-22 16:39:25 公開日:2023-11-18
# 偽負推定によるEコマース検索におけるプールバイアスの緩和

Mitigating Pooling Bias in E-commerce Search via False Negative Estimation ( http://arxiv.org/abs/2311.06444v2 )

ライセンス: Link先を確認
Xiaochen Wang, Xiao Xiao, Ruhan Zhang, Xuan Zhang, Taesik Na, Tejaswi Tenneti, Haixun Wang and Fenglong Ma(参考訳) ユーザエクスペリエンスとビジネス成功には、効率的で正確な製品関連性評価が不可欠です。 熟練した妥当性評価モデルのトレーニングには高品質なクエリ生成ペアが必要である。 残念ながら、現在の手法では誤った否定を誤ってサンプリングし、パフォーマンスとビジネスへの影響を減らし、プールバイアスを導入しています。 そこで本研究では,従来の偽陰性推定アルゴリズムに基づいて,偽陰性の検出・調整に適した新しいネガティブサンプリング手法であるBias-mitigating Hard Negative Smpling(BHNS)を提案する。 Instacartサーチセッティングの実験により,BHNSが実用的なeコマースに有効であることが確認された。 さらに、パブリックデータセットにおける比較分析は、多様なアプリケーションに対するドメインに依存しない可能性を示している。

Efficient and accurate product relevance assessment is critical for user experiences and business success. Training a proficient relevance assessment model requires high-quality query-product pairs, often obtained through negative sampling strategies. Unfortunately, current methods introduce pooling bias by mistakenly sampling false negatives, diminishing performance and business impact. To address this, we present Bias-mitigating Hard Negative Sampling (BHNS), a novel negative sampling strategy tailored to identify and adjust for false negatives, building upon our original False Negative Estimation algorithm. Our experiments in the Instacart search setting confirm BHNS as effective for practical e-commerce use. Furthermore, comparative analyses on public dataset showcase its domain-agnostic potential for diverse applications.
翻訳日:2023-11-22 16:30:43 公開日:2023-11-18
# ロバスト白色物質ストリームライン符号化のための微分可能VQ-VAE

Differentiable VQ-VAE's for Robust White Matter Streamline Encodings ( http://arxiv.org/abs/2311.06212v2 )

ライセンス: Link先を確認
Andrew Lizarraga, Brandon Taraku, Edouardo Honig, Ying Nian Wu, Shantanu H. Joshi(参考訳) 白色物質流線型の複雑な幾何学を考えると、オートエンコーダは低次元潜在空間における解析流線型を単純化する次元還元ツールとして提案されている。 しかし、近年の成功にもかかわらず、エンコーダアーキテクチャの大部分は、ストリームラインの完全なバンドルとは対照的に、単一のストリームラインの次元削減のみを実行する。 これはエンコーダアーキテクチャの厳しい制限であり、個々のファイバーを犠牲にして、ストリームラインの全体幾何構造を完全に無視する。 さらに、潜在空間は十分に構造化されておらず、解釈可能性に疑問が生じる。 本稿では,単一のデータポイントとしてストリームラインの全バンドルを取り込み,信頼性の高いエンコーディングを提供し,後に遅延空間におけるストリームラインの分析に使用できる新しい微分ベクトル量子変分オートコーダを提案する。 オートエンコーダは符号化と合成の両方において優れた性能を示す。

Given the complex geometry of white matter streamlines, Autoencoders have been proposed as a dimension-reduction tool to simplify the analysis streamlines in a low-dimensional latent spaces. However, despite these recent successes, the majority of encoder architectures only perform dimension reduction on single streamlines as opposed to a full bundle of streamlines. This is a severe limitation of the encoder architecture that completely disregards the global geometric structure of streamlines at the expense of individual fibers. Moreover, the latent space may not be well structured which leads to doubt into their interpretability. In this paper we propose a novel Differentiable Vector Quantized Variational Autoencoder, which are engineered to ingest entire bundles of streamlines as single data-point and provides reliable trustworthy encodings that can then be later used to analyze streamlines in the latent space. Comparisons with several state of the art Autoencoders demonstrate superior performance in both encoding and synthesis.
翻訳日:2023-11-22 16:28:32 公開日:2023-11-18
# 人型開発データコーパスを用いた事前学習LLM

Pre-training LLMs using human-like development data corpus ( http://arxiv.org/abs/2311.04666v2 )

ライセンス: Link先を確認
Khushi Bhardwaj, Raj Sanjay Shah, Sashank Varma(参考訳) 事前学習された大規模言語モデル(llm)は、様々な言語推論と理解タスクで成功を収めている。 LLMの事前学習段階は、生のテキストデータの大規模なコーパスを見る。 BabyLMの共有タスクは、LLMの事前学習と人間の言語習得を比較し、13歳の子供たちが見るトークンの数は、LLMが見るトークンの数よりも小さい。 本研究では, 子どもが見るトークンの数とほぼ同じ数を用いて, 文脈表現の学習能力に基づいて, LLMの事前学習と評価を行う。 アーキテクチャの違い、エポック全体のパフォーマンス変化の評価、タスクの厳格で厳格なトラックに対する事前トレーニングメトリクスの報告といった、強力なベースラインを提供しています。 また、タスクオーガナイザが与えるRoBERTaベースラインを緩やかに複製して、ハイパーパラメータ選択と複製性に対するトレーニングロバスト性を観察する。 本報告では,厳密かつ厳密なトラックの提出の詳細について述べる。

Pre-trained Large Language Models (LLMs) have shown success in a diverse set of language inference and understanding tasks. The pre-training stage of LLMs looks at a large corpus of raw textual data. The BabyLM shared task compares LLM pre-training to human language acquisition, where the number of tokens seen by 13-year-old kids is magnitudes smaller than the number of tokens seen by LLMs. In this work, we pre-train and evaluate LLMs on their ability to learn contextual word representations using roughly the same number of tokens as seen by children. We provide a strong set of baselines; with different architectures, evaluation of changes in performance across epochs, and reported pre-training metrics for the strict small and strict tracks of the task. We also try to loosely replicate the RoBERTa baseline given by the task organizers to observe the training robustness to hyperparameter selection and replicability. We provide the submission details to the strict and strict-small tracks in this report.
翻訳日:2023-11-22 16:27:19 公開日:2023-11-18
# 適応ミラー降下二レベル最適化

Adaptive Mirror Descent Bilevel Optimization ( http://arxiv.org/abs/2311.04520v2 )

ライセンス: Link先を確認
Feihu Huang(参考訳) 本稿では,非凸二レベル最適化のミラー降下に基づく効率的な適応的二レベル手法のクラスを提案し,その上層問題は非滑らかな正規化を伴う可能性があり,下層問題もまた非凸であり,Polyak-{\L}ojasiewicz (PL) 条件を満たす。 これらの決定論的双レベル問題を解くために、鏡面降下に基づく効率的な適応射影支援勾配(AdaPAG)法を提案し、非凸双レベル問題の$\epsilon$-stationary解を求めるために$O(\epsilon^{-1})$の最もよく知られた勾配複雑性を求める。 これらの確率的双レベル問題を解決するために,鏡面降下法と分散還元法に基づく適応確率的射影支援勾配(AdaVSPAG)法を提案し,$O(\epsilon^{-3/2})$を$\epsilon$-stationary解を求めるために最もよく知られた勾配複雑性を求める。 PL条件は強凸を緩和するので、我々のアルゴリズムは強凸二値最適化に利用できる。 理論的には、いくつかの穏やかな条件下での方法に対して有用な収束解析フレームワークを提供し、この手法がより高速な収束率である $o(\frac{1}{t})$ を示し、ここで$t$ は反復数を表す。

In the paper, we propose a class of efficient adaptive bilevel methods based on mirror descent for nonconvex bilevel optimization, where its upper-level problem is nonconvex possibly with nonsmooth regularization, and its lower-level problem is also nonconvex while satisfies Polyak-{\L}ojasiewicz (PL) condition. To solve these deterministic bilevel problems, we present an efficient adaptive projection-aid gradient (i.e., AdaPAG) method based on mirror descent, and prove that it obtains the best known gradient complexity of $O(\epsilon^{-1})$ for finding an $\epsilon$-stationary solution of nonconvex bilevel problems. To solve these stochastic bilevel problems, we propose an efficient adaptive stochastic projection-aid gradient (i.e., AdaVSPAG) methods based on mirror descent and variance-reduced techniques, and prove that it obtains the best known gradient complexity of $O(\epsilon^{-3/2})$ for finding an $\epsilon$-stationary solution. Since the PL condition relaxes the strongly convex, our algorithms can be used to nonconvex strongly-convex bilevel optimization. Theoretically, we provide a useful convergence analysis framework for our methods under some mild conditions, and prove that our methods have a fast convergence rate of $O(\frac{1}{T})$, where $T$ denotes the number of iterations.
翻訳日:2023-11-22 16:26:40 公開日:2023-11-18
# MVSA-Net:ロバストかつ展開可能な軌道生成のための多視点状態認識

MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable Trajectory Generation ( http://arxiv.org/abs/2311.08393v2 )

ライセンス: Link先を確認
Ehsan Asali, Prashant Doshi, Jin Sun(参考訳) learn-from-observation(lfo)パラダイムは、ロボットが単に実行されているのを見てタスクを実行することを学ぶための人間にインスパイアされたモードである。 LfOは、破壊を最小限に抑え、退屈なプログラミングを減らすことで、工場のフロアでのロボット統合を容易にする。 LfOパイプラインのキーコンポーネントは、深度カメラフレームを対応するタスク状態とアクションペアに変換し、模倣や逆強化学習などの学習技術に中継してタスクパラメータを理解することである。 いくつかの既存のコンピュータビジョンモデルは、活動認識のためにビデオを分析するが、SA-Netは特にRGB-DデータからロボットLfOをターゲットにしている。 しかし、SA-Netや他の多くのモデルでは、単一の視点から取得したフレームデータを分析している。 したがって、それらの分析は、頻繁に展開される観察されたタスクのオクルージョンに非常に敏感である。 閉塞を減らす明確な方法は、タスクを複数の視点から同時に観察し、モデル内の複数のストリームを同期的に融合させることである。 そこで本研究では,タスクアクティビティの複数の視点を認識できるようにSA-Netモデルを一般化し,それらを統合し,各フレームの状態や動作をよりよく認識する多視点SA-Netを提案する。 2つの異なるドメインのパフォーマンス評価では、MVSA-Netは単一ビューのMVSA-Netや他のベースラインに比べて、より正確に状態-作用対を認識する。 アブレーション研究は, 異なる環境条件下での性能をさらに評価し, アーキテクチャコンポーネントの寄与性を確立する。 そのため、MVSA-Netは従来の方法に比べてはるかに堅牢で、デプロイ可能な状態-作用軌道生成を提供する。

The learn-from-observation (LfO) paradigm is a human-inspired mode for a robot to learn to perform a task simply by watching it being performed. LfO can facilitate robot integration on factory floors by minimizing disruption and reducing tedious programming. A key component of the LfO pipeline is a transformation of the depth camera frames to the corresponding task state and action pairs, which are then relayed to learning techniques such as imitation or inverse reinforcement learning for understanding the task parameters. While several existing computer vision models analyze videos for activity recognition, SA-Net specifically targets robotic LfO from RGB-D data. However, SA-Net and many other models analyze frame data captured from a single viewpoint. Their analysis is therefore highly sensitive to occlusions of the observed task, which are frequent in deployments. An obvious way of reducing occlusions is to simultaneously observe the task from multiple viewpoints and synchronously fuse the multiple streams in the model. Toward this, we present multi-view SA-Net, which generalizes the SA-Net model to allow the perception of multiple viewpoints of the task activity, integrate them, and better recognize the state and action in each frame. Performance evaluations on two distinct domains establish that MVSA-Net recognizes the state-action pairs under occlusion more accurately compared to single-view MVSA-Net and other baselines. Our ablation studies further evaluate its performance under different ambient conditions and establish the contribution of the architecture components. As such, MVSA-Net offers a significantly more robust and deployable state-action trajectory generation compared to previous methods.
翻訳日:2023-11-22 16:19:59 公開日:2023-11-18
# コンテキスト内学習と勾配降下再訪

In-context Learning and Gradient Descent Revisited ( http://arxiv.org/abs/2311.07772v3 )

ライセンス: Link先を確認
Gilad Deutch, Nadav Magar, Tomer Bar Natan, Guy Dar(参考訳) in-context learning (icl) は、数少ない学習タスクで印象的な結果を示したが、その基本的なメカニズムはまだ完全には理解されていない。 近年の研究では、iclは勾配降下(gd)に基づく最適化プロセスと考えられる。 これらの結果は主にICLの簡易な設定に焦点が当てられ、両者の類似性を予備評価するのみである。 本研究では, icl と gd による微調整の比較検討を行い, 等価なプロセスに従わなければならない icl の特性について検討する。 ICLと標準微調整における情報フローの大きな違いを強調した。 すなわち、ICLは各点で下位層からの情報のみに頼ることができ、微調整は深い層からの損失勾配に依存する。 この違いをレイヤ因果性(Layer Causality)と呼び、ファインタニングプロセスの層因果変異が、バニラファインタニングと同等のICLと整合し、関連するメトリクスのほとんどの場合においてさらに優れていることを示す。 私たちの知る限りでは、この違いを明示的に議論し、最小限の変更でこの問題に取り組むソリューションを提案するのはこれが初めてです。

In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. Recent works suggest that ICL can be thought of as a gradient descent (GD) based optimization process. While promising, these results mainly focus on simplified settings of ICL and provide only a preliminary evaluation of the similarities between the two methods. In this work, we revisit the comparison between ICL and GD-based finetuning and study what properties of ICL an equivalent process must follow. We highlight a major difference in the flow of information between ICL and standard finetuning. Namely, ICL can only rely on information from lower layers at every point, while finetuning depends on loss gradients from deeper layers. We refer to this discrepancy as Layer Causality and show that a layer causal variant of the finetuning process aligns with ICL on par with vanilla finetuning and is even better in most cases across relevant metrics. To the best of our knowledge, this is the first work to discuss this discrepancy explicitly and suggest a solution that tackles this problem with minimal changes.
翻訳日:2023-11-22 16:17:30 公開日:2023-11-18
# adamm: 属性付きマルチグラフのメタデータによる異常検出: 統一ニューラルネットワークアプローチ

ADAMM: Anomaly Detection of Attributed Multi-graphs with Metadata: A Unified Neural Network Approach ( http://arxiv.org/abs/2311.07355v2 )

ライセンス: Link先を確認
Konstantinos Sotiropoulos, Lingxiao Zhao, Pierre Jinghong Liang, Leman Akoglu(参考訳) ノードとエッジに分散したマルチグラフの複雑なグラフデータベースと関連するグラフのメタデータが与えられたら、どのように異常なインスタンスを見つけることができるのか? 多くの現実世界の問題はグラフ推論タスクとしてキャストされ、グラフ表現は複雑な関係現象(例えば、ジャーナルエントリ内の金融口座間のトランザクション)と、表的な特徴(承認者、有効日付など)を反映したメタデータを捉えることができる。 グラフニューラルネットワーク(GNN)に基づく多数の異常検出器が提案されているが、指向グラフを直接マルチエッジや自己ループで扱うことはできない。 さらに、リレーショナル特徴と表特徴の同時処理は未探索領域のままである。 本研究では,有向多グラフを処理する新しいグラフニューラルネットワークモデルであるADAMMを提案し,メタデータとグラフレベルの表現学習を,教師なしの異常検出目的を通じて融合したエンドツーエンドアーキテクチャを提供する。 2つの異なるドメインのデータセットに関する実験、すなわち、異なる企業(アカウント)からの一般電子ジャーナルエントリと、何千もの個人(都市移動)による人間のgpsトラジェクタは、エキスパートガイドと地対地異常のadammの汎用性と検出効果を検証する。 特に、ADAMMは2つのデータモダリティ(グラフとメタデータ)を別々に扱う既存のベースラインよりも優れている。

Given a complex graph database of node- and edge-attributed multi-graphs as well as associated metadata for each graph, how can we spot the anomalous instances? Many real-world problems can be cast as graph inference tasks where the graph representation could capture complex relational phenomena (e.g., transactions among financial accounts in a journal entry), along with metadata reflecting tabular features (e.g. approver, effective date, etc.). While numerous anomaly detectors based on Graph Neural Networks (GNNs) have been proposed, none are capable of directly handling directed graphs with multi-edges and self-loops. Furthermore, the simultaneous handling of relational and tabular features remains an unexplored area. In this work we propose ADAMM, a novel graph neural network model that handles directed multi-graphs, providing a unified end-to-end architecture that fuses metadata and graph-level representation learning through an unsupervised anomaly detection objective. Experiments on datasets from two different domains, namely, general-ledger journal entries from different firms (accounting) as well as human GPS trajectories from thousands of individuals (urban mobility) validate ADAMM's generality and detection effectiveness of expert-guided and ground-truth anomalies. Notably, ADAMM outperforms existing baselines that handle the two data modalities (graph and metadata) separately with post hoc synthesis efforts.
翻訳日:2023-11-22 16:15:13 公開日:2023-11-18
# song descriptionrデータセット:音楽・言語評価のための音声キャプションのコーパス

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation ( http://arxiv.org/abs/2311.10057v2 )

ライセンス: Link先を確認
Ilaria Manco, Benno Weck, SeungHeon Doh, Minz Won, Yixiao Zhang, Dmitry Bodganov, Yusong Wu, Ke Chen, Philip Tovstogan, Emmanouil Benetos, Elio Quinton, Gy\"orgy Fazekas, Juhan Nam(参考訳) 楽曲と言語モデルの評価のために設計された,高品質なオーディオキャプチャペアのクラウドソースコーパスであるsong descriptionr dataset(sdd)を紹介する。 データセットは1.1kの人間による706曲の自然言語記述で構成され、全てクリエイティブ・コモン・ライセンスの下で公開されている。 データセットの使用例を示すために,3つの主要な音楽・言語タスク(音楽キャプション,テキスト・ツー・ミュージック生成,音楽言語検索)について,人気のあるモデルをベンチマークする。 実験では, クロスデータセット評価の重要性を強調し, SDDを用いたモデル性能の理解を深める方法について考察した。

We introduce the Song Describer dataset (SDD), a new crowdsourced corpus of high-quality audio-caption pairs, designed for the evaluation of music-and-language models. The dataset consists of 1.1k human-written natural language descriptions of 706 music recordings, all publicly accessible and released under Creative Common licenses. To showcase the use of our dataset, we benchmark popular models on three key music-and-language tasks (music captioning, text-to-music generation and music-language retrieval). Our experiments highlight the importance of cross-dataset evaluation and offer insights into how researchers can use SDD to gain a broader understanding of model performance.
翻訳日:2023-11-22 16:07:25 公開日:2023-11-18
# EvaSurf: モバイルデバイス上での効率的なビューアウェアインプットテクスチャ表面再構成

EvaSurf: Efficient View-Aware Implicit Textured Surface Reconstruction on Mobile Devices ( http://arxiv.org/abs/2311.09806v2 )

ライセンス: Link先を確認
Jingnan Gao, Zhuo Chen, Yichao Yan, Bowen Pan, Zhe Wang, Jiangjing Lyu, Xiaokang Yang(参考訳) 現実世界の3Dオブジェクトの再構築は、仮想現実、ビデオゲーム、アニメーションなどのコンピュータビジョンに多くの応用がある。 理想的には、3次元再構成法はリアルタイムに3次元整合性のある高忠実度結果を生成する。 neural radiance fields(nerf)のような差別化可能なレンダリング手法では、微分可能なボリュームレンダリングや、表面ベースの表現を使用して高忠実度シーンを生成する。 しかし、これらのメソッドはレンダリングに過剰なランタイムを必要とし、日々のアプリケーションでは実用的でない。 これらの課題に対処するため、モバイルデバイス上で$\textbf{EvaSurf}$, a $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware implicit textured $\textbf{Surf}$ace reconstruction methodを提示する。 提案手法では,まず,マルチビュー監視モジュールを用いた効率的な表面モデルを用いて,正確なメッシュ再構築を実現する。 高忠実度レンダリングを可能にするために,ガウスローブの集合に埋め込まれた暗黙のテクスチャを学習し,ビュー依存情報を取得する。 さらに、明示的な幾何学と暗黙的なテクスチャによって、計算コストを削減し、一般的なモバイルデバイスでのリアルタイムレンダリングをさらにサポートするために、軽量のニューラルシェーダを用いることができる。 広範な実験により,合成データと実世界のデータセットの両方において,高品質な外観と正確なメッシュを再現できることが実証された。 さらに、1つのGPUで1~2時間でトレーニングし、40FPS(Frames Per Second)以上のモバイルデバイス上で動作させることも可能で、最終的なパッケージは40~50MBのレンダリングに必要である。

Reconstructing real-world 3D objects has numerous applications in computer vision, such as virtual reality, video games, and animations. Ideally, 3D reconstruction methods should generate high-fidelity results with 3D consistency in real-time. Traditional methods match pixels between images using photo-consistency constraints or learned features, while differentiable rendering methods like Neural Radiance Fields (NeRF) use differentiable volume rendering or surface-based representation to generate high-fidelity scenes. However, these methods require excessive runtime for rendering, making them impractical for daily applications. To address these challenges, we present $\textbf{EvaSurf}$, an $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware implicit textured $\textbf{Surf}$ace reconstruction method on mobile devices. In our method, we first employ an efficient surface-based model with a multi-view supervision module to ensure accurate mesh reconstruction. To enable high-fidelity rendering, we learn an implicit texture embedded with a set of Gaussian lobes to capture view-dependent information. Furthermore, with the explicit geometry and the implicit texture, we can employ a lightweight neural shader to reduce the expense of computation and further support real-time rendering on common mobile devices. Extensive experiments demonstrate that our method can reconstruct high-quality appearance and accurate mesh on both synthetic and real-world datasets. Moreover, our method can be trained in just 1-2 hours using a single GPU and run on mobile devices at over 40 FPS (Frames Per Second), with a final package required for rendering taking up only 40-50 MB.
翻訳日:2023-11-22 16:06:32 公開日:2023-11-18
# 胸部X線画像の弱教師付き異常検出

Weakly Supervised Anomaly Detection for Chest X-Ray Image ( http://arxiv.org/abs/2311.09642v2 )

ライセンス: Link先を確認
Haoqi Ni, Ximiao Zhang, Min Xu, Ning Lang, and Xiuzhuang Zhou(参考訳) 胸部X線検査は胸部疾患を臨床的に評価するための一般的な方法である。 近年のディープラーニングの進歩は、CXR異常検出における視覚的分析の重要性を高めているが、現在の手法では、通常画像を用いた教師なしトレーニングに大きく依存するため、疾患領域の特定に不可欠な異常画像の鍵を欠くことが多い。 このレターは、トレーニング中にイメージレベルのラベルのみを持つ少数ショットの異常画像が利用できる、より実用的な設定に焦点を当てている。 そこで本研究では,CXRのための弱い教師付き異常検出フレームワークであるWSCXRを提案する。 WSCXRは、まず、通常画像と異常画像のセットを構成する。 そして、異常特徴採鉱によって正常な領域の特徴を排除し、異常画像の特徴を洗練し、疾患領域の希少かつ重要な特徴を完全に活用する。 さらに、WSCXRは、異常な特徴を増大させるために線形混合戦略を採用し、数発の異常画像を持つ異常検出器の訓練を容易にする。 2つのCXRデータセットの実験は、我々のアプローチの有効性を実証している。

Chest X-Ray (CXR) examination is a common method for assessing thoracic diseases in clinical applications. While recent advances in deep learning have enhanced the significance of visual analysis for CXR anomaly detection, current methods often miss key cues in anomaly images crucial for identifying disease regions, as they predominantly rely on unsupervised training with normal images. This letter focuses on a more practical setup in which few-shot anomaly images with only image-level labels are available during training. For this purpose, we propose WSCXR, a weakly supervised anomaly detection framework for CXR. WSCXR firstly constructs sets of normal and anomaly image features respectively. It then refines the anomaly image features by eliminating normal region features through anomaly feature mining, thus fully leveraging the scarce yet crucial features of diseased areas. Additionally, WSCXR employs a linear mixing strategy to augment the anomaly features, facilitating the training of anomaly detector with few-shot anomaly images. Experiments on two CXR datasets demonstrate the effectiveness of our approach.
翻訳日:2023-11-22 16:04:51 公開日:2023-11-18
# 擬似キーポイントRKHSによる自己教師付き6DoFデータ推定

Pseudo-keypoint RKHS Learning for Self-supervised 6DoF Pose Estimation ( http://arxiv.org/abs/2311.09500v2 )

ライセンス: Link先を確認
Yangzheng Wu and Michael Greenspan(参考訳) 本稿では,6DoF PEにおけるシミュレーションと現実の領域ギャップに対処し,RKHSの学習可能なカーネルを用いて,このギャップを効果的に狭める,自己監督型キーポイントラジアル投票に基づく6DoF PEフレームワークを提案する。 我々は、この領域ギャップを高次元特徴空間における距離として定式化し、従来の反復マッチング法とは異なる。 本稿では,合成ポーズを用いた合成データで大規模に訓練されたソースドメインから,実際のデータで訓練されたターゲットドメインまで,ネットワークパラメータを進化させるアダプタネットワークを提案する。 重要なことは、実際のデータトレーニングは擬似キーポイントによって推定される擬似目的のみを使用するため、実際の基礎データアノテーションは不要である。 RKHSPoseはLINEMOD (+4.2%)、Occlusion LINEMOD (+2%)、YCB-Video (+3%)を含む3つの一般的な6DoF PEデータセットで最先端のパフォーマンスを達成する。 また、適用可能な6つのbopコアデータセットの完全な教師付きメソッドと比較し、上位の教師付き結果の10.8%から-0.3%に到達した。

This paper addresses the simulation-to-real domain gap in 6DoF PE, and proposes a novel self-supervised keypoint radial voting-based 6DoF PE framework, effectively narrowing this gap using a learnable kernel in RKHS. We formulate this domain gap as a distance in high-dimensional feature space, distinct from previous iterative matching methods. We propose an adapter network, which evolves the network parameters from the source domain, which has been massively trained on synthetic data with synthetic poses, to the target domain, which is trained on real data. Importantly, the real data training only uses pseudo-poses estimated by pseudo-keypoints, and thereby requires no real groundtruth data annotations. RKHSPose achieves state-of-the-art performance on three commonly used 6DoF PE datasets including LINEMOD (+4.2%), Occlusion LINEMOD (+2%), and YCB-Video (+3%). It also compares favorably to fully supervised methods on all six applicable BOP core datasets, achieving within -10.8% to -0.3% of the top fully supervised results.
翻訳日:2023-11-22 16:03:53 公開日:2023-11-18
# 時間的接地のためのビデオ表現学習における相関誘導クエリ依存性の校正

Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding ( http://arxiv.org/abs/2311.08835v2 )

ライセンス: Link先を確認
WonJun Moon, Sangeek Hyun, SuBeen Lee, Jae-Pil Heo(参考訳) 映像の時間的接地における最近の取り組みは,映像とテキストの問合せ間のモーダリティギャップを克服するために,注意機構を通じて強いクロスモーダルインタラクションを強制する。 しかしながら、以前の作品では、アテンションモジュールのテキストクエリと意味的関連性に関係なく、すべてのビデオクリップを等しく扱っている。 本稿では,クロスモーダル符号化プロセスにおいて,クエリ関連ビデオクリップの手がかりを提供する。 相関誘導型検出トランスー(cg-detr)を用いて,クロスモーダル相互作用の適切なクリップ回りの程度と,その程度を予測に利用する方法について検討した。 まず,ダミートークンを用いた適応型クロスアテンション層を設計する。 テキストクエリによって条件付けられたダミートークンは注意重みの一部を取り、無関係なビデオクリップがテキストクエリで表現されないようにする。 しかし、すべての単語トークンがビデオクリップに対するテキストクエリの相関を等しく継承しているわけではない。 そこで,ビデオクリップと単語の細粒度相関を推定し,クロスアテンションマップを導出する。 これを実現するために,ハイレベル概念,すなわちモーメントと文レベルの合同埋め込み空間を学習し,クリップワード相関を推定する。 最後に、各ビデオクリップのテキストエンゲージメントの度合いを利用するために、モーメント適応型サリエンシ検出器を使用します。 モーメント検索とハイライト検出の両ベンチマークにおいて,cg-detrの優位性を最先端の結果で検証した。 コードはhttps://github.com/wjun0830/cgdetrで入手できる。

Recent endeavors in video temporal grounding enforce strong cross-modal interactions through attention mechanisms to overcome the modality gap between video and text query. However, previous works treat all video clips equally regardless of their semantic relevance with the text query in attention modules. In this paper, our goal is to provide clues for query-associated video clips within the crossmodal encoding process. With our Correlation-Guided Detection Transformer~(CG-DETR), we explore the appropriate clip-wise degree of cross-modal interactions and how to exploit such degrees for prediction. First, we design an adaptive cross-attention layer with dummy tokens. Dummy tokens conditioned by text query take a portion of the attention weights, preventing irrelevant video clips from being represented by the text query. Yet, not all word tokens equally inherit the text query's correlation to video clips. Thus, we further guide the cross-attention map by inferring the fine-grained correlation between video clips and words. We enable this by learning a joint embedding space for high-level concepts, i.e., moment and sentence level, and inferring the clip-word correlation. Lastly, we use a moment-adaptive saliency detector to exploit each video clip's degrees of text engagement. We validate the superiority of CG-DETR with the state-of-the-art results on various benchmarks for both moment retrieval and highlight detection. Codes are available at https://github.com/wjun0830/CGDETR.
翻訳日:2023-11-22 16:02:50 公開日:2023-11-18
# Gitor:グローバルサンプルグラフの構築によるスケーラブルなコードクローン検出

Gitor: Scalable Code Clone Detection by Building Global Sample Graph ( http://arxiv.org/abs/2311.08778v2 )

ライセンス: Link先を確認
Junjie Shan, Shihan Dou, Yueming Wu, Hairu Wu, Yang Liu(参考訳) コードのクローン検出は、同様のコードフラグメントを見つけることであり、ソフトウェアメンテナンスと進化にとって重要であるため、ソフトウェア工学において多くの注目を集めている。 研究者は、ソースコードクローン検出のための多くの技術やツールを提案しているが、現在の検出方法は、コードサンプル間の基盤となる接続を探索することなく、コードサンプルを個別に分析または処理することに集中している。 本稿では、異なるコードサンプル間の基盤となる接続をキャプチャするgitorを提案する。 具体的には、ソースコードデータベースが与えられた場合、事前に定義された個々の情報を抽出するために、まずすべてのコードサンプルをトークン化する。 すべてのサンプル情報を収集した後、それらを利用して、各ノードがコードサンプルまたは個々の情報のタイプである大規模なグローバルなサンプルグラフを構築する。 次に,グローバルなサンプルグラフ上にノード埋め込み手法を適用し,すべてのサンプルベクトル表現を抽出する。 すべてのコードサンプルベクトルを収集した後、任意の2つのサンプル間の類似性を比較してクローンペアを検出する。 さらに重要なのは、得られたサンプルベクトルはグローバルなサンプルグラフから得られるため、コードクローン検出性能を改善するために、コード機能と組み合わせることができます。 Gitorの有効性を実証するため、広く使われているBigCloneBenchというデータセットで評価した。 実験の結果,Gitorはコードクローン検出の精度が高く,既存の最先端ツールと比較して,さまざまなサイズの入力の実行時間に優れていた。 さらに、Gitorと従来のベクトルベースのクローン検出手法の組み合わせを評価し、その結果、Gitorを使うことで、より高いF1でより多くのコードクローンを検出できることがわかった。

Code clone detection is about finding out similar code fragments, which has drawn much attention in software engineering since it is important for software maintenance and evolution. Researchers have proposed many techniques and tools for source code clone detection, but current detection methods concentrate on analyzing or processing code samples individually without exploring the underlying connections among code samples. In this paper, we propose Gitor to capture the underlying connections among different code samples. Specifically, given a source code database, we first tokenize all code samples to extract the pre-defined individual information. After obtaining all samples individual information, we leverage them to build a large global sample graph where each node is a code sample or a type of individual information. Then we apply a node embedding technique on the global sample graph to extract all the samples vector representations. After collecting all code samples vectors, we can simply compare the similarity between any two samples to detect possible clone pairs. More importantly, since the obtained vector of a sample is from a global sample graph, we can combine it with its own code features to improve the code clone detection performance. To demonstrate the effectiveness of Gitor, we evaluate it on a widely used dataset namely BigCloneBench. Our experimental results show that Gitor has higher accuracy in terms of code clone detection and excellent execution time for inputs of various sizes compared to existing state-of-the-art tools. Moreover, we also evaluate the combination of Gitor with other traditional vector-based clone detection methods, the results show that the use of Gitor enables them detect more code clones with higher F1.
翻訳日:2023-11-22 16:02:24 公開日:2023-11-18
# 単語の線形結合としての視覚分類の表現

Representing visual classification as a linear combination of words ( http://arxiv.org/abs/2311.10933v1 )

ライセンス: Link先を確認
Shobhit Agarwal, Yevgeniy R. Semenov, William Lotter(参考訳) 説明可能性(Explainability)は、ディープラーニング、特に医療のような高度な領域における長年にわたる課題である。 一般的な説明可能性メソッドは、aiモデルの決定を駆動する画像領域を強調する。 しかし、人間は「場所」だけでなく「何」の説明を伝えるために言語に大きく依存している。 さらに、ほとんどの説明可能性アプローチは、一般的にAIモデルで使用される機能を記述するのではなく、個々のAI予測を説明することに重点を置いている。 後者は特にモデルとデータセットの監査に役立ち、AIが新たなタスクでますます使われているため、知識生成さえも可能だろう。 本稿では,視覚言語モデルを用いて視覚分類タスクの言語に基づく記述子を識別する説明可能性戦略を提案する。 画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新たな分類タスクを単語の線形結合として推定し,各単語の重み付けを視覚ベース分類器との整合性を示す。 我々は,2つの医用画像分類タスクを用いて,ドメイン固有の言語訓練の欠如にもかかわらず,得られた記述子は臨床知識とほぼ一致していることを見出した。 しかし、このアプローチは、使用する公開データセットにおける'ショートカット接続'の可能性も特定する。 説明可能性の関数的尺度に向けて,aiで特定された単語が非熟練の人間が非自明なレベルで専門的な医療タスクを遂行できることを示すパイロット読取研究を行う。 総じて,マルチモーダル基礎モデルを用いた視覚的タスクの直感的言語ベース説明の可能性を強調した。

Explainability is a longstanding challenge in deep learning, especially in high-stakes domains like healthcare. Common explainability methods highlight image regions that drive an AI model's decision. Humans, however, heavily rely on language to convey explanations of not only "where" but "what". Additionally, most explainability approaches focus on explaining individual AI predictions, rather than describing the features used by an AI model in general. The latter would be especially useful for model and dataset auditing, and potentially even knowledge generation as AI is increasingly being used in novel tasks. Here, we present an explainability strategy that uses a vision-language model to identify language-based descriptors of a visual classification task. By leveraging a pre-trained joint embedding space between images and text, our approach estimates a new classification task as a linear combination of words, resulting in a weight for each word that indicates its alignment with the vision-based classifier. We assess our approach using two medical imaging classification tasks, where we find that the resulting descriptors largely align with clinical knowledge despite a lack of domain-specific language training. However, our approach also identifies the potential for 'shortcut connections' in the public datasets used. Towards a functional measure of explainability, we perform a pilot reader study where we find that the AI-identified words can enable non-expert humans to perform a specialized medical task at a non-trivial level. Altogether, our results emphasize the potential of using multimodal foundational models to deliver intuitive, language-based explanations of visual tasks.
翻訳日:2023-11-22 13:35:06 公開日:2023-11-18
# 大規模言語モデルにおける認知バイアス : 慎重な楽観主義と反パングロス的メリオリズム

Cognitive bias in large language models: Cautious optimism meets anti-Panglossian meliorism ( http://arxiv.org/abs/2311.10932v1 )

ライセンス: Link先を確認
David Thorstad(参考訳) 大規模言語モデルにおけるバイアスの伝統的な議論は、不公平に密接に結びついているバイアスの概念に焦点を当てている。 最近の研究は、判断と意思決定の研究に精通した様々な認知バイアスに対して、大きな言語モデルのアウトプットを評価する新しい可能性を高める。 本研究の目的は,近年の大規模言語モデルにおける認知バイアスに関する議論から得られた2つの教訓を明らかにすることである。 この議論の哲学的意義を,人間の認知バイアスの合理性や,モデルバイアスの駆動における非表現データの役割について考察する。

Traditional discussions of bias in large language models focus on a conception of bias closely tied to unfairness, especially as affecting marginalized groups. Recent work raises the novel possibility of assessing the outputs of large language models for a range of cognitive biases familiar from research in judgment and decisionmaking. My aim in this paper is to draw two lessons from recent discussions of cognitive bias in large language models: cautious optimism about the prevalence of bias in current models coupled with an anti-Panglossian willingness to concede the existence of some genuine biases and work to reduce them. I draw out philosophical implications of this discussion for the rationality of human cognitive biases as well as the role of unrepresentative data in driving model biases.
翻訳日:2023-11-22 13:34:40 公開日:2023-11-18
# 有限次元代数における一般スペクトルヘドラの極端量子状態と過程と極端点

Extreme quantum states and processes, and extreme points of general spectrahedra in finite dimensional algebras ( http://arxiv.org/abs/2311.10929v1 )

ライセンス: Link先を確認
Giulio Chiribella(参考訳) 量子状態と過程の凸集合は、量子論と量子情報において中心的な役割を果たす。 量子論における凸集合の多くの重要な例はスペクトルヘドラ、すなわちアフィン制約を受ける正の作用素の集合である。 これらの例には、ある観測可能な関心の期待値を持つ量子状態の集合、与えられた限界を持つ多部量子状態の集合、量子測度、チャネル、マルチタイム量子プロセスの集合、高階量子マップと量子因果構造の集合が含まれる。 この貢献は、一般スペクトルヘドラの極点と対応する作用素の階数の境界を特徴付ける。 一般的な結果はいくつかの特別な場合に適用され、チョイの極端量子チャネルのキャラクタリゼーション、パルハサラシーの与えられた辺数を持つ極端量子状態のキャラクタリゼーション、およびバーコフの量子版のキュービット単位チャネルに対する定理のような古典的結果を取得するために用いられる。 最後に,正規化に対する一般的なアフィン制約を持つ正の演算子値測度 (povm) の概念を提案し,極値 povm を特徴付ける。

Convex sets of quantum states and processes play a central role in quantum theory and quantum information. Many important examples of convex sets in quantum theory are spectrahedra, that is, sets of positive operators subject to affine constraints. These examples include sets of quantum states with given expectation values of some observables of interest, sets of multipartite quantum states with given marginals, sets of quantum measurements, channels, and multitime quantum processes, as well as sets of higher-order quantum maps and quantum causal structures. This contribution provides a characterisation of the extreme points of general spectrahedra, and bounds on the ranks of the corresponding operators. The general results are applied to several special cases, and are used to retrieve classic results such as Choi's characterisation of the extreme quantum channels, Parhasarathy's characterisation of the extreme quantum states with given marginals, and the quantum version of Birkhoff's theorem for qubit unital channels. Finally, we propose a notion of positive operator valued measures (POVMs) with general affine constraints for their normalisation, and we characterise the extremal POVMs.
翻訳日:2023-11-22 13:34:27 公開日:2023-11-18
# CAMRA: AMRアノテーションのコパイロット

CAMRA: Copilot for AMR Annotation ( http://arxiv.org/abs/2311.10928v1 )

ライセンス: Link先を確認
Jon Z. Cai, Shafiuddin Rehan Ahmed, Julia Bonn, Kristin Wright-Bettner, Martha Palmer, James H. Martin(参考訳) 本稿では、自然言語テキストから抽象的意味表現(AMR)を構築するために設計された最先端のWebツールであるCAMRA(Copilot for AMR Annotatations)を紹介する。 CAMRAは、AMRのような深い語彙のセマンティクスアノテーションに対する新しいアプローチを提供し、AMRアノテーションはプログラミング言語のコーディングに類似している。 CAMRAはプログラミングパラダイムの親しみを生かして、既存のAMRエディタの基本的な機能をすべて含み、例えばルックアップを含む一方で、ツール内のオートコンプリート機能としてPropbankロールセットルックアップを統合することで、さらに一歩進めている。 特に、CAMRAはAMRパーサモデルを符号化コパイロットとして組み込んでおり、AMRアノテータの効率と精度を大幅に向上させる。 ツールの機能を示すために、以下のライブデモをアクセス可能な形で提供します。

In this paper, we introduce CAMRA (Copilot for AMR Annotatations), a cutting-edge web-based tool designed for constructing Abstract Meaning Representation (AMR) from natural language text. CAMRA offers a novel approach to deep lexical semantics annotation such as AMR, treating AMR annotation akin to coding in programming languages. Leveraging the familiarity of programming paradigms, CAMRA encompasses all essential features of existing AMR editors, including example lookup, while going a step further by integrating Propbank roleset lookup as an autocomplete feature within the tool. Notably, CAMRA incorporates AMR parser models as coding co-pilots, greatly enhancing the efficiency and accuracy of AMR annotators. To demonstrate the tool's capabilities, we provide a live demo accessible at: https://camra.colorado.edu
翻訳日:2023-11-22 13:34:03 公開日:2023-11-18
# お金のない戦略エージェントのための最適資源配分--データ駆動アプローチ

Near-Optimal Fair Resource Allocation for Strategic Agents without Money: A Data-Driven Approach ( http://arxiv.org/abs/2311.10927v1 )

ライセンス: Link先を確認
Sihan Zeng, Sujay Bhatt, Eleonora Kreacic, Parisa Hassanzadeh, Alec Koppel, Sumitra Ganesh(参考訳) 本稿では,PFをベンチマークとして,資源分割のためのフェアアロケーション機構の学習に基づく設計について検討する。 学習設定は、古典的なメカニズム設計の文献から大きく離れているため、データのみから公正なメカニズムを学ぶ必要がある。 特に、戦略エージェントがバリュエーションを報告する際に真実であることにインセンティブを与える、一発の割り当てメカニズムを学ぶことの難しさについて検討する。 PFを直接最適化しようとするメカニズムがインセンティブと互換性がないことはよく知られている。 本論文では,ユーティリティーの相対的利得を誤報から測定するメカニズムの「展開可能性」の概念を紹介し,以下の重要な貢献を行う。 i) 微分可能凸プログラミング文学に触発された高度な手法を用いて, PF機構の操作性を計算する数値的手法を設計する。 この新たな貢献により、インセンティブ互換メカニズムを通じてpfの近似に橋渡しする必要があるギャップを定量化することができる。 (二)次に、公正性と利用可能性のトレードオフを導入するため、PFメカニズムを変更します。 データを用いてこのトレードオフを適切に制御することにより,提案するメカニズムであるExPF-Netが,低エクスプロイラビリティを維持しつつ,PF機構に強い近似を与えることを示す。 しかし、このメカニズムには高い計算コストが伴う。 3) 計算課題に対処するため,ニューラルネットワークによって終端パラメータ化される別のメカニズムであるExS-Netを提案する。 ExS-Netは、類似した(わずかに劣る)パフォーマンスを享受し、トレーニングと推論時間のパフォーマンスを著しく加速する。 (4) 大規模数値シミュレーションにより, 提案手法の堅牢性と有効性を示す。

We study learning-based design of fair allocation mechanisms for divisible resources, using proportional fairness (PF) as a benchmark. The learning setting is a significant departure from the classic mechanism design literature, in that, we need to learn fair mechanisms solely from data. In particular, we consider the challenging problem of learning one-shot allocation mechanisms -- without the use of money -- that incentivize strategic agents to be truthful when reporting their valuations. It is well-known that the mechanism that directly seeks to optimize PF is not incentive compatible, meaning that the agents can potentially misreport their preferences to gain increased allocations. We introduce the notion of "exploitability" of a mechanism to measure the relative gain in utility from misreport, and make the following important contributions in the paper: (i) Using sophisticated techniques inspired by differentiable convex programming literature, we design a numerically efficient approach for computing the exploitability of the PF mechanism. This novel contribution enables us to quantify the gap that needs to be bridged to approximate PF via incentive compatible mechanisms. (ii) Next, we modify the PF mechanism to introduce a trade-off between fairness and exploitability. By properly controlling this trade-off using data, we show that our proposed mechanism, ExPF-Net, provides a strong approximation to the PF mechanism while maintaining low exploitability. This mechanism, however, comes with a high computational cost. (iii) To address the computational challenges, we propose another mechanism ExS-Net, which is end-to-end parameterized by a neural network. ExS-Net enjoys similar (slightly inferior) performance and significantly accelerated training and inference time performance. (iv) Extensive numerical simulations demonstrate the robustness and efficacy of the proposed mechanisms.
翻訳日:2023-11-22 13:33:48 公開日:2023-11-18
# Haystackの針を見つける:ゲームプレイビデオにおけるバグ発生の検出

Finding the Needle in a Haystack: Detecting Bug Occurrences in Gameplay Videos ( http://arxiv.org/abs/2311.10926v1 )

ライセンス: Link先を確認
Andrew Truelove, Shiyue Rong, Eduardo Santana de Almeida, Iftekhar Ahmed(参考訳) ビデオゲームにバグがあることは、開発者にとって大きな影響を与える可能性がある。 これらの結果を避けるために、開発者はゲームプレイビデオを利用してバグを特定し修正することができる。 youtubeなどのビデオホスティングサイトは、バグ発生を描写したビデオを含む数百万ものゲームビデオへのアクセスを提供しているが、大量のコンテンツはバグ発見を難しくする可能性がある。 本稿では,機械学習を用いてゲームプレイビデオのセグメントにバグの描写が含まれているかどうかを予測する自動アプローチを提案する。 我々は、198本のゲームプレイビデオの4,412のセグメントを分析し、あるセグメントがバグのインスタンスを含んでいるかどうかを予測する。 さらに,異なるジャンルのビデオゲームや,同じゲームからのビデオに応用した場合に,我々のアプローチがどのように機能するかを検討した。 また,データセット内の映像を分析し,視覚特徴の特徴が分類器の予測をどう説明するかを検討した。 最後に,手動分析に対する自動アプローチのメリットを検討するために,ユーザスタディを実施した。 その結果,本手法はバグを含むビデオのセグメント検出に有効であり,F1スコア0.88を達成し,現在のゲームプレイ映像セグメントのバグ分類技術よりも優れていることがわかった。

The presence of bugs in video games can bring significant consequences for developers. To avoid these consequences, developers can leverage gameplay videos to identify and fix these bugs. Video hosting websites such as YouTube provide access to millions of game videos, including videos that depict bug occurrences, but the large amount of content can make finding bug instances challenging. We present an automated approach that uses machine learning to predict whether a segment of a gameplay video contains the depiction of a bug. We analyzed 4,412 segments of 198 gameplay videos to predict whether a segment contains an instance of a bug. Additionally, we investigated how our approach performs when applied across different specific genres of video games and on videos from the same game. We also analyzed the videos in the dataset to investigate what characteristics of the visual features might explain the classifier's prediction. Finally, we conducted a user study to examine the benefits of our automated approach against a manual analysis. Our findings indicate that our approach is effective at detecting segments of a video that contain bugs, achieving a high F1 score of 0.88, outperforming the current state-of-the-art technique for bug classification of gameplay video segments.
翻訳日:2023-11-22 13:33:21 公開日:2023-11-18
# 顧客のための説明可能な製品分類

Explainable Product Classification for Customs ( http://arxiv.org/abs/2311.10922v1 )

ライセンス: Link先を確認
Eunji Lee, Sihyeon Kim, Sundong Kim, Soyeon Jung, Heeja Kim, Meeyoung Cha(参考訳) 国際的に認められた商品コード(HSコード)を貿易商品に割り当てる作業は税関にとって重要な機能である。 裁判官の判断と同様に、この任務は先例の原則に従い、経験豊富な士官であっても非自明である。 韓国税関(KCS)とともに、HSコードの最も可能性の高いサブヘッダ(すなわち、最初の6桁)を示唆する、初めて説明可能な意思決定支援モデルを提案する。 このモデルは、税関職員が解釈可能な文書の形で提案する理由も提供する。 最近分類要求を受けた5000事例を用いて評価を行った。 その結果、本モデルによるトップ3提案は925課題のサブヘッドを分類した場合、93.9\%の精度を示した。 さらに、32人の税関の専門家によるユーザー調査により、説明可能な推論を伴うアルゴリズムの提案により、税関職員による分類審査の時間と労力を大幅に削減できることを確認した。

The task of assigning internationally accepted commodity codes (aka HS codes) to traded goods is a critical function of customs offices. Like court decisions made by judges, this task follows the doctrine of precedent and can be nontrivial even for experienced officers. Together with the Korea Customs Service (KCS), we propose a first-ever explainable decision supporting model that suggests the most likely subheadings (i.e., the first six digits) of the HS code. The model also provides reasoning for its suggestion in the form of a document that is interpretable by customs officers. We evaluated the model using 5,000 cases that recently received a classification request. The results showed that the top-3 suggestions made by our model had an accuracy of 93.9\% when classifying 925 challenging subheadings. A user study with 32 customs experts further confirmed that our algorithmic suggestions accompanied by explainable reasonings, can substantially reduce the time and effort taken by customs officers for classification reviews.
翻訳日:2023-11-22 13:33:00 公開日:2023-11-18
# 物理対応変分オートエンコーダによる小型・直観的翼パラメータ化法

Compact and Intuitive Airfoil Parameterization Method through Physics-aware Variational Autoencoder ( http://arxiv.org/abs/2311.10921v1 )

ライセンス: Link先を確認
Yu-Eop Kang, Dawoon Lee, and Kwanjung Yee(参考訳) 翼形状最適化は高性能航空機の設計において重要な役割を果たしている。 しかし、高次元の翼表現の性質は「次元の曲線」として知られる挑戦的な問題を引き起こす。 この問題を解決するために、多くの翼パラメータ化法が開発され、多項式ベースおよびデータ駆動アプローチに広く分類できる。 これらの手法には、柔軟性、パーシモニー、実現可能性、直感性といった望ましい特徴があるが、これらの属性をすべて包含する単一のアプローチはまだ見つからない。 例えば、多項式ベースのメソッドは並列性と柔軟性のバランスに苦しむ一方で、データ駆動型メソッドは実現可能性と直感性に欠ける。 近年, 生成逆数ネットワークや変分オートエンコーダなどの生成モデルは, 翼パラメータ化において有望な可能性を示している。 しかしながら、これらのモデルはブラックボックスの性質のため直観性に関わる課題に直面している。 そこで我々は,物理対応変分オートエンコーダを用いた新しい翼パラメータ化手法を開発した。 提案手法は,スムーズで非交差性のある翼を製作するために,厚さとカムバーの分布を明示的に分離するだけでなく,気翼の幾何学的特徴と密接な寸法を一致させ,直感性を著しく向上させる。 最後に,本手法の有効性を示すため,広範な比較研究を行った。

Airfoil shape optimization plays a critical role in the design of high-performance aircraft. However, the high-dimensional nature of airfoil representation causes the challenging problem known as the "curse of dimensionality". To overcome this problem, numerous airfoil parameterization methods have been developed, which can be broadly classified as polynomial-based and data-driven approaches. Each of these methods has desirable characteristics such as flexibility, parsimony, feasibility, and intuitiveness, but a single approach that encompasses all of these attributes has yet to be found. For example, polynomial-based methods struggle to balance parsimony and flexibility, while data-driven methods lack in feasibility and intuitiveness. In recent years, generative models, such as generative adversarial networks and variational autoencoders, have shown promising potential in airfoil parameterization. However, these models still face challenges related to intuitiveness due to their black-box nature. To address this issue, we developed a novel airfoil parameterization method using physics-aware variational autoencoder. The proposed method not only explicitly separates the generation of thickness and camber distributions to produce smooth and non-intersecting airfoils, thereby improving feasibility, but it also directly aligns its latent dimensions with geometric features of the airfoil, significantly enhancing intuitiveness. Finally, extensive comparative studies were performed to demonstrate the effectiveness of our approach.
翻訳日:2023-11-22 13:32:43 公開日:2023-11-18
# 解釈可能なトークンパターンによる分類誤りの理解と緩和

Understanding and Mitigating Classification Errors Through Interpretable Token Patterns ( http://arxiv.org/abs/2311.10920v1 )

ライセンス: Link先を確認
Michael A. Hedderich, Jonas Fischer, Dietrich Klakow, Jilles Vreeken(参考訳) 最先端のNLP手法は、多くのタスクにおいて人間のような性能を達成するが、それでもエラーを犯す。 これらの誤りを容易に解釈可能な言葉で特徴づけることは、分類器が体系的な誤りを犯しやすいかという洞察を与えるだけでなく、分類器の動作と改善の方法を与える。 我々は,任意のNLP分類器のグローバルかつ解釈可能な記述を得るために,正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。 最小記述長原理を用いて,そのようなパターンの簡潔かつ非冗長な集合を求める問題を定式化する。 広範囲にわたる実験を通じて,本手法の前提条件が実効性があることを実証する。 既存の解とは異なり、大きな語彙上で高度に不均衡なデータであっても、基礎的な真理を回復する。 VQA と NER のケーススタディでは,NLP 分類器による系統的誤りについて,明確かつ実用的な知見が得られた。

State-of-the-art NLP methods achieve human-like performance on many tasks, but make errors nevertheless. Characterizing these errors in easily interpretable terms gives insight into whether a classifier is prone to making systematic errors, but also gives a way to act and improve the classifier. We propose to discover those patterns of tokens that distinguish correct and erroneous predictions as to obtain global and interpretable descriptions for arbitrary NLP classifiers. We formulate the problem of finding a succinct and non-redundant set of such patterns in terms of the Minimum Description Length principle. Through an extensive set of experiments, we show that our method, Premise, performs well in practice. Unlike existing solutions, it recovers ground truth, even on highly imbalanced data over large vocabularies. In VQA and NER case studies, we confirm that it gives clear and actionable insight into the systematic errors made by NLP classifiers.
翻訳日:2023-11-22 13:32:20 公開日:2023-11-18
# PACOL: 継続的な学習者に対する攻撃

PACOL: Poisoning Attacks Against Continual Learners ( http://arxiv.org/abs/2311.10919v1 )

ライセンス: Link先を確認
Huayu Li and Gregory Ditzler(参考訳) 連続学習アルゴリズムは通常、敵や悪役によって挿入されたトレーニングデータを含む信頼できないソースに晒される。 敵は、以前に学習したタスクからの誤ラベルされたサンプルや意図的な敵の摂動サンプルなどの少数の有毒なサンプルをトレーニングデータセットに挿入することができ、モデルの性能を大幅に低下させることができる。 本研究では,連続学習システムを悪意のある誤情報によって操作できることを実証し,連続学習者特有のデータ中毒攻撃の新たなカテゴリを提示する。 フリップアタックのラベル付けの有効性はpacolを刺激するが、pacolはサンプルのラベルを変更しないアタックサンプルを生成し、壊滅的な忘れる攻撃を引き起こす。 総合的な実験は、一般的に使われている生成的リプレイと正規化に基づく攻撃方法に対する継続的な学習アプローチの脆弱性を示している。 本研究で提案したPACOLは,学習課題の知識を忘れるよう継続的学習システムに強制的に強制することを目的として,ラベルフリップと新たな敵毒攻撃の能力を評価する。 具体的には、ベンチマークデータストリームでトレーニングされた連続学習システムの性能劣化と、有害な攻撃の有無を比較した。 さらに, 敵検体をろ過するためのデータ衛生化防衛やその他の異常検出ベース防衛の成功率をテストする攻撃のステルス性についても論じる。

Continual learning algorithms are typically exposed to untrusted sources that contain training data inserted by adversaries and bad actors. An adversary can insert a small number of poisoned samples, such as mislabeled samples from previously learned tasks, or intentional adversarial perturbed samples, into the training datasets, which can drastically reduce the model's performance. In this work, we demonstrate that continual learning systems can be manipulated by malicious misinformation and present a new category of data poisoning attacks specific for continual learners, which we refer to as {\em Poisoning Attacks Against Continual Learners} (PACOL). The effectiveness of labeling flipping attacks inspires PACOL; however, PACOL produces attack samples that do not change the sample's label and produce an attack that causes catastrophic forgetting. A comprehensive set of experiments shows the vulnerability of commonly used generative replay and regularization-based continual learning approaches against attack methods. We evaluate the ability of label-flipping and a new adversarial poison attack, namely PACOL proposed in this work, to force the continual learning system to forget the knowledge of a learned task(s). More specifically, we compared the performance degradation of continual learning systems trained on benchmark data streams with and without poisoning attacks. Moreover, we discuss the stealthiness of the attacks in which we test the success rate of data sanitization defense and other outlier detection-based defenses for filtering out adversarial samples.
翻訳日:2023-11-22 13:32:03 公開日:2023-11-18
# 構造形状探索のための6次元空間推定に基づくJenga Stacking

Jenga Stacking Based on 6D Pose Estimation for Architectural Form Finding Process ( http://arxiv.org/abs/2311.10918v1 )

ライセンス: Link先を確認
Zixun Huang(参考訳) 本稿では,6dポーズ推定手法の現状と,2種類のアーキテクチャ設計シナリオにおいてどのポーズ推定手法を用いるべきかについて議論する。 最新のポーズ推定研究gen6dを例として、アプリケーションレベル、予測速度、咬合抵抗、精度、環境干渉に対する抵抗などの観点から、現在のオープンセット法を定性的に評価する。 さらに,6次元ポーズ推定と風環境評価を組み合わせることで,具体的な設計手法を構築することを目的として,手法の限界について議論し,このシナリオにおいて6次元ポーズ推定が進むべき方向を指摘する。

This paper includes a review of current state of the art 6d pose estimation methods, as well as a discussion of which pose estimation method should be used in two types of architectural design scenarios. Taking the latest pose estimation research Gen6d as an example, we make a qualitative assessment of the current openset methods in terms of application level, prediction speed, resistance to occlusion, accuracy, resistance to environmental interference, etc. In addition, we try to combine 6D pose estimation and building wind environment assessment to create tangible architectural design approach, we discuss the limitations of the method and point out the direction in which 6d pose estimation is eager to progress in this scenario.
翻訳日:2023-11-22 13:31:41 公開日:2023-11-18
# 胎児健康データ解析のための機械学習に基づく分類法

Classification Methods Based on Machine Learning for the Analysis of Fetal Health Data ( http://arxiv.org/abs/2311.10962v1 )

ライセンス: Link先を確認
Binod Regmi and Chiranjibi Shah(参考訳) 小児死亡率を下げるための永続的な戦いは、医学分野の進歩を測る指標として一般的に用いられる。 全世界で5歳未満の死亡率はおよそ500万人であり、その大部分が回避可能である。 この問題の重要性から、マシンラーニングベースのテクニックが胎児の健康を評価する重要なツールとして登場した。 本研究では,胎児健康分析のための各種機械学習モデルの分類性能について検討した。 サポートベクターマシン(SVM)、ランダムフォレスト(RF)、注意的解釈可能な表型学習(TabNet)などの各種機械学習モデルの分類性能を胎児の健康上で評価した。 さらに,主成分分析 (PCA) や線形判別分析 (LDA) などの次元性低減技術が実装され,特徴量が少なくて優れた分類性能が得られるようになった。 胎児の健康データセット上のTabNetモデルは、94.36%の分類精度を提供する。 一般的にこの技術は、医師や医療専門家が正確な胎児の健康分類を達成し、その過程で最も影響力のある特徴を特定できるようにする。

The persistent battle to decrease childhood mortality serves as a commonly employed benchmark for gauging advancements in the field of medicine. Globally, the under-5 mortality rate stands at approximately 5 million, with a significant portion of these deaths being avoidable. Given the significance of this problem, Machine learning-based techniques have emerged as a prominent tool for assessing fetal health. In this work, we have analyzed the classification performance of various machine learning models for fetal health analysis. Classification performance of various machine learning models, such as support vector machine (SVM), random forest(RF), and attentive interpretable tabular learning (TabNet) have been assessed on fetal health. Moreover, dimensionality reduction techniques, such as Principal component analysis (PCA) and Linear discriminant analysis (LDA) have been implemented to obtain better classification performance with less number of features. A TabNet model on a fetal health dataset provides a classification accuracy of 94.36%. In general, this technology empowers doctors and healthcare experts to achieve precise fetal health classification and identify the most influential features in the process.
翻訳日:2023-11-22 13:23:08 公開日:2023-11-18
# hungergist: 食品不安の解釈可能な予測モデル

HungerGist: An Interpretable Predictive Model for Food Insecurity ( http://arxiv.org/abs/2311.10953v1 )

ライセンス: Link先を確認
Yongsu Ahn, Muheng Yan, Yu-Ru Lin, Zian Wang(参考訳) アフリカでは、戦争、気候変動、貧困などの要因が原因で食料不足が激化しており、早期警戒体制の高度化が求められている。 気候、地理、社会の混乱を含む専門家によるデータに依存する伝統的な方法論は、データ制限のためにしばしば不足し、包括的な分析や新しい予測因子の発見を妨げる。 そこで本稿では,ニューステキストとNLP技術を利用したマルチタスク深層学習モデルであるHungerGistを紹介する。 4年間でアフリカの9カ国から53,000件以上のニュース記事のコーパスを用いて,従来のリスクファクターと人為的キーワードの両方でトレーニングされたベースライン手法よりも優れていることを示す。 また,本手法では,"gists"と呼ばれる解釈可能な信号を含むクリティカルテキストを検出することができる。 さらに,本研究は,本手法が非構造化テキストに隠されたままの潜伏因子を明らかにする可能性を示唆している。

The escalating food insecurity in Africa, caused by factors such as war, climate change, and poverty, demonstrates the critical need for advanced early warning systems. Traditional methodologies, relying on expert-curated data encompassing climate, geography, and social disturbances, often fall short due to data limitations, hindering comprehensive analysis and potential discovery of new predictive factors. To address this, this paper introduces "HungerGist", a multi-task deep learning model utilizing news texts and NLP techniques. Using a corpus of over 53,000 news articles from nine African countries over four years, we demonstrate that our model, trained solely on news data, outperforms the baseline method trained on both traditional risk factors and human-curated keywords. In addition, our method has the ability to detect critical texts that contain interpretable signals known as "gists." Moreover, our examination of these gists indicates that this approach has the potential to reveal latent factors that would otherwise remain concealed in unstructured texts.
翻訳日:2023-11-22 13:22:37 公開日:2023-11-18
# nas-asdet:ニューラルネットワークを用いた表面欠陥検出ネットワークの適応設計法

NAS-ASDet: An Adaptive Design Method for Surface Defect Detection Network using Neural Architecture Search ( http://arxiv.org/abs/2311.10952v1 )

ライセンス: Link先を確認
Zhenrong Wang, Bin Li, Weifeng Li, Shuanlong Niu, Wang Miao, Tongzhi Niu(参考訳) 深部畳み込みニューラルネットワーク(CNN)は表面欠陥検出に広く利用されている。 しかしながら、すべての検出タスクに適しているcnnアーキテクチャはなく、効果的なタスク固有の設計にはかなりの労力を要する。 neural architecture search (nas)技術は、適応型データ駆動ネットワークを自動生成可能にする。 本稿では,表面欠陥検出のためのネットワークを適応的に設計するNAS-ASDetを提案する。 まず、特徴分布を適応的に調整できる、洗練された産業に適した検索空間を設計し、探索可能な注意操作を伴う、繰り返し積み重ねられた基本的新規細胞からなる。 そして、より高速に探索空間を探索するために、深い監視機構を備えたプログレッシブ検索戦略を用いる。 産業シナリオにおけるデータ不足を伴う高性能で軽量な欠陥検出ネットワークを設計できる。 4つのデータセットに対する実験結果から,提案手法は手動およびNASベースのアプローチを含む他の競合手法と比較して,優れた性能と比較的軽量なモデルサイズを実現することが示された。

Deep convolutional neural networks (CNNs) have been widely used in surface defect detection. However, no CNN architecture is suitable for all detection tasks and designing effective task-specific requires considerable effort. The neural architecture search (NAS) technology makes it possible to automatically generate adaptive data-driven networks. Here, we propose a new method called NAS-ASDet to adaptively design network for surface defect detection. First, a refined and industry-appropriate search space that can adaptively adjust the feature distribution is designed, which consists of repeatedly stacked basic novel cells with searchable attention operations. Then, a progressive search strategy with a deep supervision mechanism is used to explore the search space faster and better. This method can design high-performance and lightweight defect detection networks with data scarcity in industrial scenarios. The experimental results on four datasets demonstrate that the proposed method achieves superior performance and a relatively lighter model size compared to other competitive methods, including both manual and NAS-based approaches.
翻訳日:2023-11-22 13:22:07 公開日:2023-11-18
# 分数フーリエ変換による単発位相検索

Single-shot Phase Retrieval from a Fractional Fourier Transform Perspective ( http://arxiv.org/abs/2311.10950v1 )

ライセンス: Link先を確認
Yixiao Yang, Ran Tao, Kaixuan Wei, Jun Shi(参考訳) 古典的位相検索の領域は、そのフーリエマグニチュード測定から信号を取り戻すという困難なタスクに関係しており、それらは本質的に曖昧さに満ちている。 単一露光強度測定は、欠位相成分が逆変換に必須であることから、主信号の再構成には不十分であると考えられている。 本研究では,FrFTに基づく物理測定モデルを自己教師型再構成方式に統合することを含む,FrFT(Farential Fourier transform)の観点から,新しい単発位相探索パラダイムを提案する。 具体的には、フレネル回折の数値計算におけるエイリアス化アーティファクト問題にFrFTを用いた測定モデルを用いて対処し、短距離および長距離の伝搬シナリオに適応可能である。 さらに、FrFT領域の強度測定は相検索のあいまいさを緩和し、フーリエ領域のオーバーサンプリングや多重測定の前の条件を緩和するのに非常に有効である。 さらに,提案手法は,FrFTの高速離散アルゴリズムを未学習のニューラルネットワーク先行アルゴリズムと併用することにより,顕著な結果が得られる。 数値シミュレーションにより,提案手法を用いた単発強度測定から振幅と位相の双方の物体を効果的に抽出できることを実証し,支持のないコヒーレント回折イメージングに有望な技術を提供する。

The realm of classical phase retrieval concerns itself with the arduous task of recovering a signal from its Fourier magnitude measurements, which are fraught with inherent ambiguities. A single-exposure intensity measurement is commonly deemed insufficient for the reconstruction of the primal signal, given that the absent phase component is imperative for the inverse transformation. In this work, we present a novel single-shot phase retrieval paradigm from a fractional Fourier transform (FrFT) perspective, which involves integrating the FrFT-based physical measurement model within a self-supervised reconstruction scheme. Specifically, the proposed FrFT-based measurement model addresses the aliasing artifacts problem in the numerical calculation of Fresnel diffraction, featuring adaptability to both short-distance and long-distance propagation scenarios. Moreover, the intensity measurement in the FrFT domain proves highly effective in alleviating the ambiguities of phase retrieval and relaxing the previous conditions on oversampled or multiple measurements in the Fourier domain. Furthermore, the proposed self-supervised reconstruction approach harnesses the fast discrete algorithm of FrFT alongside untrained neural network priors, thereby attaining preeminent results. Through numerical simulations, we demonstrate that both amplitude and phase objects can be effectively retrieved from a single-shot intensity measurement using the proposed approach and provide a promising technique for support-free coherent diffraction imaging.
翻訳日:2023-11-22 13:21:33 公開日:2023-11-18
# RecExplainer: Recommendation Model Interpretabilityのための大規模言語モデルの調整

RecExplainer: Aligning Large Language Models for Recommendation Model Interpretability ( http://arxiv.org/abs/2311.10947v1 )

ライセンス: Link先を確認
Yuxuan Lei, Jianxun Lian, Jing Yao, Xu Huang, Defu Lian, Xing Xie(参考訳) Recommender システムは様々なオンラインサービスで広く使われており、埋め込みベースのモデルは複雑な信号を表現するために特に人気がある。 しかしながら、これらのモデルは解釈可能性に欠けることが多く、ユーザと開発者にとって信頼性が低く透明である。 大規模言語モデル (LLMs) の出現に伴い, 言語表現, 知識認識推論, 命令追従の能力は極めて強力であることが判明した。 そこで本研究では,llmをサロゲートモデルとして,ターゲットレコメンダモデルの模倣と理解を学ぶことにより,レコメンダシステムのための新しいモデル解釈手法を提案する。 具体的には,行動アライメント,意図アライメント,ハイブリッドアライメントという3つのアライメント手法を提案する。 振る舞いアライメントは言語空間で動作し、ユーザの好みとアイテム情報をテキストとして表現し、レコメンデーションモデルの振る舞いを学ぶ;意図アライメントはレコメンデーションモデルの潜在空間で働き、ユーザーとアイテムの表現を使ってモデルの振る舞いを理解する;ハイブリッドアライメントは、アライメントトレーニングのために言語と潜在空間の両方を結合する。 提案手法の有効性を実証するため,3つの公開データセット上でアライメント効果と説明生成能力の2つの観点から評価を行った。 提案手法は,LLMが推奨モデルのパターンを効果的に理解し,信頼性の高いレコメンデーション説明を生成することを示唆している。

Recommender systems are widely used in various online services, with embedding-based models being particularly popular due to their expressiveness in representing complex signals. However, these models often lack interpretability, making them less reliable and transparent for both users and developers. With the emergence of large language models (LLMs), we find that their capabilities in language expression, knowledge-aware reasoning, and instruction following are exceptionally powerful. Based on this, we propose a new model interpretation approach for recommender systems, by using LLMs as surrogate models and learn to mimic and comprehend target recommender models. Specifically, we introduce three alignment methods: behavior alignment, intention alignment, and hybrid alignment. Behavior alignment operates in the language space, representing user preferences and item information as text to learn the recommendation model's behavior; intention alignment works in the latent space of the recommendation model, using user and item representations to understand the model's behavior; hybrid alignment combines both language and latent spaces for alignment training. To demonstrate the effectiveness of our methods, we conduct evaluation from two perspectives: alignment effect, and explanation generation ability on three public datasets. Experimental results indicate that our approach effectively enables LLMs to comprehend the patterns of recommendation models and generate highly credible recommendation explanations.
翻訳日:2023-11-22 13:21:01 公開日:2023-11-18
# オープンドメイン対話生成のための経験的ベイズフレームワーク

An Empirical Bayes Framework for Open-Domain Dialogue Generation ( http://arxiv.org/abs/2311.10945v1 )

ライセンス: Link先を確認
Jing Yang Lee, Kong Aik Lee, and Woon-Seng Gan(参考訳) 有意義な会話を行うためには、オープンドメイン対話エージェントが多様でコンテキスト的に一貫性のある対話を生成する必要がある。 事前学習された言語モデルの使用による近年の進歩にもかかわらず、多様でコヒーレントな対話の生成はいまだにオープンな研究課題である。 この問題に対処するための一般的なアプローチは、変分フレームワークの適応である。 しかしながら、これらのアプローチは多様性の改善に成功しているが、文脈的一貫性に妥協する傾向がある。 そこで我々は,事前学習パラメータを利用して事前パラメータ分布と後方パラメータ分布を知らせる経験ベイズフレームワークである経験ベイズ(bodeb)フレームワークを用いたベイズオープンドメイン対話を提案する。 実験結果から,BODEBは多様性とコヒーレンスの両方の観点から,変動フレームワークよりも優れた結果が得られることが示された。

To engage human users in meaningful conversation, open-domain dialogue agents are required to generate diverse and contextually coherent dialogue. Despite recent advancements, which can be attributed to the usage of pretrained language models, the generation of diverse and coherent dialogue remains an open research problem. A popular approach to address this issue involves the adaptation of variational frameworks. However, while these approaches successfully improve diversity, they tend to compromise on contextual coherence. Hence, we propose the Bayesian Open-domain Dialogue with Empirical Bayes (BODEB) framework, an empirical bayes framework for constructing an Bayesian open-domain dialogue agent by leveraging pretrained parameters to inform the prior and posterior parameter distributions. Empirical results show that BODEB achieves better results in terms of both diversity and coherence compared to variational frameworks.
翻訳日:2023-11-22 13:20:16 公開日:2023-11-18
# バイモーダル畳み込みニューラルネットワークを用いた言語・生理データストリームの認識検出

Deception Detection from Linguistic and Physiological Data Streams Using Bimodal Convolutional Neural Networks ( http://arxiv.org/abs/2311.10944v1 )

ライセンス: Link先を確認
Panfeng Li, Mohamed Abouelenien, Rada Mihalcea(参考訳) 倫理的およびセキュリティ上の懸念から、詐欺検出への関心が高まっている。 本稿では,畳み込みニューラルネットワークのマルチモーダルデセプション検出への応用について検討する。 104名の被験者に2つのトピックについてインタビューし、各トピックについて各トピックから真理と偽の回答を得たデータセットを使用する。 特に、主な貢献は3つあります。 まず,このデータから言語的・生理的特徴を抽出し,ニューラルネットワークモデルを訓練・構築する。 第2に,両モードを用いた畳み込み畳み込みニューラルネットワークモデルを提案する。 第3に,マルチモーダル・デセプション検出のための従来の手法と比較した。 また,本システムは正規分類法よりも優れており,限られた量のデータが存在する場合でも,ニューラルネットワークを用いた誤認検出が実現可能であることを示唆する。

Deception detection is gaining increasing interest due to ethical and security concerns. This paper explores the application of convolutional neural networks for the purpose of multimodal deception detection. We use a dataset built by interviewing 104 subjects about two topics, with one truthful and one falsified response from each subject about each topic. In particular, we make three main contributions. First, we extract linguistic and physiological features from this data to train and construct the neural network models. Second, we propose a fused convolutional neural network model using both modalities in order to achieve an improved overall performance. Third, we compare our new approach with earlier methods designed for multimodal deception detection. We find that our system outperforms regular classification methods; our results indicate the feasibility of using neural networks for deception detection even in the presence of limited amounts of data.
翻訳日:2023-11-22 13:20:02 公開日:2023-11-18
# 対話応答多様性のための部分ランダム化トランスフォーマーウェイト

Partially Randomizing Transformer Weights for Dialogue Response Diversity ( http://arxiv.org/abs/2311.10943v1 )

ライセンス: Link先を確認
Jing Yang Lee, Kong Aik Lee, and Woon-Seng Gan(参考訳) 生成的オープンドメイン対話の進展にもかかわらず、低応答多様性の問題が続いている。 以前の研究は、新しい目的関数、変分フレームワークのような代替学習アプローチ、あるいはランダムリンク(rl)トランスフォーマーのようなアーキテクチャ拡張を通じてこの問題に対処してきた。 しかしながら、これらのアプローチは通常、トレーニング/推論中に追加の困難を伴うか、あるいはモデルのサイズと複雑さが大幅に増加する。 したがって、ランダム初期化後に選択した層の重みを凍結するトランスフォーマーの簡単な拡張である \underline{Pa}rtially \underline{Ra}ndomized trans\underline{Former} (PaRaFormer) を提案する。 実験の結果、PaRaformerの性能は前述のアプローチと同等であるが、追加のトレーニングの困難さやモデルの複雑さの増加は伴わないことがわかった。

Despite recent progress in generative open-domain dialogue, the issue of low response diversity persists. Prior works have addressed this issue via either novel objective functions, alternative learning approaches such as variational frameworks, or architectural extensions such as the Randomized Link (RL) Transformer. However, these approaches typically entail either additional difficulties during training/inference, or a significant increase in model size and complexity. Hence, we propose the \underline{Pa}rtially \underline{Ra}ndomized trans\underline{Former} (PaRaFormer), a simple extension of the transformer which involves freezing the weights of selected layers after random initialization. Experimental results reveal that the performance of the PaRaformer is comparable to that of the aforementioned approaches, despite not entailing any additional training difficulty or increase in model complexity.
翻訳日:2023-11-22 13:19:49 公開日:2023-11-18
# ハミルトンサイクル問題に対する古典的・確率的・量子アルゴリズムの比較

Comparison among Classical, Probabilistic and Quantum Algorithms for Hamiltonian Cycle problem ( http://arxiv.org/abs/2311.10941v1 )

ライセンス: Link先を確認
Giuseppe Corrente, Carlo Vincenzo Stanzione and Vittoria Stanzione(参考訳) NP完全問題であるハミルトンサイクル問題(HCP)は、n個のノードとm個のエッジを持つグラフGを持ち、各ノードを正確に1度に接続する経路を見つける。 本稿では,計算の異なるモデル,特に確率的および量子的問題を用いて,ハミルトニアンサイクル問題を解くアルゴリズムを比較する。 ランダムウォークの古典的確率論的アプローチから始めて、量子アルゴリズムの有用な概念的プロジェクトツールであるアドホック設計の量子チューリングマシン(Quantum Turing Machine, QTM)を取り入れることで、量子方向への一歩を踏み出す。 グラフにいくつかの制約を導入することで、我々の分析は、よく知られたアルゴリズムの指数関数的高速化に繋がる。 特に、結果は有界次数グラフ(エッジ数が最大となるノードを持つグラフ)と、他のアルゴリズムを上回るようなノードとエッジの数が制限されたグラフに基づいている。

The Hamiltonian cycle problem (HCP), which is an NP-complete problem, consists of having a graph G with n nodes and m edges and finding the path that connects each node exactly once. In this paper we compare some algorithms to solve a Hamiltonian cycle problem, using different models of computations and especially the probabilistic and quantum ones. Starting from the classical probabilistic approach of random walks, we take a step to the quantum direction by involving an ad hoc designed Quantum Turing Machine (QTM), which can be a useful conceptual project tool for quantum algorithms. Introducing several constraints to the graphs, our analysis leads to not-exponential speedup improvements to the best-known algorithms. In particular, the results are based on bounded degree graphs (graphs with nodes having a maximum number of edges) and graphs with the right limited number of nodes and edges to allow them to outperform the other algorithms.
翻訳日:2023-11-22 13:19:33 公開日:2023-11-18
# アンサンブル精度の実際的評価

Practical Estimation of Ensemble Accuracy ( http://arxiv.org/abs/2311.10940v1 )

ライセンス: Link先を確認
Simi Haber, Yonatan Wexler(参考訳) アンサンブル学習はいくつかの個別モデルを組み合わせてより良い一般化性能を得る。 本研究では,ラベルに依存しない既存の手法とは異なるいくつかの分類器の結合力を推定する実用的な手法を提案する。 これは「多様性尺度」を定義する既存の方法とは異なる。 メソッドの心臓は、アンサンブルが犯すであろうミスの数に束縛された組合せである。 境界はサンプル数で線形な時間に効率的に近似することができる。 これにより、高いジョイント精度を生み出す可能性のある分類器の組み合わせを効率的に探索することができる。 さらに、ラベルなしデータに適用可能なバウンダリを持つことは、教師なし学習の現代的環境では正確かつ実用的である。 本手法は,多くのクラスにまたがるノイズの多いデータを用いた細粒度分類作業に有用なグラウンドを提供する,大規模な顔認識データセット上で実証する。 提案フレームワークは教師なし学習のトレンドに適している。 これは、他の分類器やラベル付きデータのような余分な情報に依存しない分類器の集合の固有の独立性の尺度である。

Ensemble learning combines several individual models to obtain better generalization performance. In this work we present a practical method for estimating the joint power of several classifiers which differs from existing approaches by {\em not relying on labels}, hence enabling the work in unsupervised setting of huge datasets. It differs from existing methods which define a "diversity measure". The heart of the method is a combinatorial bound on the number of mistakes the ensemble is likely to make. The bound can be efficiently approximated in time linear in the number of samples. Thus allowing an efficient search for a combination of classifiers that are likely to produce higher joint accuracy. Moreover, having the bound applicable to unlabeled data makes it both accurate and practical in modern setting of unsupervised learning. We demonstrate the method on popular large-scale face recognition datasets which provide a useful playground for fine-grain classification tasks using noisy data over many classes. The proposed framework fits neatly in trending practices of unsupervised learning. It is a measure of the inherent independence of a set of classifiers not relying on extra information such as another classifier or labeled data.
翻訳日:2023-11-22 13:19:15 公開日:2023-11-18
# 対称磁場とランダウ磁場による非可換グラフェンの正準群量子化

Canonical Group Quantization of Noncommutative Graphene with Symmetric and Landau Dual Magnetic Fields ( http://arxiv.org/abs/2311.10939v1 )

ライセンス: Link先を確認
M.F. Umar, M.S. Nurisya(参考訳) 正準群量子化法は二重磁場の存在下で非可換グラフェンの研究に用いられている。 位相空間 $\mathbb{r}^2\times \mathbb{r}^2$ の対称双対ゲージとランダウ双対ゲージの両方の正準群は、$\mathtt{h}^2\rtimes \mathbb{r}$ である。 対称ゲージとランダウ双対ゲージの表現は、同様の正準可換関係につながり、エネルギースペクトルは両方の双対磁場によって補正され、同じ結果が得られることを観測する。

The canonical group quantization approach has been used to study noncommutative graphene in the presence of dual magnetic fields. The canonical group for the phase space $\mathbb{R}^2\times \mathbb{R}^2$ with both symmetric and Landau dual gauges is shown to be equivalent to $\mathtt{H}^2\rtimes \mathbb{R}$. The representations of both symmetric and Landau dual gauges lead to similar canonical commutation relations, and we observe that the energy spectrum is corrected by both dual magnetic fields, yielding the same result.
翻訳日:2023-11-22 13:19:01 公開日:2023-11-18
# 自動車両検証における安全クリティカルシナリオ生成のためのデータ駆動および知識駆動アプローチの橋渡し

Bridging Data-Driven and Knowledge-Driven Approaches for Safety-Critical Scenario Generation in Automated Vehicle Validation ( http://arxiv.org/abs/2311.10937v1 )

ライセンス: Link先を確認
Kunkun Hao, Lu Liu, Wen Cui, Jianxing Zhang, Songyang Yan, Yuxi Pan and Zijiang Yang(参考訳) 自動走行車〜(ADV)は運転効率と安全性を高めることを約束するが、安全クリティカルなシナリオでは複雑な課題に直面している。 その結果、生成した安全クリティカルシナリオ内でADVを検証することは、開発および性能評価の両方に不可欠である。 本稿では,データ駆動方式と知識駆動方式の2つのシナリオ生成手法の複雑さについて検討する。 データ駆動の手法は、記録されたデータセットからシナリオを導き、既存の行動や交通参加者の軌跡を変更することでシナリオを効率的に生成するが、ADVの認識を考慮し、しばしば不足する。 これらの課題を克服するために,我々は,両手法の利点を橋渡しするために設計された安全クリティカルシナリオ生成フレームワーク bridgegen を紹介する。 具体的には、オントロジベースの技術を利用することで、知識駆動型メソッドから運用設計ドメイン(odd)の5つのシナリオレイヤをモデル化し、広範なカバレッジを確保し、安全クリティカルなシナリオを効率的に生成するためのデータ駆動戦略を導入する。 BridgeGen内で最適化されたシナリオ生成ツールキットが開発されている。 これにより、従来の最適化と強化学習スキームを組み合わせることで、安全クリティカルなシナリオの作成が促進される。 Carlaシミュレータを用いて行った大規模な実験は、BridgeGenの多様な安全クリティカルシナリオの生成における効果を実証している。

Automated driving vehicles~(ADV) promise to enhance driving efficiency and safety, yet they face intricate challenges in safety-critical scenarios. As a result, validating ADV within generated safety-critical scenarios is essential for both development and performance evaluations. This paper investigates the complexities of employing two major scenario-generation solutions: data-driven and knowledge-driven methods. Data-driven methods derive scenarios from recorded datasets, efficiently generating scenarios by altering the existing behavior or trajectories of traffic participants but often falling short in considering ADV perception; knowledge-driven methods provide effective coverage through expert-designed rules, but they may lead to inefficiency in generating safety-critical scenarios within that coverage. To overcome these challenges, we introduce BridgeGen, a safety-critical scenario generation framework, designed to bridge the benefits of both methodologies. Specifically, by utilizing ontology-based techniques, BridgeGen models the five scenario layers in the operational design domain (ODD) from knowledge-driven methods, ensuring broad coverage, and incorporating data-driven strategies to efficiently generate safety-critical scenarios. An optimized scenario generation toolkit is developed within BridgeGen. This expedites the crafting of safety-critical scenarios through a combination of traditional optimization and reinforcement learning schemes. Extensive experiments conducted using Carla simulator demonstrate the effectiveness of BridgeGen in generating diverse safety-critical scenarios.
翻訳日:2023-11-22 13:18:45 公開日:2023-11-18
# ガウス過程(GP)を用いた高周波取引の短期ボラティリティ推定

Short-term Volatility Estimation for High Frequency Trades using Gaussian processes (GPs) ( http://arxiv.org/abs/2311.10935v1 )

ライセンス: Link先を確認
Leonard Mushunje, Maxwell Mashasha and Edina Chandiwana(参考訳) 金融市場の背後にある基本的な定理は、株価が本質的に複雑で確率的であることである。 複雑さの1つは、株価に伴うボラティリティである。 ボラティリティは、価格が予想外に変化する傾向である[1]。 価格のボラティリティはしばしばリターン経済学に有害であり、投資家は投資決定、選択、時間的または恒久的な動きを行うたびにそれを考慮すべきである。 したがって、投資家の安全と経済のリターンのために、必要かつ定期的な短期的かつ長期的な株価変動予測を行うことが不可欠である。 これらの予測は正確で誤解を招くべきではない。 ARCH GARCHモデルのような様々なモデルや手法が直感的に実装され、そのような予測がなされている。 しかし、このような伝統的な手段は短期的なボラティリティ予測を効果的に捉えられない。 そこで本稿では,短時間のボラティリティに対する数値モデルと確率モデルの組み合わせと,高周波取引におけるリターン予測を検討・実施する。 本研究の目的は,1日ごとのボラティリティ予測を,数値市場予測(NMP)モデルの出力に適用したガウス過程(GP)を用いて行ったことである。 まず、NMPの株価データをGPで補正した。 市場における価格制限の設定は、その自由な性質とランダム性のため容易ではないため、修正された株価とリターンの関係をモデル化するためにCensored GPが使用された。 予測誤差は含意および推定データを用いて評価した。

The fundamental theorem behind financial markets is that stock prices are intrinsically complex and stochastic. One of the complexities is the volatility associated with stock prices. Volatility is a tendency for prices to change unexpectedly [1]. Price volatility is often detrimental to the return economics, and thus, investors should factor it in whenever making investment decisions, choices, and temporal or permanent moves. It is, therefore, crucial to make necessary and regular short and long-term stock price volatility forecasts for the safety and economics of investors returns. These forecasts should be accurate and not misleading. Different models and methods, such as ARCH GARCH models, have been intuitively implemented to make such forecasts. However, such traditional means fail to capture the short-term volatility forecasts effectively. This paper, therefore, investigates and implements a combination of numeric and probabilistic models for short-term volatility and return forecasting for high-frequency trades. The essence is that one-day-ahead volatility forecasts were made with Gaussian Processes (GPs) applied to the outputs of a Numerical market prediction (NMP) model. Firstly, the stock price data from NMP was corrected by a GP. Since it is not easy to set price limits in a market due to its free nature and randomness, a Censored GP was used to model the relationship between the corrected stock prices and returns. Forecasting errors were evaluated using the implied and estimated data.
翻訳日:2023-11-22 13:18:21 公開日:2023-11-18
# ロバストと正確なビジュアルプロンプティングを目指して

Towards Robust and Accurate Visual Prompting ( http://arxiv.org/abs/2311.10992v1 )

ライセンス: Link先を確認
Qi Li, Liangzhi Li, Zhouqiang Jiang, Bowen Wang(参考訳) 伝達学習の効率的な方法である視覚プロンプトは、視覚タスクにおいてその可能性を示している。 しかし、以前の研究は標準のソースモデルからのVPにのみ焦点をあてていたが、ロバストなソースモデルというシナリオの下でどのように機能するかはまだ分かっていない。 汎用パフォーマンスの低下に悩まされながら、ロバストなモデルから派生した視覚的プロンプトがロバスト性を継承できるかどうかは、ソースデータセットとは異なるダウンストリームデータセットに対してである。 本研究では,上記の質問に対する肯定的な回答を得られ,視覚的表現のレベルでの説明を行う。 さらに,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を導入し,ロバストモデルをソースモデルとして使用する場合の対向ロバスト性を損なう(あるいは著しく改善する)ことなく,標準的な精度で視覚的プロンプトの最適以下の結果を効果的に緩和する。 様々なデータセットにまたがる広範な実験により,我々の発見は普遍的であり,提案手法の重要な利点が示されている。

Visual prompting, an efficient method for transfer learning, has shown its potential in vision tasks. However, previous works focus exclusively on VP from standard source models, it is still unknown how it performs under the scenario of a robust source model: Whether a visual prompt derived from a robust model can inherit the robustness while suffering from the generalization performance decline, albeit for a downstream dataset that is different from the source dataset? In this work, we get an affirmative answer of the above question and give an explanation on the visual representation level. Moreover, we introduce a novel technique named Prompt Boundary Loose (PBL) to effectively mitigates the suboptimal results of visual prompt on standard accuracy without losing (or even significantly improving) its adversarial robustness when using a robust model as source model. Extensive experiments across various datasets show that our findings are universal and demonstrate the significant benefits of our proposed method.
翻訳日:2023-11-22 13:10:16 公開日:2023-11-18
# 「中央集権化・分散化」:非フランジブルトークン(nfts)市場における利害関係者の懸念と価値判断

"Centralized or Decentralized?": Concerns and Value Judgments of Stakeholders in the Non-Fungible Tokens (NFTs) Market ( http://arxiv.org/abs/2311.10990v1 )

ライセンス: Link先を確認
Yunpeng Xiao, Bufan Deng, Siqi Chen, Kyrie Zhixuan Zhou, RAY LC, Luyao Zhang, Xin Tong(参考訳) 非フランジブルトークン (non-fungible tokens, nfts) は、アイテムのユニークな所有権を表すために分散されたデジタルトークンである。 近年、NFTは人気を博し、詐欺、人種差別、性差別などの問題を提起している。 NFTの重要な属性である分散化は、NFTマーケットプレースから意図的に取り除かれた集中型スキームの下での規制が容易ないくつかの問題に寄与する。 本研究では, NFT空間におけるこの集中分散ジレンマを定量的, 定性的な混合手法により探索した。 中央集権化ジレンマ (Centralization-Decentralization dilemma) は、分散化のスローガンと利害関係者の利害の対立によって引き起こされるジレンマである。 まず3万件以上のNFT関連ツイートを分析し,NFT分野における利害関係者の関心事の高レベルな理解を得た。 次に15人のnft利害関係者(クリエーターとコレクターの両方)にインタビューを行い、これらの懸念と潜在的なソリューションに関する深い洞察を得た。 調査の結果,金融詐欺,偽造NFT,ハッキング,非倫理的NFTなど,ユーザ間の問題点が明らかになった。 さらに,インタビューにおける利害関係者の視点を反映した集中分散ジレンマについて考察した。 最後に,NFT市場における集中化・分散化ジレンマを解決するための推論を行い,NFTの将来と分散化について考察した。

Non-fungible tokens (NFTs) are decentralized digital tokens to represent the unique ownership of items. Recently, NFTs have been gaining popularity and at the same time bringing up issues, such as scams, racism, and sexism. Decentralization, a key attribute of NFT, contributes to some of the issues that are easier to regulate under centralized schemes, which are intentionally left out of the NFT marketplace. In this work, we delved into this centralization-decentralization dilemma in the NFT space through mixed quantitative and qualitative methods. Centralization-decentralization dilemma is the dilemma caused by the conflict between the slogan of decentralization and the interests of stakeholders. We first analyzed over 30,000 NFT-related tweets to obtain a high-level understanding of stakeholders' concerns in the NFT space. We then interviewed 15 NFT stakeholders (both creators and collectors) to obtain their in-depth insights into these concerns and potential solutions. Our findings identify concerning issues among users: financial scams, counterfeit NFTs, hacking, and unethical NFTs. We further reflected on the centralization-decentralization dilemma drawing upon the perspectives of the stakeholders in the interviews. Finally, we gave some inferences to solve the centralization-decentralization dilemma in the NFT market and thought about the future of NFT and decentralization.
翻訳日:2023-11-22 13:09:54 公開日:2023-11-18
# 拡大するシーングラフ境界:ビジュアルコンセプションアライメントと保持による完全にオープン語彙のシーングラフ生成

Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention ( http://arxiv.org/abs/2311.10988v1 )

ライセンス: Link先を確認
Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang and Changwen Chen(参考訳) シーングラフ生成(sgg)は多くのコンピュータビジョンアプリケーションで重要な構造化表現を提供する。 しかしながら、従来のsggアプローチは、定義済みのオブジェクトと関係カテゴリのみを認識する能力を制限するクローズドセットの仮定によって制限される。 これを解決するために,SGGシナリオを,ノードとエッジに基づいて4つの異なる設定に分類する。クローズドセットSGG,オープン語彙(オブジェクト)検出ベースSGG(OvD-SGG),オープン語彙関係ベースSGG(OvR-SGG),オープン語彙検出+リレーショナルSGG(OvD+R-SGG)。 対象中心のオープン語彙 SGG は近年研究されているが、関係を伴うオープン語彙 SGG のより難しい問題は、比較的未解明のままである。 このギャップを埋めるために,全体観から完全オープンボキャブラリsggに向けてovsgtrという統一フレームワークを提案する。 提案するフレームワークはエンド・ツー・エンドのトランスフォーマーアーキテクチャであり、ノードとエッジの両方の視覚概念のアライメントを学習し、モデルが目に見えないカテゴリを認識できるようにする。 関係関連を持つオープン語彙SGGのより困難な設定のために,提案手法は画像キャプチャデータを利用した関係対応事前学習を統合し,知識蒸留による視覚概念のアライメントを維持する。 Visual Genomeベンチマークの総合的な実験結果は、提案フレームワークの有効性と優位性を示している。

Scene Graph Generation (SGG) offers a structured representation critical in many computer vision applications. Traditional SGG approaches, however, are limited by a closed-set assumption, restricting their ability to recognize only predefined object and relation categories. To overcome this, we categorize SGG scenarios into four distinct settings based on the node and edge: Closed-set SGG, Open Vocabulary (object) Detection-based SGG (OvD-SGG), Open Vocabulary Relation-based SGG (OvR-SGG), and Open Vocabulary Detection + Relation-based SGG (OvD+R-SGG). While object-centric open vocabulary SGG has been studied recently, the more challenging problem of relation-involved open-vocabulary SGG remains relatively unexplored. To fill this gap, we propose a unified framework named OvSGTR towards fully open vocabulary SGG from a holistic view. The proposed framework is an end-toend transformer architecture, which learns a visual-concept alignment for both nodes and edges, enabling the model to recognize unseen categories. For the more challenging settings of relation-involved open vocabulary SGG, the proposed approach integrates relation-aware pre-training utilizing image-caption data and retains visual-concept alignment through knowledge distillation. Comprehensive experimental results on the Visual Genome benchmark demonstrate the effectiveness and superiority of the proposed framework.
翻訳日:2023-11-22 13:09:29 公開日:2023-11-18
# edgefm: エッジ上のオープンセット学習に基盤モデルを活用する

EdgeFM: Leveraging Foundation Model for Open-set Learning on the Edge ( http://arxiv.org/abs/2311.10986v1 )

ライセンス: Link先を確認
Bufang Yang, Lixing He, Neiwen Ling, Zhenyu Yan, Guoliang Xing, Xian Shuai, Xiaozhe Ren, Xin Jiang(参考訳) ディープラーニング(DL)モデルは、DLアルゴリズムとチップの進歩の助けを借りて、IoTデバイスに広くデプロイされている。 しかし、エッジデバイスの限られたリソースは、これらのデバイス上のDLモデルを様々な環境やタスクに一般化することを困難にしている。 最近出現した基盤モデル(FM)は、驚くべき一般化力を示しているが、リソース制限エッジデバイスにFMの豊富な知識を効果的に活用する方法はまだ検討されていない。 本稿では,オープンセット認識機能を備えたエッジクラウド協調システムであるEdgeFMを提案する。 EdgeFMは、クラウド上のFMに問い合わせるためにラベルのないデータを選択的にアップロードし、エッジモデルの特定の知識とアーキテクチャをカスタマイズする。 一方、EdgeFMは、データ不確実性と動的ネットワークのばらつきの両方を考慮して、実行時に動的モデル切替を行うため、元のFMに常に近い精度が保証される。 2つのエッジプラットフォームに2つのfmsを使用してedgefmを実装します。 EdgeFMを3つの公開データセットと2つの自己収集データセットで評価する。 結果としてEdgeFMは、エンドツーエンドのレイテンシを3.2倍に削減し、ベースラインと比較して34.3%の精度向上を実現している。

Deep Learning (DL) models have been widely deployed on IoT devices with the help of advancements in DL algorithms and chips. However, the limited resources of edge devices make these on-device DL models hard to be generalizable to diverse environments and tasks. Although the recently emerged foundation models (FMs) show impressive generalization power, how to effectively leverage the rich knowledge of FMs on resource-limited edge devices is still not explored. In this paper, we propose EdgeFM, a novel edge-cloud cooperative system with open-set recognition capability. EdgeFM selectively uploads unlabeled data to query the FM on the cloud and customizes the specific knowledge and architectures for edge models. Meanwhile, EdgeFM conducts dynamic model switching at run-time taking into account both data uncertainty and dynamic network variations, which ensures the accuracy always close to the original FM. We implement EdgeFM using two FMs on two edge platforms. We evaluate EdgeFM on three public datasets and two self-collected datasets. Results show that EdgeFM can reduce the end-to-end latency up to 3.2x and achieve 34.3% accuracy increase compared with the baseline.
翻訳日:2023-11-22 13:08:57 公開日:2023-11-18
# 3次元ポーズ推定のための多視点幾何トランスフォーマー

Multiple View Geometry Transformers for 3D Human Pose Estimation ( http://arxiv.org/abs/2311.10983v1 )

ライセンス: Link先を確認
Ziwei Liao, Jialiang Zhu, Chunyu Wang, Han Hu, Steven L. Waslander(参考訳) 本研究では,多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。 最近の研究は、特に閉塞時に幾何学的情報を正確に解くのに苦労するエンドツーエンドの学習ベーストランスフォーマーの設計に焦点を当てている。 そこで我々は,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。 幾何学モジュールは学習自由であり、全ての視点依存の3Dタスクを幾何学的に扱う。 外観モジュールは学習可能であり、画像信号からエンドツーエンドまでの2Dポーズを推定することに特化しており、オクルージョンが発生しても正確な推定が可能であり、新しいカメラやジオメトリに正確かつ一般化可能なモデルに繋がる。 私たちは、ドメイン内設定とドメイン外設定の両方に対して、我々のアプローチを評価します。 コードとモデルはhttps://github.com/xunshanman/mvgformerでリリースします。

In this work, we aim to improve the 3D reasoning ability of Transformers in multi-view 3D human pose estimation. Recent works have focused on end-to-end learning-based transformer designs, which struggle to resolve geometric information accurately, particularly during occlusion. Instead, we propose a novel hybrid model, MVGFormer, which has a series of geometric and appearance modules organized in an iterative manner. The geometry modules are learning-free and handle all viewpoint-dependent 3D tasks geometrically which notably improves the model's generalization ability. The appearance modules are learnable and are dedicated to estimating 2D poses from image signals end-to-end which enables them to achieve accurate estimates even when occlusion occurs, leading to a model that is both accurate and generalizable to new cameras and geometries. We evaluate our approach for both in-domain and out-of-domain settings, where our model consistently outperforms state-of-the-art methods, and especially does so by a significant margin in the out-of-domain setting. We will release the code and models: https://github.com/XunshanMan/MVGFormer.
翻訳日:2023-11-22 13:08:38 公開日:2023-11-18
# ピクセルダンスを作る:高ダイナミックなビデオ生成

Make Pixels Dance: High-Dynamic Video Generation ( http://arxiv.org/abs/2311.10982v1 )

ライセンス: Link先を確認
Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li(参考訳) モーションリッチなアクションや高度な視覚効果といったハイダイナミックなビデオを作成することは、人工知能の分野で大きな課題となる。 残念なことに、現在最先端のビデオ生成手法は、主にテキスト・ビデオ生成に焦点を当てており、高い忠実さを維持しながら、最小限のモーションでビデオクリップを生成する傾向がある。 我々は、テキスト命令のみに頼ることはビデオ生成に不十分で最適ではないと主張する。 本稿では,ビデオ生成のためのテキスト命令とともに,第1フレームと最後のフレームの両方に画像命令を組み込む拡散モデルに基づく新しいアプローチであるpixeldanceを提案する。 総合的な実験により、パブリックデータで訓練されたピクセルダンスは複雑なシーンや複雑な動きで動画を合成する能力が著しく向上し、ビデオ生成の新しい標準が設定された。

Creating high-dynamic videos such as motion-rich actions and sophisticated visual effects poses a significant challenge in the field of artificial intelligence. Unfortunately, current state-of-the-art video generation methods, primarily focusing on text-to-video generation, tend to produce video clips with minimal motions despite maintaining high fidelity. We argue that relying solely on text instructions is insufficient and suboptimal for video generation. In this paper, we introduce PixelDance, a novel approach based on diffusion models that incorporates image instructions for both the first and last frames in conjunction with text instructions for video generation. Comprehensive experimental results demonstrate that PixelDance trained with public data exhibits significantly better proficiency in synthesizing videos with complex scenes and intricate motions, setting a new standard for video generation.
翻訳日:2023-11-22 13:08:18 公開日:2023-11-18
# 重力ハイブリッド系における一般化ウィグナー関数の負性体積

Negativity volume of the generalized Wigner function in gravitating hybrid system ( http://arxiv.org/abs/2311.10980v1 )

ライセンス: Link先を確認
Daisuke Miki, Akira Matsumura, Kazuhiro Yamamoto(参考訳) 二局在重畳状態の粒子と発振器からなるハイブリッド系において、一般化ウィグナー関数の重力誘起ネガティビティ体積を評価する。 一般化されたウィグナー関数はシステムの非古典性を捉えることができる。 一般化されたウィグナー関数の負の体積の増加は、様々な初期状態における重力誘起の絡み合いを生成するハイブリッドシステムにおいて、絡み合いの発生の指標となる。 また、ネガティビティ体積の挙動をエンタングルメント忠実度と比較することにより、発振器が熱状態にある場合の一般ウィグナー関数のネガティビティ体積に基づいて、エンタングルメントの非古典的特徴を基準によって適切に同定することを示す。

We evaluate the gravity-induced negativity volume of the generalized Wigner function in a hybrid system consisting of a particle in a two-localized superposition state and an oscillator. The generalized Wigner function can capture the nonclassicality of the system. The increase in the negativity volume of the generalized Wigner function can be an indicator of the entanglement generation, which is demonstrated in the hybrid system generating the gravity-induced entanglement in various initial states. Moreover, by comparing the behaviors of the negativity volume with the entanglement fidelity, we show that the nonclassical feature of entanglement is properly identified by the criterion based on the negativity volume of the generalized Wigner function when the oscillator is initially in a thermal state.
翻訳日:2023-11-22 13:08:02 公開日:2023-11-18
# ReLUネットワークトレーニングのための多項式時間解:Max-CutとZonotopeによる複雑度分類

Polynomial-Time Solutions for ReLU Network Training: A Complexity Classification via Max-Cut and Zonotopes ( http://arxiv.org/abs/2311.10972v1 )

ライセンス: Link先を確認
Yifei Wang and Mert Pilanci(参考訳) 重み減衰正則化を用いた2層ReLUニューラルネットワークのトレーニングの複雑さについて検討する。 従来の研究では、この問題の最適解は、標準コーン拘束凸プログラムを解くことで得られることが示されている。 この凸定式化を用いて、ReLUネットワークの近似の硬さがマックス・クート問題の複雑さを反映するだけでなく、特定の場合において、それと完全に一致することを証明した。 特に、$\epsilon\leq\sqrt{84/83}-1\approx 0.006$の場合、目的値に関して相対誤差$\epsilon$を持つreluネットワーク目的の近似大域最適化器を見つけることはnp困難である。 さらに,半定値マックスカット緩和のゴーマンス・ウィリアムソン丸みを反映するランダム化アルゴリズムを開発した。 多項式時間近似を提供するため、トレーニングデータセットを3つのカテゴリに分類する。 (i)直交分離可能なデータセットの場合、多項式時間で正確な解が得られる。 (ii)異なるクラスのサンプル間に負の相関がある場合、相対誤差$\sqrt{\pi/2}-1\approx 0.253$の多項式時間近似を与える。 (iii)一般データセットでは、問題を多項式時間で近似できる程度は、データセットに固有の2つのゾノトペの直径を制御する幾何学的因子によって制御される。 これらの結果は,正規化reluネットワークに対する近似結果の第一硬度とともに,多項式時間近似の最初の保証を示す。

We investigate the complexity of training a two-layer ReLU neural network with weight decay regularization. Previous research has shown that the optimal solution of this problem can be found by solving a standard cone-constrained convex program. Using this convex formulation, we prove that the hardness of approximation of ReLU networks not only mirrors the complexity of the Max-Cut problem but also, in certain special cases, exactly corresponds to it. In particular, when $\epsilon\leq\sqrt{84/83}-1\approx 0.006$, we show that it is NP-hard to find an approximate global optimizer of the ReLU network objective with relative error $\epsilon$ with respect to the objective value. Moreover, we develop a randomized algorithm which mirrors the Goemans-Williamson rounding of semidefinite Max-Cut relaxations. To provide polynomial-time approximations, we classify training datasets into three categories: (i) For orthogonal separable datasets, a precise solution can be obtained in polynomial-time. (ii) When there is a negative correlation between samples of different classes, we give a polynomial-time approximation with relative error $\sqrt{\pi/2}-1\approx 0.253$. (iii) For general datasets, the degree to which the problem can be approximated in polynomial-time is governed by a geometric factor that controls the diameter of two zonotopes intrinsic to the dataset. To our knowledge, these results present the first polynomial-time approximation guarantees along with first hardness of approximation results for regularized ReLU networks.
翻訳日:2023-11-22 13:07:47 公開日:2023-11-18
# 巧妙にコンパクトな絡み合い浄化

Ridiculously Compact Entanglement Purification ( http://arxiv.org/abs/2311.10971v1 )

ライセンス: Link先を確認
Craig Gidney(参考訳) 本論文は, 絡み合いの共有に使用される量子チャネルにのみノイズの源が存在することを前提として, 絡み合いを最小限のストレージで浄化できることを示唆する。 目標の不確かさである$\epsilon$との絡み合ったペアは、$o(\log^{\ast} \frac{1}{\epsilon})$ストレージ空間を使って$\tilde{o}(\log \frac{1}{\epsilon})$で作成することができる。 これは、エラー検出の複数のステージを使用して、各ステージ内で強化される。 具体的には、9キュービットのノイズのないストレージで、エンタングルメントを3ドル(約3万2000円)のインフィディティで、必要なエンタングルメントを10~78ドル(約1万1000円)のインフィディティで実現できます。 あるいは、真に認識するためには、11量子ビットは10-1000000000000000000000000000000000000000000000}$に到達するのに十分である。

This paper shows that entanglement can be purified using very little storage, assuming the only source of noise is in the quantum channel being used to share the entanglement. Entangled pairs with a target infidelity of $\epsilon$ can be created in $\tilde{O}(\log \frac{1}{\epsilon})$ time using $O(\log^{\ast} \frac{1}{\epsilon})$ storage space, where $\log^{\ast}$ is the iterated logarithm. This is achieved by using multiple stages of error detection, with boosting within each stage. Concretely, the paper shows that 9 qubits of noiseless storage is enough to turn entanglement with an infidelity of $1/3$ into way-better-than-anything-you'll-ever-need entanglement with an infidelity of $10^{-78}$. Alternatively, for the truly discerning, 11 qubits is enough to reach an infidelity of $10^{-1000000000000000000000000000}$.
翻訳日:2023-11-22 13:07:20 公開日:2023-11-18
# 信頼オラクルから決定論的有限オートマトンを学ぶ

Learning Deterministic Finite Automata from Confidence Oracles ( http://arxiv.org/abs/2311.10963v1 )

ライセンス: Link先を確認
Wilson Wu(参考訳) 本稿では,決定論的有限オートマトン(DFA)を信頼性オラクルから学習する問題について論じる。 すなわち、あるターゲット言語の不完全な知識を持つオラクル$Q$へのアクセスが与えられ、そのオラクルは文字列$x\in\Sigma^*$を、文字列が言語内にあるという自信を示す間隔$[-1,1]$のスコアにマッピングする。 この解釈では、スコアの符号は$x\in l$ のかどうかを示し、$|q(x)|$ はオラクルの信頼を表す。 私たちの目標は、oracleが自信を持っている情報を保存しているdfa表現を学ぶことです。 学んだdfaは、oracleが自信を持っているところならどこでも密に一致すべきだが、oracleが自身を確信していない場合、そうする必要はない。

We discuss the problem of learning a deterministic finite automaton (DFA) from a confidence oracle. That is, we are given access to an oracle $Q$ with incomplete knowledge of some target language $L$ over an alphabet $\Sigma$; the oracle maps a string $x\in\Sigma^*$ to a score in the interval $[-1,1]$ indicating its confidence that the string is in the language. The interpretation is that the sign of the score signifies whether $x\in L$, while the magnitude $|Q(x)|$ represents the oracle's confidence. Our goal is to learn a DFA representation of the oracle that preserves the information that it is confident in. The learned DFA should closely match the oracle wherever it is highly confident, but it need not do this when the oracle is less sure of itself.
翻訳日:2023-11-22 13:06:57 公開日:2023-11-18
# 金融意思決定者のための幻覚最小生成aiソリューションの旅

Journey of Hallucination-minimized Generative AI Solutions for Financial Decision Makers ( http://arxiv.org/abs/2311.10961v1 )

ライセンス: Link先を確認
Sohini Roychowdhury(参考訳) 生成AIは、私たちの日々の生活における自動化、翻訳、インテリジェントな行動の使いやすさと中核的な能力のために、AIの領域への参入障壁を著しく減らした。 現在、このようなチャットボットを駆動するLarge Language Model(LLM)は、ソフトウェア監視やレポート生成などの自動化機能や、限定されたスコープとスケールで特定のパーソナライズされた質問応答機能に主に利用されている。 現在発展しているllmファミリーの1つの大きな制限は「幻覚」であり、不正確な応答が事実として報告される。 幻覚は、主にバイアス付きトレーニングデータ、曖昧なプロンプト、不正確なLLMパラメータによって引き起こされる。 したがって、意思決定者向けのソリューションを設計する際には、幻覚の監視と制御が必要である。 本稿では,金融分野の意思決定に特化している幻覚最小化LPMソリューション,すなわち,ヒューマンフィードバックを用いたプロトタイピング,スケーリング,LSM進化の3つの主要な段階について述べる。 これらの3つのステージと、この研究で提示された新しいデータには、生成AIチャットボット、自律的なレポート、アラートが信頼性が高く高品質であることを保証する必要がある。

Generative AI has significantly reduced the entry barrier to the domain of AI owing to the ease of use and core capabilities of automation, translation, and intelligent actions in our day to day lives. Currently, Large language models (LLMs) that power such chatbots are being utilized primarily for their automation capabilities for software monitoring, report generation etc. and for specific personalized question answering capabilities, on a limited scope and scale. One major limitation of the currently evolving family of LLMs is 'hallucinations', wherein inaccurate responses are reported as factual. Hallucinations are primarily caused by biased training data, ambiguous prompts and inaccurate LLM parameters, and they majorly occur while combining mathematical facts with language-based context. Thus, monitoring and controlling for hallucinations becomes necessary when designing solutions that are meant for decision makers. In this work we present the three major stages in the journey of designing hallucination-minimized LLM-based solutions that are specialized for the decision makers of the financial domain, namely: prototyping, scaling and LLM evolution using human feedback. These three stages and the novel data to answer generation modules presented in this work are necessary to ensure that the Generative AI chatbots, autonomous reports and alerts are reliable and high-quality to aid key decision-making processes.
翻訳日:2023-11-22 13:06:43 公開日:2023-11-18
# 構造認識型スパースビューX線3次元再構成

Structure-Aware Sparse-View X-ray 3D Reconstruction ( http://arxiv.org/abs/2311.10959v1 )

ライセンス: Link先を確認
Yuanhao Cai, Jiahao Wang, Alan Yuille, Zongwei Zhou, Angtian Wang(参考訳) 物体の内部構造を明らかにする能力で知られているx線は、可視光よりもリッチな3d再構成情報を提供することが期待されている。 しかし、既存のニューラル放射場(NeRF)アルゴリズムは、X線の重要な性質を無視し、画像化された物体の構造的内容の取得に制限をもたらす。 本稿では, スパースビューX線3次元再構成のための構造対応X線ニューラルラジオ密度場(SAX-NeRF)を提案する。 まず,SAX-NeRFのバックボーンとしてLineformer(Lineformer)を設計する。 Linefomerは、X線の各線分内の依存関係をモデル化することで、3D空間内のオブジェクトの内部構造をキャプチャする。 次に,2次元投影における文脈的および幾何学的情報を抽出するためのマスキング局所グローバル(mlg)レイサンプリング戦略を提案する。 さらに、より広いX線アプリケーションをカバーする大規模なデータセットX3Dを収集する。 X3Dの実験では、SAX-NeRFは、新しいビュー合成とCT再構成において、従来のNeRF法を12.56と2.49dBで上回っている。 コード、モデル、データはhttps://github.com/caiyuanhao1998/SAX-NeRFで公開される。

X-ray, known for its ability to reveal internal structures of objects, is expected to provide richer information for 3D reconstruction than visible light. Yet, existing neural radiance fields (NeRF) algorithms overlook this important nature of X-ray, leading to their limitations in capturing structural contents of imaged objects. In this paper, we propose a framework, Structure-Aware X-ray Neural Radiodensity Fields (SAX-NeRF), for sparse-view X-ray 3D reconstruction. Firstly, we design a Line Segment-based Transformer (Lineformer) as the backbone of SAX-NeRF. Linefomer captures internal structures of objects in 3D space by modeling the dependencies within each line segment of an X-ray. Secondly, we present a Masked Local-Global (MLG) ray sampling strategy to extract contextual and geometric information in 2D projection. Plus, we collect a larger-scale dataset X3D covering wider X-ray applications. Experiments on X3D show that SAX-NeRF surpasses previous NeRF-based methods by 12.56 and 2.49 dB on novel view synthesis and CT reconstruction. Code, models, and data will be released at https://github.com/caiyuanhao1998/SAX-NeRF
翻訳日:2023-11-22 13:06:16 公開日:2023-11-18
# 超伝導量子プロセッサによるマクスウェル・デーモン系アインシュタイン・ポドルスキー・ローゼンステアリングの実証

Demonstration of Maxwell Demon-assistant Einstein-Podolsky-Rosen Steering via Superconducting Quantum Processor ( http://arxiv.org/abs/2311.10955v1 )

ライセンス: Link先を確認
Z. T. Wang, Ruixia Wang, Peng Zhao, Z. H. Yang, Kaixuan Huang, Kai Xu, Yong-Sheng Zhang, Heng Fan, S. P. Zhao, Meng-Jun Hu, and Haifeng Yu(参考訳) マックスウェル・デーモンの概念は熱力学と情報理論を結びつける上で重要な役割を果たすが、絡み合いと非局所性は量子論の基本的特徴である。 量子情報科学の分野における急速な進歩を考えると、マクスウェル・デーモンと量子相関の関係を研究することには関心と重要性が増している。 これまでの研究努力の大半は、マックスウェル・デーモンの利用を通じて量子相関から研究の抽出に向けられている。 近年、マックスウェルのデモン・アシスタントであるアインシュタイン・ポドルスキー・ローゼン(EPR)ステアリング(英語版)と呼ばれる新しい概念が提案されており、これは量子相関のシミュレーションが可能であることを示唆している。 この一見直観に反する結論は、アリスとボブがeprステアリングタスク中に古典的なコミュニケーションを必要としているという事実に起因している。 本研究では,超伝導量子回路を用いたマクスウェルの実証実験を行った。 2次元超伝導チップに実装される量子回路をコンパイルして最適化することで、従来の1/\sqrt{2}$ 12.6の標準偏差を超える2つの測定設定の場合、ステアリングパラメータが$s_{2} = 0.770 \pm 0.005$となる。 さらに, 実験により, EPRステアリングにおける非局所性とデーモンによる作業との線形相関が明らかになった。 実運用における誤差を考慮すると,実験結果は理論的予測と極めて一致している。 以上より,eprステアリングにおけるマクスウェル・デーモン・ホールの存在を示唆するだけでなく,量子相関,情報理論,熱力学の相互作用をより深く理解する。

The concept of Maxwell demon plays an essential role in connecting thermodynamics and information theory, while entanglement and non-locality are fundamental features of quantum theory. Given the rapid advancements in the field of quantum information science, there is a growing interest and significance in investigating the connection between Maxwell demon and quantum correlation. The majority of research endeavors thus far have been directed towards the extraction of work from quantum correlation through the utilization of Maxwell demon. Recently, a novel concept called Maxwell demon-assistant Einstein-Podolsky-Rosen (EPR) steering has been proposed, which suggests that it is possible to simulate quantum correlation by doing work. This seemingly counterintuitive conclusion is attributed to the fact that Alice and Bob need classical communication during EPR steering task, a requirement that does not apply in the Bell test. In this study, we demonstrate Maxwell demon-assistant EPR steering with superconducting quantum circuits. By compiling and optimizing a quantum circuit to be implemented on a 2D superconducting chip, we were able to achieve a steering parameter of $S_{2} = 0.770 \pm 0.005$ in the case of two measurement settings, which surpasses the classical bound of $1/\sqrt{2}$ by 12.6 standard deviations. In addition, experimental observations have revealed a linear correlation between the non-locality demonstrated in EPR steering and the work done by the demon. Considering the errors in practical operation, the experimental results are highly consistent with theoretical predictions. Our findings not only suggest the presence of a Maxwell demon loophole in the EPR steering, but also contribute to a deeper comprehension of the interplay between quantum correlation, information theory, and thermodynamics.
翻訳日:2023-11-22 13:05:58 公開日:2023-11-18
# 人工ニューラルネットワークによる小惑星の分類学的解析

Taxonomic analysis of asteroids with artificial neural networks ( http://arxiv.org/abs/2311.10954v1 )

ライセンス: Link先を確認
Nanping Luo, Xiaobin Wang, Shenghong Gu, Antti Penttil\"a, Karri Muinonen, Yisi Liu(参考訳) 可視および赤外線分光法による小惑星の表面組成について検討した。 例えば、小惑星分類学は可視波長と近赤外波長のスペクトル特徴や複数の色指数に基づいている。 小惑星の組成は、その起源と進化を理解するための重要な情報を与える。 しかし、地上観測機器の限界により、小惑星の組成情報が不足している。 近い将来、中国宇宙望遠鏡(CSST)は、25マグと23マグの明るさの小惑星に対して、複数の色と分光データを提供する予定である。 CSST 分光データの解析を目的として,人工ニューラルネットワーク (ANN) を用いて,CSST のサーベイモジュールの設計に基づいて,小惑星分類の予備分類モデルを確立するアルゴリズムを適用した。 SMASS IIスペクトルとBus-Binzel分類システムを用いて,5個のANNからなるANN分類ツールを構築し,その精度を92 %以上とした。 ANNツールの最初の応用として、2006年と2007年に中国国立天文台新長天文台の2.16m望遠鏡で得られた42個の小惑星の64個のスペクトルを分析した。 ANNツールを用いたこれらのスペクトルの予測ラベルは、既知の分類学的ラベルと比較すると妥当である。 精度と安定性を考慮すると,将来CSST小惑星スペクトルの分析にANNツールを応用できる。

We study the surface composition of asteroids with visible and/or infrared spectroscopy. For example, asteroid taxonomy is based on the spectral features or multiple color indices in visible and near-infrared wavelengths. The composition of asteroids gives key information to understand their origin and evolution. However, we lack compositional information for faint asteroids due to limits of ground-based observational instruments. In the near future, the Chinese Space Survey telescope (CSST) will provide multiple colors and spectroscopic data for asteroids of apparent magnitude brighter than 25 mag and 23 mag, respectively. For the aim of analysis of the CSST spectroscopic data, we applied an algorithm using artificial neural networks (ANNs) to establish a preliminary classification model for asteroid taxonomy according to the design of the survey module of CSST. Using the SMASS II spectra and the Bus-Binzel taxonomy system, our ANN classification tool composed of 5 individual ANNs is constructed, and the accuracy of this classification system is higher than 92 %. As the first application of our ANN tool, 64 spectra of 42 asteroids obtained in 2006 and 2007 by us with the 2.16-m telescope in the Xinglong station (Observatory Code 327) of National Astronomical Observatory of China are analyzed. The predicted labels of these spectra using our ANN tool are found to be reasonable when compared to their known taxonomic labels. Considering the accuracy and stability, our ANN tool can be applied to analyse the CSST asteroid spectra in the future.
翻訳日:2023-11-22 13:05:25 公開日:2023-11-18
# キラル対称性を有するランダム同軸ケーブル構造物の位相相転移の観察

Observation of a Topological Phase Transition in Random Coaxial Cable Structures with Chiral Symmetry ( http://arxiv.org/abs/2311.11040v1 )

ライセンス: Link先を確認
D. M. Whittaker, Maxine M. McCarthy and Qingqing Duan(参考訳) 本研究では,SSHハミルトニアンに無線周波数特性をマップした同軸ケーブルシステムに実装したSSHモデルの実験的検討を行った。 ランダムホッピング項で複数の鎖を計測することにより、周波数変化が0.2%未満の位相的に保護された状態の存在を示す。 鎖の終端とループを形成することで、バンドギャップの閉包と、強い障害にもかかわらず非局在化した状態の出現によって特徴づけられる位相相転移を観察する。

We report an experimental study of the disordered Su-Schrieffer-Heeger (SSH) model, implemented in a system of coaxial cables, whose radio frequency properties map on to the SSH Hamiltonian. By measuring multiple chains with random hopping terms, we demonstrate the presence of a topologically protected state, with frequency variation of less than 0.2% over the ensemble. Connecting the ends of the chains to form loops, we observe a topological phase transition, characterised by the closure of the band gap and the appearance of states which are delocalised, despite the strong disorder.
翻訳日:2023-11-22 12:58:35 公開日:2023-11-18
# セキュアなソフトウェア開発:問題と課題

Secure Software Development: Issues and Challenges ( http://arxiv.org/abs/2311.11021v1 )

ライセンス: Link先を確認
Sam Wen Ping, Jeffrey Cheok Jun Wah, Lee Wen Jie, Jeremy Bong Yong Han and Saira Muzafar(参考訳) 近年、高度なロボティクス、ビッグデータ分析、クラウドコンピューティング、機械学習など多くのシステムが導入され、テクノロジーは大幅に進歩している。 これらのシステムに付属するセキュリティを悪用する機会は、セキュリティプロトコルの新たなリリースによって、このエクスプロイトに対抗して、セキュアなシステムを提供する。 私たちの生活のデジタル化は、人間の問題を解決するだけでなく、生活の質を向上させることを証明しますが、デジタル化されているため、情報と技術は他の悪質な利益のために誤用される可能性があります。 ハッカーたちは、無実の人々のデータを盗み、ID詐欺や詐欺など、そのほかの目的のために利用しようとしている。 この問題は、ソフトウェア開発ライフサイクル中に修正され、開発フェーズ全体でセキュリティが統合され、早期にソフトウェアのテストが行われ、攻撃範囲に応じて組織に大きな影響を及ぼす可能性のある脆弱性の数を減らすことができる。 セキュアなシステムソフトウェアの目標は、システムの機能を維持しつつ、セキュリティを最大化するために計画とテストを行うシステムライフサイクルを実行して、そのような悪用を防止することである。 本稿では,最近のシステム開発におけるセキュリティの動向と,業界における最近のセキュリティ対策を改善するための予測と提案について述べる。

In recent years, technology has advanced considerably with the introduction of many systems including advanced robotics, big data analytics, cloud computing, machine learning and many more. The opportunities to exploit the yet to come security that comes with these systems are going toe to toe with new releases of security protocols to combat this exploitation to provide a secure system. The digitization of our lives proves to solve our human problems as well as improve quality of life but because it is digitalized, information and technology could be misused for other malicious gains. Hackers aim to steal the data of innocent people to use it for other causes such as identity fraud, scams and many more. This issue can be corrected during the software development life cycle, integrating security across the development phases, and testing of the software is done early to reduce the number of vulnerabilities that might or might not heavily impact an organisation depending on the range of the attack. The goal of a secured system software is to prevent such exploitations from ever happening by conducting a system life cycle where through planning and testing is done to maximise security while maintaining functionality of the system. In this paper, we are going to discuss the recent trends in security for system development as well as our predictions and suggestions to improve the current security practices in this industry.
翻訳日:2023-11-22 12:58:24 公開日:2023-11-18
# 階層的マージンを持つ双曲空間は粗いラベルからのきめ細かな学習を促進する

Hyperbolic Space with Hierarchical Margin Boosts Fine-Grained Learning from Coarse Labels ( http://arxiv.org/abs/2311.11019v1 )

ライセンス: Link先を確認
Shu-Lin Xu and Yifan Sun and Faen Zhang and Anqi Xu and Xiu-Shen Wei and Yi Yang(参考訳) 粗いラベルからきめ細かい埋め込みを学習することは、ラベルの粒度監督が限られているため、難しい課題である。 このタスクは、さまざまなアプリケーションで実用上重要な、最小限のきめ細かな認識を試みるとさらに要求される。 これらの課題に対処するために,双曲空間に視覚埋め込みを埋め込み,階層的なコサインマージン方式で識別能力を高める新しい手法を提案する。 具体的には、双曲空間は、階層的な関係をキャプチャする機能や、細かい粒度のオブジェクトのモデリングを好む表現力の向上など、異なる利点を提供する。 双曲空間に基づいて,粗小クラス間の相対的に大小の類似性マージンを強制し,いわゆる階層コサインマージン法を導出する。 正規ユークリッド空間における類似性マージンの強制は深い埋め込み学習に人気がある一方で、双曲空間にそれを適用することは自明であり、粗大な一般化の利点を検証することは価値がある。 5つのベンチマークデータセットで実施した大規模な実験により,提案手法の有効性が示された。

Learning fine-grained embeddings from coarse labels is a challenging task due to limited label granularity supervision, i.e., lacking the detailed distinctions required for fine-grained tasks. The task becomes even more demanding when attempting few-shot fine-grained recognition, which holds practical significance in various applications. To address these challenges, we propose a novel method that embeds visual embeddings into a hyperbolic space and enhances their discriminative ability with a hierarchical cosine margins manner. Specifically, the hyperbolic space offers distinct advantages, including the ability to capture hierarchical relationships and increased expressive power, which favors modeling fine-grained objects. Based on the hyperbolic space, we further enforce relatively large/small similarity margins between coarse/fine classes, respectively, yielding the so-called hierarchical cosine margins manner. While enforcing similarity margins in the regular Euclidean space has become popular for deep embedding learning, applying it to the hyperbolic space is non-trivial and validating the benefit for coarse-to-fine generalization is valuable. Extensive experiments conducted on five benchmark datasets showcase the effectiveness of our proposed method, yielding state-of-the-art results surpassing competing methods.
翻訳日:2023-11-22 12:58:04 公開日:2023-11-18
# SORTAD: タブラルデータにおける異常検出のための自己教師付き最適化ランダム変換

SORTAD: Self-Supervised Optimized Random Transformations for Anomaly Detection in Tabular Data ( http://arxiv.org/abs/2311.11018v1 )

ライセンス: Link先を確認
Guy Hay and Pablo Liberman(参考訳) 表データにおける異常検出に対する自己教師ありアプローチを考える。 ランダム変換はデータに適用され、各変換はその出力に基づいて識別される。 これらの予測変換は異常を識別するために使われる。 表データでは、このアプローチはデータの非相関性に関連する多くの課題に直面します。 これらの課題は、使用するべき変換や、予測の使用に影響を与える。 そこで本研究では,これらの課題を解決するためのアルゴリズムSORTADを提案する。 SORTADは、分類プロセスに役立つランダム変換を最適に選択し、表データで遭遇する変換分類予測の変化により敏感なスコア関数を持つ。 SORTADは、テストされたすべてのデータセット全体と同様に、複数の一般的な異常検出データセットに対して最先端の結果を得た。

We consider a self-supervised approach to anomaly detection in tabular data. Random transformations are applied to the data, and then each transformation is identified based on its output. These predicted transformations are used to identify anomalies. In tabular data this approach faces many challenges that are related to the uncorrelated nature of the data. These challenges affect the transformations that should be used, as well as the use of their predictions. To this end, we propose SORTAD, a novel algorithm that is tailor-made to solve these challenges. SORTAD optimally chooses random transformations that help the classification process, and have a scoring function that is more sensitive to the changes in the transformations classification prediction encountered in tabular data. SORTAD achieved state-of-the-art results on multiple commonly used anomaly detection data sets, as well as in the overall results across all data sets tested.
翻訳日:2023-11-22 12:57:39 公開日:2023-11-18
# 安定拡散による対向移動性の向上

Improving Adversarial Transferability by Stable Diffusion ( http://arxiv.org/abs/2311.11017v1 )

ライセンス: Link先を確認
Jiayang Liu, Siyu Zhu, Siyuan Liang, Jie Zhang, Han Fang, Weiming Zhang, Ee-Chien Chang(参考訳) ディープニューラルネットワーク(DNN)は、敵対的な例に感受性があり、良性サンプルに知覚不能な摂動を導入し、DNN予測を無視する。 一部の攻撃方法はホワイトボックス設定で優れているが、ブラックボックスのシナリオ、特に防御機構が強化されたモデルでは苦戦することが多い。 ブラックボックスのシナリオに対する敵の攻撃の伝達性を高めるために様々な技術が登場している。 これらのうち、入力変換に基づく攻撃は、その効果を示している。 本稿では, 安定拡散によって生成されたデータを利用して, 対向移動性を高める可能性について検討する。 このアプローチは、安定拡散によって生成された合成データを利用してモデル一般化を促進する最近の研究から着想を得ている。 特に、以前の研究は、実データと合成データの両方の存在とモデル一般化の改善との相関を強調した。 この知見に基づいて,安定拡散攻撃法 (SDAM) と呼ばれる新しい攻撃手法を導入する。 さらに,高速なSDAMの変種を提案し,高い逆変換性を維持しながら計算オーバーヘッドを低減する。 広範な実験結果から,本手法は最先端のベースラインをかなり有意な差で上回ることがわかった。 さらに,本手法は既存の移動攻撃と互換性があり,対向移動性をさらに向上させる。

Deep neural networks (DNNs) are susceptible to adversarial examples, which introduce imperceptible perturbations to benign samples, deceiving DNN predictions. While some attack methods excel in the white-box setting, they often struggle in the black-box scenario, particularly against models fortified with defense mechanisms. Various techniques have emerged to enhance the transferability of adversarial attacks for the black-box scenario. Among these, input transformation-based attacks have demonstrated their effectiveness. In this paper, we explore the potential of leveraging data generated by Stable Diffusion to boost adversarial transferability. This approach draws inspiration from recent research that harnessed synthetic data generated by Stable Diffusion to enhance model generalization. In particular, previous work has highlighted the correlation between the presence of both real and synthetic data and improved model generalization. Building upon this insight, we introduce a novel attack method called Stable Diffusion Attack Method (SDAM), which incorporates samples generated by Stable Diffusion to augment input images. Furthermore, we propose a fast variant of SDAM to reduce computational overhead while preserving high adversarial transferability. Our extensive experimental results demonstrate that our method outperforms state-of-the-art baselines by a substantial margin. Moreover, our approach is compatible with existing transfer-based attacks to further enhance adversarial transferability.
翻訳日:2023-11-22 12:57:26 公開日:2023-11-18
# 自己教師付き学習による病変探索

Lesion Search with Self-supervised Learning ( http://arxiv.org/abs/2311.11014v1 )

ライセンス: Link先を確認
Kristin Qi, Jiali Cheng, Daniel Haehn(参考訳) 自己教師付き学習(SSL)を備えたコンテンツベース画像検索(CBIR)は,手動のアノテーションを使わずに,臨床医による類似画像の解釈を促進する。 比較学習のSimCLRからCBIRを開発し,汎用平均プール(GeM)とL2正規化を併用して病変型を分類し,臨床医が分析する前に類似画像を検索する。 その結果、性能が向上した。 また,画像解析と検索のためのオープンソースアプリケーションを構築した。 このアプリケーションは簡単に統合でき、手作業が緩和され、臨床医の日常活動を支援する可能性を示唆する。

Content-based image retrieval (CBIR) with self-supervised learning (SSL) accelerates clinicians' interpretation of similar images without manual annotations. We develop a CBIR from the contrastive learning SimCLR and incorporate a generalized-mean (GeM) pooling followed by L2 normalization to classify lesion types and retrieve similar images before clinicians' analysis. Results have shown improved performance. We additionally build an open-source application for image analysis and retrieval. The application is easy to integrate, relieving manual efforts and suggesting the potential to support clinicians' everyday activities.
翻訳日:2023-11-22 12:56:55 公開日:2023-11-18
# Bit Cipher -- 言語モデルと効率的に統合するシンプルで強力な単語表現システム

Bit Cipher -- A Simple yet Powerful Word Representation System that Integrates Efficiently with Language Models ( http://arxiv.org/abs/2311.11012v1 )

ライセンス: Link先を確認
Haoran Zhao and Jake Ryland Williams(参考訳) 大規模言語モデル(LLM)はより支配的になる一方、古典的な事前訓練された単語埋め込みは計算効率とニュアンス付き言語解釈を通じてそれらの関連性を維持する。 グローブおよびword2vec最適化の収束がすべてログ共起行列の変種に向けられていることを示す最近の研究から、文脈情報とユニグラム周波数に基づく高効率な次元化技術を利用して、効率とともに強力な解釈可能性を提供するとともに、バックプロパゲーションの必要性をなくす、bit-cipherと呼ばれる新しいワード表現システムを構築した。 ビット暗号アルゴリズムを使用して、ベクトル次元を制御するハイパーパラメーター -- ビット -- にクリティカルに依存する2段階のプロセスを通じて単語ベクトルを訓練します。 第1のステップではビット暗号をトレーニングする一方で、第2のステップでは、2つの異なるアグリゲーションモード(和や結合)の下で、単語の共起からコンテキスト的にリッチな表現を生成する。 我々は,word2vec や glove のような従来の組込みシステムとの競合性を評価するために,pos (part-of-speech) タグとner (named entity recognition) を用いた探索実験を行い,bit-cipher の有効性を調査した。 さらに、LMトレーニングおよび微調整への適用性についても検討する。 実験では,組込み層を暗号組込みに置き換えることで,従来の学習パラダイムと比較して,学習プロセスの加速と視能向上における暗号の顕著な効率を示す。 ビット暗号埋め込み層をroberta, t5, optと統合する実験では、微調整の前または代替として、転送学習への有望な拡張を示し、競争性能を維持しながら迅速なモデル収束を可能にする。

While Large Language Models (LLMs) become ever more dominant, classic pre-trained word embeddings sustain their relevance through computational efficiency and nuanced linguistic interpretation. Drawing from recent studies demonstrating that the convergence of GloVe and word2vec optimizations all tend towards log-co-occurrence matrix variants, we construct a novel word representation system called Bit-cipher that eliminates the need of backpropagation while leveraging contextual information and hyper-efficient dimensionality reduction techniques based on unigram frequency, providing strong interpretability, alongside efficiency. We use the bit-cipher algorithm to train word vectors via a two-step process that critically relies on a hyperparameter -- bits -- that controls the vector dimension. While the first step trains the bit-cipher, the second utilizes it under two different aggregation modes -- summation or concatenation -- to produce contextually rich representations from word co-occurrences. We extend our investigation into bit-cipher's efficacy, performing probing experiments on part-of-speech (POS) tagging and named entity recognition (NER) to assess its competitiveness with classic embeddings like word2vec and GloVe. Additionally, we explore its applicability in LM training and fine-tuning. By replacing embedding layers with cipher embeddings, our experiments illustrate the notable efficiency of cipher in accelerating the training process and attaining better optima compared to conventional training paradigms. Experiments on the integration of bit-cipher embedding layers with Roberta, T5, and OPT, prior to or as a substitute for fine-tuning, showcase a promising enhancement to transfer learning, allowing rapid model convergence while preserving competitive performance.
翻訳日:2023-11-22 12:54:48 公開日:2023-11-18
# Joyful:マルチモーダル感情認識のための共同モダリティ融合とグラフコントラスト学習

Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition ( http://arxiv.org/abs/2311.11009v1 )

ライセンス: Link先を確認
Dongyuan Li, Yusong Wang, Kotaro Funakoshi, and Manabu Okumura(参考訳) マルチモーダル感情認識(multimodal emotion recognition)は、複数のモーダルの発話毎に感情を認識することを目的としている。 現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現できない。 さらに、グラフ層が増加するにつれて、オーバースモーニングに陥りやすい。 本稿では,マルチモダリティ融合,コントラスト学習,および感情認識を共同で最適化したマルチモダリティ感情認識(joyful)のための統合モダリティ融合とグラフコントラスト学習の手法を提案する。 具体的には、まず、グローバルなコンテキストとユニモーダル特有の特徴の深い相互作用と融合を提供する、新しいマルチモーダル融合機構を設計する。 次に,視間および視内コントラスト損失を伴うグラフコントラスト学習フレームワークを導入し,感情の異なるサンプルに対して,より識別可能な表現を学ぶ。 3つのベンチマークデータセットに対する大規模な実験は、Joyfulがすべてのベースラインと比較して最先端(SOTA)のパフォーマンスを達成したことを示している。

Multimodal emotion recognition aims to recognize emotions for each utterance of multiple modalities, which has received increasing attention for its application in human-machine interaction. Current graph-based methods fail to simultaneously depict global contextual features and local diverse uni-modal features in a dialogue. Furthermore, with the number of graph layers increasing, they easily fall into over-smoothing. In this paper, we propose a method for joint modality fusion and graph contrastive learning for multimodal emotion recognition (Joyful), where multimodality fusion, contrastive learning, and emotion recognition are jointly optimized. Specifically, we first design a new multimodal fusion mechanism that can provide deep interaction and fusion between the global contextual and uni-modal specific features. Then, we introduce a graph contrastive learning framework with inter-view and intra-view contrastive losses to learn more distinguishable representations for samples with different sentiments. Extensive experiments on three benchmark datasets indicate that Joyful achieved state-of-the-art (SOTA) performance compared to all baselines.
翻訳日:2023-11-22 12:53:55 公開日:2023-11-18
# スコアベース生成モデルの一般クラスに対するワッサーシュタイン収束保証

Wasserstein Convergence Guarantees for a General Class of Score-Based Generative Models ( http://arxiv.org/abs/2311.11003v1 )

ライセンス: Link先を確認
Xuefeng Gao, Hoang M. Nguyen, Lingjiong Zhu(参考訳) スコアベース生成モデル(SGMs)は、多くの応用において最先端の性能を持つ、近年の深層生成モデルである。 本稿では,2-wasserstein距離におけるsgmの一般クラスに対する収束保証を確立し,正確なスコア推定と滑らかなログコンケーブデータ分布を仮定する。 我々は,確率微分方程式でモデル化した前方プロセスの選択を具体化したいくつかの具体的なSGMを専門とし,各モデルに対する反復複雑性の上限を求め,前方プロセスの異なる選択の影響を実証する。 データ分布がガウス的である場合にも、低い境界を提供する。 本稿では,CIFAR-10上での非条件画像生成のために,異なる前方プロセスを用いたSGM実験を行った。 実験の結果は, 反復複雑性に関する理論的予測とよく一致し, 新たに提案する前進過程のモデルが既存モデルに勝ることがわかった。

Score-based generative models (SGMs) is a recent class of deep generative models with state-of-the-art performance in many applications. In this paper, we establish convergence guarantees for a general class of SGMs in 2-Wasserstein distance, assuming accurate score estimates and smooth log-concave data distribution. We specialize our result to several concrete SGMs with specific choices of forward processes modelled by stochastic differential equations, and obtain an upper bound on the iteration complexity for each model, which demonstrates the impacts of different choices of the forward processes. We also provide a lower bound when the data distribution is Gaussian. Numerically, we experiment SGMs with different forward processes, some of which are newly proposed in this paper, for unconditional image generation on CIFAR-10. We find that the experimental results are in good agreement with our theoretical predictions on the iteration complexity, and the models with our newly proposed forward processes can outperform existing models.
翻訳日:2023-11-22 12:53:35 公開日:2023-11-18
# Gendec: 日本語名からのジェンダー検出のための機械学習ベースのフレームワーク

Gendec: A Machine Learning-based Framework for Gender Detection from Japanese Names ( http://arxiv.org/abs/2311.11001v1 )

ライセンス: Link先を確認
Duong Tien Pham and Luan Thanh Nguyen(参考訳) すべての人間は独自の名前を持ち、アイデンティティと文化遺産の基本的な側面を持っている。 この名前はしばしば、個人の背景、民族、特に性別に関する詳細を含む豊富な情報を伝える。 名前の分析を通じて性別を検出することで、研究者は言語パターンや文化規範に関する貴重な洞察を解放することができる。 そこで本研究では,ロマジ,ヒラガナ,漢字の64,139名のフルネームと,その生物学的性別とからなる,日本人の性別検出のための新しいデータセットを提示する。 また,従来の機械学習手法や最先端移動学習モデルなど,多様なアプローチを取り入れた日本語名からの性別検出フレームワークであるGendecを提案し,日本語名に関連する性別を正確に予測する。 徹底的な調査を通じて、提案フレームワークは有効であり、様々な分野の潜在的な応用に役立つことが期待されている。

Every human has their own name, a fundamental aspect of their identity and cultural heritage. The name often conveys a wealth of information, including details about an individual's background, ethnicity, and, especially, their gender. By detecting gender through the analysis of names, researchers can unlock valuable insights into linguistic patterns and cultural norms, which can be applied to practical applications. Hence, this work presents a novel dataset for Japanese name gender detection comprising 64,139 full names in romaji, hiragana, and kanji forms, along with their biological genders. Moreover, we propose Gendec, a framework for gender detection from Japanese names that leverages diverse approaches, including traditional machine learning techniques or cutting-edge transfer learning models, to predict the gender associated with Japanese names accurately. Through a thorough investigation, the proposed framework is expected to be effective and serve potential applications in various domains.
翻訳日:2023-11-22 12:53:19 公開日:2023-11-18
# 画像のないシーンコンテキストの学習

Learning Scene Context Without Images ( http://arxiv.org/abs/2311.10998v1 )

ライセンス: Link先を確認
Amirreza Rouhi, David Han(参考訳) 状況文脈知識の機械を教えることで、より効果的に環境と相互作用し、知覚の分野ではすぐに明らかでない物体を予測または予測することができる。 本稿では,アテンション機構を用いてシーンコンテキストの知識を機械に教える,LMOD$(ラベルベースミスオブジェクト検出)と呼ばれる新しいトランスフォーマーベースのアプローチを提案する。 提案手法の特徴は、画像データセットからのラベルのみに依存してシーンコンテキストを教えることであり、実際の画像自体の必要性を完全に排除している。 異なる対象間のシーンワイドな関係を自己照査機構を用いて学習する方法を示す。 さらに,ラベルに基づく学習から得られた文脈知識が,他の視覚的対象検出アルゴリズムの性能を向上させることを示す。

Teaching machines of scene contextual knowledge would enable them to interact more effectively with the environment and to anticipate or predict objects that may not be immediately apparent in their perceptual field. In this paper, we introduce a novel transformer-based approach called $LMOD$ ( Label-based Missing Object Detection) to teach scene contextual knowledge to machines using an attention mechanism. A distinctive aspect of the proposed approach is its reliance solely on labels from image datasets to teach scene context, entirely eliminating the need for the actual image itself. We show how scene-wide relationships among different objects can be learned using a self-attention mechanism. We further show that the contextual knowledge gained from label based learning can enhance performance of other visual based object detection algorithm.
翻訳日:2023-11-22 12:53:01 公開日:2023-11-18
# BrainZ-BP:脳バイオインダプタンスと心電図を利用した非侵襲的カフレス血圧推定法

BrainZ-BP: A Non-invasive Cuff-less Blood Pressure Estimation Approach Leveraging Brain Bio-impedance and Electrocardiogram ( http://arxiv.org/abs/2311.10996v1 )

ライセンス: Link先を確認
Bufang Yang, Le Liu, Wenxuan Wu, Mengliang Zhou, Hongxing Liu, Xinbao Ning(参考訳) 心血管疾患の早期予防には,正確な血圧モニタリング(BP)が不可欠である。 近年,非侵襲的かつカフレスBP推定アルゴリズムが注目されている。 これまでの研究では、脳内バイオインダプタンス(BIOZ)が非侵襲的頭蓋内圧(ICP)モニタリングの有望な技術であることが示された。 臨床的には、外傷性脳損傷(TBI)患者の治療には、ICPとBPを同時に監視する必要がある。 脳BIOZによるBPの推定は、患者に装着されるセンサーの数を減少させ、快適さを向上させる。 そこで本研究では,脳内BIOZを用いたBP推定の実現可能性について検討し,新しいカフレスBP推定手法であるBrainZ-BPを提案する。 頭部の額骨と後頭骨の2つの電極を脳バイオス測定の前後方向に配置する。 脈波伝達時間とBIOZの形態的特徴を抽出し, BP推定のための4つの回帰モデルに入力した。 その結果, 無作為森林回帰モデルの平均絶対誤差, 根平均二乗誤差, 相関係数は2.17 mmHg, 3.91 mmHg, 0.90で, 拡張期圧力推定では1.71 mmHg, 3.02 mmHg, 0.89であった。 提案するbrainz-bpは、脳biozベースのicp監視シナリオに適用でき、同時にbpを監視することができる。

Accurate and continuous blood pressure (BP) monitoring is essential to the early prevention of cardiovascular diseases. Non-invasive and cuff-less BP estimation algorithm has gained much attention in recent years. Previous studies have demonstrated that brain bio-impedance (BIOZ) is a promising technique for non-invasive intracranial pressure (ICP) monitoring. Clinically, treatment for patients with traumatic brain injuries (TBI) requires monitoring the ICP and BP of patients simultaneously. Estimating BP by brain BIOZ directly can reduce the number of sensors attached to the patients, thus improving their comfort. To address the issues, in this study, we explore the feasibility of leveraging brain BIOZ for BP estimation and propose a novel cuff-less BP estimation approach called BrainZ-BP. Two electrodes are placed on the forehead and occipital bone of the head in the anterior-posterior direction for brain BIOZ measurement. Various features including pulse transit time and morphological features of brain BIOZ are extracted and fed into four regression models for BP estimation. Results show that the mean absolute error, root mean square error, and correlation coefficient of random forest regression model are 2.17 mmHg, 3.91 mmHg, and 0.90 for systolic pressure estimation, and are 1.71 mmHg, 3.02 mmHg, and 0.89 for diastolic pressure estimation. The presented BrainZ-BP can be applied in the brain BIOZ-based ICP monitoring scenario to monitor BP simultaneously.
翻訳日:2023-11-22 12:52:48 公開日:2023-11-18
# 行動最適化画像生成

Behavior Optimized Image Generation ( http://arxiv.org/abs/2311.10995v1 )

ライセンス: Link先を確認
Varun Khurana, Yaman K Singla, Jayakumar Subramanian, Rajiv Ratn Shah, Changyou Chen, Zhiqiang Xu, Balaji Krishnamurthy(参考訳) 過去数年間、画像生成は美学の受容しきい値を超え、個人や商業のアプリケーションに適用できるような大きな成功を収めてきた。 しかし、特にマーケティングや広告の分野では、美的関心事ではなく、終末の手段としてイメージが作られることが多い。 目標は、売上の増加、クリック数の増加、likes、画像販売(株式ビジネスの場合)などだ。 したがって、生成した画像は、美学的に良いだけでなく、これらの重要なパフォーマンス指標(KPI)によく対応する必要がある。 本稿では,まず「画像生成プロセス内におけるエンドゴールの知識をいかに活用し,より見栄えのよい画像だけでなく,「よりパフォーマンスの高い画像」を作成するか」という問いに答える。 画像内容とユーザの動作の両方を理解するllmであるboigllmを提案する。 BoigLLMは、必要なKPIを取得するために、イメージがどのように見えるかを知っている。 この課題において,BoigLLM は GPT-3.5 や GPT-4 などの 13 倍のモデルより優れており,現状のモデルでは画像の理解が可能であるが,実世界における画像の動作に関する情報がないことを示す。 動作条件付き画像の実際のピクセルを生成するために,提案したBoigLLM定義報酬と一致する拡散ベースモデル(BoigSD)を訓練する。 ここでは,KPIとしてフォワードアクションの数を示すストックデータセットと,KPIとしてツイートを含むデータセットであるBoigBenchという2つの異なる行動をカバーする2つのデータセットに対して,パイプライン全体のパフォーマンスを示す。 ユーティリティ駆動画像生成と理解の方向性について研究を進めるために,メディア,ブランドアカウント名,投稿時間,合計などを含む1億6800万件の企業ツイートを含むベンチマークデータセットであるBoigBenchをリリースする。

The last few years have witnessed great success on image generation, which has crossed the acceptance thresholds of aesthetics, making it directly applicable to personal and commercial applications. However, images, especially in marketing and advertising applications, are often created as a means to an end as opposed to just aesthetic concerns. The goal can be increasing sales, getting more clicks, likes, or image sales (in the case of stock businesses). Therefore, the generated images need to perform well on these key performance indicators (KPIs), in addition to being aesthetically good. In this paper, we make the first endeavor to answer the question of "How can one infuse the knowledge of the end-goal within the image generation process itself to create not just better-looking images but also "better-performing'' images?''. We propose BoigLLM, an LLM that understands both image content and user behavior. BoigLLM knows how an image should look to get a certain required KPI. We show that BoigLLM outperforms 13x larger models such as GPT-3.5 and GPT-4 in this task, demonstrating that while these state-of-the-art models can understand images, they lack information on how these images perform in the real world. To generate actual pixels of behavior-conditioned images, we train a diffusion-based model (BoigSD) to align with a proposed BoigLLM-defined reward. We show the performance of the overall pipeline on two datasets covering two different behaviors: a stock dataset with the number of forward actions as the KPI and a dataset containing tweets with the total likes as the KPI, denoted as BoigBench. To advance research in the direction of utility-driven image generation and understanding, we release BoigBench, a benchmark dataset containing 168 million enterprise tweets with their media, brand account names, time of post, and total likes.
翻訳日:2023-11-22 12:52:22 公開日:2023-11-18
# 不安定性を利用したメカニカルスクイージングとエンタングルメント

Bistability-assisted Mechanical Squeezing and Entanglement ( http://arxiv.org/abs/2311.11062v1 )

ライセンス: Link先を確認
Souvik Agasti, P. Djorw\'e(参考訳) パラメトリック増幅を含むオプティメカルシステムにおいて,メカニカルモーションを圧縮し,メカニカルモーションで光場を絡み合わせる手法を提案する。 このスキームは、十分に強力な駆動場のためにシステムに出現する光ビスタビリティに基づいている。 安定状態の安定性の低い分岐を考慮すると、システムは弱い絡み合いを示し、ほとんど機械的スクイーズを示さない。 安定状態が不安定な形状の上枝にある場合には、スクイーズと絡み合いが大きく向上する。 具体的には、エンタングルメントは3度のエンハンスメントを示す。 しかし、この巨大絡み合いはデコヒーレンスや熱ゆらぎに対して脆弱である。 メカニカルスクイーズに関しては、安定性の上の枝の標準量子限界(SQL)に達する。 非線形性を利用して光力学系における量子効果を改善する手法を提案する。 このスキームは超伝導マイクロ波やハイブリッド光機械システムのような類似のシステムで実現することができる。

We propose a scheme to squeeze mechanical motion and to entangle optical field with mechanical motion in an optomechanical system containing a parametric amplification. The scheme is based on optical bistability which emerges in the system for a strong enough driving field. By considering the steady state's lower branch of the bistability, the system shows weak entanglement and almost no mechanical squeezing. When the steady state is on the upper branch of the bistable shape, both squeezing and entanglement are greatly enhanced. Specifically, the entanglement shows three degrees of magnitude enhancement. However, this giant entanglement is fragile against decoherence and thermal fluctuation. Regarding the mechanical squeezing, it reaches the standard quantum limit (SQL) in the upper branch of the bistability. Our proposal provides a way to improve quantum effects in optomechanical systems by taking advantage of nonlinearities. This scheme can be realized in similar systems such as superconducting microwave, and hybrid optomechanical systems.
翻訳日:2023-11-22 12:44:44 公開日:2023-11-18
# AIMS-EREA - 環境修復とエネルギー応用のためのサステナビリティ材料イノベーションをAIで促進するフレームワーク

AIMS-EREA -- A framework for AI-accelerated Innovation of Materials for Sustainability -- for Environmental Remediation and Energy Applications ( http://arxiv.org/abs/2311.11060v1 )

ライセンス: Link先を確認
Sudarson Roy Pratihar, Deepesh Pai, Manaswita Nag(参考訳) 持続可能性のための多くの環境修復とエネルギー応用(変換と貯蔵)は、緑の新素材の設計と開発を必要とする。 このような新素材の発見過程は、材料構造の多くの組み合わせと置換により、時間がかかり、面倒である。 しばしば密度汎関数理論(DFT)およびその他の理論に基づく理論的研究を行い、シミュレーションと組み合わせて、実験室で合成と解析を行う前に、候補物質のサンプル空間を狭める。 人工知能(AI)の出現に伴い、このプロセスではシミュレーションの時間とコストを緩和するためにAI技術も試みられている。 しかし、以前公表された世界中の様々な分野の研究の膨大な価値は、労働集約的な手作業と個々の研究者の裁量として残され、人間の欠落につながる。 aims-ereaは,物質科学理論のベストと生成aiのパワーを融合し,持続可能性のための素材の最もインパクトと滑らかで迅速な発見を可能にする,新たな枠組みです。 これはまた、有害な残留物や反応の副産物の生成の可能性を排除するのに役立つ。 AIMS-EREAは、利用可能なすべてのリソースを使用する。予測的および分析的AIは、大量の化学物質データベースと、以前に公開された研究成果から生成AIを通じて、ディープマテリアル知識を自動で同化する。 本研究は, 廃棄物熱変換用熱電材料の開発において, 所望の成功を達成するために, この枠組みを効果的に適用する方法を示す。

Many environmental remediation and energy applications (conversion and storage) for sustainability need design and development of green novel materials. Discovery processes of such novel materials are time taking and cumbersome due to large number of possible combinations and permutations of materials structures. Often theoretical studies based on Density Functional Theory (DFT) and other theories, coupled with Simulations are conducted to narrow down sample space of candidate materials, before conducting laboratory-based synthesis and analytical process. With the emergence of artificial intelligence (AI), AI techniques are being tried in this process too to ease out simulation time and cost. However tremendous values of previously published research from various parts of the world are still left as labor-intensive manual effort and discretion of individual researcher and prone to human omissions. AIMS-EREA is our novel framework to blend best of breed of Material Science theory with power of Generative AI to give best impact and smooth and quickest discovery of material for sustainability. This also helps to eliminate the possibility of production of hazardous residues and bye-products of the reactions. AIMS-EREA uses all available resources -- Predictive and Analytical AI on large collection of chemical databases along with automated intelligent assimilation of deep materials knowledge from previously published research works through Generative AI. We demonstrate use of our own novel framework with an example, how this framework can be successfully applied to achieve desired success in development of thermoelectric material for waste heat conversion.
翻訳日:2023-11-22 12:44:30 公開日:2023-11-18
# HIDRO-VQA:ビデオ品質評価のための高ダイナミックレンジOracle

HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment ( http://arxiv.org/abs/2311.11059v1 )

ライセンス: Link先を確認
Shreshth Saini, Avinab Saha, Alan C. Bovik(参考訳) 我々は,ハイダイナミックレンジ(HDR)ビデオの正確な品質評価を提供するために,非参照(NR)ビデオ品質評価モデルであるHIDRO-VQAを紹介する。 HDRビデオは、標準ダイナミックレンジ(SDR)ビデオよりも輝度、ディテール、色の範囲が広い。 HDRコンテンツが普及するにつれて、HDRコンテンツ特有の歪みに効果的に対処するビデオ品質評価アルゴリズム(VQA)の需要が高まっている。 この課題に対処するために、ラベルなしHDRビデオを利用して、品質認識機能をSDRからHDRドメインに転送する自己教師付きコントラスト微調整手法を提案する。 本研究は,HDRコンテンツ用VQAデータベースであるLIV-HDR VQAデータベース上で,制限されたラベル付きHDRビデオを用いて,SDRコンテンツ上の自己教師付き事前学習ニューラルネットワークをさらに微調整し,最先端のパフォーマンスを達成可能であることを示す。 さらに,本アルゴリズムをフルリファレンスVQA設定に拡張し,最先端性能を実現する。 私たちのコードはhttps://github.com/avinabsaha/HIDRO-VQA.comで公開されています。

We introduce HIDRO-VQA, a no-reference (NR) video quality assessment model designed to provide precise quality evaluations of High Dynamic Range (HDR) videos. HDR videos exhibit a broader spectrum of luminance, detail, and color than Standard Dynamic Range (SDR) videos. As HDR content becomes increasingly popular, there is a growing demand for video quality assessment (VQA) algorithms that effectively address distortions unique to HDR content. To address this challenge, we propose a self-supervised contrastive fine-tuning approach to transfer quality-aware features from the SDR to the HDR domain, utilizing unlabeled HDR videos. Our findings demonstrate that self-supervised pre-trained neural networks on SDR content can be further fine-tuned in a self-supervised setting using limited unlabeled HDR videos to achieve state-of-the-art performance on the only publicly available VQA database for HDR content, the LIVE-HDR VQA database. Moreover, our algorithm can be extended to the Full Reference VQA setting, also achieving state-of-the-art performance. Our code is available publicly at https://github.com/avinabsaha/HIDRO-VQA.
翻訳日:2023-11-22 12:44:04 公開日:2023-11-18
# tactics2d: 意思決定を駆動するマルチエージェント強化学習環境

Tactics2D: A Multi-agent Reinforcement Learning Environment for Driving Decision-making ( http://arxiv.org/abs/2311.11058v1 )

ライセンス: Link先を確認
Yueyuan Li, Songan Zhang, Mingyang Jiang, Xingyuan Chen, Ming Yang(参考訳) Tactics2DはPythonバックエンドを備えたオープンソースのマルチエージェント強化学習ライブラリである。 その目標は、自動運転車のための意思決定アルゴリズムを開発するための便利なツールセットを提供することだ。 このライブラリには、多感覚機能と交通ルール違反検出を備えたジムベースの環境として実装された多様な交通シナリオが含まれている。 さらに、適切な評価基準でテストされた強化学習ベースラインも備えている。 Tactics2Dは高度にモジュール化され、カスタマイズできる。 Tactics2Dのソースコードはhttps://github.com/WoodOxen/Tactics2Dで公開されている。

Tactics2D is an open-source multi-agent reinforcement learning library with a Python backend. Its goal is to provide a convenient toolset for researchers to develop decision-making algorithms for autonomous driving. The library includes diverse traffic scenarios implemented as gym-based environments equipped with multi-sensory capabilities and violation detection for traffic rules. Additionally, it features a reinforcement learning baseline tested with reasonable evaluation metrics. Tactics2D is highly modular and customizable. The source code of Tactics2D is available at https://github.com/WoodOxen/Tactics2D.
翻訳日:2023-11-22 12:43:45 公開日:2023-11-18
# 環境研究・実践のためのデータベース地理空間モデリングの課題

Challenges in data-based geospatial modeling for environmental research and practice ( http://arxiv.org/abs/2311.11057v1 )

ライセンス: Link先を確認
Diana Koldasbayeva, Polina Tregubova, Mikhail Gasanov, Alexey Zaytsev, Anna Petrovskaia, Evgeny Burnaev(参考訳) 電子データ,特に地球観測データの増加に伴い,機械学習(ML)を用いたデータに基づく地理空間モデリングが環境研究で人気を集めている。 正確な地理空間予測は、生態系のモニタリングと品質評価に基づくドメイン研究や、天然資源の効率的な管理を考慮した政策作成と行動計画に不可欠である。 MLの精度と計算速度は一般に効率的であることが証明されている。 しかし、研究と実践の両方でさらなる使用に適した正確で再現可能な結果を得るためには、まだ多くの疑問が解決されていない。 地理空間問題に適用可能なMLの概念をより深く理解することで、バイオスフィアの劣化や気候変動といった世界的な課題の決定に不可欠な透明な情報を提供するデータサイエンスツールの開発が促進される。 本研究では,不均衡データ,空間自己相関,予測誤差,モデル一般化,ドメイン特異性,不確実性推定など,地理空間モデリングにおける一般的なニュアンスについて検討する。 課題を克服または説明するためのテクニックと一般的なプログラミングツールの概要を提供する。 環境応用における地理空間人工知能の展望についても論じる。

With the rise of electronic data, particularly Earth observation data, data-based geospatial modelling using machine learning (ML) has gained popularity in environmental research. Accurate geospatial predictions are vital for domain research based on ecosystem monitoring and quality assessment and for policy-making and action planning, considering effective management of natural resources. The accuracy and computation speed of ML has generally proved efficient. However, many questions have yet to be addressed to obtain precise and reproducible results suitable for further use in both research and practice. A better understanding of the ML concepts applicable to geospatial problems enhances the development of data science tools providing transparent information crucial for making decisions on global challenges such as biosphere degradation and climate change. This survey reviews common nuances in geospatial modelling, such as imbalanced data, spatial autocorrelation, prediction errors, model generalisation, domain specificity, and uncertainty estimation. We provide an overview of techniques and popular programming tools to overcome or account for the challenges. We also discuss prospects for geospatial Artificial Intelligence in environmental applications.
翻訳日:2023-11-22 12:43:38 公開日:2023-11-18
# 自動運転シミュレーターの実態調査--分類学・課題・評価指標

A Survey of Simulators for Autonomous Driving: Taxonomy, Challenges, and Evaluation Metrics ( http://arxiv.org/abs/2311.11056v1 )

ライセンス: Link先を確認
Yueyuan Li, Wei Yuan, Weihao Yan, Qiyuan Shen, Chunxiang Wang, Ming Yang(参考訳) シミュレーターは自律運転の研究と開発において絶対的に重要である。 資源、労働、時間の節約に加えて、シミュレーションは多くの重大な事故シナリオを再現する唯一の方法である。 学界や産業で広く採用されているにもかかわらず、シミュレータの進化の軌跡や限界に関する批判的な談話には欠如している。 研究のギャップを埋めるため,本論文では,自動運転シミュレータの詳細なレビューを行う。 専門的な開発期間、ギャップ期間、包括的な開発という3つの段階に分類され、包括的な機能実装とオープンソースアクセシビリティのトレンドを検出する。 次にシミュレータを機能別に分類し,交通流シミュレータ,車両動力学シミュレータ,シナリオエディタ,センサデータジェネレータ,運転戦略検証器の5つのカテゴリを識別する。 多様な機能を持つシミュレータは、包括的なシミュレータとして定義される。 本稿では,商用およびオープンソースシミュレータの調査により,シミュレータが直面する重要な問題は,主に忠実性と効率性に関わるものであることを明らかにした。 本稿では,悪天候シミュレーション,地図の自動再構築,対話的交通参加者の信頼性向上を正当化する。 同時に、ヘッドレスシミュレーションと多重速度シミュレーション技術が理論上の利点を生かす。 さらに,本論文では,特定問題に対する潜在的な解決策について検討する。 シミュレータの性能を評価するための質的および定量的評価指標を探索する。 本稿では,シミュレータの有効性を意図的に改善するための指導的提案を行う。

Simulators have irreplaceable importance for the research and development of autonomous driving. Besides saving resources, labor, and time, simulation is the only feasible way to reproduce many severe accident scenarios. Despite their widespread adoption across academia and industry, there is an absence in the evolutionary trajectory of simulators and critical discourse on their limitations. To bridge the gap in research, this paper conducts an in-depth review of simulators for autonomous driving. It delineates the three-decade development into three stages: specialized development period, gap period, and comprehensive development, from which it detects a trend of implementing comprehensive functionalities and open-source accessibility. Then it classifies the simulators by functions, identifying five categories: traffic flow simulator, vehicle dynamics simulator, scenario editor, sensory data generator, and driving strategy validator. Simulators that amalgamate diverse features are defined as comprehensive simulators. By investigating commercial and open-source simulators, this paper reveals that the critical issues faced by simulators primarily revolve around fidelity and efficiency concerns. This paper justifies that enhancing the realism of adverse weather simulation, automated map reconstruction, and interactive traffic participants will bolster credibility. Concurrently, headless simulation and multiple-speed simulation techniques will exploit the theoretic advantages. Moreover, this paper delves into potential solutions for the identified issues. It explores qualitative and quantitative evaluation metrics to assess the simulator's performance. This paper guides users to find suitable simulators efficiently and provides instructive suggestions for developers to improve simulator efficacy purposefully.
翻訳日:2023-11-22 12:43:22 公開日:2023-11-18
# 医療における信頼できるAIを実現するための解釈可能なMLシステムの設計:ロバストフレームワークの提案までの最後の10年を体系的なレビュー

Designing Interpretable ML System to Enhance Trustworthy AI in Healthcare: A Systematic Review of the Last Decade to A Proposed Robust Framework ( http://arxiv.org/abs/2311.11055v1 )

ライセンス: Link先を確認
Elham Nasarian, Roohallah Alizadehsani, U. Rajendra Acharyac, d Kwok-Leung Tsui(参考訳) ウェアラブル、遠隔医療、LLM、デジタルケア双生児を含むAIベースの医療技術は、医療に大きな影響を与えている。 AI結果の正確性を保証することは、特に臨床医にとって不可欠である。 本稿では、医療における解釈可能なML(IML)と説明可能なAI(XAI)のプロセスと課題についてレビューする。 目的には、品質管理に焦点を当てたXAIプロセス、メソッド、アプリケーション、課題のレビューが含まれる。 IMLプロセスは、データ前処理の解釈可能性、解釈可能なモデリング、後処理の解釈可能性に分類される。 本研究の目的は,医療における堅牢な解釈可能性の重要性を明らかにすることであり,コミュニケーション可能なクリニックAIツールを作成するための洞察を提供することである。 PRISMA法とPICO法に準じて研究課題,適性基準,目標を同定した。 PubMed, Scopus, Web of Scienceは特定の文字列を使って体系的に検索された。 この調査では、XAIを臨床応用に適用するためのステップバイステップのロードマップを導入し、既存のギャップに対処し、XAIモデルの制限を認める。

AI-based medical technologies, including wearables, telemedicine, LLMs, and digital care twins, significantly impact healthcare. Ensuring AI results are accurate and interpretable is crucial, especially for clinicians. This paper reviews processes and challenges of interpretable ML (IML) and explainable AI (XAI) in healthcare. Objectives include reviewing XAI processes, methods, applications, and challenges, with a focus on quality control. The IML process is classified into data pre-processing interpretability, interpretable modeling, and post-processing interpretability. The paper aims to establish the importance of robust interpretability in healthcare through experimental results, providing insights for creating communicable clinician-AI tools. Research questions, eligibility criteria, and goals were identified following PRISMA and PICO methods. PubMed, Scopus, and Web of Science were systematically searched using specific strings. The survey introduces a step-by-step roadmap for implementing XAI in clinical applications, addressing existing gaps and acknowledging XAI model limitations.
翻訳日:2023-11-22 12:43:00 公開日:2023-11-18
# 頂点方向皮質特徴を用いた大うつ病の密度ネットとサポートベクターマシン分類

DenseNet and Support Vector Machine classifications of major depressive disorder using vertex-wise cortical features ( http://arxiv.org/abs/2311.11046v1 )

ライセンス: Link先を確認
Vladimir Belov, Tracy Erwin-Grabner, Ling-Li Zeng, Christopher R. K. Ching, Andre Aleman, Alyssa R. Amod, Zeynep Basgoze, Francesco Benedetti, Bianca Besteher, Katharina Brosch, Robin B\"ulow, Romain Colle, Colm G. Connolly, Emmanuelle Corruble, Baptiste Couvy-Duchesne, Kathryn Cullen, Udo Dannlowski, Christopher G. Davey, Annemiek Dols, Jan Ernsting, Jennifer W. Evans, Lukas Fisch, Paola Fuentes-Claramonte, Ali Saffet Gonul, Ian H. Gotlib, Hans J. Grabe, Nynke A. Groenewold, Dominik Grotegerd, Tim Hahn, J. Paul Hamilton, Laura K.M. Han, Ben J Harrison, Tiffany C. Ho, Neda Jahanshad, Alec J. Jamieson, Andriana Karuk, Tilo Kircher, Bonnie Klimes-Dougan, Sheri-Michelle Koopowitz, Thomas Lancaster, Ramona Leenings, Meng Li, David E. J. Linden, Frank P. MacMaster, David M. A. Mehler, Susanne Meinert, Elisa Melloni, Bryon A. Mueller, Benson Mwangi, Igor Nenadi\'c, Amar Ojha, Yasumasa Okamoto, Mardien L. Oudega, Brenda W. J. H. Penninx, Sara Poletti, Edith Pomarol-Clotet, Maria J. Portella, Elena Pozzi, Joaquim Radua, Elena Rodr\'iguez-Cano, Matthew D. Sacchet, Raymond Salvador, Anouk Schrantee, Kang Sim, Jair C. Soares, Aleix Solanes, Dan J. Stein, Frederike Stein, Aleks Stolicyn, Sophia I. Thomopoulos, Yara J. Toenders, Aslihan Uyar-Demir, Eduard Vieta, Yolanda Vives-Gilabert, Henry V\"olzke, Martin Walter, Heather C. Whalley, Sarah Whittle, Nils Winter, Katharina Wittfeld, Margaret J. Wright, Mon-Ju Wu, Tony T. Yang, Carlos Zarate, Dick J. Veltman, Lianne Schmaal, Paul M. Thompson, Roberto Goya-Maldonado(参考訳) 大うつ病(Major depressive disorder、MDD)は、世界中の数億人の人の生活に影響を与える複雑な精神疾患である。 現在でも研究者は、脳の形態変化がMDDと関連しているかどうかを議論している。 複雑な非線形パターンを捉えることができるニューロイメージングデータへのディープラーニングツールの応用は、MDDの診断および予測バイオマーカーを提供する可能性がある。 しかし、従来のMDD患者と、線形機械学習アプローチによる分節的皮質特徴に基づく健康管理(HC)の解離の試みでは、精度が低いことが報告されている。 本研究では,MDD (N=2,772) とHC (N=4,240) の広範囲なサンプルを含むENIGMA-MDDワーキンググループから得られたグローバルな代表データを用いて,一般化可能な結果を総合的に分析した。 頂点方向の皮質的特徴の統合が分類性能を向上させるという仮説に基づき,前者が後者を上回ることを期待して,密度ネットとサポートベクターマシン(svm)の分類を評価した。 マルチサイトサンプルを解析し,ComBatのハーモニゼーションツールを用いて,サイトによる潜在的なニュアンス効果を除去した。 いずれの分類器も,未発見のサイトで推定した場合の確率性能に近い値を示した(バランスの取れた精度:51%,svm:53%)。 整合精度DenseNet:58%, SVM:55%) は, クロスバリデーション・フォールドが全部位の被検体を含む場合に検出され, サイト効果が示唆された。 結論として, 頂点方向形態計測特徴の積分と非線形分類器の使用は, mddとhcの微分可能性に繋がらなかった。 この特徴と分類器の組み合わせによるMDD分類は不可能であるという考えを支持する。

Major depressive disorder (MDD) is a complex psychiatric disorder that affects the lives of hundreds of millions of individuals around the globe. Even today, researchers debate if morphological alterations in the brain are linked to MDD, likely due to the heterogeneity of this disorder. The application of deep learning tools to neuroimaging data, capable of capturing complex non-linear patterns, has the potential to provide diagnostic and predictive biomarkers for MDD. However, previous attempts to demarcate MDD patients and healthy controls (HC) based on segmented cortical features via linear machine learning approaches have reported low accuracies. In this study, we used globally representative data from the ENIGMA-MDD working group containing an extensive sample of people with MDD (N=2,772) and HC (N=4,240), which allows a comprehensive analysis with generalizable results. Based on the hypothesis that integration of vertex-wise cortical features can improve classification performance, we evaluated the classification of a DenseNet and a Support Vector Machine (SVM), with the expectation that the former would outperform the latter. As we analyzed a multi-site sample, we additionally applied the ComBat harmonization tool to remove potential nuisance effects of site. We found that both classifiers exhibited close to chance performance (balanced accuracy DenseNet: 51%; SVM: 53%), when estimated on unseen sites. Slightly higher classification performance (balanced accuracy DenseNet: 58%; SVM: 55%) was found when the cross-validation folds contained subjects from all sites, indicating site effect. In conclusion, the integration of vertex-wise morphometric features and the use of the non-linear classifier did not lead to the differentiability between MDD and HC. Our results support the notion that MDD classification on this combination of features and classifiers is unfeasible.
翻訳日:2023-11-22 12:42:39 公開日:2023-11-18
# Orca 2: 小さな言語モデルに推論の仕方を教える

Orca 2: Teaching Small Language Models How to Reason ( http://arxiv.org/abs/2311.11045v1 )

ライセンス: Link先を確認
Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah(参考訳) Orca 1は、説明トレースのようなリッチな信号から学習し、BigBench HardやAGIEvalといったベンチマークで従来の命令チューニングモデルより優れている。 orca 2では、トレーニング信号の改善が、より小さなlmsの推論能力をいかに強化するかを引き続き検討する。 小さなLMを訓練する研究は、しばしば、より有能なモデルの出力を再現するために模倣学習に依存している。 我々は、模倣に過度に重きを置くことで、より小さいモデルの可能性を制限できると主張する。 我々は、異なるタスクに対して異なるソリューション戦略を採用するために、小さなLMを教えることを目指しています。 例えば、より大きなモデルは複雑なタスクに直接的な答えを与えるかもしれませんが、小さなモデルは同じ能力を持っていません。 orca 2では、さまざまな推論テクニック(ステップバイステップ、リコール、生成、リコール-リゾン生成、直接回答など)をモデルに教えます。 より重要なことは、モデルが各タスクに対して最も効果的なソリューション戦略を決定するのを助けることを目的としています。 Orca 2は15種類の多様なベンチマーク(約100タスクと36,000以上のユニークなプロンプトに対応する)を用いて評価する。 Orca 2は同様のサイズのモデルを大幅に上回り、ゼロショット設定で高度な推論能力をテストする複雑なタスクで評価されるように、5~10倍のモデルと同等以上のパフォーマンスレベルを達成する。 私たちはOrca 2をオープンソースとして公開し、小さなLMの開発、評価、アライメントに関するさらなる研究を奨励しています。

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. We open-source Orca 2 to encourage further research on the development, evaluation, and alignment of smaller LMs.
翻訳日:2023-11-22 12:42:02 公開日:2023-11-18
# 生産環境におけるブリッジングSim2リアルギャップの合成データ生成

Synthetic Data Generation for Bridging Sim2Real Gap in a Production Environment ( http://arxiv.org/abs/2311.11039v1 )

ライセンス: Link先を確認
Parth Rawal, Mrunal Sompura, Wolfgang Hintze(参考訳) 合成データは、オブジェクト検出、オブジェクトセグメンテーション、および6Dオブジェクトポーズ推定などのコンピュータビジョンアプリケーションにおけるディープニューラルネットワークのトレーニングに最近使用されている。 ドメインのランダム化はシミュレーションを現実のギャップに還元する上で重要な役割を果たす。 しかし、この一般化は複雑なアセンブリを含むプロダクション環境のような特殊なドメインでは有効ではないかもしれない。 合成画像で訓練された個々の部品は、はるかに大きな集合体に統合され、それらの部品と区別できず、偽陽性を生じるか、あるいは偽陰性を引き起こすのに十分な部分閉塞となる。 これらのケースではドメイン知識が不可欠であり、合成データの生成中に効果的に考えられた場合、シミュレーションを現実のギャップにブリッジする際の大幅な改善が示される。 本稿では,生産環境における部品および組立部品の合成データ生成手法について述べる。 合成データ生成の基本手順とその各種組み合わせを、製造環境で撮影された画像と比較し、基本手順の組み合わせを用いて最大15%改善した結果を示す。 この方法でシミュレーションを現実のギャップに還元することは、人工知能を用いたロボット支援生産の真の可能性を活用するのに役立つ。

Synthetic data is being used lately for training deep neural networks in computer vision applications such as object detection, object segmentation and 6D object pose estimation. Domain randomization hereby plays an important role in reducing the simulation to reality gap. However, this generalization might not be effective in specialized domains like a production environment involving complex assemblies. Either the individual parts, trained with synthetic images, are integrated in much larger assemblies making them indistinguishable from their counterparts and result in false positives or are partially occluded just enough to give rise to false negatives. Domain knowledge is vital in these cases and if conceived effectively while generating synthetic data, can show a considerable improvement in bridging the simulation to reality gap. This paper focuses on synthetic data generation procedures for parts and assemblies used in a production environment. The basic procedures for synthetic data generation and their various combinations are evaluated and compared on images captured in a production environment, where results show up to 15% improvement using combinations of basic procedures. Reducing the simulation to reality gap in this way can aid to utilize the true potential of robot assisted production using artificial intelligence.
翻訳日:2023-11-22 12:41:36 公開日:2023-11-18
# 量子と現実

Quantum and Reality ( http://arxiv.org/abs/2311.11035v1 )

ライセンス: Link先を確認
Hisham Sati and Urs Schreiber(参考訳) 圏論と型理論における量子情報理論の形式化は、検証可能な量子プログラミング言語の設計において、(1)パラメータ化線形性と(2)距離性という2つの基本的特徴を表現する必要がある。 1つ目は、Proto-Quipperのような依存線形型付け言語や、最近の観測に続いて、LHoTT(Linear Homotopy Type Theory)によって自然に解決される。 第2のポイントは"dagger-categories"における意味論の形で(のみ)多くの注目を集めており、演算子随伴は公理化されているが、エルミート随伴に対するそれらの仕様は手によって課される必要がある。 等変ホモトピー理論の原理に根ざし、ホモトピー型言語に自己を貸し、ツイスト同変 KR-理論によって分類された位相量子状態に自然に結び付けるエルミティシティの自然発生について述べる。 すなわち、複素数が複素共役を通して Z/2-同変実線型型の内部のモノイドとして考えると、(有限次元)ヒルベルト空間は内部複素実加群の中で自己双対対象となる。 ポイントは、このエルミート形式の構成は、周囲線型型理論をテンソル単位型の負の単位項以上に必要としないということである。 そのような用語は、球面スペクトルの単位の無限大群の要素として解釈され、量子論の基礎をホモトピー理論に結びつけるlhottにおいて構成可能であることを観察する。 我々は、LHoTTに埋め込まれた量子言語における量子ゲートと量子チャネルのユニタリティの符号化(および検証)を可能にする方法を示す。

Formalizations of quantum information theory in category theory and type theory, for the design of verifiable quantum programming languages, need to express its two fundamental characteristics: (1) parameterized linearity and (2) metricity. The first is naturally addressed by dependent-linearly typed languages such as Proto-Quipper or, following our recent observations: Linear Homotopy Type Theory (LHoTT). The second point has received much attention (only) in the form of semantics in "dagger-categories", where operator adjoints are axiomatized but their specification to Hermitian adjoints still needs to be imposed by hand. We describe a natural emergence of Hermiticity which is rooted in principles of equivariant homotopy theory, lends itself to homotopically-typed languages and naturally connects to topological quantum states classified by twisted equivariant KR-theory. Namely, we observe that when the complex numbers are considered as a monoid internal to Z/2-equivariant real linear types, via complex conjugation, then (finite-dimensional) Hilbert spaces do become self-dual objects among internally-complex Real modules. The point is that this construction of Hermitian forms requires of the ambient linear type theory nothing further than a negative unit term of tensor unit type. We observe that just such a term is constructible in LHoTT, where it interprets as an element of the infinity-group of units of the sphere spectrum, tying the foundations of quantum theory to homotopy theory. We close by indicating how this allows for encoding (and verifying) the unitarity of quantum gates and of quantum channels in quantum languages embedded into LHoTT.
翻訳日:2023-11-22 12:41:17 公開日:2023-11-18
# Data Center Audio/Video Intelligence on Device (DAVID) -- スマートトイのためのエッジAIプラットフォーム

Data Center Audio/Video Intelligence on Device (DAVID) -- An Edge-AI Platform for Smart-Toys ( http://arxiv.org/abs/2311.11030v1 )

ライセンス: Link先を確認
Gabriel Cosache, Francisco Salgado, Cosmin Rotariu, George Sterpu, Rishabh Jain and Peter Corcoran(参考訳) DAVID Smart-Toyプラットフォームの概要は、関連する画像やオーディオセンサーと組み合わせた神経推論モデルによる高度な低消費電力データ処理を組み込む、最初のエッジAIプラットフォームの1つである。 デバイス内テキスト対音声生成のオンボード機能もある。 スマートなテディベアと、回転する犬のようなロボットだ。 このプラットフォームは、音声駆動のユーザーインターフェイスを提供し、コンピュータビジョンセンサーノードを介してユーザーアクションと表情を観察し、解釈することができる。 この設計の特に利点は、個人識別可能な情報が神経推論ノードを超えることはなく、データ保護規則の組込みコンプライアンスを提供することである。

An overview is given of the DAVID Smart-Toy platform, one of the first Edge AI platform designs to incorporate advanced low-power data processing by neural inference models co-located with the relevant image or audio sensors. There is also on-board capability for in-device text-to-speech generation. Two alternative embodiments are presented: a smart Teddy-bear, and a roving dog-like robot. The platform offers a speech-driven user interface and can observe and interpret user actions and facial expressions via its computer vision sensor node. A particular benefit of this design is that no personally identifiable information passes beyond the neural inference nodes thus providing inbuilt compliance with data protection regulations.
翻訳日:2023-11-22 12:40:44 公開日:2023-11-18
# 微視画像からの花粉分類における分布シフト緩和のための幾何学的データ拡張

Geometric Data Augmentations to Mitigate Distribution Shifts in Pollen Classification from Microscopic Images ( http://arxiv.org/abs/2311.11029v1 )

ライセンス: Link先を確認
Nam Cao, Olga Saukh(参考訳) 分布シフトは、トレーニングとテストデータ分布の違いによって特徴づけられる。 現実世界のシナリオにデプロイされた機械学習モデルの精度を大幅に削減することができる。 本稿では,野生の微視的画像から花粉粒を低コストカメラセンサで分類する場合の分布シフト問題について検討する。 我々は, 正確な花粉識別において幾何学的特徴が極めて重要であるというドメイン知識を活用し, 列車におけるモデル性能と試験データセットとの精度ギャップを著しく狭めるために, 2つの新しい幾何学的画像増強手法を導入する。 特に,tenengradフィルタとimagetosketchフィルタは,形状情報とテクスチャ情報のバランスを保ちながら,モデルを混乱させる可能性のある重要でない詳細情報を残している。 様々なモデルアーキテクチャに対する広範囲な評価は、幅広い標準画像拡張と比較して、幾何拡大技術によって達成された最大14%のフィールドデータに対するモデルの一般化が一貫した改善を示している。 本手法は, 花粉水和試験を用いて乾燥花粉の形状を復元するアブレーション試験により検証した。 提案手法は,文献の親和性と多様性の指標により,最も高いスコアを得られる。

Distribution shifts are characterized by differences between the training and test data distributions. They can significantly reduce the accuracy of machine learning models deployed in real-world scenarios. This paper explores the distribution shift problem when classifying pollen grains from microscopic images collected in the wild with a low-cost camera sensor. We leverage the domain knowledge that geometric features are highly important for accurate pollen identification and introduce two novel geometric image augmentation techniques to significantly narrow the accuracy gap between the model performance on the train and test datasets. In particular, we show that Tenengrad and ImageToSketch filters are highly effective to balance the shape and texture information while leaving out unimportant details that may confuse the model. Extensive evaluations on various model architectures demonstrate a consistent improvement of the model generalization to field data of up to 14% achieved by the geometric augmentation techniques when compared to a wide range of standard image augmentations. The approach is validated through an ablation study using pollen hydration tests to recover the shape of dry pollen grains. The proposed geometric augmentations also receive the highest scores according to the affinity and diversity measures from the literature.
翻訳日:2023-11-22 12:40:31 公開日:2023-11-18
# 局所平衡仮定を超えた温度依存ボルツマン方程式

The temperature dependent Boltzmann equation beyond local equilibrium assumption ( http://arxiv.org/abs/2311.11028v1 )

ライセンス: Link先を確認
Zheng-Chuan Wang(参考訳) 本論文では, 従来のボルツマン方程式に基づいて, 温度が貯留層の平衡温度, 新しい減衰力, 逆減衰緩和時間を示す環境貯留層を輸送する粒子の温度依存性ボルツマン方程式を導出し, 輸送粒子の外部力および緩和時間に明らかに影響を及ぼすことを示した。 比較のために, 貯水池の平衡温度とは異なる分布関数を用いて, 輸送粒子の非平衡温度を定義する。 輸送粒子と貯留層の間には、輸送粒子全体が非平衡状態であるため、熱伝達が存在する。 最後に、これを1次元輸送の例で説明し、減衰力と私たちによって定義される非平衡温度を数値的に示す。

In this manuscript, we present a temperature dependent Boltzmann equation for the particles transport through a environmental reservoir, where the temperature refers to the equilibrium temperature of reservoir, a new damping force and a inverse damping relaxation time are derived based on the classical Boltzmann equation, which have obvious influence on the external force and the relaxation time of transport particles. For comparison, we also define a non-equilibrium temperature for the transport particle by its distribution function out of equilibrium, which is different from the equilibrium temperature of reservoir. There exist heat transfer between the transport particle and the reservoir, because the whole transport particles are in non-equilibrium state. Finally, we illustrate them by an example of one-dimensional transport procedure, the damping force and the non-equilibrium temperature defined by us are shown numerically.
翻訳日:2023-11-22 12:40:11 公開日:2023-11-18
# 深部テンソルネットワーク

Deep Tensor Network ( http://arxiv.org/abs/2311.11091v1 )

ライセンス: Link先を確認
Yifan Zhang(参考訳) 本稿では、テンソル積の普遍性を利用して、深層ネットワークアーキテクチャにおける新しい方法論を開拓し、テンソル圏の基礎原理を考察する。 我々の主要な貢献はテンソル注意とテンソル相互作用機構の導入であり、テンソル圏を利用して深層ネットワークの計算効率と表現力を高め、量子領域に一般化することも可能である。

In this paper, we delve into the foundational principles of tensor categories, harnessing the universal property of the tensor product to pioneer novel methodologies in deep network architectures. Our primary contribution is the introduction of the Tensor Attention and Tensor Interaction Mechanism, a groundbreaking approach that leverages the tensor category to enhance the computational efficiency and the expressiveness of deep networks, and can even be generalized into the quantum realm.
翻訳日:2023-11-22 12:33:23 公開日:2023-11-18
# beyond images:胸部x線レポート生成のための統合的マルチモーダルアプローチ

Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report Generation ( http://arxiv.org/abs/2311.11090v1 )

ライセンス: Link先を確認
Nurbanu Aksoy, Serge Sharoff, Selcuk Baser, Nishant Ravikumar and Alejandro F Frangi(参考訳) 画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。 既存の方法のほとんどは画像データのみに焦点を当てており、放射線科医がアクセス可能な他の患者情報を無視している。 本稿では, 胸部X線レポートを生成するための新しいマルチモーダルディープ・ニューラルネットワーク・フレームワークについて, バイタルサインや症状などの構造化された患者データと非構造化な臨床ノートを併用し, 異種データモダリティを融合させ, 視覚的データとテキスト的データのセマンティックギャップを埋める条件付きマルチモーダル・アテンション・モジュールを提案する。 実験では、画像のみに依存することに比べて、追加のモダリティの使用による大幅な改善が示されている。 特に,本モデルがROUGE-L測定値において,文献中の関連する最先端モデルと比較して最も高い性能を示した。 さらに, 定量的分析の深度向上のために, 単語オーバーラップの指標とともに, 人的評価と臨床的意味的類似度の測定を併用した。 放射線技師による人間による評価は、高レベルの発見を識別する際のモデルの精度を確認するが、ニュアンスドの詳細や臨床の文脈を捉えるためにはさらなる改善が必要であることも強調している。

Image-to-text radiology report generation aims to automatically produce radiology reports that describe the findings in medical images. Most existing methods focus solely on the image data, disregarding the other patient information accessible to radiologists. In this paper, we present a novel multi-modal deep neural network framework for generating chest X-rays reports by integrating structured patient data, such as vital signs and symptoms, alongside unstructured clinical notes.We introduce a conditioned cross-multi-head attention module to fuse these heterogeneous data modalities, bridging the semantic gap between visual and textual data. Experiments demonstrate substantial improvements from using additional modalities compared to relying on images alone. Notably, our model achieves the highest reported performance on the ROUGE-L metric compared to relevant state-of-the-art models in the literature. Furthermore, we employed both human evaluation and clinical semantic similarity measurement alongside word-overlap metrics to improve the depth of quantitative analysis. A human evaluation, conducted by a board-certified radiologist, confirms the model's accuracy in identifying high-level findings, however, it also highlights that more improvement is needed to capture nuanced details and clinical context.
翻訳日:2023-11-22 12:33:15 公開日:2023-11-18
# アンサンブル分類を用いた授業理解予測のための脳波とNLPの特徴の組み合わせ

Combining EEG and NLP Features for Predicting Students' Lecture Comprehension using Ensemble Classification ( http://arxiv.org/abs/2311.11088v1 )

ライセンス: Link先を確認
Phantharach Natnithikarat, Theerawit Wilaiprasitporn, Supavit Kongwudhikunakorn(参考訳) 心電図(eeg)と自然言語処理(nlp)は、教室講義における生徒の理解度を測定する教育に応用できるが、現在では2つの尺度が別々に用いられている。 本研究では,学生の講義理解を2つの課題で予測するための分類枠組みを提案する。 (i)模擬講義を聴いた生徒の混乱 (ii)講義後の評価に対する学生の反応の正確性。 提案フレームワークは,脳波とNLPの特徴抽出,処理,分類を含む。 脳波とnlpの特徴を抽出し、記録された脳波信号と文レベルの構文解析から得られた統合特徴を構築し、特定のバイオマーカーと文構造に関する情報を提供する。 拡張された予測モデルを生成する複数の個別モデルの組み合わせであるアンサンブル・スタックング分類法について研究し、特徴から学習し、予測を正確に行う。 また,主観的混乱格付けを統合的な特徴として活用し,分類性能の向上を図る。 これにより、このフレームワークはベースラインよりも優れた性能を示し、混乱を予測するためにF1が0.65まで、正しさを予測するために0.78まで到達した。

Electroencephalography (EEG) and Natural Language Processing (NLP) can be applied for education to measure students' comprehension in classroom lectures; currently, the two measures have been used separately. In this work, we propose a classification framework for predicting students' lecture comprehension in two tasks: (i) students' confusion after listening to the simulated lecture and (ii) the correctness of students' responses to the post-lecture assessment. The proposed framework includes EEG and NLP feature extraction, processing, and classification. EEG and NLP features are extracted to construct integrated features obtained from recorded EEG signals and sentence-level syntactic analysis, which provide information about specific biomarkers and sentence structures. An ensemble stacking classification method -- a combination of multiple individual models that produces an enhanced predictive model -- is studied to learn from the features to make predictions accurately. Furthermore, we also utilized subjective confusion ratings as another integrated feature to enhance classification performance. By doing so, experiment results show that this framework performs better than the baselines, which achieved F1 up to 0.65 for predicting confusion and 0.78 for predicting correctness, highlighting that utilizing this has helped improve the classification performance.
翻訳日:2023-11-22 12:32:52 公開日:2023-11-18
# LightBTSeg:デュアルパスジョイント知識蒸留による超音波画像を用いた軽量乳腺腫瘍分節モデル

LightBTSeg: A lightweight breast tumor segmentation model using ultrasound images via dual-path joint knowledge distillation ( http://arxiv.org/abs/2311.11086v1 )

ライセンス: Link先を確認
Hongjiang Guo, Shengwen Wang, Hao Dang, Kangle Xiao, Yaru Yang, Wenpei Liu, Tongtong Liu, Yiying Wan(参考訳) 乳腺腫瘍の正確なセグメンテーションは病変検出の必須条件であり,乳腺腫瘍研究において重要な臨床的意義を有する。 主流のディープラーニングベースの手法はブレークスルーを達成した。 しかし、これらの高性能セグメンテーション手法は、高い計算複雑性、巨大なパラメータ、遅い推論速度、巨大なメモリ消費を常に受け入れているため、臨床シナリオで実装することが難しい。 そこで本研究では, 乳がんの軽度分節化のための2経路共同知識蒸留フレームワークLightBTSegを提案する。 具体的には,良性乳腺腫瘍と悪性乳腺腫瘍の異なる意味的特徴により,乳房超音波の細粒度特徴を表すダブルティーチャーモデルを設計した。 具体的には、ボトルネックアーキテクチャを利用して、オリジナルの注意U-Netを再構築する。 Simplified U-Netと呼ばれる軽量の学生モデルと見なされている。 次に、良性・悪性のカテゴリーの事前知識を用いて、良性・悪性の教師から知識を抽出する二重経路共同知識蒸留を併用した教師ネットワークを軽量の学生モデルに設計する。 乳房超音波画像 (Dataset BUSI) と乳房超音波B (Dataset B) データセットを用いた大規模な実験により, LightBTSeg が様々な画像より優れていることが示された。

The accurate segmentation of breast tumors is an important prerequisite for lesion detection, which has significant clinical value for breast tumor research. The mainstream deep learning-based methods have achieved a breakthrough. However, these high-performance segmentation methods are formidable to implement in clinical scenarios since they always embrace high computation complexity, massive parameters, slow inference speed, and huge memory consumption. To tackle this problem, we propose LightBTSeg, a dual-path joint knowledge distillation framework, for lightweight breast tumor segmentation. Concretely, we design a double-teacher model to represent the fine-grained feature of breast ultrasound according to different semantic feature realignments of benign and malignant breast tumors. Specifically, we leverage the bottleneck architecture to reconstruct the original Attention U-Net. It is regarded as a lightweight student model named Simplified U-Net. Then, the prior knowledge of benign and malignant categories is utilized to design the teacher network combined dual-path joint knowledge distillation, which distills the knowledge from cumbersome benign and malignant teachers to a lightweight student model. Extensive experiments conducted on breast ultrasound images (Dataset BUSI) and Breast Ultrasound Dataset B (Dataset B) datasets demonstrate that LightBTSeg outperforms various counterparts.
翻訳日:2023-11-22 12:32:32 公開日:2023-11-18
# データ埋め込みにおける信号の合成融合

Compositional Fusion of Signals in Data Embedding ( http://arxiv.org/abs/2311.11085v1 )

ライセンス: Link先を確認
Zhijin Guo, Zhaozhen Xu, Martha Lewis and Nello Cristianini(参考訳) aiへの埋め込みは記号構造を固定次元ベクトルに変換し、複数の信号を効果的に融合する。 しかし、現実世界のデータにおけるこの融合の性質はしばしば不明確である。 そこで本研究では,(1)相関に基づく核融合検出,(2)既知の属性と埋め込みの相関測定,(2)属性を表す個々のベクトルの和として埋め込みを見る付加核融合検出という2つの手法を提案する。 これらの手法を応用して,意味的および形態的信号を組み合わせた単語埋め込み法が得られた。 バート文の埋め込みは、主語、動詞、対象の個々の単語ベクトルに分解された。 知識グラフに基づく推薦システムでは、人口統計データをトレーニングしなくても、年齢や性別などの人口統計の指標が示される。 本研究は,Word2Vecコンポーネントからグラフ埋め込みにおける人口統計的ヒントまで,埋め込みが複数の信号の融合であることを示す。

Embeddings in AI convert symbolic structures into fixed-dimensional vectors, effectively fusing multiple signals. However, the nature of this fusion in real-world data is often unclear. To address this, we introduce two methods: (1) Correlation-based Fusion Detection, measuring correlation between known attributes and embeddings, and (2) Additive Fusion Detection, viewing embeddings as sums of individual vectors representing attributes. Applying these methods, word embeddings were found to combine semantic and morphological signals. BERT sentence embeddings were decomposed into individual word vectors of subject, verb and object. In the knowledge graph-based recommender system, user embeddings, even without training on demographic data, exhibited signals of demographics like age and gender. This study highlights that embeddings are fusions of multiple signals, from Word2Vec components to demographic hints in graph embeddings.
翻訳日:2023-11-22 12:32:10 公開日:2023-11-18
# ECLM: 継続的環境適応による効率的なエッジクラウド協調学習

ECLM: Efficient Edge-Cloud Collaborative Learning with Continuous Environment Adaptation ( http://arxiv.org/abs/2311.11083v1 )

ライセンス: Link先を確認
Yan Zhuang, Zhenzhe Zheng, Yunfeng Shao, Bingshuai Li, Fan Wu, Guihai Chen(参考訳) 広汎なモバイルAIアプリケーションは、主にクラウドベースの学習(強力な大規模モデルを持つ)とデバイス上での学習(軽量の小型モデルを持つ)の2つの学習パラダイムの1つである。 それぞれの利点にもかかわらず、どちらのパラダイムも、頻繁にデータ分散シフトやオンデバイスリソースの変動を伴う動的エッジ環境を効果的に扱うことができず、必然的にパフォーマンスの劣化に悩まされる。 本稿では,動的エッジ環境に対する迅速なモデル適応のためのエッジクラウド協調学習フレームワークeclmを提案する。 まず,オリジナルの大規模クラウドモデルを複数の可燃モジュールに分解する新しいブロックレベルのモデル分解設計を提案する。 モジュールのサブセットを柔軟に組み合わせることで、大きなクラウドモデルから異種エッジデバイスのためのコンパクトでタスク固有のサブモデルの導出と、これらのデバイスで学んだ新しい知識を定期的にクラウドモデルにシームレスに統合することができる。 そのため、ECLMはクラウドモデルが常にエッジデバイスに最新のサブモデルを提供することを保証する。 さらに、モジュールモデル設計をオフラインのオンクラウドモデルプロトタイピングおよびトレーニングステージを含む効率的なモデル適応パイプラインに組み込んだエンドツーエンド学習フレームワークと、オンラインエッジクラウド協調適応ステージを提案する。 様々なデータセットに対する大規模な実験により、ECLMはモデルの性能(例えば18.89%の精度向上)とリソース効率(例えば7.12倍の通信コスト削減)を、エッジとクラウドモデルを効率的に協調して動的エッジ環境に適応することを示した。

Pervasive mobile AI applications primarily employ one of the two learning paradigms: cloud-based learning (with powerful large models) or on-device learning (with lightweight small models). Despite their own advantages, neither paradigm can effectively handle dynamic edge environments with frequent data distribution shifts and on-device resource fluctuations, inevitably suffering from performance degradation. In this paper, we propose ECLM, an edge-cloud collaborative learning framework for rapid model adaptation for dynamic edge environments. We first propose a novel block-level model decomposition design to decompose the original large cloud model into multiple combinable modules. By flexibly combining a subset of the modules, this design enables the derivation of compact, task-specific sub-models for heterogeneous edge devices from the large cloud model, and the seamless integration of new knowledge learned on these devices into the cloud model periodically. As such, ECLM ensures that the cloud model always provides up-to-date sub-models for edge devices. We further propose an end-to-end learning framework that incorporates the modular model design into an efficient model adaptation pipeline including an offline on-cloud model prototyping and training stage, and an online edge-cloud collaborative adaptation stage. Extensive experiments over various datasets demonstrate that ECLM significantly improves model performance (e.g., 18.89% accuracy increase) and resource efficiency (e.g., 7.12x communication cost reduction) in adapting models to dynamic edge environments by efficiently collaborating the edge and the cloud models.
翻訳日:2023-11-22 12:31:55 公開日:2023-11-18
# AIはソフトウェア工学研究における人的課題の代替として生き残れるか?

Can AI Serve as a Substitute for Human Subjects in Software Engineering Research? ( http://arxiv.org/abs/2311.11081v1 )

ライセンス: Link先を確認
Marco A. Gerosa, Bianca Trinkenreich, Igor Steinmacher, Anita Sarma(参考訳) ソフトウェア工学のような社会技術分野の研究は、基本的に人間の視点を徹底的に検討する必要がある。 しかし、従来の定性的データ収集手法は、規模、労働力、参加採用の難しさの増大に関連する課題に悩まされている。 本稿では、人工知能(AI)、特にChatGPTのような大規模言語モデル(LLM)の能力を活用することにより、ソフトウェア工学研究における定性データ収集の新しいアプローチを提案する。 我々は、LLMが人間の反応や振る舞いを研究環境でどのように再現できるかを議論することで、定性的データの代替源としてAI生成合成テキストの可能性を探る。 インタビューのペルソナベースのプロンプト,フォーカスグループのマルチペルソナ対話,調査のためのメガペルソナ応答など,さまざまな方法論を対象としたデータ収集の自動化におけるAIの適用について検討する。 さらに、観察研究における人間の行動のエミュレートとユーザ評価を目的とした新しい基礎モデルの開発についても検討する。 人間のインタラクションとフィードバックをシミュレートすることで、これらのAIモデルは、人間の態度、経験、パフォーマンスに関する洞察を提供しながら、スケーラブルで効率的なデータ生成手段を提供することができる。 我々は、このビジョンを実現するためのいくつかのオープンな問題と研究の機会について議論し、aiは、ソフトウェア工学研究におけるデータ収集の側面を強化することができるが、一部のケースでは、人間に固有のニュアンス的で共感的な理解を置き換えることはできないと結論づける。

Research within sociotechnical domains, such as Software Engineering, fundamentally requires a thorough consideration of the human perspective. However, traditional qualitative data collection methods suffer from challenges related to scale, labor intensity, and the increasing difficulty of participant recruitment. This vision paper proposes a novel approach to qualitative data collection in software engineering research by harnessing the capabilities of artificial intelligence (AI), especially large language models (LLMs) like ChatGPT. We explore the potential of AI-generated synthetic text as an alternative source of qualitative data, by discussing how LLMs can replicate human responses and behaviors in research settings. We examine the application of AI in automating data collection across various methodologies, including persona-based prompting for interviews, multi-persona dialogue for focus groups, and mega-persona responses for surveys. Additionally, we discuss the prospective development of new foundation models aimed at emulating human behavior in observational studies and user evaluations. By simulating human interaction and feedback, these AI models could offer scalable and efficient means of data generation, while providing insights into human attitudes, experiences, and performance. We discuss several open problems and research opportunities to implement this vision and conclude that while AI could augment aspects of data gathering in software engineering research, it cannot replace the nuanced, empathetic understanding inherent in human subjects in some cases, and an integrated approach where both AI and human-generated data coexist will likely yield the most effective outcomes.
翻訳日:2023-11-22 12:31:26 公開日:2023-11-18
# DSCom: ソーシャルネットワークにおける影響最大化のためのデータ駆動型自己適応型コミュニティベースフレームワーク

DSCom: A Data-Driven Self-Adaptive Community-Based Framework for Influence Maximization in Social Networks ( http://arxiv.org/abs/2311.11080v1 )

ライセンス: Link先を確認
Yuxin Zuo, Haojia Sun, Yongyi Hu, Jianxiong Guo, and Xiaofeng Gao(参考訳) 影響の最大化は、与えられた予算の下で広がる影響を最大化する種子のサブセットを見つけることを目的としている。 本稿では主に,拡散モデルが与えられるのではなく,歴史カスケードから推定される必要がある,この問題のデータ駆動型バージョンに対処する。 以前のいくつかの研究は統計的にこの問題に対処し、理論的に保証された効率的なアルゴリズムを提供した。 しかし、それらの設定では、拡散パラメータは推論されているが、現実の実践では難解な問題である拡散モデルを事前に設定する必要がある。 本稿では,帰結したネットワーク上の問題を再構成し,ノード属性を利用して接続ノード間の密接度を推定する。 具体的には、この問題にヒューリスティックな方法で対処する機械学習ベースのフレームワークDSComを提案する。 この枠組みでは,まず注意機構を通じて拡散データセットからユーザの関係を推定し,次にスペクトルクラスタリングを用いて,正確な拡散公式の欠如による影響重なり問題を克服する。 従来の理論研究と比較して,実世界のソーシャルネットワークに基づくパラメータ化拡散モデルを用いた実験実験を注意深く設計し,アルゴリズムの効率と有効性を実証した。

Influence maximization aims to find a subset of seeds that maximize the influence spread under a given budget. In this paper, we mainly address the data-driven version of this problem, where the diffusion model is not given but needs to be inferred from the history cascades. Several previous works have addressed this topic in a statistical way and provided efficient algorithms with theoretical guarantee. However, in their settings, though the diffusion parameters are inferred, they still need users to preset the diffusion model, which can be an intractable problem in real-world practices. In this paper, we reformulate the problem on the attributed network and leverage the node attributes to estimate the closeness between the connected nodes. Specifically, we propose a machine learning-based framework, named DSCom, to address this problem in a heuristic way. Under this framework, we first infer the users' relationship from the diffusion dataset through attention mechanism and then leverage spectral clustering to overcome the influence overlap problem in the lack of exact diffusion formula. Compared to the previous theoretical works, we carefully designed empirical experiments with parameterized diffusion models based on real-world social networks, which prove the efficiency and effectiveness of our algorithm.
翻訳日:2023-11-22 12:30:59 公開日:2023-11-18
# Adapters: パラメータ効率とモジュール移動学習のための統一ライブラリ

Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning ( http://arxiv.org/abs/2311.11077v1 )

ライセンス: Link先を確認
Clifton Poth, Hannah Sterz, Indraneil Paul, Sukannya Purkayastha, Leon Engl\"ander, Timo Imhof, Ivan Vuli\'c, Sebastian Ruder, Iryna Gurevych, Jonas Pfeiffer(参考訳) 本稿では,大規模言語モデルにおけるパラメータ効率とモジュール移動学習を統合するオープンソースライブラリであるAdaptersを紹介する。 10の多様なアダプタメソッドを統一インターフェースに統合することで、アダプタは使いやすさと柔軟性を提供する。 このライブラリにより、研究者や実践者はコンポジションブロックを通じてアダプタのモジュラリティを活用でき、複雑なアダプタのセットアップを実現できる。 各種nlpタスクの微調整に対する性能評価を行い,本ライブラリの有効性を実証した。 Adaptersは、従来の微調整パラダイムの課題に対処し、より効率的でモジュール化されたトランスファー学習を促進する強力なツールを提供する。 ライブラリはhttps://adapterhub.ml/adaptersから利用できる。

We introduce Adapters, an open-source library that unifies parameter-efficient and modular transfer learning in large language models. By integrating 10 diverse adapter methods into a unified interface, Adapters offers ease of use and flexible configuration. Our library allows researchers and practitioners to leverage adapter modularity through composition blocks, enabling the design of complex adapter setups. We demonstrate the library's efficacy by evaluating its performance against full fine-tuning on various NLP tasks. Adapters provides a powerful tool for addressing the challenges of conventional fine-tuning paradigms and promoting more efficient and modular transfer learning. The library is available via https://adapterhub.ml/adapters.
翻訳日:2023-11-22 12:30:32 公開日:2023-11-18
# ペルシャピアノコーパス : dastgahを考慮した楽器に基づく特徴抽出データの収集

The Persian Piano Corpus: A Collection Of Instrument-Based Feature Extracted Data Considering Dastgah ( http://arxiv.org/abs/2311.11074v1 )

ライセンス: Link先を確認
Parsa Rasouli, Azam Bastanfard(参考訳) 音楽分野の研究は急速に増加しており、この傾向は包括的なデータの必要性を強調している。 研究者は自身のデータセットに貢献する努力をしてきたが、多くのデータ収集は、音楽やその他の特定のトピックの特定のコンポーネントに重点を置いているため、包括的な研究に必要不可欠な傾向を欠いている。 我々はペルシャピアノに関する完全なコーパスを提供するための楽器ベースのアプローチを用いて,データの不足に対処する努力を行っている。 ピアノコーパスにはペルシャ音楽モード(Dastgah)と包括的メタデータの関連ラベルが含まれており、様々なポピュラーな研究領域で利用することができる。 ペルシャピアノコーパス(ppc)の2022年のペルシャのピアノ曲から抽出された特徴が収集され、研究者に提供され、ペルシャの音楽とそれに続くステップにおけるピアノの役割をより深く理解することを目的としている。

The research in the field of music is rapidly growing, and this trend emphasizes the need for comprehensive data. Though researchers have made an effort to contribute their own datasets, many data collections lack the requisite inclusivity for comprehensive study because they are frequently focused on particular components of music or other specific topics. We have endeavored to address data scarcity by employing an instrument-based approach to provide a complete corpus related to the Persian piano. Our piano corpus includes relevant labels for Persian music mode (Dastgah) and comprehensive metadata, allowing for utilization in various popular research areas. The features extracted from 2022 Persian piano pieces in The Persian Piano Corpus (PPC) have been collected and made available to researchers, aiming for a more thorough understanding of Persian music and the role of the piano in it in subsequent steps.
翻訳日:2023-11-22 12:29:52 公開日:2023-11-18
# パーソナライズされた自己学習によるコミュニティ対応グラフコントラスト学習

Community-Aware Efficient Graph Contrastive Learning via Personalized Self-Training ( http://arxiv.org/abs/2311.11073v1 )

ライセンス: Link先を確認
Yuecheng Li, Yanming Hu, Lele Fu, Chuan Chen, Lei Yang, Zibin Zheng(参考訳) 近年、グラフコントラスト学習(gcl)がノードレベルでの様々な教師付きタスクの最適解の1つとして登場している。 しかし、コミュニティ検出などの教師なし・構造関連タスクでは、現在のGCLアルゴリズムは必要なコミュニティレベルの情報を取得するのに困難に直面し、性能が低下する。 さらに、一般的なコントラスト学習アルゴリズムは、負のサンプル数を増やして下流タスクのパフォーマンスを向上させることにより、深刻なクラス衝突とコミュニティ検出の不公平性をもたらす。 そこで本稿では,コミュニティ分割とノード表現をエンドツーエンドで共同学習する,新しいコミュニティ対応型グラフコントラスト学習フレームワーク(cegcl)を提案する。 具体的には、まず、教師なしシナリオのためのパーソナライズされた自己学習(PeST)戦略を設計する。 PeSTの利点により、モデル全体の性能を犠牲にすることなく、クラス衝突と不公平を緩和する。 さらに、コミュニティ分割を得るために、アライメントグラフクラスタリング(AlGC)が使用される。 このモジュールでは、より一貫性のあるノード埋め込みを実現するために、下流タスクのクラスタリング空間とPeSTのクラスタリング空間を一致させます。 最後に, 理論的, 実験的に, コミュニティ検出のためのモデルの有効性を実証する。 また,CEGCLは3つのベンチマークデータセットに対して,異なるスケールで最新の性能を示すことを示した。

In recent years, graph contrastive learning (GCL) has emerged as one of the optimal solutions for various supervised tasks at the node level. However, for unsupervised and structure-related tasks such as community detection, current GCL algorithms face difficulties in acquiring the necessary community-level information, resulting in poor performance. In addition, general contrastive learning algorithms improve the performance of downstream tasks by increasing the number of negative samples, which leads to severe class collision and unfairness of community detection. To address above issues, we propose a novel Community-aware Efficient Graph Contrastive Learning Framework (CEGCL) to jointly learn community partition and node representations in an end-to-end manner. Specifically, we first design a personalized self-training (PeST) strategy for unsupervised scenarios, which enables our model to capture precise community-level personalized information in a graph. With the benefit of the PeST, we alleviate class collision and unfairness without sacrificing the overall model performance. Furthermore, the aligned graph clustering (AlGC) is employed to obtain the community partition. In this module, we align the clustering space of our downstream task with that in PeST to achieve more consistent node embeddings. Finally, we demonstrate the effectiveness of our model for community detection both theoretically and experimentally. Extensive experimental results also show that our CEGCL exhibits state-of-the-art performance on three benchmark datasets with different scales.
翻訳日:2023-11-22 12:29:32 公開日:2023-11-18
# sbtrec-感情分析を用いたパーソナライズドツアー推薦問題のためのトランスフォーマーフレームワーク

SBTRec- A Transformer Framework for Personalized Tour Recommendation Problem with Sentiment Analysis ( http://arxiv.org/abs/2311.11071v1 )

ライセンス: Link先を確認
Ngai Lam Ho, Roy Ka-Wei Lee and Kwan Hui Lim(参考訳) 観光客は休暇のために馴染みのない都市に旅行するとき、ガイドブック、旅行ウェブサイト、レコメンデーションシステムを使って毎日の旅程を計画し、人気のある関心点(POI)を探る。 しかし、これらのアプローチは、時間実現性、局所性、ユーザの好みに関して最適化を欠いている可能性がある。 本稿では,感情分析を併用した BERT ベースの Trajectory Recommendation を用いた SBTRec アルゴリズムを提案する。 この作業の主な貢献は、ユーザのチェックインを分析し、POI訪問と距離の関係を理解するためにアップロードされた写真である。 SBTRecを導入し、異なるPOIに関するレビューやコメントからユーザの好みや満足度を理解することで、感情分析を取り入れてレコメンデーション精度を向上させる。 提案手法は,8都市のデータセットを用いた他のシーケンス予測手法と比較した。 その結果,SBTRecの平均F1スコアは61.45%であり,ベースラインアルゴリズムよりも優れていた。 さらに、SBTRecアルゴリズムの柔軟性、変更せずに異なるシナリオや都市に適応できる能力、およびより信頼性の高い予測に付加情報を組み込むことで拡張の可能性についても論じる。 全体として、SBTRecはパーソナライズされ、関連するPOIレコメンデーションを提供し、観光客の全体的な旅行体験を強化している。 今後の作業には、ユーザのためのパーソナライズされた埋め込みを微調整し、POIに対するユーザのコメントを評価し、予測精度をさらに高めることが含まれる。

When traveling to an unfamiliar city for holidays, tourists often rely on guidebooks, travel websites, or recommendation systems to plan their daily itineraries and explore popular points of interest (POIs). However, these approaches may lack optimization in terms of time feasibility, localities, and user preferences. In this paper, we propose the SBTRec algorithm: a BERT-based Trajectory Recommendation with sentiment analysis, for recommending personalized sequences of POIs as itineraries. The key contributions of this work include analyzing users' check-ins and uploaded photos to understand the relationship between POI visits and distance. We introduce SBTRec, which encompasses sentiment analysis to improve recommendation accuracy by understanding users' preferences and satisfaction levels from reviews and comments about different POIs. Our proposed algorithms are evaluated against other sequence prediction methods using datasets from 8 cities. The results demonstrate that SBTRec achieves an average F1 score of 61.45%, outperforming baseline algorithms. The paper further discusses the flexibility of the SBTRec algorithm, its ability to adapt to different scenarios and cities without modification, and its potential for extension by incorporating additional information for more reliable predictions. Overall, SBTRec provides personalized and relevant POI recommendations, enhancing tourists' overall trip experiences. Future work includes fine-tuning personalized embeddings for users, with evaluation of users' comments on POIs,~to further enhance prediction accuracy.
翻訳日:2023-11-22 12:28:42 公開日:2023-11-18
# マイクロ波単一ショット量子鍵分布の実証

Demonstration of microwave single-shot quantum key distribution ( http://arxiv.org/abs/2311.11069v1 )

ライセンス: Link先を確認
F.Fesquet, F.Kronowetter, M.Renger, W.K.Yam, S.Gandorfer, K.Inomata, Y.Nakamura, A.Marx, R.Gross and K.G.Fedorov(参考訳) 現代の古典的データ暗号化のセキュリティは、しばしば計算的に難しい問題に依存しており、量子コンピュータの出現によって自明にすることができる。 量子物理学の法則を利用して情報の安全な交換を提供する量子通信(quantum communication)が考えられる。 ここでは、量子鍵分布(QKD)は、リモートパーティ間の無条件でセキュアな量子通信を可能にする強力なツールである。 同時に、マイクロ波量子通信は、超伝導量子プロセッサとの自然な周波数互換性と現代の近距離通信標準のため、将来の量子ネットワークにおいて重要な役割を果たすように設定されている。 そこで本研究では,分散したマイクロ波状態の伝搬に基づく連続可変qkdプロトコルを実験的に実現する。 超伝導パラメトリックデバイスを用いてこれらの状態の生成と単発四重項検出を行う。 実験マイクロ波QKD設定における無条件安全性を示す。 準備側に有限信頼ノイズを付加することにより,セキュリティ性能の向上が期待できる。 その結果,オープンエア(最大80m)と極低温(1000m以上)の両方において,現在利用可能な技術とのセキュアなマイクロ波量子通信が可能となった。

Security of modern classical data encryption often relies on computationally hard problems, which can be trivialized with the advent of quantum computers. A potential remedy for this is quantum communication which takes advantage of the laws of quantum physics to provide secure exchange of information. Here, quantum key distribution (QKD) represents a powerful tool, allowing for unconditionally secure quantum communication between remote parties. At the same time, microwave quantum communication is set to play an important role in future quantum networks because of its natural frequency compatibility with superconducting quantum processors and modern near-distance communication standards. To this end, we present an experimental realization of a continuous-variable QKD protocol based on propagating displaced squeezed microwave states. We use superconducting parametric devices for generation and single-shot quadrature detection of these states. We demonstrate unconditional security in our experimental microwave QKD setting. We show that security performance can be improved by adding finite trusted noise to the preparation side. Our results indicate feasibility of secure microwave quantum communication with the currently available technology in both open-air (up to $\sim$ 80 m) and cryogenic (over 1000 m) conditions.
翻訳日:2023-11-22 12:28:14 公開日:2023-11-18
# 自己二重フラクトンスピンモデルのエキゾチック対称性破壊特性

Exotic Symmetry Breaking Properties of Self-Dual Fracton Spin Models ( http://arxiv.org/abs/2311.11066v1 )

ライセンス: Link先を確認
Giovanni Canossa, Lode Pollet, Miguel A. Martin-Delgado, Hao Song, Ke Liu(参考訳) フラクトン符号は、伝統的なトポロジ的な物質状態を持ち、その大きな符号化空間とデコヒーレンスやノイズに対する強い耐性のため、フォールトトレラントな量子計算を約束している。 本研究では,2種類の原型自己双対フラクトンスピンモデル(四面体アイシングモデルとフラクタルアイシングモデル)の基底状態特性と相転移について検討する。 それらは、大域的対称性の自発的破れやゲージ理論のデコンビネーション遷移と鋭く対照的な、エキゾチックな対称性の破れ特性を持つ。 これらの非慣習的な挙動を示すために,各モデルの順序パラメータ,相関子,対称性生成器を構築し,解析する。 特に、四面体イジングモデルは拡張半局所順序モーメントを取得し、フラクタルイジングモデルは多項式環表現に適合し、フラクタル秩序パラメータにつながる。 解析ツールと組み合わされた数値的研究により、どちらのモデルもフラクタル対称性にもかかわらず、l^{-(d-1)$の異常なスケーリングを持つ強い一階相転移を経験できることが示されている。 我々の研究は、サブ次元対称性の破れの新しい理解を提供し、チェッカーボードとハアの符号の量子エラー補正特性を研究するための重要なステップとなる。

Fracton codes host unconventional topological states of matter and are promising for fault-tolerant quantum computation due to their large coding space and strong resilience against decoherence and noise. In this work, we investigate the ground-state properties and phase transitions of two prototypical self-dual fracton spin models -- the tetrahedral Ising model and the fractal Ising model -- which correspond to error-correction procedures for the representative fracton codes of type-I and type-II, the checkerboard code and the Haah's code, respectively, in the error-free limit. They are endowed with exotic symmetry-breaking properties that contrast sharply with the spontaneous breaking of global symmetries and deconfinement transition of gauge theories. To show these unconventional behaviors, which are associated with sub-dimensional symmetries, we construct and analyze the order parameters, correlators, and symmetry generators for both models. Notably, the tetrahedral Ising model acquires an extended semi-local ordering moment, while the fractal Ising model fits into a polynomial ring representation and leads to a fractal order parameter. Numerical studies combined with analytical tools show that both models experience a strong first-order phase transition with an anomalous $L^{-(D-1)}$ scaling, despite the fractal symmetry of the latter. Our work provides new understanding of sub-dimensional symmetry breaking and makes an important step for studying quantum-error-correction properties of the checkerboard and Haah's codes.
翻訳日:2023-11-22 12:27:56 公開日:2023-11-18
# 自己推定と検索最適化を用いた乳癌診断におけるトランスフォーマティブ・セグメンテーションの強化

Enhancing Transformer-Based Segmentation for Breast Cancer Diagnosis using Auto-Augmentation and Search Optimisation Techniques ( http://arxiv.org/abs/2311.11065v1 )

ライセンス: Link先を確認
Leon Hamnett, Mary Adewunmi, Modinat Abayomi, Kayode Raheem, and Fahad Ahmed(参考訳) 乳がんは依然として重要な世界的な健康上の課題であり、有効な治療のために早期かつ正確な検出を必要とする。 本稿では,画像の増補数とそれに伴う増補パラメータの大きさの最適値を特定するために,自動画像増補選択 (randaugment) と探索最適化戦略 (tree-based parzen estimator) を組み合わせた手法を提案する。 乳がん組織学的スライスに対するアプローチを実験的に検証し,がん細胞の分節化に着目した。 拡張手法を適用する前に、SegFormer、PoolFormer、MaskFormerモデルを含む最先端トランスフォーマーベースのセグメンテーションモデルの比較分析を行い、包括的なベースラインを確立する。 以上の結果から, 本手法は, 高レベルのセグメンテーション性能を維持しつつ, 組織スライドの変動に強いセグメンテーションモデルをもたらし, 過去の研究と比較すると, 腫瘍のセグメンテーションが改善したことを示す。 増補を施した最善の結果は、84.08のサイススコアと、腫瘍クラスをセグメンテーションするときのiouスコア72.54である。 本研究の主な貢献は,データ分散に対するモデルロバスト性を確保しつつセグメンテーション性能を向上させる手法の開発である。 これは医療従事者にとって重要な意味を持ち、組織学のスライドから乳がん細胞を同定するための臨床応用のためのより効果的な機械学習モデルの開発を可能にする。 さらに、この研究に伴うコードベースが公開される予定だ。 これにより、我々の方法論に基づくさらなる研究とアプリケーション開発が促進され、その影響を増幅します。

Breast cancer remains a critical global health challenge, necessitating early and accurate detection for effective treatment. This paper introduces a methodology that combines automated image augmentation selection (RandAugment) with search optimisation strategies (Tree-based Parzen Estimator) to identify optimal values for the number of image augmentations and the magnitude of their associated augmentation parameters, leading to enhanced segmentation performance. We empirically validate our approach on breast cancer histology slides, focusing on the segmentation of cancer cells. A comparative analysis of state-of-the-art transformer-based segmentation models is conducted, including SegFormer, PoolFormer, and MaskFormer models, to establish a comprehensive baseline, before applying the augmentation methodology. Our results show that the proposed methodology leads to segmentation models that are more resilient to variations in histology slides whilst maintaining high levels of segmentation performance, and show improved segmentation of the tumour class when compared to previous research. Our best result after applying the augmentations is a Dice Score of 84.08 and an IoU score of 72.54 when segmenting the tumour class. The primary contribution of this paper is the development of a methodology that enhances segmentation performance while ensuring model robustness to data variances. This has significant implications for medical practitioners, enabling the development of more effective machine learning models for clinical applications to identify breast cancer cells from histology slides. Furthermore, the codebase accompanying this research will be released upon publication. This will facilitate further research and application development based on our methodology, thereby amplifying its impact.
翻訳日:2023-11-22 12:27:25 公開日:2023-11-18
# 非撮像データを用いた変圧器を用いた放射線レポート生成

Radiology Report Generation Using Transformers Conditioned with Non-imaging Data ( http://arxiv.org/abs/2311.11097v1 )

ライセンス: Link先を確認
Nurbanu Aksoy, Nishant Ravikumar and Alejandro F Frangi(参考訳) 医用画像の解釈は、疾患診断、治療計画、予後など、ほとんどの臨床応用の中心である。 臨床において、放射線科医は医療画像を調べ、その結果を手作業でレポートにまとめる。 したがって、放射線学報告生成に対する自動的アプローチは、放射線科医の作業量を減らし、臨床経路の効率を向上させることができる。 最近の医学画像からのレポート自動生成のためのディープラーニングアプローチは成功を収めているが、ほとんどの研究は画像由来の機能のみに依存しており、非画像データを無視している。 画像とともに単語レベルの文脈を含む研究がいくつかあるが、患者層の使用はいまだに未調査である。 本稿では,胸部x線(cxr)画像と関連する人口統計情報を統合し,患者固有のx線レポートを合成するマルチモーダルトランスフォーマネットワークを提案する。 提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークを用いて、全文ラジオグラフィーレポートを合成する。 提案手法のトレーニングと評価には,2つの公開データベースのデータを使用した。 CXRと報告はMIMIC-CXRデータベースから抽出され、対応する患者のMIMIC-IVデータと組み合わせられた。 患者統計情報を含む評価指標を用いて,CXRだけでトレーニングしたベースラインネットワークと比較して,提案手法による報告の質の向上が認められた。 提案手法は, リッチな患者メタデータを活用し, その意味的テキスト埋め込みと医用画像からの視覚特徴を組み合わせることで, 放射線学的レポート生成の促進の可能性を示す。

Medical image interpretation is central to most clinical applications such as disease diagnosis, treatment planning, and prognostication. In clinical practice, radiologists examine medical images and manually compile their findings into reports, which can be a time-consuming process. Automated approaches to radiology report generation, therefore, can reduce radiologist workload and improve efficiency in the clinical pathway. While recent deep-learning approaches for automated report generation from medical images have seen some success, most studies have relied on image-derived features alone, ignoring non-imaging patient data. Although a few studies have included the word-level contexts along with the image, the use of patient demographics is still unexplored. This paper proposes a novel multi-modal transformer network that integrates chest x-ray (CXR) images and associated patient demographic information, to synthesise patient-specific radiology reports. The proposed network uses a convolutional neural network to extract visual features from CXRs and a transformer-based encoder-decoder network that combines the visual features with semantic text embeddings of patient demographic information, to synthesise full-text radiology reports. Data from two public databases were used to train and evaluate the proposed approach. CXRs and reports were extracted from the MIMIC-CXR database and combined with corresponding patients' data MIMIC-IV. Based on the evaluation metrics used including patient demographic information was found to improve the quality of reports generated using the proposed approach, relative to a baseline network trained using CXRs alone. The proposed approach shows potential for enhancing radiology report generation by leveraging rich patient metadata and combining semantic text embeddings derived thereof, with medical image-derived visual features.
翻訳日:2023-11-22 12:15:01 公開日:2023-11-18
# 医用画像分割における基礎モデルの分布ロバスト性について

On the Out of Distribution Robustness of Foundation Models in Medical Image Segmentation ( http://arxiv.org/abs/2311.11096v1 )

ライセンス: Link先を確認
Duy Minh Ho Nguyen, Tan Ngoc Pham, Nghiem Tuong Diep, Nghi Quoc Phan, Quang Pham, Vinh Tong, Binh T. Nguyen, Ngan Hoang Le, Nhat Ho, Pengtao Xie, Daniel Sonntag, Mathias Niepert(参考訳) 分布シフト下のサンプルを効果的に一般化するロバストモデルの構築は,医用画像の分野において重要な課題である。 自然画像とテキストデータの広範囲なセットで事前学習された視覚と言語の基礎モデルが、有望なアプローチとして登場した。 注釈付きサンプルを限られた量だけ必要とせず、さまざまなタスクにまたがる素晴らしい学習能力を示す。 多くの技術が特定の領域にこれらのモデルを適用するためのより良い微調整戦略の開発に重点を置いている一方で、医用画像分割タスクにおけるドメインシフトに対する堅牢性について検討している。 この目的のために,同一の分散データセット上で微調整された後,様々な事前学習モデルの未学習領域と比較し,基盤ベースモデルが他のアーキテクチャよりもロバスト性が高いことを示す。 そこで我々は,凍結モデルに対する新たなベイズ不確実性推定法を開発し,モデルの性能をood(out-of-distribution)データで特徴付ける指標として用いた。 実験では, 直線上の精度や, 自然画像で一般的に使用される線上の合意など, 現在の指標の限界を明らかにするだけでなく, 導入されるベイズの不確かさの期待を強調する。 特に、より低い不確実性予測は、通常、より高いout-of-distribution (ood)パフォーマンスを示す。

Constructing a robust model that can effectively generalize to test samples under distribution shifts remains a significant challenge in the field of medical imaging. The foundational models for vision and language, pre-trained on extensive sets of natural image and text data, have emerged as a promising approach. It showcases impressive learning abilities across different tasks with the need for only a limited amount of annotated samples. While numerous techniques have focused on developing better fine-tuning strategies to adapt these models for specific domains, we instead examine their robustness to domain shifts in the medical image segmentation task. To this end, we compare the generalization performance to unseen domains of various pre-trained models after being fine-tuned on the same in-distribution dataset and show that foundation-based models enjoy better robustness than other architectures. From here, we further developed a new Bayesian uncertainty estimation for frozen models and used them as an indicator to characterize the model's performance on out-of-distribution (OOD) data, proving particularly beneficial for real-world applications. Our experiments not only reveal the limitations of current indicators like accuracy on the line or agreement on the line commonly used in natural image applications but also emphasize the promise of the introduced Bayesian uncertainty. Specifically, lower uncertainty predictions usually tend to higher out-of-distribution (OOD) performance.
翻訳日:2023-11-22 12:14:29 公開日:2023-11-18
# 線形推定における平坦極小と拡張ガウスマルコフ定理

Flat Minima in Linear Estimation and an Extended Gauss Markov Theorem ( http://arxiv.org/abs/2311.11093v1 )

ライセンス: Link先を確認
Simon Segert(参考訳) 線形推定の問題を考察し、バイアス作用素がゼロでないことが許されるガウス・マルコフの定理の拡張を確立し、シャッテン型の行列ノルムに関して有界となる。 我々は、核およびスペクトルノルムの場合(フロベニウスの場合はリッジ回帰を回復する)の最適推定子に対する単純で明示的な公式を導出する。 さらに,複数のランダム行列アンサンブルにおける一般化誤差を解析的に導出し,リッジ回帰と比較する。 最後に,クロスバリアント原子核およびスペクトルレグレッセプタがいくつかの条件下でリッジよりも優れることを示す,広範囲なシミュレーション研究を行った。

We consider the problem of linear estimation, and establish an extension of the Gauss-Markov theorem, in which the bias operator is allowed to be non-zero but bounded with respect to a matrix norm of Schatten type. We derive simple and explicit formulas for the optimal estimator in the cases of Nuclear and Spectral norms (with the Frobenius case recovering ridge regression). Additionally, we analytically derive the generalization error in multiple random matrix ensembles, and compare with Ridge regression. Finally, we conduct an extensive simulation study, in which we show that the cross-validated Nuclear and Spectral regressors can outperform Ridge in several circumstances.
翻訳日:2023-11-22 12:14:07 公開日:2023-11-18
# コンピュータ科学研究におけるchatgptと生成aiの最適利用

Best uses of ChatGPT and Generative AI for computer science research ( http://arxiv.org/abs/2311.11175v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merchan(参考訳) 生成人工知能(AI)、特にOpenAIの人気ツールであるChatGPTは、コンピュータサイエンス研究の風景を再構築している。 賢く使うと、これらのツールはコンピューター科学者の生産性を高めることができる。 本稿では、計算機科学研究におけるChatGPTおよびその他の生成AI技術の多様な応用を探求し、新たな研究論文の執筆に焦点をあて、コンピュータ研究科学者の役割をより生産的にするための生成AIの利用を推奨する。 我々は,研究アイデアのブレインストーミング,学術論文の起草とスタイリングの支援,最先端セクションの合成支援など,革新的な用途に注目した。 さらに,学際的アプローチの理解,複雑なテキストの簡易化,出版に適した学術雑誌の推薦などにおいて,これらの技術の利用を検討する。 生成AIによる合成データ作成、研究方法論、メンターシップへの貢献、タスク組織や記事の品質評価に重点を置いている。 論文ではまた、記事レビューにおけるAIの有用性、制約の延長にテキストを適用すること、反論の構築、調査開発についても論じている。 さらに,アイデアの広まり,画像や音声の生成,テキストの書き起こし,エディタとの関わりなど,これらのツールの機能を探求する。 また,コンピュータ科学研究における生成AIの非推奨利用について述べる。

Generative Artificial Intelligence (AI), particularly tools like OpenAI's popular ChatGPT, is reshaping the landscape of computer science research. Used wisely, these tools can boost the productivity of a computer research scientist. This paper provides an exploration of the diverse applications of ChatGPT and other generative AI technologies in computer science academic research, making recommendations about the use of Generative AI to make more productive the role of the computer research scientist, with the focus of writing new research papers. We highlight innovative uses such as brainstorming research ideas, aiding in the drafting and styling of academic papers and assisting in the synthesis of state-of-the-art section. Further, we delve into using these technologies in understanding interdisciplinary approaches, making complex texts simpler, and recommending suitable academic journals for publication. Significant focus is placed on generative AI's contributions to synthetic data creation, research methodology, and mentorship, as well as in task organization and article quality assessment. The paper also addresses the utility of AI in article review, adapting texts to length constraints, constructing counterarguments, and survey development. Moreover, we explore the capabilities of these tools in disseminating ideas, generating images and audio, text transcription, and engaging with editors. We also describe some non-recommended uses of generative AI for computer science research, mainly because of the limitations of this technology.
翻訳日:2023-11-22 10:24:49 公開日:2023-11-18
# 効率的な深層ニューラルネットワーク処理のための低精度浮動小数点法

Low-Precision Floating-Point for Efficient On-Board Deep Neural Network Processing ( http://arxiv.org/abs/2311.11172v1 )

ライセンス: Link先を確認
C\'edric Gernigon and Silviu-Ioan Filip and Olivier Sentieys and Cl\'ement Coggiola and Micka\"el Bruno(参考訳) 高解像度地球観測(EO)宇宙システムにおける大きなボトルネックの1つは、衛星と地上の間のダウンリンクである。 ハードウェアの制限、オンボードの電力制限、地上局の運用コストなどにより、送信されるデータ量を減らす必要性が強い。 データの圧縮には様々な処理方法を用いることができる。 そのうちの1つは、データ内の関連情報を抽出するために、オンボードでディープラーニングを使用することである。 しかし、地上ベースのディープニューラルネットワークのパラメータや計算は、オンボード処理の文脈に適合しない単精度浮動小数点演算を用いて行われる。 本稿では,量子化されたニューラルネットワークに頼り,低精度(ミニ)浮動小数点演算と量子化認識学習法を組み合わせる方法を提案する。 本手法は,airbus ship datasetの衛星画像を用いた船舶検出のためのセマンティックセグメンテーションタスクを用いて評価する。 その結果,6ビット浮動小数点量子化は,重みとアクティベーションの両方において,精度の劣化を伴わずに単一精度と競合できることがわかった。 薄型u-net 32モデルでは、6ビットのミニフロート量子化で0.3%の精度劣化しか観測されない(6ビット等価整数ベースアプローチは0.5%の劣化をもたらす)。 初期のハードウェア研究では、そのような低精度浮動小数点設計の影響も確認されているが、実際のオンボードシナリオに関係があるかどうかを結論づける前に、完全な推論加速器のスケールに関するさらなる調査が必要である。

One of the major bottlenecks in high-resolution Earth Observation (EO) space systems is the downlink between the satellite and the ground. Due to hardware limitations, on-board power limitations or ground-station operation costs, there is a strong need to reduce the amount of data transmitted. Various processing methods can be used to compress the data. One of them is the use of on-board deep learning to extract relevant information in the data. However, most ground-based deep neural network parameters and computations are performed using single-precision floating-point arithmetic, which is not adapted to the context of on-board processing. We propose to rely on quantized neural networks and study how to combine low precision (mini) floating-point arithmetic with a Quantization-Aware Training methodology. We evaluate our approach with a semantic segmentation task for ship detection using satellite images from the Airbus Ship dataset. Our results show that 6-bit floating-point quantization for both weights and activations can compete with single-precision without significant accuracy degradation. Using a Thin U-Net 32 model, only a 0.3% accuracy degradation is observed with 6-bit minifloat quantization (a 6-bit equivalent integer-based approach leads to a 0.5% degradation). An initial hardware study also confirms the potential impact of such low-precision floating-point designs, but further investigation at the scale of a full inference accelerator is needed before concluding whether they are relevant in a practical on-board scenario.
翻訳日:2023-11-22 10:24:08 公開日:2023-11-18
# LOSTU: 高速でスケーラブルで不確実な三角測量

LOSTU: Fast, Scalable, and Uncertainty-Aware Triangulation ( http://arxiv.org/abs/2311.11171v1 )

ライセンス: Link先を確認
S\'ebastien Henry and John A. Christian(参考訳) 三角法アルゴリズムはしばしば再射(L_2$)誤差を最小限にすることを目的としているが、これはカメラパラメータやカメラポーズにエラーがない場合にのみ最大推定値を提供する。 近年の進歩により、3Dポイントの不確実性を考慮したカメラパラメータの推定技術が得られたが、ほとんどのSfMパイプラインは古い三角法アルゴリズムを使用している。 この研究は最近の発見を活用し、LOSTUと呼ばれる高速でスケーラブルで統計的に最適な三角測量方法を提供する。 結果として、losuは従来の$l_2$三角測量法よりも一貫して低い3d再構成誤差を生じることが判明した。 さらに、より優れた3D再構成を提供することに加えて、LOSTUはレバンス・マルカルト(または同様の)最適化方式よりも大幅に高速である。

Triangulation algorithms often aim to minimize the reprojection ($L_2$) error, but this only provides the maximum likelihood estimate when there are no errors in the camera parameters or camera poses. Although recent advancements have yielded techniques to estimate camera parameters accounting for 3D point uncertainties, most structure from motion (SfM) pipelines still use older triangulation algorithms. This work leverages recent discoveries to provide a fast, scalable, and statistically optimal way to triangulate called LOSTU. Results show that LOSTU consistently produces lower 3D reconstruction errors than conventional $L_2$ triangulation methods -- often allowing LOSTU to successfully triangulate more points. Moreover, in addition to providing a better 3D reconstruction, LOSTU can be substantially faster than Levenberg-Marquardt (or similar) optimization schemes.
翻訳日:2023-11-22 10:23:22 公開日:2023-11-18
# 深部コヒーレンス学習:医用超音波による高品質単一平面波イメージングのための教師なし深部ビームフォーマ

Deep Coherence Learning: An Unsupervised Deep Beamformer for High Quality Single Plane Wave Imaging in Medical Ultrasound ( http://arxiv.org/abs/2311.11169v1 )

ライセンス: Link先を確認
Hyunwoo Cho, Seongjun Park, Jinbum Kang, Yangmo Yoo(参考訳) 超音波の平面波イメージング(PWI)は高いフレームレートと新しい臨床応用で重要な再構成法になりつつある。 近年,複数のPW伝送による従来のPWIのフレームレート低下を克服するために,DLに基づく単一PWIが研究されている。 しかし、適切な基底真理画像がないため、DLベースのPWIは依然として性能改善に挑戦している。 そこで本研究では,DCL(Deep Coherence Learning)に基づくDLビームフォーマ (DL-DCL) を用いた,高品質なシングルPWIのための新しい教師なし学習手法を提案する。 DL-DCLにおいて、DLネットワークは、一連のPWデータから一意の損失関数を持つ高相関信号を予測するように訓練され、訓練されたDLモデルは、低品質の単一PWデータから高品質なPWIを促進する。 さらに、複雑なベースバンド信号に基づくDL-DCLフレームワークは、ユニバーサルビームフォーマを実現する。 DL-DCLの性能を評価するため, シミュレーション, ファントムおよび生体内実験を公開データセットを用いて実施し, 従来のビームフォーマ(DAS, 75-PW, DMAS, 1-PW) および他のDLベース手法(1-PWによる教師あり学習手法, 1-PWによるGAN)と比較した。 実験の結果, dl-dclは1-pwのdmasと75-pwのdasに匹敵する空間分解能を示し, コントラスト分解能のすべての比較法を上回った。 これらの結果から,非教師なし学習アプローチは,DLに基づく従来のPWIの限界に対処できることを示すとともに,最小限のアーティファクトを持つ臨床環境においても大きな可能性を示した。

Plane wave imaging (PWI) in medical ultrasound is becoming an important reconstruction method with high frame rates and new clinical applications. Recently, single PWI based on deep learning (DL) has been studied to overcome lowered frame rates of traditional PWI with multiple PW transmissions. However, due to the lack of appropriate ground truth images, DL-based PWI still remains challenging for performance improvements. To address this issue, in this paper, we propose a new unsupervised learning approach, i.e., deep coherence learning (DCL)-based DL beamformer (DL-DCL), for high-quality single PWI. In DL-DCL, the DL network is trained to predict highly correlated signals with a unique loss function from a set of PW data, and the trained DL model encourages high-quality PWI from low-quality single PW data. In addition, the DL-DCL framework based on complex baseband signals enables a universal beamformer. To assess the performance of DL-DCL, simulation, phantom and in vivo studies were conducted with public datasets, and it was compared with traditional beamformers (i.e., DAS with 75-PWs and DMAS with 1-PW) and other DL-based methods (i.e., supervised learning approach with 1-PW and generative adversarial network (GAN) with 1-PW). From the experiments, the proposed DL-DCL showed comparable results with DMAS with 1-PW and DAS with 75-PWs in spatial resolution, and it outperformed all comparison methods in contrast resolution. These results demonstrated that the proposed unsupervised learning approach can address the inherent limitations of traditional PWIs based on DL, and it also showed great potential in clinical settings with minimal artifacts.
翻訳日:2023-11-22 10:22:47 公開日:2023-11-18
# 量子誤り訂正のための機械学習モデルのベンチマーク

Benchmarking Machine Learning Models for Quantum Error Correction ( http://arxiv.org/abs/2311.11167v1 )

ライセンス: Link先を確認
Tim Fu and Yue Zhao(参考訳) qec(quantum error correction)は、量子コンピュータシステムにおける基本的な問題の一つであり、量子コンピュータ内のデータキュービット内のエラーの検出と訂正を目的としている。 既存の量子コンピュータに信頼できないデータキュービットが存在するため、量子誤差補正を実装することは、安定した量子コンピュータシステムを構築する上で重要なステップである。 近年,機械学習(ML)に基づくアプローチが提案されている。 しかし、それらは量子誤差補正の完全な理解を欠いている。 本稿では,この研究ギャップを埋めるために,機械学習に基づくQECを理解するための新たな視点を提供する。 その結果,接続されたデータキュービットの誤りがアンシラキュービットのシンドロームの原因となり,アンシラキュービットはデータキュービットの誤った予測を除外する補助情報を提供できることがわかった。 したがって、データキュービットの誤りを検出するためには、長距離アンシラキュービットに存在する情報を考慮する必要がある。 我々の知る限りでは、機械学習はQECの依存関係関係では研究されていない。 空白を埋めるために、機械学習ベンチマークをキュレートし、量子エラー訂正のための長距離依存関係をキャプチャする能力を評価する。 本稿では,畳み込みニューラルネットワーク,グラフニューラルネットワーク,グラフトランスフォーマーなど,さまざまなニューラルネットワークアーキテクチャを対象とした,最先端の7つのディープラーニングアルゴリズムを評価する。 遠方のアシラキュービットからの情報を活用するための受容場を拡大することにより、QECの精度が大幅に向上する。 例えば、u-netはcnnを50%程度のマージンで改善できる。 最後に、この分野の今後の研究を刺激する包括的な分析を提供する。 論文が公開されたら、コードをリリースします。

Quantum Error Correction (QEC) is one of the fundamental problems in quantum computer systems, which aims to detect and correct errors in the data qubits within quantum computers. Due to the presence of unreliable data qubits in existing quantum computers, implementing quantum error correction is a critical step when establishing a stable quantum computer system. Recently, machine learning (ML)-based approaches have been proposed to address this challenge. However, they lack a thorough understanding of quantum error correction. To bridge this research gap, we provide a new perspective to understand machine learning-based QEC in this paper. We find that syndromes in the ancilla qubits result from errors on connected data qubits, and distant ancilla qubits can provide auxiliary information to rule out some incorrect predictions for the data qubits. Therefore, to detect errors in data qubits, we must consider the information present in the long-range ancilla qubits. To the best of our knowledge, machine learning is less explored in the dependency relationship of QEC. To fill the blank, we curate a machine learning benchmark to assess the capacity to capture long-range dependencies for quantum error correction. To provide a comprehensive evaluation, we evaluate seven state-of-the-art deep learning algorithms spanning diverse neural network architectures, such as convolutional neural networks, graph neural networks, and graph transformers. Our exhaustive experiments reveal an enlightening trend: By enlarging the receptive field to exploit information from distant ancilla qubits, the accuracy of QEC significantly improves. For instance, U-Net can improve CNN by a margin of about 50%. Finally, we provide a comprehensive analysis that could inspire future research in this field. We will release the code when the paper is published.
翻訳日:2023-11-22 10:21:45 公開日:2023-11-18
# 判別器誘導拡散モデルにおける露出バイアスの軽減

Mitigating Exposure Bias in Discriminator Guided Diffusion Models ( http://arxiv.org/abs/2311.11164v1 )

ライセンス: Link先を確認
Eleftherios Tsonis, Paraskevi Tzouveli, Athanasios Voulodimos(参考訳) 拡散モデルは画像生成において顕著な性能を示した。 しかし, 学習に必要な計算条件が要求されるため, サンプリングプロセスの修正によって生成画像の品質を高める努力が続けられている。 最近のアプローチである判別器ガイダンス(discriminator guidance)は、識別器ネットワークから派生した補助用語を組み込むことで、モデルスコアとデータスコアとのギャップを埋めることを目指している。 本手法は,試料品質を著しく改善したものの,露光バイアスの持続的な問題を解決していないことを示し,判別器指導とエプシロンスケーリングを組み合わせた改良サンプリング手法を組み込んだsemm-g++を提案する。 提案手法は,非条件CIFAR-10データセット上でFIDスコア1.73を達成し,現状よりも優れている。

Diffusion Models have demonstrated remarkable performance in image generation. However, their demanding computational requirements for training have prompted ongoing efforts to enhance the quality of generated images through modifications in the sampling process. A recent approach, known as Discriminator Guidance, seeks to bridge the gap between the model score and the data score by incorporating an auxiliary term, derived from a discriminator network. We show that despite significantly improving sample quality, this technique has not resolved the persistent issue of Exposure Bias and we propose SEDM-G++, which incorporates a modified sampling approach, combining Discriminator Guidance and Epsilon Scaling. Our proposed approach outperforms the current state-of-the-art, by achieving an FID score of 1.73 on the unconditional CIFAR-10 dataset.
翻訳日:2023-11-22 10:21:16 公開日:2023-11-18
# 最先端の専門家:プライバシのQ&Aに効果的なワークフローを確立する

Experts-in-the-Loop: Establishing an Effective Workflow in Crafting Privacy Q&A ( http://arxiv.org/abs/2311.11161v1 )

ライセンス: Link先を確認
Zahra Kolagar, Anna Katharina Leschanowsky, Birgit Popp(参考訳) プライバシーポリシーは、世界中の司法管轄区域が透明なデータ処理の必要性を強調しているため、ユーザーのプライバシーを守る上で重要な役割を果たす。 透明性を高めるためのプライバシーポリシーの適合性は批判的に議論されているが、会話型aiシステムを採用することは、ユーザに効果的に通知する上でのユニークな課題である。 本稿では,プライバシポリシをq&aペア(privacy question-and-answer)に変換するダイナミックワークフローを提案する。 そこで我々は,大規模言語モデルの生成能力を活用し,関連する課題に対処しつつ,法律専門家と会話デザイナーの学際的なコラボレーションを促進する。 提案するワークフローは,プライバシq&aの構築を通じて継続的改善と監視の基盤となり,エキスパート・イン・ザ・ループアプローチによる包括的なレビューと改善を提唱する。

Privacy policies play a vital role in safeguarding user privacy as legal jurisdictions worldwide emphasize the need for transparent data processing. While the suitability of privacy policies to enhance transparency has been critically discussed, employing conversational AI systems presents unique challenges in informing users effectively. In this position paper, we propose a dynamic workflow for transforming privacy policies into privacy question-and-answer (Q&A) pairs to make privacy policies easily accessible through conversational AI. Thereby, we facilitate interdisciplinary collaboration among legal experts and conversation designers, while also considering the utilization of large language models' generative capabilities and addressing associated challenges. Our proposed workflow underscores continuous improvement and monitoring throughout the construction of privacy Q&As, advocating for comprehensive review and refinement through an experts-in-the-loop approach.
翻訳日:2023-11-22 10:21:00 公開日:2023-11-18
# プロジェクト管理効率向上のための人工知能ソフトウェアの包括性評価 -レビュー-

Evaluating the Inclusiveness of Artificial Intelligence Software in Enhancing Project Management Efficiency -- A Review ( http://arxiv.org/abs/2311.11159v1 )

ライセンス: Link先を確認
Vasileios Alevizos, Ilias Georgousis, Akebu Simasiku, Sotiria Karypidou, Antonis Messinis(参考訳) プロジェクトマネジメント(PM)における高度なテクノロジの台頭は、包括性に対する重要なニーズを強調します。 本研究は,技術統合によるPMのインクリシティと効率の向上について検討し,包括性の定義と測定に焦点を当てた。 このアプローチは、インクリビティ中心の技術がプロジェクトの成果を大幅に高める方法を照らします。 この研究は、主に学習データベースのバイアスとこれらの技術の設計プロセス、特にデータ収集や分析などのタスクの自動化において、これらの技術の変革の可能性を評価すること、そしてマネージャがプロジェクトの人間中心の側面を優先順位付けできるようにするという課題を経験する。 しかし、そのような技術の統合は効率を超越し、社会的な役割を理解するパラダイムシフトを示している。 この変化は、社会の不平等の持続を防ぐために、これらのシステムの開発において新しいアプローチを必要とする。 我々は,これらの技術の包括性と有効性を評価するための基準開発手法を提案する。 この方法論的アプローチは、これらのシステム固有の課題と制限を包括的に扱うのに不可欠である。 排他性の重要性を強調するこの研究は、技術的進歩と倫理的考察のバランスを提唱し、総合的な理解と規制を求める。 結論として、これらの技術は成果を著しく改善するが、そのマインドフルな統合、傾きの確保は最重要である。 pmにおける技術の倫理的かつ実践的な側面に対するこの調査は、この分野におけるよりインフォームドでバランスの取れたアプローチに寄与する。

The rise of advanced technology in project management (PM) highlights a crucial need for inclusiveness. This work examines the enhancement of both inclusivity and efficiency in PM through technological integration, focusing on defining and measuring inclusiveness. This approach illuminates how inclusivity-centered technology can significantly elevate project outcomes. The research navigates through the challenges of achieving inclusivity, mainly biases in learning databases and the design process of these technologies, assessment of transformative potential of these technologies, particularly in automating tasks like data collection and analysis, thus enabling managers to prioritize human-centric aspects of projects. However, the integration of such technology transcends efficiency, indicating a paradigm shift in understanding their societal roles. This shift necessitates a new approach in the development of these systems to prevent perpetuating social inequalities. We proposed a methodology involving criteria development for evaluating the inclusiveness and effectiveness of these technologies. This methodical approach is vital to comprehensively address the challenges and limitations inherent in these systems. Emphasizing the importance of inclusivity, the study advocates for a balance between technological advancement and ethical considerations, calling for a holistic understanding and regulation. In conclusion, the paper underscores that while these technologies can significantly improve outcomes, their mindful integration, ensuring inclusivity, is paramount. This exploration into the ethical and practical aspects of technology in PM contributes to a more informed and balanced approach within the field.
翻訳日:2023-11-22 10:20:45 公開日:2023-11-18
# ソーシャルメディアプラットフォーム間のインターネットミームのコンテキスト化

Contextualizing Internet Memes Across Social Media Platforms ( http://arxiv.org/abs/2311.11157v1 )

ライセンス: Link先を確認
Saurav Joshi, Filip Ilievski, Luca Luceri(参考訳) インターネットミームは、ウェブ上でのコミュニケーションとアイデア表現のための新しいフォーマットとして登場した。 その流動性と創造性は、しばしばプラットフォームをまたいで、時には非倫理的または有害な目的のために広く使われることに反映されている。 計算作業は、そのハイレベルなバイラル性を時間とともに分析し、ヘイトスピーチ検出のための特殊な分類器を開発したが、これまで、ソーシャルメディアに投稿されたインターネットミームを全体追跡、識別、マップ化するための努力は行われていない。 このギャップを埋めるために,ソーシャルメディアプラットフォーム全体のインターネットミームが,知識のセマンティックリポジトリ,すなわちナレッジグラフを用いてコンテキスト化可能であるかどうかを検討する。 RedditとDiscordという2つのソーシャルメディアプラットフォームから何千ものインターネットミーム投稿を収集し、抽出-変換-ロード手順を実行し、候補ミーム投稿とデータレイクを作成します。 視覚変換器を用いた類似性を用いて、最近リリースされたインターネットミームの知識グラフIMKGに収録されているミームと照合する。 オンラインで公開されたミームをIMKGにマッピングすることで識別できることを示す。 この基盤を利用して、異なるプラットフォームでミームの発生状況を調査し、人気のあるミームを発見し、一般的なミームチャネルとサブredditを選択する。 最後に、知識グラフへのリンクにより、ユーザがソーシャルメディア上でミームに関するコンテキストを取得できるようにする方法について説明する。

Internet memes have emerged as a novel format for communication and expressing ideas on the web. Their fluidity and creative nature are reflected in their widespread use, often across platforms and occasionally for unethical or harmful purposes. While computational work has already analyzed their high-level virality over time and developed specialized classifiers for hate speech detection, there have been no efforts to date that aim to holistically track, identify, and map internet memes posted on social media. To bridge this gap, we investigate whether internet memes across social media platforms can be contextualized by using a semantic repository of knowledge, namely, a knowledge graph. We collect thousands of potential internet meme posts from two social media platforms, namely Reddit and Discord, and perform an extract-transform-load procedure to create a data lake with candidate meme posts. By using vision transformer-based similarity, we match these candidates against the memes cataloged in a recently released knowledge graph of internet memes, IMKG. We provide evidence that memes published online can be identified by mapping them to IMKG. We leverage this grounding to study the prevalence of memes on different platforms, discover popular memes, and select common meme channels and subreddits. Finally, we illustrate how the grounding can enable users to get context about memes on social media thanks to their link to the knowledge graph.
翻訳日:2023-11-22 10:20:20 公開日:2023-11-18
# 空の量子アシストマスタークロック--準ナノ秒精度での衛星のグローバル同期

A quantum-assisted master clock in the sky: global synchronization from satellites at sub-nanosecond precision ( http://arxiv.org/abs/2311.11155v1 )

ライセンス: Link先を確認
Sage Ducoing, Ivan Agullo, James E. Troupe, Stav Haldar(参考訳) 本稿では、量子資源を備えた衛星ネットワーク上でクロックを同期するプロトコルを開発する。 このような星座では、衛星は互いの同期能力を強化し、その構成成分よりも安定で正確である共通の時計を形成する。 得られたネットワークを、世界中にタイムを分散できるマスタークロックとして想定し、将来の量子グローバルナビゲーション衛星システムや宇宙ベースの量子ネットワークの基礎を提供する。 その能力の例として、500kmの高度で5つの軌道に分散する、控えめな量子資源を備えた50個の衛星からなる星座が、ナノ秒以下の精度で地球中に広がるクロックの同期を可能にすることを示す。

This article develops a protocol to synchronize clocks on board a network of satellites equipped with quantum resources. We show that, in such a constellation, satellites reinforce each other's sync capabilities, forming a common clock that is more stable and precise than its constituents. We envision the resulting network as a master clock able to distribute time across the globe, providing the basis for a future quantum global navigation satellite system or a space-based quantum network. As an example of its capabilities, we show that a constellation of 50 satellites equipped with modest quantum resources, and distributed amongst 5 orbits at an altitude of 500 km, allows the synchronization of clocks spread across the globe at sub-nanosecond precision.
翻訳日:2023-11-22 10:19:56 公開日:2023-11-18
# biarchetype analysis:extremesに基づく観察と特徴の同時学習

Biarchetype analysis: simultaneous learning of observations and features based on extremes ( http://arxiv.org/abs/2311.11153v1 )

ライセンス: Link先を確認
Aleix Alcacer, Irene Epifanio, Ximo Gual-Arnau(参考訳) biarchetype analysis と呼ばれる新しい探索的手法が定義されている。 アーキタイプ解析を拡張して,観測と特徴の両方のアーキタイプを同時に見つけ出す。 この新しい教師なし機械学習ツールのアイデアは、観察と特徴の混合であるとして容易に解釈できる純粋な型(biarchetypes)のインスタンスによる観察と特徴を表現することである。 さらに、観察と特徴は二階層型の混合物として表現され、データの構造を理解するのにも役立つ。 双階層型解析を解くアルゴリズムを提案する。 両階層型解析は、特に解釈可能性の観点から、双クラスタリングよりも有利であることを示す。 これは、Byarchetypesが双クラスタリングによって返されるセントロイドとは対照的に極端な例であるからである。 バイアルケタイプ分析は、その有用性を説明するためにいくつかの機械学習問題に適用される。

A new exploratory technique called biarchetype analysis is defined. We extend archetype analysis to find the archetypes of both observations and features simultaneously. The idea of this new unsupervised machine learning tool is to represent observations and features by instances of pure types (biarchetypes) that can be easily interpreted as they are mixtures of observations and features. Furthermore, the observations and features are expressed as mixtures of the biarchetypes, which also helps understand the structure of the data. We propose an algorithm to solve biarchetype analysis. We show that biarchetype analysis offers advantages over biclustering, especially in terms of interpretability. This is because byarchetypes are extreme instances as opposed to the centroids returned by biclustering, which favors human understanding. Biarchetype analysis is applied to several machine learning problems to illustrate its usefulness.
翻訳日:2023-11-22 10:19:42 公開日:2023-11-18
# 線形システムの安定化のための学習の難しさについて

On the Hardness of Learning to Stabilize Linear Systems ( http://arxiv.org/abs/2311.11151v1 )

ライセンス: Link先を確認
Xiong Zeng, Zexiang Liu, Zhe Du, Necmiye Ozay, Mario Sznaier(参考訳) Tsiamisらの作品に触発された。 本稿では,線形時間不変システムを安定化する学習の統計的困難性について検討する。 ハードネスは、与えられた確率で学習タスクを達成するのに必要なサンプル数によって測定される。 cite{tsiamis2022learning}における研究は、識別の難しさを主な理由として、安定化しにくいシステムクラスが存在することを示している。 ここでは,すべてのモードを励起する非退化ノイズ処理により,識別が容易なシステムのクラスを示すが,安定化のサンプル複雑性はシステム次元とともに指数関数的に増加する。 この結果は、ロバスト制御のアイデアを用いて、このクラスのシステムのコスタビライザビリティの難しさと結び付ける。

Inspired by the work of Tsiamis et al. \cite{tsiamis2022learning}, in this paper we study the statistical hardness of learning to stabilize linear time-invariant systems. Hardness is measured by the number of samples required to achieve a learning task with a given probability. The work in \cite{tsiamis2022learning} shows that there exist system classes that are hard to learn to stabilize with the core reason being the hardness of identification. Here we present a class of systems that can be easy to identify, thanks to a non-degenerate noise process that excites all modes, but the sample complexity of stabilization still increases exponentially with the system dimension. We tie this result to the hardness of co-stabilizability for this class of systems using ideas from robust control.
翻訳日:2023-11-22 10:19:32 公開日:2023-11-18
# 強化学習に基づく半導体欠陥局所化のためのベンチマーク機能エクストラクタ

Benchmarking Feature Extractors for Reinforcement Learning-Based Semiconductor Defect Localization ( http://arxiv.org/abs/2311.11145v1 )

ライセンス: Link先を確認
Enrique Dehaerne, Bappaditya Dey, Sandip Halder, Stefan De Gendt(参考訳) 半導体パターンの寸法が縮小するにつれて、より高度な走査電子顕微鏡(SEM)画像に基づく欠陥検査技術が必要である。 近年、欠陥ローカライゼーションのための機械学習(ML)ベースのアプローチが多数提案されており、目覚ましい結果を示している。 これらの手法は、しばしば完全なsem画像からの特徴抽出と、おそらく関心のある多くの領域に依存する。 本研究では,入力画像のより小さな領域から特徴を反復的に抽出する,深層強化学習(RL)に基づく欠陥局所化手法を提案する。 異なる特徴抽出器を用いて訓練した18のエージェントの結果を比較した。 半導体欠陥の局在化において、異なる特徴抽出器とRLベースのフレームワークの利点と欠点を論じる。

As semiconductor patterning dimensions shrink, more advanced Scanning Electron Microscopy (SEM) image-based defect inspection techniques are needed. Recently, many Machine Learning (ML)-based approaches have been proposed for defect localization and have shown impressive results. These methods often rely on feature extraction from a full SEM image and possibly a number of regions of interest. In this study, we propose a deep Reinforcement Learning (RL)-based approach to defect localization which iteratively extracts features from increasingly smaller regions of the input image. We compare the results of 18 agents trained with different feature extractors. We discuss the advantages and disadvantages of different feature extractors as well as the RL-based framework in general for semiconductor defect localization.
翻訳日:2023-11-22 10:19:21 公開日:2023-11-18
# Vashantor: バングラ方言からバングラ語への自動翻訳のための大規模多言語ベンチマークデータセット

Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language ( http://arxiv.org/abs/2311.11142v1 )

ライセンス: Link先を確認
Fatema Tuj Johora Faria, Mukaffi Bin Moin, Ahmed Al Wase, Mehidi Ahmmed, Md. Rabius Sani, Tashreef Muhammad(参考訳) バングラ語の多様性は、バングラ語のコミュニティの文化的多様性を増す地域方言の魅力的な混合である。 過去にはバングラ語を英語に、英語をバングラ語に、バングラ語をバングラ語に翻訳する研究が盛んに行われていたが、バングラ語を標準バングラ語に翻訳することには顕著なギャップがあった。 そこで本研究では,バングラ語,バングラ語,英語を包含する32,500文のコレクションを作成し,バングラ語の5つの方言を表現した。 我々の目標は、これらの方言を標準バングラに翻訳し、正確に地域を検出することである。 そこで我々は,地域方言を標準バングラに翻訳するモデルmT5とBanglaT5を提案する。 さらに,mBERTとBangla-bert-baseを用いて,これらの方言の発祥地から特定の地域を特定する。 実験の結果,Mymensingh地方方言のBLEUスコアは69.06で,Chittagong地方方言のBLEUスコアは36.75であった。 また,mymensingh地域方言では0.1548,chittagong地域方言では0.3385であった。 地域検出では,Bangla-bert-baseで85.86%,mBERTで84.36%の精度を得た。 これはバングラ地域方言をバングラ機械翻訳に翻訳する最初の大規模な調査である。 我々の発見は、バングラ地方方言からバングラ機械翻訳への今後の取り組みの道を開くだけでなく、低リソース言語条件における同様の言語関連課題の解決にも役立ちます。

The Bangla linguistic variety is a fascinating mix of regional dialects that adds to the cultural diversity of the Bangla-speaking community. Despite extensive study into translating Bangla to English, English to Bangla, and Banglish to Bangla in the past, there has been a noticeable gap in translating Bangla regional dialects into standard Bangla. In this study, we set out to fill this gap by creating a collection of 32,500 sentences, encompassing Bangla, Banglish, and English, representing five regional Bangla dialects. Our aim is to translate these regional dialects into standard Bangla and detect regions accurately. To achieve this, we proposed models known as mT5 and BanglaT5 for translating regional dialects into standard Bangla. Additionally, we employed mBERT and Bangla-bert-base to determine the specific regions from where these dialects originated. Our experimental results showed the highest BLEU score of 69.06 for Mymensingh regional dialects and the lowest BLEU score of 36.75 for Chittagong regional dialects. We also observed the lowest average word error rate of 0.1548 for Mymensingh regional dialects and the highest of 0.3385 for Chittagong regional dialects. For region detection, we achieved an accuracy of 85.86% for Bangla-bert-base and 84.36% for mBERT. This is the first large-scale investigation of Bangla regional dialects to Bangla machine translation. We believe our findings will not only pave the way for future work on Bangla regional dialects to Bangla machine translation, but will also be useful in solving similar language-related challenges in low-resource language conditions.
翻訳日:2023-11-22 10:19:10 公開日:2023-11-18
# 地すべりセグメンテーションモデルにおける不確かさの推定

Estimating Uncertainty in Landslide Segmentation Models ( http://arxiv.org/abs/2311.11138v1 )

ライセンス: Link先を確認
Savinay Nagendra, Chaopeng Shen, Daniel Kifer(参考訳) 地すべりは、繰り返し、広範囲にまたがる危険である。 準備と緩和の取り組みは、グローバルなリスク領域をカバーする高品質な大規模データセットによって支援される。 このようなデータセットは現在存在せず、手動で構築することは不可能である。 近年,衛星画像からの地すべりセグメンテーション(ピクセルラベリング)の深層学習モデルに焦点が当てられている。 しかし、そのようなセグメンテーションの不確実性や信頼度を特徴付けることも重要である。 正確でロバストな不確実性推定は、自動生成した地すべりデータベースの低コスト(手作業による)監視を可能にし、エラーを解決し、厳しい負の例を特定し、ラベル付きトレーニングデータのサイズを増やすことができる。 本稿では,セグメンテーションの画素レベルの不確かさを評価する複数の手法を評価する。 アーキテクチャの変更を必要としない3つの手法を比較した。例えば、事前のアクティベーション、Monte-Carloのドロップアウト、Test-Time Augmentation – データ拡張に直面した予測の堅牢性を測定する方法だ。 実験では, 後者の手法の精度は, データセットのさまざまなモデルやメトリクスに対して, 他よりも一貫して高かった。

Landslides are a recurring, widespread hazard. Preparation and mitigation efforts can be aided by a high-quality, large-scale dataset that covers global at-risk areas. Such a dataset currently does not exist and is impossible to construct manually. Recent automated efforts focus on deep learning models for landslide segmentation (pixel labeling) from satellite imagery. However, it is also important to characterize the uncertainty or confidence levels of such segmentations. Accurate and robust uncertainty estimates can enable low-cost (in terms of manual labor) oversight of auto-generated landslide databases to resolve errors, identify hard negative examples, and increase the size of labeled training data. In this paper, we evaluate several methods for assessing pixel-level uncertainty of the segmentation. Three methods that do not require architectural changes were compared, including Pre-Threshold activations, Monte-Carlo Dropout and Test-Time Augmentation -- a method that measures the robustness of predictions in the face of data augmentation. Experimentally, the quality of the latter method was consistently higher than the others across a variety of models and metrics in our dataset.
翻訳日:2023-11-22 10:18:36 公開日:2023-11-18
# 知識強化型大規模言語モデルのための原理的枠組み

A Principled Framework for Knowledge-enhanced Large Language Model ( http://arxiv.org/abs/2311.11135v1 )

ライセンス: Link先を確認
Saizhuo Wang, Zhihan Liu, Zhaoran Wang, Jian Guo(参考訳) 大きな言語モデル(LLM)は汎用性があるが、幻覚のような問題により深く信頼性の高い推論を必要とするタスクに悩まされ、臨界シナリオにおける適用性を制限する。 本稿では、知識を効果的に固定し、閉ループ推論プロセスを採用するLLMを作成するための厳密な設計のフレームワークを紹介し、深部分析の能力を高める。 LLMの性能に対する各コンポーネントの貢献を説明するためのフレームワークを識別し、適切に定義された仮定の下での推論の改善を理論的に保証する。

Large Language Models (LLMs) are versatile, yet they often falter in tasks requiring deep and reliable reasoning due to issues like hallucinations, limiting their applicability in critical scenarios. This paper introduces a rigorously designed framework for creating LLMs that effectively anchor knowledge and employ a closed-loop reasoning process, enhancing their capability for in-depth analysis. We dissect the framework to illustrate the contribution of each component to the LLMs' performance, offering a theoretical assurance of improved reasoning under well-defined assumptions.
翻訳日:2023-11-22 10:18:18 公開日:2023-11-18
# 観測者の一般運動中の空間の不変量に基づく写像

Invariant-based Mapping of Space During General Motion of an Observer ( http://arxiv.org/abs/2311.11130v1 )

ライセンス: Link先を確認
Juan D. Yepes, Daniel Raviv(参考訳) 本稿では,視覚運動に基づく不変量について検討する。 a)2D画像がカメラの動きによって連続的に変化しても、静止環境は変化と認識される。 ロ 特定の部分空間において障害を検知し、回避することができること。 c) 移動物体を検出することができる。 これを実現するために、幾何学的3次元不変量にリンクした可測光フローから導出される非線形関数を利用する。 本稿では3Dオブジェクトに対して回転するカメラのシミュレーションを行い、投影された画像のスナップショットを撮影する。 オブジェクトが時間とともに新しいドメインに変化しないことを示す。 KITTIデータセットから実際のデータを処理し、空間をセグメント化して自由な航法領域を特定し、所定の部分空間内の障害物を検出する方法を示す。 さらに、KITTIデータセットに基づいて、移動物体の識別とセグメンテーション、形状の連続性の可視化に関する予備的な結果を示す。 この表現は単純で、光学フローの簡単な逆回転の関数に依存する。 この表現は1台のカメラのみを必要とし、ピクセルベースであり、並列処理に適しており、3D再構成技術の必要性を排除している。

This paper explores visual motion-based invariants, resulting in a new instantaneous domain where: a) the stationary environment is perceived as unchanged, even as the 2D images undergo continuous changes due to camera motion, b) obstacles can be detected and potentially avoided in specific subspaces, and c) moving objects can potentially be detected. To achieve this, we make use of nonlinear functions derived from measurable optical flow, which are linked to geometric 3D invariants. We present simulations involving a camera that translates and rotates relative to a 3D object, capturing snapshots of the camera projected images. We show that the object appears unchanged in the new domain over time. We process real data from the KITTI dataset and demonstrate how to segment space to identify free navigational regions and detect obstacles within a predetermined subspace. Additionally, we present preliminary results, based on the KITTI dataset, on the identification and segmentation of moving objects, as well as the visualization of shape constancy. This representation is straightforward, relying on functions for the simple de-rotation of optical flow. This representation only requires a single camera, it is pixel-based, making it suitable for parallel processing, and it eliminates the necessity for 3D reconstruction techniques.
翻訳日:2023-11-22 10:18:06 公開日:2023-11-18
# 自動微分に基づく新しいパースペクティブ・プロセス・シミュレーション・フレームワーク

A Novel Perspective Process Simulation Framework Based on Automatic Differentiation ( http://arxiv.org/abs/2311.11129v1 )

ライセンス: Link先を確認
Shaoyi Yang(参考訳) 熱力学とフラッシュ平衡計算はシミュレーションプロセスの計算の基礎である。 非線形問題解決手法である反復的アプローチは、解の安定性と有効性に直接影響を及ぼす過程全体の微分計算に依存する。 本研究では,熱力学計算のための最先端の自動微分フレームワークを用いて,アルゴリズムの論理を変更せずに正確な微分を求める。 これは従来の数値微分アルゴリズムとは対照的であり、数値微分アルゴリズムとは対照的にプロセスシミュレーションの収束と計算効率を大幅に改善する。 PT,PV,PHフラッシュなどの標準化学相平衡計算を用いて,数値安定性および繰り返し数に対する自動微分アプローチを評価する。 イテレーション数を評価するために使われる。 実験の結果, 自動微分法はより均一な勾配分布を持ち, 収束反復を少なくすることを示した。 実験結果から, プロセスがより均一であることが示唆された。 勾配分布と計算収束曲線は、自動微分による改善を強調するのに役立つ。 さらに, この手法はより一般化性が高く, 様々な化学シミュレーションモジュールの計算にも容易に利用できる。

Thermodynamic and flash equilibrium calculations are the cornerstones of simulation process calculations. The iterative approach, a widely used nonlinear problem-solving technique, relies on derivative calculations throughout the procedure that directly affect the stability and effectiveness of the solution. In this study, we use state-of-the-art automatic differentiation frameworks for thermodynamic calculations to obtain precise derivatives without altering the logic of the algorithm. This contrasts with traditional numerical differentiation algorithms and significantly improves the convergence and computational efficiency of process simulations in contrast to numerical differentiation algorithms. Standard chemical phase equilibrium calculations such as PT, PV, and PH flash are used to evaluate an automated differentiation approach with respect to numerical stability and iteration counts. It is used to evaluate the iteration count. The results of the experiment showed that the automatic differentiation method has a more uniform gradient distribution and requires fewer convergence iterations. The experimental results show that the system shows that the process is more uniform. The gradient distribution and computational convergence curves help to highlight the improvements provided by automatic differentiation. In addition, this method shows greater generalizability and can be used more easily in the calculation of various other chemical simulation modules.
翻訳日:2023-11-22 10:17:49 公開日:2023-11-18
# ベイジアンニューラルネットワーク:min-maxゲームフレームワーク

Bayesian Neural Networks: A Min-Max Game Framework ( http://arxiv.org/abs/2311.11126v1 )

ライセンス: Link先を確認
Junping Hong, Ercan Engin Kuruoglu(参考訳) ベイズニューラルネットワークは、決定論的ニューラルネットワークではなく、ランダム変数を使用してニューラルネットワークを記述する。 ここでは,ベイズニューラルネットワークをミニマックスゲーム問題として定式化する。 我々はMNISTデータセットで実験を行い、主要な結果は既存のクローズドループ転写ニューラルネットワークに匹敵する結果を得た。 最後に、ベイジアンニューラルネットワークと閉ループ転写ニューラルネットワークの接続を明らかにし、我々のフレームワークがかなり実用的であることを示し、ベイジアンニューラルネットワークの別の見方を提供する。

Bayesian neural networks use random variables to describe the neural networks rather than deterministic neural networks and are mostly trained by variational inference which updates the mean and variance at the same time. Here, we formulate the Bayesian neural networks as a minimax game problem. We do the experiments on the MNIST data set and the primary result is comparable to the existing closed-loop transcription neural network. Finally, we reveal the connections between Bayesian neural networks and closed-loop transcription neural networks, and show our framework is rather practical, and provide another view of Bayesian neural networks.
翻訳日:2023-11-22 10:17:34 公開日:2023-11-18
# SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation

SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation ( http://arxiv.org/abs/2311.11125v1 )

ライセンス: Link先を確認
Yamei Chen, Yan Di, Guangyao Zhai, Fabian Manhardt, Chenyangguang Zhang, Ruida Zhang, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) カテゴリーレベルのオブジェクトのポーズ推定は、既知のカテゴリから6次元のポーズと3次元の大きさを予測することを目的としている。 平均的な形状を利用した既存の作品では、このバリエーションを捉えられないことが多い。 この問題に対処するために、DINOv2のセマンティックなカテゴリにオブジェクト固有の幾何学的特徴を統合する新しいアプローチであるSecondPoseを提案する。 DINOv2の利点を生かして、SE(3)-一貫性のある意味的特徴を提供することにより、2種類のSE(3)-不変な幾何学的特徴を階層的に抽出し、局所-言語的オブジェクト固有情報をカプセル化する。 これらの幾何学的特徴は、DINOv2特徴と整合して、SE(3)変換の下で一貫したオブジェクト表現を確立し、カメラ空間から予め定義された標準空間へのマッピングを容易にし、ポーズ推定をさらに強化する。 NOCS-REAL275の大規模な実験により、SecondPoseは最先端技術に対して12.4%の飛躍を達成した。 さらに、フォトメトリックに挑戦するオブジェクトを提供するより複雑なデータセットHouseCat6Dでは、SecondPoseは依然として他の競合より大きなマージンで勝っている。 コードはまもなくリリースされる。

Category-level object pose estimation, aiming to predict the 6D pose and 3D size of objects from known categories, typically struggles with large intra-class shape variation. Existing works utilizing mean shapes often fall short of capturing this variation. To address this issue, we present SecondPose, a novel approach integrating object-specific geometric features with semantic category priors from DINOv2. Leveraging the advantage of DINOv2 in providing SE(3)-consistent semantic features, we hierarchically extract two types of SE(3)-invariant geometric features to further encapsulate local-to-global object-specific information. These geometric features are then point-aligned with DINOv2 features to establish a consistent object representation under SE(3) transformations, facilitating the mapping from camera space to the pre-defined canonical space, thus further enhancing pose estimation. Extensive experiments on NOCS-REAL275 demonstrate that SecondPose achieves a 12.4% leap forward over the state-of-the-art. Moreover, on a more complex dataset HouseCat6D which provides photometrically challenging objects, SecondPose still surpasses other competitors by a large margin. The code will be released soon.
翻訳日:2023-11-22 10:17:24 公開日:2023-11-18
# (なぜ) 私のプロンプトはもっと悪いのか? LLM APIの進化における回帰テストの再考

(Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs ( http://arxiv.org/abs/2311.11123v1 )

ライセンス: Link先を確認
Wanqin Ma, Chenyang Yang, Christian K\"astner(参考訳) 大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。 下流のアプリケーション開発者は、サービスとして提供されるAPIを通じてLLMにアクセスすることが多い。 しかし、LLM APIは、しばしば静かに更新され、非推奨にされ、ユーザーは進化するモデルに継続的に適応せざるを得ない。 これは性能の低下を引き起こし、毒性検出のケーススタディで証明されているように、迅速な設計選択に影響を与える可能性がある。 ケーススタディに基づき、LLM APIの進化における回帰テストの概念の必要性と再検討を強調した。 LLMの回帰テストには、異なる正確性の概念、不安定性の促進、LLM APIの非決定性など、従来のテストアプローチに根本的な変更が必要であると我々は主張する。

Large Language Models (LLMs) are increasingly integrated into software applications. Downstream application developers often access LLMs through APIs provided as a service. However, LLM APIs are often updated silently and scheduled to be deprecated, forcing users to continuously adapt to evolving models. This can cause performance regression and affect prompt design choices, as evidenced by our case study on toxicity detection. Based on our case study, we emphasize the need for and re-examine the concept of regression testing for evolving LLM APIs. We argue that regression testing LLMs requires fundamental changes to traditional testing approaches, due to different correctness notions, prompting brittleness, and non-determinism in LLM APIs.
翻訳日:2023-11-22 10:16:59 公開日:2023-11-18
# 果実糖度検出のためのCNNに基づくニューラルネットワークモデルの改良

An Improved Neural Network Model Based On CNN Using For Fruit Sugar Degree Detection ( http://arxiv.org/abs/2311.11120v1 )

ライセンス: Link先を確認
Boyang Deng, Xin Wen, and Zhan Gao(参考訳) 人工知能(AI)は画像分類・認識、テキスト理解、自然言語処理に広く応用され、大きな進歩を遂げている。 本稿では,果実品質検出分野にAIを導入した。 可視/近赤外(V/NIR)領域における果実のスペクトルに基づいて,ニューラルネットワークを用いた果実糖度回帰モデルを構築した。 低層は多層パーセプトロン(mlp)、中間層は2次元相関行列層、高層は複数の畳み込みニューラルネットワーク(cnn)層からなる。 本研究では,果実糖を検出対象として,Gan Nan Navel と Tian Shan Pear という2種の果実を試料として,それぞれ実験を行い,実験結果を比較した。 ANOVA(Analytic of Variance)を用いて収集したデータセットの信頼性を評価した。 次に、スペクトルデータを処理する複数の戦略を試し、その効果を評価した。 本稿では,特徴量を削減するためにウェーブレット分解(WD)と,優れた特徴を見つけるために遺伝的アルゴリズム(GA)を加えようとした。 次に,従来の部分最小二乗(pls)モデルとニューラルネットワークモデルを比較した。 また,我々が設計したニューラルネットワーク構造(mlp-cnn)を従来のニューラルネットワーク構造と比較した。 本稿では,検出性能を評価するためのデータセット標準偏差(std)に基づく新たな評価基準を提案し,人工ニューラルネットワークモデルを用いた果実糖度非破壊検出の有効性を検証する。

Artificial Intelligence(AI) widely applies in Image Classification and Recognition, Text Understanding and Natural Language Processing, which makes great progress. In this paper, we introduced AI into the fruit quality detection field. We designed a fruit sugar degree regression model using an Artificial Neural Network based on spectra of fruits within the visible/near-infrared(V/NIR)range. After analysis of fruit spectra, we innovatively proposed a new neural network structure: low layers consist of a Multilayer Perceptron(MLP), a middle layer is a 2-dimensional correlation matrix layer, and high layers consist of several Convolutional Neural Network(CNN) layers. In this study, we used fruit sugar value as a detection target, collecting two fruits called Gan Nan Navel and Tian Shan Pear as samples, doing experiments respectively, and comparing their results. We used Analysis of Variance(ANOVA) to evaluate the reliability of the dataset we collected. Then, we tried multiple strategies to process spectrum data, evaluating their effects. In this paper, we tried to add Wavelet Decomposition(WD) to reduce feature dimensions and a Genetic Algorithm(GA) to find excellent features. Then, we compared Neural Network models with traditional Partial Least Squares(PLS) based models. We also compared the neural network structure we designed(MLP-CNN) with other traditional neural network structures. In this paper, we proposed a new evaluation standard derived from dataset standard deviation(STD) for evaluating detection performance, validating the viability of using an artificial neural network model to do fruit sugar degree nondestructive detection.
翻訳日:2023-11-22 10:16:47 公開日:2023-11-18
# セラピーチャットボットにおける音声感情認識と推薦システムを利用した否定的感情処理

Utilizing Speech Emotion Recognition and Recommender Systems for Negative Emotion Handling in Therapy Chatbots ( http://arxiv.org/abs/2311.11116v1 )

ライセンス: Link先を確認
Farideh Majidi, Marzieh Bahrami(参考訳) 感情的幸福は精神の健康と生活の質に大きく影響する。 セラピーチャットボットが普及するにつれて、ユーザーの感情を理解・共感する能力は限られている。 本稿では,聴覚認知を伴うセラピーチャットボットのアプローチを提案し,ユーザの感情を理解し,人間のような共感を提供する。 提案手法は,畳み込みニューラルネットワーク(cnn)モデルとシェモデータセットを用いた音声感情認識(ser)手法を用いて,怒り,恐怖,悲しみを含むネガティブ感情を高精度に検出・分類する。 serモデルは88%の検証精度を達成し、音声信号からの感情状態の認識に有効性を示している。 さらに、serモデルの出力を利用して、新しいバイリンガルデータセットが生成されたネガティブ感情を管理するためのパーソナライズドレコメンデーションを生成するレコメンデーションシステムを開発した。 レコメンダモデルは、単語表現のためのグローバルベクトル(glove)とlstmモデルの組み合わせを用いて、98%の精度を達成する。 より没入的で共感的なユーザエクスペリエンスを提供するため、glowttsと呼ばれるテキスト対音声モデルが統合され、英語とペルシア語の両方で生成されたレコメンデーションを聴くことができるセラピーチャットボットを提供する。 提案するアプローチは、ユーザの感情を認識し、応答する能力を提供し、最終的に英語とペルシア語を話すユーザーの両方にメンタルヘルスサポートを提供することによって、セラピーチャットボットを強化する有望な可能性を提供する。

Emotional well-being significantly influences mental health and overall quality of life. As therapy chatbots become increasingly prevalent, their ability to comprehend and respond empathetically to users' emotions remains limited. This paper addresses this limitation by proposing an approach to enhance therapy chatbots with auditory perception, enabling them to understand users' feelings and provide human-like empathy. The proposed method incorporates speech emotion recognition (SER) techniques using Convolutional Neural Network (CNN) models and the ShEMO dataset to accurately detect and classify negative emotions, including anger, fear, and sadness. The SER model achieves a validation accuracy of 88%, demonstrating its effectiveness in recognizing emotional states from speech signals. Furthermore, a recommender system is developed, leveraging the SER model's output to generate personalized recommendations for managing negative emotions, for which a new bilingual dataset was generated as well since there is no such dataset available for this task. The recommender model achieves an accuracy of 98% by employing a combination of global vectors for word representation (GloVe) and LSTM models. To provide a more immersive and empathetic user experience, a text-to-speech model called GlowTTS is integrated, enabling the therapy chatbot to audibly communicate the generated recommendations to users in both English and Persian. The proposed approach offers promising potential to enhance therapy chatbots by providing them with the ability to recognize and respond to users' emotions, ultimately improving the delivery of mental health support for both English and Persian-speaking users.
翻訳日:2023-11-22 10:16:25 公開日:2023-11-18
# 分散一般化のための環境対応動的グラフ学習

Environment-Aware Dynamic Graph Learning for Out-of-Distribution Generalization ( http://arxiv.org/abs/2311.11114v1 )

ライセンス: Link先を確認
Haonan Yuan, Qingyun Sun, Xingcheng Fu, Ziwei Zhang, Cheng Ji, Hao Peng, Jianxin Li(参考訳) 動的グラフニューラルネットワーク(DGNN)は、動的グラフ上の時空間パターンを利用する際にますます普及している。 しかし、実際のシナリオでは一般的な分布シフトの下では、既存の作業は一般化できない。 動的グラフの生成は潜伏環境の影響を強く受けており、アウト・オブ・ディストリビューション(OOD)の一般化への影響を調べることが重要である。 しかし,(1)分布シフトを伴う動的グラフの複雑な環境を適切にモデル化し,推測する方法という2つの大きな課題は未解決である。 2)推定時空間環境における不変パターンの発見法 これらの課題を解決するために,複雑な結合環境をモデル化し,時空間不変パターンを利用したOOD一般化のための新しい環境対応動的グラフ学習(EAGLE)フレームワークを提案する。 具体的には,マルチチャネル環境を分離して環境をモデル化するための環境対応型ea-dgnnの設計を行った。 次に,推定分布を用いた環境多様化のための環境インスタンス化機構を提案する。 最後に,不変パターン認識機構による分布外予測のための時空間不変パターンを判別し,インスタンス化された環境サンプルの混合とノード単位で細粒度因果的介入を行う。 実世界および合成動的グラフデータセットの実験は、分布シフトの下での最先端のベースラインに対する我々の手法の優位性を実証している。 私たちの知識を最大限に活用するため、我々は環境学習の観点から動的グラフのood一般化を初めて研究した。

Dynamic graph neural networks (DGNNs) are increasingly pervasive in exploiting spatio-temporal patterns on dynamic graphs. However, existing works fail to generalize under distribution shifts, which are common in real-world scenarios. As the generation of dynamic graphs is heavily influenced by latent environments, investigating their impacts on the out-of-distribution (OOD) generalization is critical. However, it remains unexplored with the following two major challenges: (1) How to properly model and infer the complex environments on dynamic graphs with distribution shifts? (2) How to discover invariant patterns given inferred spatio-temporal environments? To solve these challenges, we propose a novel Environment-Aware dynamic Graph LEarning (EAGLE) framework for OOD generalization by modeling complex coupled environments and exploiting spatio-temporal invariant patterns. Specifically, we first design the environment-aware EA-DGNN to model environments by multi-channel environments disentangling. Then, we propose an environment instantiation mechanism for environment diversification with inferred distributions. Finally, we discriminate spatio-temporal invariant patterns for out-of-distribution prediction by the invariant pattern recognition mechanism and perform fine-grained causal interventions node-wisely with a mixture of instantiated environment samples. Experiments on real-world and synthetic dynamic graph datasets demonstrate the superiority of our method against state-of-the-art baselines under distribution shifts. To the best of our knowledge, we are the first to study OOD generalization on dynamic graphs from the environment learning perspective.
翻訳日:2023-11-22 10:15:56 公開日:2023-11-18
# 一般化概念モデル学習のための補助損失

Auxiliary Losses for Learning Generalizable Concept-based Models ( http://arxiv.org/abs/2311.11108v1 )

ライセンス: Link先を確認
Ivaxi Sheth, Samira Ebrahimi Kahou(参考訳) さまざまなアプリケーションでニューラルネットワークが使われるようになると、理解が高まり、最終的な予測以上の操作を理解する必要性が高まる。 モデルの透明性を高めるソリューションとして、Concept Bottleneck Models (CBM) が導入された。 CBMは基本的に、モデルの潜在空間を人間の理解可能な高レベルな概念に制限する。 有益ではあるが、CBMはモデル性能を連続的に損なう無関係な概念表現を学ぶことがしばしば報告されている。 性能トレードオフを克服するために,協調概念ボトルネックモデル(coop-CBM)を提案する。 我々のモデルの概念表現は、きめ細かい概念ラベルがない場合に特に意味がある。 さらに,概念表現の分離を促進し,概念内距離を低減するために,直交損失(COL)の概念を導入する。 本稿では,画像分類タスク(cub, awa2, celeba, til)のための実世界のデータセットに関する広範な実験を行う。 また,様々な分散シフト設定下でのクープCBMモデルの性能についても検討した。 提案手法は,概念精度の高いブラックボックスモデルと比較して,すべての分布シフト設定において高い精度が得られることを示す。

The increasing use of neural networks in various applications has lead to increasing apprehensions, underscoring the necessity to understand their operations beyond mere final predictions. As a solution to enhance model transparency, Concept Bottleneck Models (CBMs) have gained popularity since their introduction. CBMs essentially limit the latent space of a model to human-understandable high-level concepts. While beneficial, CBMs have been reported to often learn irrelevant concept representations that consecutively damage model performance. To overcome the performance trade-off, we propose cooperative-Concept Bottleneck Model (coop-CBM). The concept representation of our model is particularly meaningful when fine-grained concept labels are absent. Furthermore, we introduce the concept orthogonal loss (COL) to encourage the separation between the concept representations and to reduce the intra-concept distance. This paper presents extensive experiments on real-world datasets for image classification tasks, namely CUB, AwA2, CelebA and TIL. We also study the performance of coop-CBM models under various distributional shift settings. We show that our proposed method achieves higher accuracy in all distributional shift settings even compared to the black-box models with the highest concept accuracy.
翻訳日:2023-11-22 10:15:33 公開日:2023-11-18
# ShapeMaker: 自己監督型ジョイントシェイプ正準化, セグメンテーション, 検索, 変形

ShapeMaker: Self-Supervised Joint Shape Canonicalization, Segmentation, Retrieval and Deformation ( http://arxiv.org/abs/2311.11106v1 )

ライセンス: Link先を確認
Yan Di, Chenyangguang Zhang, Chaowei Wang, Ruida Zhang, Guangyao Zhai, Yanyan Li, Bowen Fu, Xiangyang Ji, Shan Gao(参考訳) 本稿では,ジョイント形状の正準化,セグメンテーション,検索,変形のための統合型自己教師付き学習フレームワークshapemakerを提案する。 任意のポーズで部分的に観察されたオブジェクトが与えられると、まず、そのオブジェクトのポーズとサイズでオブジェクトの固有の構造を分離し、ポイントワイズアフィン不変な特徴を抽出することによって、オブジェクトを正準化する。 これらの学習された特徴は、意味的に一貫した部分分割と対応する部分中心を予測するために活用される。 次に,各部分の特徴を検索トークンとして集約し,すべてのトークンと既存のデータベースからのソース形状を比較し,最も幾何学的に類似した形状を識別する。 最後に、部品中心誘導ニューラルケージ変形を利用して、取得した変形モジュールの形状を変形させ、入力対象を密にフィットさせる。 shapemakerの重要な洞察は、カノニカライズ、セグメンテーション、検索、変形という4つの高度関連プロセスの同時トレーニングであり、相互監督のためにタスク間の一貫性の損失を活用する。 合成データセットのPartNet、ComplementMe、および実世界のデータセットScan2CADに関する大規模な実験は、ShapeMakerが競合をはるかに上回っていることを示している。 コードはまもなくリリースされる予定だ。

In this paper, we present ShapeMaker, a unified self-supervised learning framework for joint shape canonicalization, segmentation, retrieval and deformation. Given a partially-observed object in an arbitrary pose, we first canonicalize the object by extracting point-wise affine-invariant features, disentangling inherent structure of the object with its pose and size. These learned features are then leveraged to predict semantically consistent part segmentation and corresponding part centers. Next, our lightweight retrieval module aggregates the features within each part as its retrieval token and compare all the tokens with source shapes from a pre-established database to identify the most geometrically similar shape. Finally, we deform the retrieved shape in the deformation module to tightly fit the input object by harnessing part center guided neural cage deformation. The key insight of ShapeMaker is the simultaneous training of the four highly-associated processes: canonicalization, segmentation, retrieval, and deformation, leveraging cross-task consistency losses for mutual supervision. Extensive experiments on synthetic datasets PartNet, ComplementMe, and real-world dataset Scan2CAD demonstrate that ShapeMaker surpasses competitors by a large margin. Codes will be released soon.
翻訳日:2023-11-22 10:15:18 公開日:2023-11-18
# テキスト要約研究における責任あるAIの考察:現状の考察

Responsible AI Considerations in Text Summarization Research: A Review of Current Practices ( http://arxiv.org/abs/2311.11103v1 )

ライセンス: Link先を確認
Yu Lu Liu, Meng Cao, Su Lin Blodgett, Jackie Chi Kit Cheung, Alexandra Olteanu, Adam Trischler(参考訳) AIとNLP出版の会場は、研究者に倫理的考慮、悪影響、そして彼らの仕事がもたらす可能性のあるその他の責任あるAI問題を反映するよう、ますます奨励している。 しかしながら、特定のNLPタスクでは、そのような問題がどの程度頻繁に発生しているか、いつ、なぜ発生しそうなのかを理解することは限られている。 テキスト要約 – 責任あるAIコミュニティが主に見落としている一般的なNLPタスク – に注目して,現在の文献における調査と報告の実践について検討する。 我々は,2020-2022年に出版されたACLアンソロジーから333の要約論文の多段階的質的分析を行った。 私たちは、責任あるaiの問題がカバーされる方法、関連する利害関係者が検討される方法、そして定義された研究目標と実現された研究目標のミスマッチに焦点を当てています。 また、現在の評価プラクティスについても議論し、著者が先行作業と自身の作業の両方の限界についてどのように議論するかを検討する。 全体として、潜在的なステークホルダーや使用状況に関わる論文は比較的少なく、下流の有害な影響や、その他の責任あるAI問題に対する考慮が制限されている。 本研究は,具体的実践と研究の方向性について提言する。

AI and NLP publication venues have increasingly encouraged researchers to reflect on possible ethical considerations, adverse impacts, and other responsible AI issues their work might engender. However, for specific NLP tasks our understanding of how prevalent such issues are, or when and why these issues are likely to arise, remains limited. Focusing on text summarization -- a common NLP task largely overlooked by the responsible AI community -- we examine research and reporting practices in the current literature. We conduct a multi-round qualitative analysis of 333 summarization papers from the ACL Anthology published between 2020-2022. We focus on how, which, and when responsible AI issues are covered, which relevant stakeholders are considered, and mismatches between stated and realized research goals. We also discuss current evaluation practices and consider how authors discuss the limitations of both prior work and their own work. Overall, we find that relatively few papers engage with possible stakeholders or contexts of use, which limits their consideration of potential downstream adverse impacts or other responsible AI issues. Based on our findings, we make recommendations on concrete practices and research directions.
翻訳日:2023-11-22 10:14:55 公開日:2023-11-18
# 連続散乱による多成分絡み合い

Multipartite Entanglement from Consecutive Scatterings ( http://arxiv.org/abs/2311.11102v1 )

ライセンス: Link先を確認
Gon\c{c}alo M. Quinta and Rui Andr\'e(参考訳) 本研究では, 中心スピン1/2ターゲット粒子によるスピン1/2粒子の連続散乱が, 全散乱粒子の自由度の間の絡み合いを発生し, 多粒子の絡み合いを効果的に生成する方法について検討した。 それぞれの散乱粒子間の二部構造は, 共起によって定量化され, 反射粒子に対して最大であり, 散乱数によって減少することを示す。 本研究では, 散乱粒子モーメント, 角分布, 質量比の関数としての絡み合い生成について検討し, 最大2成分の絡み合いを発生させる最適ヘリシティと運動量の組み合わせが常に存在することを示した。

We study how the successive scattering of spin 1/2 particles with a central spin 1/2 target particle can generate entanglement between the helicity degrees of freedom of all scattered particles, effectively producing a multipartite entangled state. We show that the bipartite entanglement between each pair of scattered particles, as quantified by the concurrence, is largest for reflected particles and decreases with the number of scatterings. We study the entanglement generation as a function of the scattered particles momenta, angular distribution and mass ratios, and show that there is always a combination of optimal helicities and momentum which generate the largest amount of bipartite entanglement.
翻訳日:2023-11-22 10:14:33 公開日:2023-11-18
# ヘドニックゲームにおける$\varepsilon$-fractional core stability

$\varepsilon$-fractional Core Stability in Hedonic Games ( http://arxiv.org/abs/2311.11101v1 )

ライセンス: Link先を確認
Simone Fioravanti, Michele Flammini, Bojana Kodric and Giovanna Varricchio(参考訳) ヘドニックゲーム(Hedonic Games, HGs)は、古典的なフレームワークモデリングによる戦略エージェントの連立組織である。 これらの選好によれば、連立構造(すなわち、エージェントを連立に分割する)がある種の安定性を満たすことが望ましい。 そのような概念の最もよく知られた自然は、間違いなく核安定性である。 非公式に、エージェントのサブセットがいわゆるcore-blocking coalitionで再グループ化することを望まない場合、パーティションはcore-stableである。 残念なことに、コア安定なパーティションは滅多に存在せず、たとえそうであっても、そのパーティションを見つけることは計算的に困難であることが多い。 これらの問題を回避するために、我々は$\varepsilon$-fractional core-stabilityという概念を提案する。 このような緩和は、存在と多項式時間計算の両方を保証する可能性がある。 具体的には,HG の基本クラスである Simple Fractional と Anonymous の2つに対して,$\varepsilon$-fractional core-stable partition と $\varepsilon$ を指数関数的に減少させる効率的なアルゴリズムを設計する。 確率論的な観点では、$\varepsilon$-fractional coreの定義は、$\varepsilon$よりも低い確率で一様にサンプリングされた結合コアブロックを要求するのと同値であるので、より複雑なサンプリング分布を扱うために定義をさらに拡張する。 この線に沿って、PAC学習方式でサンプルから評価を学習する必要がある場合、任意の信頼性を持つ$\varepsilon$-fractional core-stableという結果の効率的な計算を可能にする分布について、正および負の結果を与える。

Hedonic Games (HGs) are a classical framework modeling coalition formation of strategic agents guided by their individual preferences. According to these preferences, it is desirable that a coalition structure (i.e. a partition of agents into coalitions) satisfies some form of stability. The most well-known and natural of such notions is arguably core-stability. Informally, a partition is core-stable if no subset of agents would like to deviate by regrouping in a so-called core-blocking coalition. Unfortunately, core-stable partitions seldom exist and even when they do, it is often computationally intractable to find one. To circumvent these problems, we propose the notion of $\varepsilon$-fractional core-stability, where at most an $\varepsilon$-fraction of all possible coalitions is allowed to core-block. It turns out that such a relaxation may guarantee both existence and polynomial-time computation. Specifically, we design efficient algorithms returning an $\varepsilon$-fractional core-stable partition, with $\varepsilon$ exponentially decreasing in the number of agents, for two fundamental classes of HGs: Simple Fractional and Anonymous. From a probabilistic point of view, being the definition of $\varepsilon$-fractional core equivalent to requiring that uniformly sampled coalitions core-block with probability lower than $\varepsilon$, we further extend the definition to handle more complex sampling distributions. Along this line, when valuations have to be learned from samples in a PAC-learning fashion, we give positive and negative results on which distributions allow the efficient computation of outcomes that are $\varepsilon$-fractional core-stable with arbitrarily high confidence.
翻訳日:2023-11-22 10:14:20 公開日:2023-11-18
# ncl-sm:ヒト骨格筋生検画像の完全な注釈付きデータセット

Introducing NCL-SM: A Fully Annotated Dataset of Images from Human Skeletal Muscle Biopsies ( http://arxiv.org/abs/2311.11099v1 )

ライセンス: Link先を確認
Atif Khan, Conor Lawless, Amy Vincent, Charlotte Warren, Valeria Di Leo, Tiago Gomes, A. Stephen McGough(参考訳) 骨格筋組織の単一細胞解析は、多くの神経筋疾患を理解するための基本的なツールである。 この分析は信頼性と再現性が高いため、SM組織の顕微鏡像(分画)内の個々の線維の同定は正確である。 現在、SM組織断面の画像の自動的かつ正確なセグメンテーションとキュレーションを行うツールやパイプラインは存在しない。 この分野でのバイオメディカルサイエンティストはカスタムツールと一般機械学習(ML)モデルに依存しており、どちらも労働集約的かつ主観的な手動介入によってセグメンテーションを正しく行う。 mlモデルのトレーニングによって、自動化、正確、再現可能なセグメンテーションが可能になる、と私たちは信じています。 しかし、現時点では優れた品質はなく、mlモデルのトレーニングで利用可能なアノテーション付き画像データセットが公開されている。 本稿では,健常者および遺伝的に診断された筋疾患患者から,46個のヒト組織セクションの高品質なバイオイメージングデータセットNCL-SMをリリースする。 これらの画像には、手動で分割した筋肉繊維(筋繊維)が含まれます。 さらに,高品位筋線維と低品位筋線維とsm組織画像の領域を拒絶する注釈付き理由を整理し,このデータを下流解析に完全対応させた。 これは、組織断面の画像内の個々の筋線維を識別する完全自動パイプラインの開発方法であり、特に、さらなる分析に適合する個々の筋線維を分類するものであると我々は信じている。

Single cell analysis of skeletal muscle (SM) tissue is a fundamental tool for understanding many neuromuscular disorders. For this analysis to be reliable and reproducible, identification of individual fibres within microscopy images (segmentation) of SM tissue should be precise. There is currently no tool or pipeline that makes automatic and precise segmentation and curation of images of SM tissue cross-sections possible. Biomedical scientists in this field rely on custom tools and general machine learning (ML) models, both followed by labour intensive and subjective manual interventions to get the segmentation right. We believe that automated, precise, reproducible segmentation is possible by training ML models. However, there are currently no good quality, publicly available annotated imaging datasets available for ML model training. In this paper we release NCL-SM: a high quality bioimaging dataset of 46 human tissue sections from healthy control subjects and from patients with genetically diagnosed muscle pathology. These images include $>$ 50k manually segmented muscle fibres (myofibres). In addition we also curated high quality myofibres and annotated reasons for rejecting low quality myofibres and regions in SM tissue images, making this data completely ready for downstream analysis. This, we believe, will pave the way for development of a fully automatic pipeline that identifies individual myofibres within images of tissue sections and, in particular, also classifies individual myofibres that are fit for further analysis.
翻訳日:2023-11-22 10:13:44 公開日:2023-11-18
# 単調逆数によるデュエル最適化

Dueling Optimization with a Monotone Adversary ( http://arxiv.org/abs/2311.11185v1 )

ライセンス: Link先を確認
Avrim Blum, Meghal Gupta, Gene Li, Naren Sarayu Manoj, Aadirupa Saha, Yuanyuan Yang(参考訳) 本稿では,(ノイズのない)デュエルリング凸最適化の一般化である単調逆数を用いたデュエル最適化の問題を紹介し,検討する。 目的は、関数 $f\colon X \to \mathbb{R}$, $X \subseteq \mathbb{R}^d$ に対して、最小値 $\mathbf{x}^{*}$ を求めるオンラインアルゴリズムを設計することである。 各ラウンドにおいて、アルゴリズムは1対の推測、すなわち$\mathbf{x}^{(1)}$ と$\mathbf{x}^{(2)}$を提出し、敵は少なくともどちらの推測よりも良い空間内の任意の点に応答する。 それぞれのクエリのコストは、2つの予想のより悪い部分最適性、すなわち${\max} \left(f(\mathbf{x}^{(1)}), f(\mathbf{x}^{(2)}) \right) - f(\mathbf{x}^{*})$である。 目標は、$\varepsilon$-optimal pointを見つけるのに必要なイテレーション数を最小化し、多くのラウンドで推測の総コスト(regret)を最小化することである。 主な結果は、関数 $f$ の自然選択に対する効率的なランダム化アルゴリズムであり、コスト $o(d)$ と反復複雑性 $o(d\log(1/\varepsilon)^2)$ を発生させる$x$ を設定します。 さらに、この問題に対する任意のランダム化アルゴリズムが$\Omega(d)$コストと反復複雑性を発生させる必要がある例を示すように、$d$への依存は漸近的に最適である。

We introduce and study the problem of dueling optimization with a monotone adversary, which is a generalization of (noiseless) dueling convex optimization. The goal is to design an online algorithm to find a minimizer $\mathbf{x}^{*}$ for a function $f\colon X \to \mathbb{R}$, where $X \subseteq \mathbb{R}^d$. In each round, the algorithm submits a pair of guesses, i.e., $\mathbf{x}^{(1)}$ and $\mathbf{x}^{(2)}$, and the adversary responds with any point in the space that is at least as good as both guesses. The cost of each query is the suboptimality of the worse of the two guesses; i.e., ${\max} \left( f(\mathbf{x}^{(1)}), f(\mathbf{x}^{(2)}) \right) - f(\mathbf{x}^{*})$. The goal is to minimize the number of iterations required to find an $\varepsilon$-optimal point and to minimize the total cost (regret) of the guesses over many rounds. Our main result is an efficient randomized algorithm for several natural choices of the function $f$ and set $X$ that incurs cost $O(d)$ and iteration complexity $O(d\log(1/\varepsilon)^2)$. Moreover, our dependence on $d$ is asymptotically optimal, as we show examples in which any randomized algorithm for this problem must incur $\Omega(d)$ cost and iteration complexity.
翻訳日:2023-11-22 06:54:17 公開日:2023-11-18
# スタイル変調生成逆ネットワークによる多様な形状完全化

Diverse Shape Completion via Style Modulated Generative Adversarial Networks ( http://arxiv.org/abs/2311.11184v1 )

ライセンス: Link先を確認
Wesley Khademi, Li Fuxin(参考訳) 形状完了は、部分観察から物体の完全な3次元形状を復元することを目的としている。 この問題は本質的にマルチモーダルであり、形状の欠落した領域を確実に完備化する方法が多数存在する。 このような多様性は、形状の基本的な不確実性を示し、計画のような下流タスクに望ましい。 本稿では,多種多様な観測可能な点雲の完備化を可能にする,条件付き生成型逆ネットワークを提案する。 ネットワークが同じ部分入力に対して複数の補完を生成できるようにするために,スタイル変調による確率性をネットワークに導入する。 トレーニング中に完全な形状からスタイルコードを抽出し,その上で分布を学習することにより,我々のスタイルコードは,より優れた完成につながる形状カテゴリー情報を明示的に保持することができる。 さらに,多様なペナルティや判別器を複数の尺度で導入し,条件モードの崩壊を防止し,各部分入力に対して複数の基底真理を完結させることなく訓練する。 複数の合成データおよび実データを用いた評価により,本手法は部分的観測を尊重する上で大きな改善が得られた。

Shape completion aims to recover the full 3D geometry of an object from a partial observation. This problem is inherently multi-modal since there can be many ways to plausibly complete the missing regions of a shape. Such diversity would be indicative of the underlying uncertainty of the shape and could be preferable for downstream tasks such as planning. In this paper, we propose a novel conditional generative adversarial network that can produce many diverse plausible completions of a partially observed point cloud. To enable our network to produce multiple completions for the same partial input, we introduce stochasticity into our network via style modulation. By extracting style codes from complete shapes during training, and learning a distribution over them, our style codes can explicitly carry shape category information leading to better completions. We further introduce diversity penalties and discriminators at multiple scales to prevent conditional mode collapse and to train without the need for multiple ground truth completions for each partial input. Evaluations across several synthetic and real datasets demonstrate that our method achieves significant improvements in respecting the partial observations while obtaining greater diversity in completions.
翻訳日:2023-11-22 06:53:40 公開日:2023-11-18
# 教師付き行列分解のための指数収束アルゴリズム

Exponentially Convergent Algorithms for Supervised Matrix Factorization ( http://arxiv.org/abs/2311.11182v1 )

ライセンス: Link先を確認
Joowon Lee, Hanbaek Lyu, Weixin Yao(参考訳) 教師付き行列分解(supervised matrix factorization, smf)は、特徴抽出と分類を同時に行う古典的な機械学習手法である。 我々のゴールはSMFを使って、高次元データによって引き起こされる課題に対処し、解釈可能、データ再構成的、クラス識別的な特徴を提供する低ランク潜在因子を学習することである。 smfモデルのトレーニングには、少なくとも3ブロックのパラメータで非凸かつ制約のある最適化を解決することが含まれる。 既知のアルゴリズムはヒューリスティックか、特別な場合の弱い収束保証を提供する。 本稿では,組み合わせ係数空間における低ランク行列推定問題としてSMFを'リフト'する新しい枠組みを提案し,軽度の仮定の下で任意の初期化を伴って目的のグローバル最小化に指数関数的に高速に収束する効率的なアルゴリズムを提案する。 本フレームワークは,多クラス分類における多種多様なSMF型問題に適用できる。 そこで本研究では, 癌関連遺伝子群の同定に成功していることを示す。

Supervised matrix factorization (SMF) is a classical machine learning method that simultaneously seeks feature extraction and classification tasks, which are not necessarily a priori aligned objectives. Our goal is to use SMF to learn low-rank latent factors that offer interpretable, data-reconstructive, and class-discriminative features, addressing challenges posed by high-dimensional data. Training SMF model involves solving a nonconvex and possibly constrained optimization with at least three blocks of parameters. Known algorithms are either heuristic or provide weak convergence guarantees for special cases. In this paper, we provide a novel framework that 'lifts' SMF as a low-rank matrix estimation problem in a combined factor space and propose an efficient algorithm that provably converges exponentially fast to a global minimizer of the objective with arbitrary initialization under mild assumptions. Our framework applies to a wide range of SMF-type problems for multi-class classification with auxiliary features. To showcase an application, we demonstrate that our algorithm successfully identified well-known cancer-associated gene groups for various cancers.
翻訳日:2023-11-22 06:52:40 公開日:2023-11-18
# 関数制約付き非スムース射影自由最適化

Nonsmooth Projection-Free Optimization with Functional Constraints ( http://arxiv.org/abs/2311.11180v1 )

ライセンス: Link先を確認
Kamiar Asgari, Michael J. Neely(参考訳) 本稿では,制約付き非平滑凸最適化のための段階的アルゴリズムを提案する。 確立されたフランク・ウルフアルゴリズムとその変種は射影を既に避けているが、それらは主に滑らかな目的関数のために設計されている。 対照的に,提案アルゴリズムは一般凸関数不等式制約で非滑らかな問題を扱うことができる。 これは$\mathcal{o}(\epsilon^{-2})$イテレーションで$\epsilon$-サブオプティマイズソリューションを実現し、各イテレーションは1つの(潜在的に不正確な)リニア最小化オラクル(lmo)呼び出しと(おそらくは不適格な)サブグレードの計算しか必要としない。 この性能は既存の下限と一致している。 決定論的下位段階を確率的下位段階に置き換える際にも同様のパフォーマンスが観察される。 関数的不等式制約が存在しない特別の場合、このアルゴリズムは制約のない問題のために設計された最近の非滑らかな射影自由法と有利に競合する。 提案手法は,新しいラグランジュ乗算器更新規則と連動して,簡易な分離スキームを用いる。

This paper presents a subgradient-based algorithm for constrained nonsmooth convex optimization that does not require projections onto the feasible set. While the well-established Frank-Wolfe algorithm and its variants already avoid projections, they are primarily designed for smooth objective functions. In contrast, our proposed algorithm can handle nonsmooth problems with general convex functional inequality constraints. It achieves an $\epsilon$-suboptimal solution in $\mathcal{O}(\epsilon^{-2})$ iterations, with each iteration requiring only a single (potentially inexact) Linear Minimization Oracle (LMO) call and a (possibly inexact) subgradient computation. This performance is consistent with existing lower bounds. Similar performance is observed when deterministic subgradients are replaced with stochastic subgradients. In the special case where there are no functional inequality constraints, our algorithm competes favorably with a recent nonsmooth projection-free method designed for constraint-free problems. Our approach utilizes a simple separation scheme in conjunction with a new Lagrange multiplier update rule.
翻訳日:2023-11-22 06:51:51 公開日:2023-11-18
# 視覚言語モデルにおけるアクティブ・プロンプト学習

Active Prompt Learning in Vision Language Models ( http://arxiv.org/abs/2311.11178v1 )

ライセンス: Link先を確認
Jihwan Bang, Sumyeong Ahn, Jae-Gil Lee(参考訳) 事前訓練された視覚言語モデル(VLM)は、分類や検索など、様々なゼロショットタスクにおいて顕著な進歩を示している。 その性能にもかかわらず、新しいタスクのパフォーマンスを改善するにはタスク固有の知識が必要であるため、それらの適応は不可欠である。 ラベルは適応に必要だが、その取得は通常高価である。 この課題を克服するために,専門家から少数のサンプルのラベルを取得し,高い性能を達成するための能動的学習法が研究されている。 アクティブラーニングは、主にラベル付けのためのラベルなしサンプルの選択と、モデルのトレーニングにそれらを活用することに重点を置いている。 本研究では,事前学習されたvlmをアクティブ・ラーニング・フレームワークでどのように適用できるのか? 本調査では,(1)事前学習したVLMに対して従来のアクティブラーニングフレームワークを適用すれば,ラベル付け候補のクラス不均衡のため,ランダム選択よりも性能が低下する可能性があり,(2)VLMの知識はラベル付け前のバランスを達成するヒントを与えることができる。 これらの観測に基づいて,PCB と表記される VLM のための新しいアクティブラーニングフレームワークを考案した。 提案手法の有効性を評価するため,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超えることを示す。

Pre-trained Vision Language Models (VLMs) have demonstrated notable progress in various zero-shot tasks, such as classification and retrieval. Despite their performance, because improving performance on new tasks requires task-specific knowledge, their adaptation is essential. While labels are needed for the adaptation, acquiring them is typically expensive. To overcome this challenge, active learning, a method of achieving a high performance by obtaining labels for a small number of samples from experts, has been studied. Active learning primarily focuses on selecting unlabeled samples for labeling and leveraging them to train models. In this study, we pose the question, "how can the pre-trained VLMs be adapted under the active learning framework?" In response to this inquiry, we observe that (1) simply applying a conventional active learning framework to pre-trained VLMs even may degrade performance compared to random selection because of the class imbalance in labeling candidates, and (2) the knowledge of VLMs can provide hints for achieving the balance before labeling. Based on these observations, we devise a novel active learning framework for VLMs, denoted as PCB. To assess the effectiveness of our approach, we conduct experiments on seven different real-world datasets, and the results demonstrate that PCB surpasses conventional active learning and random sampling methods.
翻訳日:2023-11-22 06:51:30 公開日:2023-11-18
# GitHub Copilot生成コードのセキュリティを評価する - ターゲットとするレプリケーション調査

Assessing the Security of GitHub Copilot Generated Code -- A Targeted Replication Study ( http://arxiv.org/abs/2311.11177v1 )

ライセンス: Link先を確認
Vahid Majdinasab and Michael Joshua Bishop and Shawn Rasheed and Arghavan Moradidakhel and Amjed Tahir and Foutse Khomh(参考訳) aiを使用したコード生成モデルの開発が急速に進み、コード生成の迅速化と生産性の向上が図られている。 これらのモデルは、バグや脆弱性を含む可能性のある大量のコード(主に公開リポジトリからソース)でトレーニングされる。 これらのモデルによって生成されるコードのセキュリティに関して、いくつかの懸念が提起されている。 最近の研究は、GitHub CopilotやAmazon CodeWhispererといったAIによるコード生成ツールのセキュリティ問題を調査し、これらのツールによって生成されたコードにいくつかのセキュリティ上の弱点が明らかになった。 これらのツールが進化するにつれて、セキュリティプロトコルを改善して、開発者に安全でないコードを提案することを防ぐことが期待される。 本稿では、Copilotにおけるセキュリティの弱点を調査し、さまざまなシナリオや言語(Python、C、Verilog)でCopilotが提案するコードにいくつかの弱点を発見したPearceらの研究を再現する。 私たちのレプリケーションは、新しいバージョンのcopilotとcodeql(セキュリティ分析フレームワーク)を使用して、copilotのセキュリティ上の弱点を調べます。 レプリケーションは、pythonコードのセキュリティ脆弱性の存在に注目したものだ。 結果から,新しいバージョンのcopilotでも,脆弱性のあるコード提案の割合は36.54%から27.25%に低下した。 それでも、モデルが安全でないコードを示していることは明らかである。

AI-powered code generation models have been developing rapidly, allowing developers to expedite code generation and thus improve their productivity. These models are trained on large corpora of code (primarily sourced from public repositories), which may contain bugs and vulnerabilities. Several concerns have been raised about the security of the code generated by these models. Recent studies have investigated security issues in AI-powered code generation tools such as GitHub Copilot and Amazon CodeWhisperer, revealing several security weaknesses in the code generated by these tools. As these tools evolve, it is expected that they will improve their security protocols to prevent the suggestion of insecure code to developers. This paper replicates the study of Pearce et al., which investigated security weaknesses in Copilot and uncovered several weaknesses in the code suggested by Copilot across diverse scenarios and languages (Python, C and Verilog). Our replication examines Copilot security weaknesses using newer versions of Copilot and CodeQL (the security analysis framework). The replication focused on the presence of security vulnerabilities in Python code. Our results indicate that, even with the improvements in newer versions of Copilot, the percentage of vulnerable code suggestions has reduced from 36.54% to 27.25%. Nonetheless, it remains evident that the model still suggests insecure code.
翻訳日:2023-11-22 06:51:07 公開日:2023-11-18
# 弱制御乳腺病変分節に対する CAM 誘導SAM の形態学的検討

Morphology-Enhanced CAM-Guided SAM for weakly supervised Breast Lesion Segmentation ( http://arxiv.org/abs/2311.11176v1 )

ライセンス: Link先を確認
Xin Yue, Qing Zhao, Jianqiang Li, Xiaoling Liu, Changwei Song, Suqin Liu, Guanghui Fu(参考訳) 乳癌の診断は患者と臨床医の両方にとって困難であり、早期発見は効果的な治療に不可欠である。 超音波画像は重要な役割を担っているが、その有用性は、時間と労力の両方を消費する、正確な病変のセグメンテーションの必要性によって妨げられている。 これらの課題に対処するため、SAMとして知られるコンピュータビジョン基盤モデルを用いて最適化された形態素強化クラス活性化マップ(CAM)誘導モデルを提案する。 この革新的枠組みは、早期乳房超音波画像における弱い教師付き病変セグメンテーションのために特別に設計されている。 このアプローチでは、画像レベルのアノテーションを独特に活用し、詳細なピクセルレベルのアノテーションの必要性を取り除きます。 まず,乳腺病変の形態学的知識を用いた予備的分節を行った。 次に,camベースのヒートマップを用いて意味情報を抽出し,病変の局所化を行う。 これら2つの要素を融合させてSAMを誘導し、洗練されたセグメンテーションを行う。 その後、SAMによる位相誤差の修正に後処理技術が使用される。 本手法はセグメンテーションプロセスを単純化するだけでなく,ピクセルレベルのアノテーションに依存する教師あり学習法に匹敵する精度を得る。 本フレームワークはテストセット上で74.39%のdiceスコアを達成し,教師あり学習法との比較性能を示す。 さらに、Deeplabv3+の32.22よりも24.27得点のハウスドルフ距離において教師付き学習モデルよりも優れている。 これらの実験結果は、SAMと弱教師付き学習の統合の実現可能性と優れた性能を示す。 コードはhttps://github.com/YueXin18/MorSeg-CAM-SAMで公開されている。

Breast cancer diagnosis challenges both patients and clinicians, with early detection being crucial for effective treatment. Ultrasound imaging plays a key role in this, but its utility is hampered by the need for precise lesion segmentation-a task that is both time-consuming and labor-intensive. To address these challenges, we propose a new framework: a morphology-enhanced, Class Activation Map (CAM)-guided model, which is optimized using a computer vision foundation model known as SAM. This innovative framework is specifically designed for weakly supervised lesion segmentation in early-stage breast ultrasound images. Our approach uniquely leverages image-level annotations, which removes the requirement for detailed pixel-level annotation. Initially, we perform a preliminary segmentation using breast lesion morphology knowledge. Following this, we accurately localize lesions by extracting semantic information through a CAM-based heatmap. These two elements are then fused together, serving as a prompt to guide the SAM in performing refined segmentation. Subsequently, post-processing techniques are employed to rectify topological errors made by the SAM. Our method not only simplifies the segmentation process but also attains accuracy comparable to supervised learning methods that rely on pixel-level annotation. Our framework achieves a Dice score of 74.39% on the test set, demonstrating compareable performance with supervised learning methods. Additionally, it outperforms a supervised learning model, in terms of the Hausdorff distance, scoring 24.27 compared to Deeplabv3+'s 32.22. These experimental results showcase its feasibility and superior performance in integrating weakly supervised learning with SAM. The code is made available at: https://github.com/YueXin18/MorSeg-CAM-SAM.
翻訳日:2023-11-22 06:50:44 公開日:2023-11-18