このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231224となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 開量子系の力学の理解の改善
Improving the understanding of the dynamics of open quantum systems ( http://arxiv.org/abs/2402.10901v1 ) ライセンス: Link先を確認 | Ali Raza Mirza, | (参考訳) この論文は、オープン量子系、すなわち周囲の環境と相互作用する量子系の研究を提示する。
このようなシステムは、量子-古典遷移を理解するだけでなく、現代の量子技術の実践にも重要である。
これまで行われたオープン量子系の研究において、システムと環境が最初に分離された初期状態にあるという非常に一般的な仮定がある。
この論文の第一の目的は、この仮定を批判的に分析することである。
我々は力学を研究するために2つの異なるアプローチに従う。
まず、中心スピン系が量子スピンの集合と相互作用する、正確に解けるスピンスピンモデルを解く。
我々は、初期相関状態と非相関状態の両方から始まる中心スピンダイナミクスを正確に分析し、異なる開始状態による動的差異を考察する。
第2に、任意の環境と相互作用する任意の系を考え、システム力学を記述し、初期SE相関の効果を取り入れたマスター方程式を導出する。
初期相関のこの効果は、マスター方程式に現れる余分な項によって捉えられる。
その後、マスター方程式はスピン-ボソンモデルやスピン-スピンモデルのようなパラダイムSEモデルに適用される。
また,SE結合強度が小さくても,初期相関が果たす役割が顕著であることを示した。
論文の次の部分は、量子システムの環境を特徴づけるパラメータを推定することを扱う。
This thesis presents studies performed on open quantum systems, that is, quantum systems interacting with their surrounding environment. Such systems are important not only in understanding the quantum-to-classical transition but also for the practical implementation of modern quantum technologies. In studies of open quantum systems performed to date, a very common assumption is that the system and the environment are in separated initial states to begin with. One primary objective of this thesis is to critically analyse this assumption. We follow two different approaches to investigate the dynamics. First, we solve an exactly solvable spin-spin model where a central spin system interacts with a collection of quantum spins. We analyse exactly the central spin dynamics, starting from both initially correlated and uncorrelated SE states, and look at the dynamical differences due to the different starting states. Second, we consider an arbitrary system interacting with an arbitrary environment and derive a master equation that describes the system dynamics and incorporates the effect of the initial SE correlations. This effect of initial correlations is captured by an extra term appearing in the master equation. The master equation is subsequently applied to the paradigmatic SE models such as the spin-boson model and the spin-spin model. We demonstrate that the role played by initial correlations can be noticeable even if the SE coupling strength is kept smaller. The next part of the thesis deals with estimating the parameters characterizing the environment of a quantum system where we show that the use of two two-level systems can greatly enhance the estimation of the environment parameters. | 翻訳日:2024-03-18 07:28:31 公開日:2023-12-24 |
# 機械学習アルゴリズムによるマダガスカルの実GDPの予測 Nowcasting Madagascar's real GDP using machine learning algorithms ( http://arxiv.org/abs/2401.10255v1 ) ライセンス: Link先を確認 | Franck Ramaharo and Gerzhino Rasolofomanana | (参考訳) 本研究では,マダガスカルにおける国内総生産(GDP)の予測能力について検討した。
我々は、2007Q1-2022Q4の期間に、マダガスカルの四半期毎のマクロ経済リード指標10点について、線形正則回帰(Ridge, Lasso, Elastic-net)、次元減少モデル(主成分回帰)、k-nearest neighborsアルゴリズム(k-NN回帰)、サポートベクター回帰(線形SVR)、ツリーベースのアンサンブルモデル(Random forest, XGBoost回帰)を含む一般的な回帰モデルを訓練し、単純な計量モデルを用いてベンチマークを行った。
本研究では,根平均二乗誤差 (rmse) ,平均絶対誤差 (mae) および平均絶対パーセンテージ誤差 (mape) を算出し,各モデルの nowcast 精度を測定した。
その結果,個々の予測を集約して生成したアンサンブルモデルが,従来の計量モデルより一貫して優れていることがわかった。
機械学習モデルは、マダガスカル経済のパフォーマンスをより正確かつタイムリーに予測し、データ駆動意思決定のための追加ガイダンスを政策立案者に提供できると結論づけた。 We investigate the predictive power of different machine learning algorithms to nowcast Madagascar's gross domestic product (GDP). We trained popular regression models, including linear regularized regression (Ridge, Lasso, Elastic-net), dimensionality reduction model (principal component regression), k-nearest neighbors algorithm (k-NN regression), support vector regression (linear SVR), and tree-based ensemble models (Random forest and XGBoost regressions), on 10 Malagasy quarterly macroeconomic leading indicators over the period 2007Q1--2022Q4, and we used simple econometric models as a benchmark. We measured the nowcast accuracy of each model by calculating the root mean square error (RMSE), mean absolute error (MAE), and mean absolute percentage error (MAPE). Our findings reveal that the Ensemble Model, formed by aggregating individual predictions, consistently outperforms traditional econometric models. We conclude that machine learning models can deliver more accurate and timely nowcasts of Malagasy economic performance and provide policymakers with additional guidance for data-driven decision making. | 翻訳日:2024-01-28 16:29:00 公開日:2023-12-24 |
# 基礎投資研究のためのマルチモーダルゲンAI Multimodal Gen-AI for Fundamental Investment Research ( http://arxiv.org/abs/2401.06164v1 ) ライセンス: Link先を確認 | Lezhi Li, Ting-Yu Chang, Hai Wang | (参考訳) 本報告では,従来の意思決定プロセスが,書類をふるいにかけるなど労働集約的な業務を担っている金融投資業界における変革的イニシアティブを概説する。
言語モデルを活用することで,情報要約と投資アイデア生成の自動化を図る。
我々は、特定のアプリケーションレベルの目標を達成するためのベースモデル(llama2)における微調整手法の有効性を評価し、企業やセクターにおけるイベントの影響に対する洞察の提供、市場の状況関係の理解、投資家による投資アイデアの生成、株式推奨や詳細な説明による結果のフォーマット化などを検討する。
最先端のジェネレーティブモデリング技術を通じて、究極の目標はaiエージェントのプロトタイプを開発し、人間の投資家を反復的なタスクから解放し、ハイレベルな戦略的思考に焦点をあてることである。
このプロジェクトは、研究報告、投資メモ、市場ニュース、広範囲な時系列市場データを含む多様なコーパスデータセットを含んでいる。
基礎モデルとしてLama2_7b_hf_chatを用いた教師なしLoRA微調整と,GPT3.5モデルの命令微調整を行った。
統計的および人的評価は、細調整されたバージョンが、テキストモデリング、要約、推論、ファイナンスドメインの問題の解決においてより良いパフォーマンスを示し、金融領域における意思決定プロセスの強化に向けた重要なステップを示す。
プロジェクトのコード実装はgithubにある。 https://github.com/firenze11/finance_lm。 This report outlines a transformative initiative in the financial investment industry, where the conventional decision-making process, laden with labor-intensive tasks such as sifting through voluminous documents, is being reimagined. Leveraging language models, our experiments aim to automate information summarization and investment idea generation. We seek to evaluate the effectiveness of fine-tuning methods on a base model (Llama2) to achieve specific application-level goals, including providing insights into the impact of events on companies and sectors, understanding market condition relationships, generating investor-aligned investment ideas, and formatting results with stock recommendations and detailed explanations. Through state-of-the-art generative modeling techniques, the ultimate objective is to develop an AI agent prototype, liberating human investors from repetitive tasks and allowing a focus on high-level strategic thinking. The project encompasses a diverse corpus dataset, including research reports, investment memos, market news, and extensive time-series market data. We conducted three experiments applying unsupervised and supervised LoRA fine-tuning on the llama2_7b_hf_chat as the base model, as well as instruction fine-tuning on the GPT3.5 model. Statistical and human evaluations both show that the fine-tuned versions perform better in solving text modeling, summarization, reasoning, and finance domain questions, demonstrating a pivotal step towards enhancing decision-making processes in the financial domain. Code implementation for the project can be found on GitHub: https://github.com/Firenze11/finance_lm. | 翻訳日:2024-01-22 12:51:37 公開日:2023-12-24 |
# 深部パルス結合ニューラルネットワーク Deep Pulse-Coupled Neural Networks ( http://arxiv.org/abs/2401.08649v1 ) ライセンス: Link先を確認 | Zexiang Yi, Jing Lian, Yunliang Qi, Zhaofei Yu, Huajin Tang, Yide Ma and Jizhao Liu | (参考訳) スパイクニューラルネットワーク(snn)は、時間的ダイナミクスを取り入れ、離散的および非同期的なスパイクを介して情報を伝達するリーク型統合・アンド・ファイア(lif)モデルニューロンのようなスパイクニューロンを利用して、脳の情報処理メカニズムを捉える。
しかし、lifの簡易な生物学的性質は、実際のニューロンの神経細胞結合と樹状構造を無視し、神経細胞の時空間ダイナミクスを制限し、結果として生じるsnsの表現力を低減する。
本研究では、複雑な力学、すなわちパルス結合型ニューラルネットワーク(PCNN)を用いて、視覚タスクにおけるSNNの表現性と認識性能を向上させる。
PCNNは一次視覚野の複雑な神経活動をエミュレートできる皮質モデルの一種である。
我々は、SNNでよく使われるLIFニューロンをPCNNニューロンに置き換えることで、ディープパルス結合ニューラルネットワーク(DPCNN)を構築する。
既存のPCNNモデルにおけるカップリングは、チャネル内でのみニューロン間の結合を制限する。
この制限に対処するために、異なる特徴マップのニューロン同士の相互作用を可能にするチャネル間結合を提案する。
実験の結果,チャネル間カップリングは,ネットワーク幅の拡大に比べて,ニューロン数,シナプス数,トレーニング時間が少なく,効率良く性能を向上できることがわかった。
例えば、幅広いVGG9を持つLIFベースのSNNと比較して、VGG9を持つDPCNNは、それぞれ神経細胞の50%、53%、シナプス、73%、トレーニング時間しか使用していない。
さらに、DPCNNの収束と性能を高速化するために、受容場と時間依存バッチ正規化(RFTD-BN)を提案する。 Spiking Neural Networks (SNNs) capture the information processing mechanism of the brain by taking advantage of spiking neurons, such as the Leaky Integrate-and-Fire (LIF) model neuron, which incorporates temporal dynamics and transmits information via discrete and asynchronous spikes. However, the simplified biological properties of LIF ignore the neuronal coupling and dendritic structure of real neurons, which limits the spatio-temporal dynamics of neurons and thus reduce the expressive power of the resulting SNNs. In this work, we leverage a more biologically plausible neural model with complex dynamics, i.e., a pulse-coupled neural network (PCNN), to improve the expressiveness and recognition performance of SNNs for vision tasks. The PCNN is a type of cortical model capable of emulating the complex neuronal activities in the primary visual cortex. We construct deep pulse-coupled neural networks (DPCNNs) by replacing commonly used LIF neurons in SNNs with PCNN neurons. The intra-coupling in existing PCNN models limits the coupling between neurons only within channels. To address this limitation, we propose inter-channel coupling, which allows neurons in different feature maps to interact with each other. Experimental results show that inter-channel coupling can efficiently boost performance with fewer neurons, synapses, and less training time compared to widening the networks. For instance, compared to the LIF-based SNN with wide VGG9, DPCNN with VGG9 uses only 50%, 53%, and 73% of neurons, synapses, and training time, respectively. Furthermore, we propose receptive field and time dependent batch normalization (RFTD-BN) to speed up the convergence and performance of DPCNNs. | 翻訳日:2024-01-22 09:53:26 公開日:2023-12-24 |
# 大学講義記録からの授業活動のマルチモーダル分類 Multimodal Classification of Teaching Activities from University Lecture Recordings ( http://arxiv.org/abs/2312.17262v1 ) ライセンス: Link先を確認 | Oscar Sapena and Eva Onaindia | (参考訳) 世界的なパンデミックにより、オンライン高等教育の理解方法は大きく変化している。
授業は遠隔で行われ、教員は教材の一部として講義音声記録を組み込む。
この新しいオンライン学習環境は、大学の授業に大きな影響を与えている。
仮想教室を充実させるオンライン教育技術は,過去2年間に多く行われてきたが,オンライン学習の学生支援においては,同じことが起こっていない。
2) この制限を克服するためには,教師が理論的概念を説明し,演習を解決し,教科の組織的問題についてコメントする授業記録に,学生が容易にアクセスできるようにすることが目的である。
そこで本研究では,音声ファイルと自動講義書き起こしの機能を利用するトランスフォーマーベース言語モデルを用いて,授業のいつでも実行されているアクティビティの種類を識別するマルチモーダル分類アルゴリズムを提案する。
実験の結果,音声信号の識別が容易で,テキストの書き起こしによる識別が容易であることが判明した。
私たちの貢献は、授業中の教師の学業活動を認識することを目的としています。 The way of understanding online higher education has greatly changed due to the worldwide pandemic situation. Teaching is undertaken remotely, and the faculty incorporate lecture audio recordings as part of the teaching material. This new online teaching-learning setting has largely impacted university classes. While online teaching technology that enriches virtual classrooms has been abundant over the past two years, the same has not occurred in supporting students during online learning. {To overcome this limitation, our aim is to work toward enabling students to easily access the piece of the lesson recording in which the teacher explains a theoretical concept, solves an exercise, or comments on organizational issues of the course. To that end, we present a multimodal classification algorithm that identifies the type of activity that is being carried out at any time of the lesson by using a transformer-based language model that exploits features from the audio file and from the automated lecture transcription. The experimental results will show that some academic activities are more easily identifiable with the audio signal while resorting to the text transcription is needed to identify others. All in all, our contribution aims to recognize the academic activities of a teacher during a lesson. | 翻訳日:2024-01-15 12:50:45 公開日:2023-12-24 |
# larp: オープンワールドゲームのための言語エージェントロールプレイ LARP: Language-Agent Role Play for Open-World Games ( http://arxiv.org/abs/2312.17653v1 ) ライセンス: Link先を確認 | Ming Yan, Ruihao Li, Hao Zhang, Hao Wang, Zhilan Yang, Ji Yan | (参考訳) 言語エージェントは、定義された設定と短いタイムラインの中で印象的な問題解決スキルを示しています。
しかし、オープンワールドシミュレーションの複雑さが絶え間なく複雑化する中、複雑な環境に柔軟に適応し、一貫性のある行動を保証するための長期記憶を一貫して維持できるエージェントの必要性が強まっている。
言語エージェントとオープンワールドゲームとのギャップを埋めるために,メモリ処理と意思決定アシスタントを含む認知アーキテクチャ,フィードバック駆動型学習可能なアクション空間を備えた環境相互作用モジュール,さまざまな個人性のアライメントを促進するポストプロセッシングなどを導入したLanguage Agent for Role-Playing(LARP)を紹介する。
LARPフレームワークは、ユーザとエージェント間のインタラクションを洗練し、ユニークなバックグラウンドとパーソナリティで事前に定義し、最終的にオープンワールドコンテキストにおけるゲームエクスペリエンスを向上する。
さらに、エンターテイメント、教育、様々なシミュレーションシナリオなど、様々な分野における言語モデルの多彩な利用を強調している。
プロジェクトページはhttps://miao-ai-lab.github.io/larp/で公開される。 Language agents have shown impressive problem-solving skills within defined settings and brief timelines. Yet, with the ever-evolving complexities of open-world simulations, there's a pressing need for agents that can flexibly adapt to complex environments and consistently maintain a long-term memory to ensure coherent actions. To bridge the gap between language agents and open-world games, we introduce Language Agent for Role-Playing (LARP), which includes a cognitive architecture that encompasses memory processing and a decision-making assistant, an environment interaction module with a feedback-driven learnable action space, and a postprocessing method that promotes the alignment of various personalities. The LARP framework refines interactions between users and agents, predefined with unique backgrounds and personalities, ultimately enhancing the gaming experience in open-world contexts. Furthermore, it highlights the diverse uses of language models in a range of areas such as entertainment, education, and various simulation scenarios. The project page is released at https://miao-ai-lab.github.io/LARP/. | 翻訳日:2024-01-15 12:39:46 公開日:2023-12-24 |
# オフライン強化学習のためのadversarial model Adversarial Model for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.11048v2 ) ライセンス: Link先を確認 | Mohak Bhardwaj, Tengyang Xie, Byron Boots, Nan Jiang, Ching-An Cheng | (参考訳) データカバレッジに関係なく、任意の参照ポリシーを改善するために、ポリシーをしっかりと学習できる新しいモデルベースのオフライン強化学習(RL)フレームワーク、Adversarial Model for Offline Reinforcement Learning(ARMOR)を提案する。
ARMORは、マルコフ決定プロセスモデルに対して逆向きにトレーニングすることで、参照ポリシーに対する最悪のパフォーマンスのポリシーを最適化するように設計されている。
理論的には、ARMORは、十分に調整されたハイパーパラメータを持ち、参照ポリシーがデータによってサポートされている場合、データカバレッジ内で最高のポリシーと競合できることを示す。
ARMORが学んだポリシーは、"どんな"許容可能なハイパーパラメータでも、たとえ参照ポリシーがデータセットにカバーされていない場合でも、参照ポリシーのパフォーマンスを低下させることはない。
これらの特性を実際に検証するために,従来のモデルベース手法と対照的にモデルアンサンブルを使わずにポリシーを最適化できるARMORのスケーラブルな実装を設計する。
ARMORは、最先端のオフラインモデルフリーとモデルベースRLアルゴリズムの両方で有能な性能を実現し、様々なハイパーパラメータ選択に対する参照ポリシーを堅牢に改善できることを示す。 We propose a novel model-based offline Reinforcement Learning (RL) framework, called Adversarial Model for Offline Reinforcement Learning (ARMOR), which can robustly learn policies to improve upon an arbitrary reference policy regardless of data coverage. ARMOR is designed to optimize policies for the worst-case performance relative to the reference policy through adversarially training a Markov decision process model. In theory, we prove that ARMOR, with a well-tuned hyperparameter, can compete with the best policy within data coverage when the reference policy is supported by the data. At the same time, ARMOR is robust to hyperparameter choices: the policy learned by ARMOR, with "any" admissible hyperparameter, would never degrade the performance of the reference policy, even when the reference policy is not covered by the dataset. To validate these properties in practice, we design a scalable implementation of ARMOR, which by adversarial training, can optimize policies without using model ensembles in contrast to typical model-based methods. We show that ARMOR achieves competent performance with both state-of-the-art offline model-free and model-based RL algorithms and can robustly improve the reference policy over various hyperparameter choices. | 翻訳日:2023-12-29 23:30:01 公開日:2023-12-24 |
# 永続ホモロジーによる適応的トポロジ的特徴:点雲の濾過学習 Adaptive Topological Feature via Persistent Homology: Filtration Learning for Point Clouds ( http://arxiv.org/abs/2307.09259v2 ) ライセンス: Link先を確認 | Naoki Nishikawa, Yuichi Ike and Kenji Yamanishi | (参考訳) 点雲の機械学習は多くの注目を集めており、形状認識や物質科学など様々な分野に応用されている。
このような機械学習手法の精度を高めるために、持続的ホモロジーによって通常抽出される大域的な位相的特徴を取り入れることがしばしば有効である。
点クラウドに対する永続的ホモロジーの計算では、点クラウドに対するフィルター、すなわち増加する空間の列を選択する。
永続的ホモロジーと組み合わせた機械学習手法の性能はフィルタの選択によって大きく影響を受けるため、データやタスクによって調整する必要がある。
本稿では,ニューラルネットワークを用いて適応的に濾過を学習する枠組みを提案する。
結果の持続的ホモロジー同型を不変にするため、そのような不変性を持つニューラルネットワークアーキテクチャを開発する。
さらに, フィルタ関数の有限次元近似に関する理論的結果を示し, 提案したネットワークアーキテクチャを正当化する。
実験の結果,いくつかの分類課題におけるフレームワークの有効性が示された。 Machine learning for point clouds has been attracting much attention, with many applications in various fields, such as shape recognition and material science. For enhancing the accuracy of such machine learning methods, it is often effective to incorporate global topological features, which are typically extracted by persistent homology. In the calculation of persistent homology for a point cloud, we choose a filtration for the point cloud, an increasing sequence of spaces. Since the performance of machine learning methods combined with persistent homology is highly affected by the choice of a filtration, we need to tune it depending on data and tasks. In this paper, we propose a framework that learns a filtration adaptively with the use of neural networks. In order to make the resulting persistent homology isometry-invariant, we develop a neural network architecture with such invariance. Additionally, we show a theoretical result on a finite-dimensional approximation of filtration functions, which justifies the proposed network architecture. Experimental results demonstrated the efficacy of our framework in several classification tasks. | 翻訳日:2023-12-29 22:52:32 公開日:2023-12-24 |
# 逆3次元音声合成のための弱教師付き感情遷移学習 Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation ( http://arxiv.org/abs/2311.17532v2 ) ライセンス: Link先を確認 | Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo | (参考訳) 人-機械インタラクションアプリケーションにおける仮想アバターアニメーションには、鮮明で感情的な3D合成ジェスチャーの生成が不可欠である。
既存の方法では、単一の感情ラベルに従うジェスチャーを生成することができるが、実際のシーンでは、感情遷移を伴う長いジェスチャーシーケンスモデリングの方が実用的である。
さらに、感情的遷移音声とそれに対応する3D人間のジェスチャーを備えた大規模データセットの欠如により、このタスクのアドレッシングも制限される。
この目的を達成するために、我々はまずChatGPT-4と音声塗装アプローチを取り入れ、高忠実度感情遷移人間の音声を構築する。
動的に塗布された感情遷移音声に対応するリアルな3Dポーズアノテーションを得るのは非常に難しいことを考慮し、権威のジェスチャー遷移を促進するための弱い教師付きトレーニング戦略を提案する。
具体的には,遷移ジェスチャw.r.tが異なる感情ジェスチャのコーディネーションを強化するために,2つの異なる感情ジェスチャシーケンス間の時間的関連表現をスタイルガイダンスとしてモデル化し,遷移生成に組み込む。
さらに、遷移ジェスチャーのための学習可能な混合感情ラベルに基づいて、弱い監視を提供する感情混合機構を考案する。
最後に,キーフレーム・サンプラーを用いて,長いシーケンスで効果的な初期姿勢情報を提供し,多様なジェスチャを生成できる。
提案手法は,新たに定義された感情遷移タスクとデータセットに単一の感情条件を適応させることによって構築された最先端モデルよりも優れることを示す。
私たちのコードとデータセットはプロジェクトのページでリリースされます。 Generating vivid and emotional 3D co-speech gestures is crucial for virtual avatar animation in human-machine interaction applications. While the existing methods enable generating the gestures to follow a single emotion label, they overlook that long gesture sequence modeling with emotion transition is more practical in real scenes. In addition, the lack of large-scale available datasets with emotional transition speech and corresponding 3D human gestures also limits the addressing of this task. To fulfill this goal, we first incorporate the ChatGPT-4 and an audio inpainting approach to construct the high-fidelity emotion transition human speeches. Considering obtaining the realistic 3D pose annotations corresponding to the dynamically inpainted emotion transition audio is extremely difficult, we propose a novel weakly supervised training strategy to encourage authority gesture transitions. Specifically, to enhance the coordination of transition gestures w.r.t different emotional ones, we model the temporal association representation between two different emotional gesture sequences as style guidance and infuse it into the transition generation. We further devise an emotion mixture mechanism that provides weak supervision based on a learnable mixed emotion label for transition gestures. Last, we present a keyframe sampler to supply effective initial posture cues in long sequences, enabling us to generate diverse gestures. Extensive experiments demonstrate that our method outperforms the state-of-the-art models constructed by adapting single emotion-conditioned counterparts on our newly defined emotion transition task and datasets. Our code and dataset will be released on the project page: https://xingqunqi-lab.github.io/Emo-Transition/. | 翻訳日:2023-12-29 21:49:01 公開日:2023-12-24 |
# NERIF: ドローニングモデルの自動スコーリングのためのGPT-4V NERIF: GPT-4V for Automatic Scoring of Drawn Models ( http://arxiv.org/abs/2311.12990v2 ) ライセンス: Link先を確認 | Gyeong-Geon Lee, and Xiaoming Zhai | (参考訳) 学生が描いたモデルの装飾には時間がかかる。
最近リリースされたGPT-4Vは、強力な画像処理機能を活用することで、科学的モデリングの実践を促進するユニークな機会を提供する。
自動採点に特化してこの能力を試験するために,GPT-4Vに指導用ノートとルーリックを用いたNERIF(Notation-Enhanced Rubric Instruction for Few-shot Learning)を開発した。
6つのモデリング評価タスクのために学生が作成したモデルを含むバランスデータ(n = 900)をランダムに選択した。
GPT-4Vのスコアは, それぞれ「ベジンニング」, 「開発」, 「熟練」の3レベルであった。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
その結果, GPT-4Vの平均評価精度は平均=.51, SD=.037であった。
具体的には、平均スコアリング精度は、"beginning"クラスでは.64、"developing"クラスでは.62、"proficient"クラスでは.26であり、より熟練したモデルの方がスコアリングが難しいことを示している。
さらに質的研究により、GPT-4Vは、問題コンテキスト、人間のコーダによるサンプル評価、学生の描画モデルを含む、画像入力から情報を取得する方法を明らかにする。
また,GPT-4Vが学生が描いたモデルの特徴をいかに捉え,自然言語でナレーションするかを明らかにした。
最終的に,gpt-4vが与えられたスコアルブリックと指導ノートに従って,学生が作成したモデルにスコアを割り当てる様子を実演した。
その結果, NERIF は GPT-4V を用いた描画モデルに有効であることが示唆された。
GPT-4Vは精度を向上する余地はあるものの、いくつかの誤ったスコアは専門家に解釈可能であるように思われた。
本研究の結果から,GPT-4Vを用いた学生図面の自動採点が期待できることがわかった。 Scoring student-drawn models is time-consuming. Recently released GPT-4V provides a unique opportunity to advance scientific modeling practices by leveraging the powerful image processing capability. To test this ability specifically for automatic scoring, we developed a method NERIF (Notation-Enhanced Rubric Instruction for Few-shot Learning) employing instructional note and rubrics to prompt GPT-4V to score students' drawn models for science phenomena. We randomly selected a set of balanced data (N = 900) that includes student-drawn models for six modeling assessment tasks. Each model received a score from GPT-4V ranging at three levels: 'Beginning,' 'Developing,' or 'Proficient' according to scoring rubrics. GPT-4V scores were compared with human experts' scores to calculate scoring accuracy. Results show that GPT-4V's average scoring accuracy was mean =.51, SD = .037. Specifically, average scoring accuracy was .64 for the 'Beginning' class, .62 for the 'Developing' class, and .26 for the 'Proficient' class, indicating that more proficient models are more challenging to score. Further qualitative study reveals how GPT-4V retrieves information from image input, including problem context, example evaluations provided by human coders, and students' drawing models. We also uncovered how GPT-4V catches the characteristics of student-drawn models and narrates them in natural language. At last, we demonstrated how GPT-4V assigns scores to student-drawn models according to the given scoring rubric and instructional notes. Our findings suggest that the NERIF is an effective approach for employing GPT-4V to score drawn models. Even though there is space for GPT-4V to improve scoring accuracy, some mis-assigned scores seemed interpretable to experts. The results of this study show that utilizing GPT-4V for automatic scoring of student-drawn models is promising. | 翻訳日:2023-12-29 21:46:54 公開日:2023-12-24 |
# AIミラージュ:人工免疫の時代におけるインポスタバイアスとディープフェイク検出チャレンジ AI Mirage: The Impostor Bias and the Deepfake Detection Challenge in the Era of Artificial Illusions ( http://arxiv.org/abs/2312.16220v1 ) ライセンス: Link先を確認 | Mirko Casu, Luca Guarnera, Pasquale Caponnetto, Sebastiano Battiato | (参考訳) 本稿では,これらの分野における意思決定プロセスにおける認知バイアスの包括的分析を行い,その意義について考察する。
法医学的調査やデジタル法医学分析において生じる様々なタイプの認知バイアス、例えば確認バイアス、期待バイアス、誤りの過信、文脈バイアス、帰属バイアスなどを調査する。
また、これらの文脈における認知バイアスを軽減するために用いられる既存の方法や手法を評価し、バイアスの低減と意思決定結果の改善を目的とした介入の有効性を評価する。
さらに,本論文では,法医学やデジタル法医学における生成型人工知能(ai)ツールの利用に影響を及ぼす可能性のある,新しい認知バイアス「impostor bias」について紹介する。
インポスタバイアス(英: impostor bias)とは、ディープフェイクなどのAIツールが生成する出力の真正性や妥当性を、音声、画像、ビデオの形式で疑う傾向である。
この偏見は誤った判断や虚偽の告発につながり、法医学的証拠の信頼性と信頼性を損なう可能性がある。
本稿では,詐欺師バイアスの潜在的な原因と結果について論じ,それを防ぐためのいくつかの戦略を提案する。
本稿は,これらの課題に対処し,法医学的実践における認知バイアスの理解に有用な洞察を提供し,今後の研究や,法医学的調査の客観性と妥当性を高めるための実践的応用への提言を提供する。 This paper provides a comprehensive analysis of cognitive biases in forensics and digital forensics, examining their implications for decision-making processes in these fields. It explores the various types of cognitive biases that may arise during forensic investigations and digital forensic analyses, such as confirmation bias, expectation bias, overconfidence in errors, contextual bias, and attributional biases. It also evaluates existing methods and techniques used to mitigate cognitive biases in these contexts, assessing the effectiveness of interventions aimed at reducing biases and improving decision-making outcomes. Additionally, this paper introduces a new cognitive bias, called "impostor bias", that may affect the use of generative Artificial Intelligence (AI) tools in forensics and digital forensics. The impostor bias is the tendency to doubt the authenticity or validity of the output generated by AI tools, such as deepfakes, in the form of audio, images, and videos. This bias may lead to erroneous judgments or false accusations, undermining the reliability and credibility of forensic evidence. The paper discusses the potential causes and consequences of the impostor bias, and suggests some strategies to prevent or counteract it. By addressing these topics, this paper seeks to offer valuable insights into understanding cognitive biases in forensic practices and provide recommendations for future research and practical applications to enhance the objectivity and validity of forensic investigations. | 翻訳日:2023-12-29 20:45:34 公開日:2023-12-24 |
# Hyper-VolTran: HyperNetworksによる3Dオブジェクト構造への高速で一般化可能なワンショット画像 Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks ( http://arxiv.org/abs/2312.16218v1 ) ライセンス: Link先を確認 | Christian Simon, Sen He, Juan-Manuel Perez-Rua, Frost Xu, Amine Benhalloum, Tao Xiang | (参考訳) 拡散モデルによる現在のニューラルリコンストラクション手法は、その一般化能力を制限するため、依然としてシーン固有の最適化に依存している。
一般化と整合性に関する既存のアプローチの限界を克服するため,我々はニューラルレンダリング技術を導入する。
本手法では,符号付き距離関数を表面表現とし,幾何エンコードボリュームとハイパーネットワークを用いて一般化された前処理を取り入れる。
具体的には,生成したマルチビュー入力からニューラルエンコーディングボリュームを構築する。
テスト時に入力画像に条件付けされたSDFネットワークの重みを調整し、HyperNetworksを介して新しいシーンへのモデル適応を可能にする。
合成ビューから得られたアーティファクトを緩和するために,ボリュームトランスフォーマモジュールを用いて,各視点を別々に処理するのではなく,画像特徴の集約性を向上させることを提案する。
提案手法はHyper-VolTranと呼ばれ,シーン固有の最適化のボトルネックを回避し,複数の視点から生成された画像間の一貫性を維持する。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。 Solving image-to-3D from a single view is an ill-posed problem, and current neural reconstruction methods addressing it through diffusion models still rely on scene-specific optimization, constraining their generalization capability. To overcome the limitations of existing approaches regarding generalization and consistency, we introduce a novel neural rendering technique. Our approach employs the signed distance function as the surface representation and incorporates generalizable priors through geometry-encoding volumes and HyperNetworks. Specifically, our method builds neural encoding volumes from generated multi-view inputs. We adjust the weights of the SDF network conditioned on an input image at test-time to allow model adaptation to novel scenes in a feed-forward manner via HyperNetworks. To mitigate artifacts derived from the synthesized views, we propose the use of a volume transformer module to improve the aggregation of image features instead of processing each viewpoint separately. Through our proposed method, dubbed as Hyper-VolTran, we avoid the bottleneck of scene-specific optimization and maintain consistency across the images generated from multiple viewpoints. Our experiments show the advantages of our proposed approach with consistent results and rapid generation. | 翻訳日:2023-12-29 20:45:06 公開日:2023-12-24 |
# ManipLLM:オブジェクト中心ロボットマニピュレーションのためのマルチモーダル大言語モデル ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation ( http://arxiv.org/abs/2312.16217v1 ) ライセンス: Link先を確認 | Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan Shen, Renrui Zhang, Jiaming Liu, Hao Dong | (参考訳) ロボット操作は、コンタクトポイントとエンドエフェクタの方向を正確に予測し、操作を成功させる。
しかしながら、シミュレータ内の限られたカテゴリで訓練された学習ベースのロボット操作は、特に広範なカテゴリに直面した場合、一般化性を達成するのに苦労することが多い。
そこで本稿では,マルチモーダル大規模言語モデル(MLLM)の頑健な推論機能を活用して,ロボット操作の安定性と一般化を図る,革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
基本的な洞察は、オブジェクトカテゴリの理解、手頃な事前推論、操作におけるMLLMの推論能力を刺激するオブジェクト中心のポーズ予測を含む、導入された微調整パラダイムにある。
提案手法では,RGB画像とテキストプロンプトを用いて,エンドエフェクタのポーズを一連の思考で予測する。
最初の接触が確立された後、次のウェイポイントをクローズドループで計画するためにアクティブインピーダンス適応ポリシーが導入される。
さらに,実世界では,モデルが現在の実世界のシーン構成に適応できるように,操作のためのテスト時間適応(tta)戦略を設計する。
シミュレータと実世界の実験では,ManipLLMの性能が期待できる。
詳細とデモはhttps://sites.google.com/view/manipllm.comで見ることができる。 Robot manipulation relies on accurately predicting contact points and end-effector directions to ensure successful operation. However, learning-based robot manipulation, trained on a limited category within a simulator, often struggles to achieve generalizability, especially when confronted with extensive categories. Therefore, we introduce an innovative approach for robot manipulation that leverages the robust reasoning capabilities of Multimodal Large Language Models (MLLMs) to enhance the stability and generalization of manipulation. By fine-tuning the injected adapters, we preserve the inherent common sense and reasoning ability of the MLLMs while equipping them with the ability for manipulation. The fundamental insight lies in the introduced fine-tuning paradigm, encompassing object category understanding, affordance prior reasoning, and object-centric pose prediction to stimulate the reasoning ability of MLLM in manipulation. During inference, our approach utilizes an RGB image and text prompt to predict the end effector's pose in chain of thoughts. After the initial contact is established, an active impedance adaptation policy is introduced to plan the upcoming waypoints in a closed-loop manner. Moreover, in real world, we design a test-time adaptation (TTA) strategy for manipulation to enable the model better adapt to the current real-world scene configuration. Experiments in simulator and real-world show the promising performance of ManipLLM. More details and demonstrations can be found at https://sites.google.com/view/manipllm. | 翻訳日:2023-12-29 20:44:44 公開日:2023-12-24 |
# SUNDIAL: 直接・環境・複雑な照明分解による3次元衛星理解 SUNDIAL: 3D Satellite Understanding through Direct, Ambient, and Complex Lighting Decomposition ( http://arxiv.org/abs/2312.16215v1 ) ライセンス: Link先を確認 | Nikhil Behari, Akshat Dave, Kushagra Tiwary, William Yang, Ramesh Raskar | (参考訳) 衛星画像からの3次元モデリングは、環境科学、都市計画、農業、災害対応において不可欠である。
しかし、従来の3dモデリング技術は、広範囲にわたるマルチビューベースラインの制限、ディレクティブ、アンビエント、複雑な照明条件の変更、キャプチャ全体の時間変動など、リモートセンシングコンテキストにおいてユニークな課題に直面している。
本稿では,ニューラルネットワークを用いた衛星画像の3次元再構成手法であるSUNDIALを紹介する。
この単一モデルアプローチで,衛星シーン形状,照明成分,太陽方向を共同で学習し,二次影線鋳造法を提案する。
1)斜めの太陽角による影の描画による風景形状の改善
2)情景アルベドと照明の身体的不連続を可能とし、
3) 照明の成分を, 直接的, 周囲的(空) および複雑な光源から決定する。
これを実現するために,我々は,遠隔センシング文献からの照明手がかりと幾何学的先行点をニューラルレンダリング手法に取り入れ,影,散在する空の照明,複雑な照明と植生と水の陰影などの衛星シーンの物理的特性をモデル化した。
衛星シーンモデリングのための既存のnerfベースの手法に対するsundialの性能を評価し、改良されたシーンと照明の絡み合い、新しいビューとライティングのレンダリング、および小さなベースライン、スパース入力、可変照明を備えた挑戦的なシーンにおける幾何と太陽方向の推定を実証する。 3D modeling from satellite imagery is essential in areas of environmental science, urban planning, agriculture, and disaster response. However, traditional 3D modeling techniques face unique challenges in the remote sensing context, including limited multi-view baselines over extensive regions, varying direct, ambient, and complex illumination conditions, and time-varying scene changes across captures. In this work, we introduce SUNDIAL, a comprehensive approach to 3D reconstruction of satellite imagery using neural radiance fields. We jointly learn satellite scene geometry, illumination components, and sun direction in this single-model approach, and propose a secondary shadow ray casting technique to 1) improve scene geometry using oblique sun angles to render shadows, 2) enable physically-based disentanglement of scene albedo and illumination, and 3) determine the components of illumination from direct, ambient (sky), and complex sources. To achieve this, we incorporate lighting cues and geometric priors from remote sensing literature in a neural rendering approach, modeling physical properties of satellite scenes such as shadows, scattered sky illumination, and complex illumination and shading of vegetation and water. We evaluate the performance of SUNDIAL against existing NeRF-based techniques for satellite scene modeling and demonstrate improved scene and lighting disentanglement, novel view and lighting rendering, and geometry and sun direction estimation on challenging scenes with small baselines, sparse inputs, and variable illumination. | 翻訳日:2023-12-29 20:44:18 公開日:2023-12-24 |
# オーディオイベント検出用変形可能なオーディオトランス Deformable Audio Transformer for Audio Event Detection ( http://arxiv.org/abs/2312.16228v1 ) ライセンス: Link先を確認 | Wentao Zhu | (参考訳) トランスフォーマーは様々なタスクで有望な結果を得た。
しかし、セルフアテンション計算の二次的な複雑さは、特に低リソース設定やモバイルまたはエッジデバイスにおいて、アプリケーションを制限する。
既存の作業では、計算複雑性を低減するために手作りの注意パターンを利用する方法が提案されている。
しかし、このような手作りのパターンはデータに依存しず最適ではないかもしれない。
したがって、関連するキーや値が減っている可能性が高いが、重要でないキーは保存されている。
そこで本研究では,ピラミッド型トランスフォーマーのバックボーンを装着した変形可能な注意を構築・学習可能な,新しいオーディオ認識用変形型オーディオトランスフォーマーdatarを提案する。
このようなアーキテクチャは、予測タスク、~\textit{例えば}、イベント分類において有効であることが証明されている。
さらに,変形可能なアテンションマップ計算が入力機能を単純化し,さらに拡張できることを示す。
そこで我々は,この問題を解消するために学習可能な入力アダプタを導入し,datarは最先端のパフォーマンスを実現する。 Transformers have achieved promising results on a variety of tasks. However, the quadratic complexity in self-attention computation has limited the applications, especially in low-resource settings and mobile or edge devices. Existing works have proposed to exploit hand-crafted attention patterns to reduce computation complexity. However, such hand-crafted patterns are data-agnostic and may not be optimal. Hence, it is likely that relevant keys or values are being reduced, while less important ones are still preserved. Based on this key insight, we propose a novel deformable audio Transformer for audio recognition, named DATAR, where a deformable attention equipping with a pyramid transformer backbone is constructed and learnable. Such an architecture has been proven effective in prediction tasks,~\textit{e.g.}, event classification. Moreover, we identify that the deformable attention map computation may over-simplify the input feature, which can be further enhanced. Hence, we introduce a learnable input adaptor to alleviate this issue, and DATAR achieves state-of-the-art performance. | 翻訳日:2023-12-29 20:29:34 公開日:2023-12-24 |
# 初期量子コヒーレンスをもつワークゆらぎ定理 Work fluctuation theorems with initial quantum coherence ( http://arxiv.org/abs/2312.16227v1 ) ライセンス: Link先を確認 | Gianluca Francica and Luca Dell'Anna | (参考訳) ゆらぎ定理は線形反応則を超えた非平衡熱力学の基本的な結果である。
これらのうち、パラダイム的タサキ・クルークスの揺らぎ定理は、フォワード・オブ・平衡量子過程および対応する後方量子過程においてなされた仕事の統計を関連づける。
特に、2つの過程の初期状態は熱状態であり、したがってエネルギーベースでは不整合である。
本稿では,仕事のゆらぎ定理における初期量子コヒーレンスの役割について検討する。
そこで我々は,初期量子コヒーレンスのないタサキ-クルックスゆらぎ定理を再現するより強いゆらぎ定理を定式化し,考察する。 Fluctuation theorems are fundamental results in nonequilibrium thermodynamics beyond the linear response regime. Among these, the paradigmatic Tasaki-Crooks fluctuation theorem relates the statistics of the works done in a forward out-of-equilibrium quantum process and in a corresponding backward one. In particular, the initial states of the two processes are thermal states and thus incoherent in the energy basis. Here, we aim to investigate the role of initial quantum coherence in work fluctuation theorems. To do this, we formulate and examine the implications of a stronger fluctuation theorem, which reproduces the Tasaki-Crooks fluctuation theorem in the absence of initial quantum coherence. | 翻訳日:2023-12-29 20:29:18 公開日:2023-12-24 |
# 人物再同定の進展:テンソル型特徴融合と多重線形部分空間学習 Advancing Person Re-Identification: Tensor-based Feature Fusion and Multilinear Subspace Learning ( http://arxiv.org/abs/2312.16226v1 ) ライセンス: Link先を確認 | Akram Abderraouf Gharbi, Ammar Chouchane, Abdelmalik Ouamane | (参考訳) person re-identification (PRe-ID) はコンピュータビジョンの問題であり、ここ数年で有能な研究領域となっている。
オーバーラップしないさまざまなカメラビューにまたがる人物を特定することを目的としている。
本稿では,テンソル特徴表現と多重線形部分空間学習を組み合わせた新しい事前idシステムを提案する。
提案手法は,学習前の畳み込みニューラルネットワーク(CNN)を強力な特徴抽出器として利用し,さらに2つの補完的記述子であるLOMO(Local Maximal Occurrence)とGOG(Gaussian Of Gaussian)を併用する。
次に、各個人間の分離性を高める識別部分空間を学ぶために、テンソルベースクロスビュー2次判別解析(txqda)を用いる。
マハラノビス距離は、クエリとギャラリーサンプル間の類似性計算に使用される。
最後に,VIPeR,GRID,PRID450の3つのデータセットを用いて実験を行った。 Person re-identification (PRe-ID) is a computer vision issue, that has been a fertile research area in the last few years. It aims to identify persons across different non-overlapping camera views. In this paper, We propose a novel PRe-ID system that combines tensor feature representation and multilinear subspace learning. Our method exploits the power of pre-trained Convolutional Neural Networks (CNNs) as a strong deep feature extractor, along with two complementary descriptors, Local Maximal Occurrence (LOMO) and Gaussian Of Gaussian (GOG). Then, Tensor-based Cross-View Quadratic Discriminant Analysis (TXQDA) is used to learn a discriminative subspace that enhances the separability between different individuals. Mahalanobis distance is used to match and similarity computation between query and gallery samples. Finally, we evaluate our approach by conducting experiments on three datasets VIPeR, GRID, and PRID450s. | 翻訳日:2023-12-29 20:29:05 公開日:2023-12-24 |
# 投資決定のための解釈可能なモデルによる収益性・信頼度の向上 Increasing Profitability and Confidence by using Interpretable Model for Investment Decisions ( http://arxiv.org/abs/2312.16223v1 ) ライセンス: Link先を確認 | Sahar Arshad, Seemab Latif, Ahmad Salman, Saadia Irfan | (参考訳) 金融予測は、金融利害関係者、特に株式市場における情報的意思決定において重要な役割を果たす。
従来の状況では、投資家は市場洞察や投資レコメンデーションに関する貴重な報告を株式調査部門に依存している。
しかし、株式調査部門は、市場ダイナミクスの本質的な揮発性の性質を分析するために必要な認知的努力が要求されるため、意思決定を効果的に行うという課題に直面している。
さらに、アナリストが採用する金融予測システムは、解釈可能性とすべての利害関係者の信頼の面で潜在的なリスクを負う。
本稿では,投資推薦の予測にshapに基づく説明可能性手法を応用した解釈可能な意思決定モデルを提案する。
提案されたソリューションは、予測されたレコメンデーションに影響を与える要因に関する貴重な洞察を提供するだけでなく、日々の投資機会や短期投資の機会に関心のある投資家にも役立つ。
提案モデルの有効性を確認するため,取引戦略を用いて,投資家のポートフォリオ価値の顕著な向上を示すケーススタディを考案した。
結果は、利害関係者の信頼を高め、証券取引所の透明性を育むために、予測モデルに解釈可能性を導入することの重要性を強調した。 Financial forecasting plays an important role in making informed decisions for financial stakeholders, specifically in the stock exchange market. In a traditional setting, investors commonly rely on the equity research department for valuable reports on market insights and investment recommendations. The equity research department, however, faces challenges in effectuating decision-making due to the demanding cognitive effort required for analyzing the inherently volatile nature of market dynamics. Furthermore, financial forecasting systems employed by analysts pose potential risks in terms of interpretability and gaining the trust of all stakeholders. This paper presents an interpretable decision-making model leveraging the SHAP-based explainability technique to forecast investment recommendations. The proposed solution not only provides valuable insights into the factors that influence forecasted recommendations but also caters to investors of varying types, including those interested in daily and short-term investment opportunities. To ascertain the efficacy of the proposed model, a case study is devised that demonstrates a notable enhancement in investor's portfolio value, employing our trading strategies. The results highlight the significance of incorporating interpretability in forecasting models to boost stakeholders' confidence and foster transparency in the stock exchange domain. | 翻訳日:2023-12-29 20:28:45 公開日:2023-12-24 |
# pivotalトークンの重み付き適応によるイベントのセグメント化 Segment Any Events via Weighted Adaptation of Pivotal Tokens ( http://arxiv.org/abs/2312.16222v1 ) ライセンス: Link先を確認 | Zhiwen Chen, Zhiyu Zhu, Yifan Zhang, Junhui Hou, Guangming Shi, and Jinjian Wu | (参考訳) 本稿では,イベント中心領域内での堅牢で普遍的なオブジェクトセグメンテーションを実現することを目的とした,イベントデータ統合のためのセグメンテーション・アシング・モデル(SAM)の調整という難題を掘り下げる。
この取り組みの核となる問題のひとつは、イベント中心のデータから得られる埋め込みの正確なアライメントとキャリブレーションである。
ペア化されたイベントとRGBイメージを持つ膨大なデータセットのレポジトリを活用して、事前トレーニングされたSAMフレームワークにカプセル化された深い知識を活用して、外挿することを提案する。
これを実現するための基盤として,マルチスケールな特徴蒸留手法を導入する。
この手法は、イベントデータから派生したトークン埋め込みとRGBイメージのアライメントを厳格に最適化し、全体的なアーキテクチャの堅牢性を維持し、強化する。
中間層からのトークンの埋め込みが高レベルな埋め込みを担っていることの明確な意義を考えると,我々の戦略は重要なトークンの埋め込みを正確に調整することに集中している。
このターゲットキャリブレーションは、イベントドメインとイメージドメインの両方に由来するハイレベルな埋め込みの非一貫性を効果的に管理することを目的としている。
異なるデータセットに関する広範囲な実験により, 蒸留法の有効性が示された。
コード: http://github.com/happychenpipi/eventsam。 In this paper, we delve into the nuanced challenge of tailoring the Segment Anything Models (SAMs) for integration with event data, with the overarching objective of attaining robust and universal object segmentation within the event-centric domain. One pivotal issue at the heart of this endeavor is the precise alignment and calibration of embeddings derived from event-centric data such that they harmoniously coincide with those originating from RGB imagery. Capitalizing on the vast repositories of datasets with paired events and RGB images, our proposition is to harness and extrapolate the profound knowledge encapsulated within the pre-trained SAM framework. As a cornerstone to achieving this, we introduce a multi-scale feature distillation methodology. This methodology rigorously optimizes the alignment of token embeddings originating from event data with their RGB image counterparts, thereby preserving and enhancing the robustness of the overall architecture. Considering the distinct significance that token embeddings from intermediate layers hold for higher-level embeddings, our strategy is centered on accurately calibrating the pivotal token embeddings. This targeted calibration is aimed at effectively managing the discrepancies in high-level embeddings originating from both the event and image domains. Extensive experiments on different datasets demonstrate the effectiveness of the proposed distillation method. Code in http://github.com/happychenpipi/EventSAM. | 翻訳日:2023-12-29 20:28:26 公開日:2023-12-24 |
# temp3d: 咬合下の時間連続3次元ポーズ推定 TEMP3D: Temporally Continuous 3D Human Pose Estimation Under Occlusions ( http://arxiv.org/abs/2312.16221v1 ) ライセンス: Link先を確認 | Rohit Lal, Yash Garg, Arindam Dutta, Calvin-Khang Ta, Dripta S. Raychaudhuri, M. Salman Asif, Amit K. Roy-Chowdhury | (参考訳) 既存の3次元ポーズ推定手法は、単眼と多眼の両方で極めてよく機能する。
しかし, 重度咬合の存在下では有効性が著しく低下し, 実用性が制限される。
映像のシーケンスでは、時間的連続性は正確なポーズを推測するのに役立ちます。
本稿では,3次元ポーズの大規模事前学習と自己教師あり学習とを組み合わせることで,人間の動作先頭を通じての時間的連続性の可能性を活用し,与えられた映像列における3次元ポーズ推定の促進を図る。
これは、事前訓練された3Dポーズモデルにのみ依存しながら、オクルージョンを含む可能性のある、未学習のインザワイルドビデオの時間的に連続した3Dポーズ推定につながる。
我々は,既存のSOTA単一画像に基づく3Dポーズ推定手法を用いて,映像中の動き事前モデルを調整し,時間的に連続的な出力を与えるTEMP3Dという教師なしの手法を提案する。
提案手法を評価するため,Occluded Human3.6Mデータセット,Human3.6Mデータセットに組み込まれた人体介在物を大きく(最大100%まで)含むカスタム構築データセットを用いて評価を行った。
occluded human3.6m とocmotion dataset で sota 結果を達成し,非occluded data の競合性能を維持した。
URL: https://sites.google.com/ucr.edu/temp3d Existing 3D human pose estimation methods perform remarkably well in both monocular and multi-view settings. However, their efficacy diminishes significantly in the presence of heavy occlusions, which limits their practical utility. For video sequences, temporal continuity can help infer accurate poses, especially in heavily occluded frames. In this paper, we aim to leverage this potential of temporal continuity through human motion priors, coupled with large-scale pre-training on 3D poses and self-supervised learning, to enhance 3D pose estimation in a given video sequence. This leads to a temporally continuous 3D pose estimate on unlabelled in-the-wild videos, which may contain occlusions, while exclusively relying on pre-trained 3D pose models. We propose an unsupervised method named TEMP3D that aligns a motion prior model on a given in-the-wild video using existing SOTA single image-based 3D pose estimation methods to give temporally continuous output under occlusions. To evaluate our method, we test it on the Occluded Human3.6M dataset, our custom-built dataset which contains significantly large (up to 100%) human body occlusions incorporated into the Human3.6M dataset. We achieve SOTA results on Occluded Human3.6M and the OcMotion dataset while maintaining competitive performance on non-occluded data. URL: https://sites.google.com/ucr.edu/temp3d | 翻訳日:2023-12-29 20:28:01 公開日:2023-12-24 |
# 一様二重化条件下におけるDNNの訓練精度の安定性 Stability of Accuracy for the Training of DNNs Via the Uniform Doubling Condition ( http://arxiv.org/abs/2210.08415v3 ) ライセンス: Link先を確認 | Yitzchak Shmalo | (参考訳) 深層ニューラルネットワーク(DNN)の訓練における精度の安定性について検討した。
この文脈において、dnnのトレーニングは、クロスエントロピー損失関数の最小化によって行われ、パフォーマンスメトリックは精度(正しく分類されたオブジェクトの割合)である。
トレーニングの結果、損失は減少するが、プロセス中に精度は必ずしも上昇せず、時には減少することもある。
精度の安定性を達成する目標は、初期段階で精度が高い場合、トレーニング中も高いままであることを保証することである。
berlyand、jabin、safstenによる最近の結果は、絶対値アクティベーション関数を使用してdnnのトレーニング中の精度の安定性を保証するトレーニングデータに2倍の条件を導入する。
この二重化条件は、$\mathbb{r}^n$のトレーニングデータに対して$\mathbb{r}^n$のスラブを用いて定式化され、スラブの選択に依存する。
この論文の目標は二つある。
まず、二重条件を均一にするために、スラブの選択とは独立である。
これにより、トレーニングデータのみの安定性に十分な条件が得られます。
言い換えると、一様二重化条件を満たすトレーニングセット$t$に対して、このファミリーのdnnがトレーニングセットの精度が高く、あるトレーニングタイムのトレーニングセット$t_0$は、すべての時間$t>t_0$で高い精度を持つような一連のdnnが存在する。
さらに、二重化条件の数値化には均一性の確立が必要である。
第2の目標は、絶対値活性化関数から、リーキー ReLU のような有限個の臨界点を持つより広範な一方向線型活性化関数へと元の安定性結果を拡張することである。 We study the stability of accuracy during the training of deep neural networks (DNNs). In this context, the training of a DNN is performed via the minimization of a cross-entropy loss function, and the performance metric is accuracy (the proportion of objects that are classified correctly). While training results in a decrease of loss, the accuracy does not necessarily increase during the process and may sometimes even decrease. The goal of achieving stability of accuracy is to ensure that if accuracy is high at some initial time, it remains high throughout training. A recent result by Berlyand, Jabin, and Safsten introduces a doubling condition on the training data, which ensures the stability of accuracy during training for DNNs using the absolute value activation function. For training data in $\mathbb{R}^n$, this doubling condition is formulated using slabs in $\mathbb{R}^n$ and depends on the choice of the slabs. The goal of this paper is twofold. First, to make the doubling condition uniform, that is, independent of the choice of slabs. This leads to sufficient conditions for stability in terms of training data only. In other words, for a training set $T$ that satisfies the uniform doubling condition, there exists a family of DNNs such that a DNN from this family with high accuracy on the training set at some training time $t_0$ will have high accuracy for all time $t>t_0$. Moreover, establishing uniformity is necessary for the numerical implementation of the doubling condition. The second goal is to extend the original stability results from the absolute value activation function to a broader class of piecewise linear activation functions with finitely many critical points, such as the popular Leaky ReLU. | 翻訳日:2023-12-28 02:22:22 公開日:2023-12-24 |
# 局所的タイトプログラムの検証 Verification of Locally Tight Programs ( http://arxiv.org/abs/2204.10789v3 ) ライセンス: Link先を確認 | Jorge Fandinno, Vladimir Lifschitz, Nathan Temple | (参考訳) プログラム補完は論理プログラムの言語から一階理論の言語への翻訳である。
その本来の定義は整数演算、入力を受け付け、出力述語と補助述語を区別するプログラムにまで拡張されている。
タイトなプログラムでは、完備の一般化は、解集合プログラミングの基盤である安定なモデル意味論と一致することが知られている。
この定理の厳密性条件は、制限の少ない「局所的厳密性」要件に置き換えることができることを示す。
この事実から、証明アシスタント anthem-p2p は局所的タイトなプログラム間の等価性を検証できると結論付ける。
論理プログラミングの理論と実践における出版の考察 Program completion is a translation from the language of logic programs into the language of first-order theories. Its original definition has been extended to programs that include integer arithmetic, accept input, and distinguish between output predicates and auxiliary predicates. For tight programs, that generalization of completion is known to match the stable model semantics, which is the basis of answer set programming. We show that the tightness condition in this theorem can be replaced by a less restrictive "local tightness" requirement. From this fact we conclude that the proof assistant anthem-p2p can be used to verify equivalence between locally tight programs. Under consideration for publication in Theory and Practice of Logic Programming | 翻訳日:2023-12-28 02:20:30 公開日:2023-12-24 |
# TransKD: 効率的なセマンティックセグメンテーションのためのトランスフォーマー知識蒸留 TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation ( http://arxiv.org/abs/2202.13393v3 ) ライセンス: Link先を確認 | Ruiping Liu, Kailun Yang, Alina Roitberg, Jiaming Zhang, Kunyu Peng, Huayao Liu, Yaonan Wang, Rainer Stiefelhagen | (参考訳) 自動運転の領域におけるセマンティックセグメンテーションベンチマークは、大きな事前訓練されたトランスフォーマーによって支配されているが、その普及は、かなりの計算コストと長い訓練期間によって妨げられている。
この制約を緩和するために,包括的知識蒸留の観点から,効率的な意味セグメンテーションを考察し,多元的知識抽出とトランスフォーマ特有のパッチ埋め込みのギャップを埋めることを検討する。
そこで我々は,Transformer-based Knowledge Distillation (TransKD) フレームワークを提案する。このフレームワークは,大規模教師トランスフォーマーの特徴マップとパッチ埋め込みを蒸留し,長期間の事前学習プロセスを回避し,FLOPを85.0%削減する。
Specifically, we propose two fundamental and two optimization modules: (1) Cross Selective Fusion (CSF) enables knowledge transfer between cross-stage features via channel attention and feature map distillation within hierarchical transformers; (2) Patch Embedding Alignment (PEA) performs dimensional transformation within the patchifying process to facilitate the patch embedding distillation; (3) Global-Local Context Mixer (GL-Mixer) extracts both global and local information of a representative embedding; (4) Embedding Assistant (EA) acts as an embedding method to seamlessly bridge teacher and student models with the teacher's number of channels.
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験によると、TransKDは最先端の蒸留フレームワークより優れており、時間を要する事前学習手法に匹敵している。
ソースコードはhttps://github.com/RuipingL/TransKDで公開されている。 Semantic segmentation benchmarks in the realm of autonomous driving are dominated by large pre-trained transformers, yet their widespread adoption is impeded by substantial computational costs and prolonged training durations. To lift this constraint, we look at efficient semantic segmentation from a perspective of comprehensive knowledge distillation and consider to bridge the gap between multi-source knowledge extractions and transformer-specific patch embeddings. We put forward the Transformer-based Knowledge Distillation (TransKD) framework which learns compact student transformers by distilling both feature maps and patch embeddings of large teacher transformers, bypassing the long pre-training process and reducing the FLOPs by >85.0%. Specifically, we propose two fundamental and two optimization modules: (1) Cross Selective Fusion (CSF) enables knowledge transfer between cross-stage features via channel attention and feature map distillation within hierarchical transformers; (2) Patch Embedding Alignment (PEA) performs dimensional transformation within the patchifying process to facilitate the patch embedding distillation; (3) Global-Local Context Mixer (GL-Mixer) extracts both global and local information of a representative embedding; (4) Embedding Assistant (EA) acts as an embedding method to seamlessly bridge teacher and student models with the teacher's number of channels. Experiments on Cityscapes, ACDC, NYUv2, and Pascal VOC2012 datasets show that TransKD outperforms state-of-the-art distillation frameworks and rivals the time-consuming pre-training method. The source code is publicly available at https://github.com/RuipingL/TransKD. | 翻訳日:2023-12-28 02:20:04 公開日:2023-12-24 |
# 時間構造からの量子確率 Quantum probability from temporal structure ( http://arxiv.org/abs/2112.10929v5 ) ライセンス: Link先を確認 | Michael Ridley | (参考訳) ボルン確率測度は、観測者が現実のある領域に自己配置する測定の統計を記述している。
$\psi$-ontic 量子論では、現実は波動関数によって直接表現される。
量子確率は因果部分と逆時間部分の両方を含む普遍的多重時間波動関数の分数と同定できることを示した。
この波動関数はケルディシュ時間輪郭上の適切に一般化された歴史空間で定義される。
量子力学の決定論的定式化は、標準シュレーディンガー力学の初期条件を、輪郭上の量子履歴を定義する「固定点」のネットワークに置き換える。
ボルン測度は、これらの歴史に沿って波動関数をまとめることによって導かれる。
次に,前および後の選択による測定統計の導出に同様の手法を適用する。 The Born probability measure describes the statistics of measurements in which observers self-locate themselves in some region of reality. In $\psi$-ontic quantum theories, reality is directly represented by the wavefunction. We show that quantum probabilities may be identified with fractions of a universal multiple-time wavefunction containing both causal and retrocausal temporal parts. This wavefunction is defined in an appropriately generalized history space on the Keldysh time contour. Our deterministic formulation of quantum mechanics replaces the initial condition of standard Schr\"odinger dynamics with a network of `fixed points' defining quantum histories on the contour. The Born measure is derived by summing up the wavefunction along these histories. We then apply the same technique to the derivation of the statistics of measurements with pre- and post-selection. | 翻訳日:2023-12-28 02:19:31 公開日:2023-12-24 |
# MedSegDiff-V2: Transformer を用いた拡散型医用画像分割 MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer ( http://arxiv.org/abs/2301.11798v2 ) ライセンス: Link先を確認 | Junde Wu, Wei Ji, Huazhu Fu, Min Xu, Yueming Jin, Yanwu Xu | (参考訳) Diffusion Probabilistic Model (DPM)は最近、Imagen、Latent Diffusion Models、Stable Diffusionといった画像生成アプリケーションによって、コンピュータビジョンの分野で人気を博し、コミュニティ内で多くの議論を巻き起こした。
近年,医療画像分析分野におけるdpmの有用性が明らかにされ,医療画像セグメンテーションモデルが様々な課題にまたがる評価性能に裏付けられている。
これらのモデルは元々はunetアーキテクチャが基盤であったが、視覚トランスフォーマー機構の統合によって性能を向上させる可能性がある。
しかし、これらの2つのモデルを組み合わせるだけで性能が劣ることがわかった。
医療画像分割のためのこれら2つの最先端技術を効果的に統合するために, メデグディフ-v2と呼ばれる新しいトランスフォーマーベースの拡散フレームワークを提案する。
画像特徴の異なる20の医用画像セグメンテーションタスクにおける有効性を検証する。
本手法は総合評価により,従来のSOTA法よりも優れていることを示す。
コードはhttps://github.com/KidsWithTokens/MedSegDiffでリリースされる The Diffusion Probabilistic Model (DPM) has recently gained popularity in the field of computer vision, thanks to its image generation applications, such as Imagen, Latent Diffusion Models, and Stable Diffusion, which have demonstrated impressive capabilities and sparked much discussion within the community. Recent investigations have further unveiled the utility of DPM in the domain of medical image analysis, as underscored by the commendable performance exhibited by the medical image segmentation model across various tasks. Although these models were originally underpinned by a UNet architecture, there exists a potential avenue for enhancing their performance through the integration of vision transformer mechanisms. However, we discovered that simply combining these two models resulted in subpar performance. To effectively integrate these two cutting-edge techniques for the Medical image segmentation, we propose a novel Transformer-based Diffusion framework, called MedSegDiff-V2. We verify its effectiveness on 20 medical image segmentation tasks with different image modalities. Through comprehensive evaluation, our approach demonstrates superiority over prior state-of-the-art (SOTA) methodologies. Code is released at https://github.com/KidsWithTokens/MedSegDiff | 翻訳日:2023-12-28 02:09:58 公開日:2023-12-24 |
# 遠心影推定 : 量子回路とバウンディングテールの再利用 Thrifty shadow estimation: re-using quantum circuits and bounding tails ( http://arxiv.org/abs/2212.06240v2 ) ライセンス: Link先を確認 | Jonas Helsen and Michael Walter | (参考訳) シャドウ推定 (shadow estimation) は、ランダム量子回路と計算基底測定を用いて得られる「古典シャドウ」から、指数関数的に多くの量子状態の期待値を推定できる最近のプロトコルである。
本稿では,短期量子コンピューティングの観点から,このアプローチの統計効率について検討する。
本稿では,このプロトコルのより実用的なバリエーションであるスリフティシャドウ推定法を提案し,量子回路を各測定に新たに生成する必要はなく,何度も再利用する。
本研究は,ハールランダムユニタリをサンプリングする場合に再利用が最大限に有効であり,クリフォード群からサンプリングする場合,すなわちクリフォード群でシャドー推定を行う場合には回路を再利用すべきでないことを示す。
我々は、これらの極端間を補間する効率よくシミュレート可能な量子回路の族を提供し、クリフォード群の代わりに使用するべきであると信じている。
最後に,シャドウ推定のテール境界を考察し,平均中央値推定を標準平均推定に置き換える方法について検討する。 Shadow estimation is a recent protocol that allows estimating exponentially many expectation values of a quantum state from ``classical shadows'', obtained by applying random quantum circuits and computational basis measurements. In this paper we study the statistical efficiency of this approach in light of near-term quantum computing. We propose a more practical variant of the protocol, thrifty shadow estimation, in which quantum circuits are reused many times instead of having to be freshly generated for each measurement. We show that reuse is maximally effective when sampling Haar random unitaries, and maximally ineffective when sampling from the Clifford group, i.e., one should not reuse circuits when performing shadow estimation with the Clifford group. We provide an efficiently simulable family of quantum circuits that interpolates between these extremes, which we believe should be used instead of the Clifford group. Finally, we consider tail bounds for shadow estimation and discuss when median-of-means estimation can be replaced with standard mean estimation. | 翻訳日:2023-12-28 02:08:56 公開日:2023-12-24 |
# ノイズストリームデータからの動的システムのオンラインリアルタイム学習:クープマン演算子アプローチ Online Real-time Learning of Dynamical Systems from Noisy Streaming Data: A Koopman Operator Approach ( http://arxiv.org/abs/2212.05259v2 ) ライセンス: Link先を確認 | S. Sinha, Sai P. Nandanoori, David Barajas-Solano | (参考訳) 近年のセンシングと通信の進歩は、電力ネットワーク、気候システム、生物学的ネットワークなど様々な物理システムから高周波リアルタイムデータを得るのに役立っている。
しかし、データは物理センサによって記録されるため、測定ノイズによって取得されたデータが破損することが自然である。
本稿では,ノイズの低減にロバストなkoopman演算子を用いた時系列データから動的システムのオンラインリアルタイム学習を行うための新しいアルゴリズムを提案する。
提案アルゴリズムには3つの利点がある。
a) 動的システムのオンラインリアルタイム監視を可能にする。
b) 基礎となる力学系の線形表現を得ることにより,ユーザがシステムの解析及び制御のために線形系理論を利用することができる。
c) 一般的な拡張動的モード分解(EDMD)アルゴリズムよりも計算速度が速く、集中度も低い。
本稿では,Van der Pol発振器,IEEE 68バスシステム,およびVan der Pol発振器のリングネットワークを同定するために提案アルゴリズムの有効性について述べる。 Recent advancements in sensing and communication facilitate obtaining high-frequency real-time data from various physical systems like power networks, climate systems, biological networks, etc. However, since the data are recorded by physical sensors, it is natural that the obtained data is corrupted by measurement noise. In this paper, we present a novel algorithm for online real-time learning of dynamical systems from noisy time-series data, which employs the Robust Koopman operator framework to mitigate the effect of measurement noise. The proposed algorithm has three main advantages: a) it allows for online real-time monitoring of a dynamical system; b) it obtains a linear representation of the underlying dynamical system, thus enabling the user to use linear systems theory for analysis and control of the system; c) it is computationally fast and less intensive than the popular Extended Dynamic Mode Decomposition (EDMD) algorithm. We illustrate the efficiency of the proposed algorithm by applying it to identify the Van der Pol oscillator, the IEEE 68 bus system, and a ring network of Van der Pol oscillators. | 翻訳日:2023-12-28 02:08:35 公開日:2023-12-24 |
# 非凸ペアワイズ融合に基づくクラスタ化フェデレーション学習 Clustered Federated Learning based on Nonconvex Pairwise Fusion ( http://arxiv.org/abs/2211.04218v3 ) ライセンス: Link先を確認 | Xue Yu, Ziyi Liu, Wu Wang and Yifan Sun | (参考訳) 本研究では、FLの定式化の1つであるクラスタ化フェデレーション学習(FL)について検討し、デバイスをクラスタに分割し、各クラスタがそのデータを局所化モデルに最適に適合させる。
パラメータのペア差に非凸ペナルティを組み込んだクラスタリングFLフレームワークを提案する。
各クラスタ内のデバイスセットとクラスタ数に関する事前知識がなければ、このフレームワークはクラスタ構造を自律的に見積もることができる。
提案手法を実装するために,Fusion Penalized Federated Clustering (FPFC) と呼ばれる新しいFL法を提案する。
乗算器の標準交互方向法(ADMM)に基づいて、FPFCは各通信ラウンドで部分的な更新を行うことができ、可変ワークロードによる並列計算が可能である。
これらの戦略は、プライバシーを確保しながら通信コストを大幅に削減し、flにとって実用的なものとなる。
また、FL設定におけるハイパーパラメータチューニングのための新しいウォームアップ戦略を提案し、FPFCの非同期変種(asyncFPFC)を探索する。
理論解析は、FPFCの一般損失に対する収束保証を提供し、二乗損失を持つ線形モデルの下で統計収束率を確立する。
大規模な実験により、FPFCはロバスト性や一般化能力を含む現在の手法よりも優れていることが示された。 This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a clustered FL framework that incorporates a nonconvex penalty to pairwise differences of parameters. Without a priori knowledge of the set of devices in each cluster and the number of clusters, this framework can autonomously estimate cluster structures. To implement the proposed framework, we introduce a novel clustered FL method called Fusion Penalized Federated Clustering (FPFC). Building upon the standard alternating direction method of multipliers (ADMM), FPFC can perform partial updates at each communication round and allows parallel computation with variable workload. These strategies significantly reduce the communication cost while ensuring privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning in FL settings and explore the asynchronous variant of FPFC (asyncFPFC). Theoretical analysis provides convergence guarantees for FPFC with general losses and establishes the statistical convergence rate under a linear model with squared loss. Extensive experiments have demonstrated the superiority of FPFC compared to current methods, including robustness and generalization capability. | 翻訳日:2023-12-28 02:08:05 公開日:2023-12-24 |
# 量子側情報を用いた逆推測 Adversarial guesswork with quantum side information ( http://arxiv.org/abs/2306.12633v2 ) ライセンス: Link先を確認 | Baasanchimed Avirmed, Kaito Niinomi, Michele Dall'Arno | (参考訳) 古典量子チャネルの推測作業は、チャネルが送信する状態の推測に要するコストを定量化し、一度に1つの状態だけを問い合わせることができ、任意の古典量子チャネルの前処理を最大化し、任意の量子後処理を最小化する。
任意の次元の共変古典量子チャネルに対して、最適前処理の不変性と最適後処理の共分散を証明できる。
量子ビットの場合、高度に対称な情報完全古典量子チャネルのクラスに対する最適な推測作業を計算する。 The guesswork of a classical-quantum channel quantifies the cost incurred in guessing the state transmitted by the channel when only one state can be queried at a time, maximized over any classical pre-processing and minimized over any quantum post-processing. For arbitrary-dimensional covariant classical-quantum channels, we prove the invariance of the optimal pre-processing and the covariance of the optimal post-processing. In the qubit case, we compute the optimal guesswork for the class of so-called highly symmetric informationally complete classical-quantum channels. | 翻訳日:2023-12-28 02:01:21 公開日:2023-12-24 |
# ニュートリノ振動における量子拡散複雑性 Quantum Spread Complexity in Neutrino Oscillations ( http://arxiv.org/abs/2305.17025v2 ) ライセンス: Link先を確認 | Khushboo Dixit, S. Shajidul Haque, Soebur Razzaque | (参考訳) 量子情報理論は、その強力な測度の一つである研究と量子複雑性の盛んな領域として最近登場し、物理学の多くの分野における複雑なシステムの研究に応用されている。
しかし、実際の物理的状況への応用は、いまだにごくわずかである。
ニュートリノのフレーバー振動(英: Neutrino flavor oscillation)は、粒子物理学の標準モデルを理解し、それを超える物理を探究する上で、はるかに大きな成果をもたらす、広く研究されている物理現象である。
振動は、フレーバーと質量固有状態の混合と、その時間的変化によって生じる。
伝統的にフレーバー転移を確率論的尺度で研究する固有量子システムである。
量子複雑性形式をニュートリノ振動の研究の代替手段として応用した。
特に量子拡散複雑性は、ニュートリノセクタにおける電荷パリティ対称性の破れに関する追加情報を示した。
以上の結果から,最近実験データから示唆された,電荷パリティの最大違反は複雑であることが示唆された。 Quantum information theory has recently emerged as a flourishing area of research and quantum complexity, one of its powerful measures, is being applied for investigating complex systems in many areas of physics. Its application to practical physical situations, however, is still few and far between. Neutrino flavor oscillation is a widely studied physical phenomena with far reaching consequences in understanding the standard model of particle physics and to search for physics beyond it. Oscillation arises because of mixing between the flavor and mass eigenstates, and their evolution over time. It is an inherent quantum system for which flavor transitions are traditionally studied with probabilistic measures. We have applied quantum complexity formalism as an alternate measure to study neutrino oscillations. In particular, quantum spread complexity revealed additional information on the violation of charge-parity symmetry in the neutrino sector. Our results indicate that complexity favors the maximum violation of charge-parity, hinted recently by experimental data. | 翻訳日:2023-12-28 01:58:34 公開日:2023-12-24 |
# 離散時間系のニューラルリアプノフ制御 Neural Lyapunov Control for Discrete-Time Systems ( http://arxiv.org/abs/2305.06547v3 ) ライセンス: Link先を確認 | Junlin Wu, Andrew Clark, Yiannis Kantaros and Yevgeniy Vorobeychik | (参考訳) 線形系の安定性はよく理解されているが、非線形系の大きな課題である。
そのような場合の一般的なアプローチは、リャプノフ函数と関連する制御ポリシーの組み合わせを計算することである。
しかし、一般非線形系に対するリアプノフ函数の発見は難しい課題である。
この課題に対処するために、ニューラルネットワークを用いてリアプノフ関数を表現するいくつかの方法が提案されている。
しかし、そのようなアプローチは連続時間系、あるいは非線形力学の高度に制限されたクラスに焦点を当てる。
離散時間系におけるニューラルリアプノフ制御の学習のための最初のアプローチを提案する。
3つの重要な要素により、確実に安定した制御方針を効果的に学習することができる。
1つ目は、離散時間リアプノフ安定性条件を検証し、これらの条件の特定の構造を活用するための新しい混合整数線形計画法である。
2つ目は、検証済みのサブレベル集合を計算するための新しいアプローチである。
3つ目は、リプノフ関数学習を著しく高速化する反例を素早く見つけるヒューリスティック勾配に基づく手法である。
4つの標準ベンチマーク実験により、我々のアプローチは最先端のベースラインを大きく上回ることを示した。
例えば、パストラッキングベンチマークでは、最近のニューラルネットワークのlyapunovコントロールベースラインを、実行時間とアトラクション領域のサイズの両方で桁違いに上回り、この4つのベンチマーク(cartpoleとpvtol)のうち2つでは、当社が証明可能な安定したコントローラを返すための最初の自動アプローチです。
私たちのコードは、https://github.com/jlwu002/nlc_discreteで利用可能です。 While ensuring stability for linear systems is well understood, it remains a major challenge for nonlinear systems. A general approach in such cases is to compute a combination of a Lyapunov function and an associated control policy. However, finding Lyapunov functions for general nonlinear systems is a challenging task. To address this challenge, several methods have been proposed that represent Lyapunov functions using neural networks. However, such approaches either focus on continuous-time systems, or highly restricted classes of nonlinear dynamics. We propose the first approach for learning neural Lyapunov control in a broad class of discrete-time systems. Three key ingredients enable us to effectively learn provably stable control policies. The first is a novel mixed-integer linear programming approach for verifying the discrete-time Lyapunov stability conditions, leveraging the particular structure of these conditions. The second is a novel approach for computing verified sublevel sets. The third is a heuristic gradient-based method for quickly finding counterexamples to significantly speed up Lyapunov function learning. Our experiments on four standard benchmarks demonstrate that our approach significantly outperforms state-of-the-art baselines. For example, on the path tracking benchmark, we outperform recent neural Lyapunov control baselines by an order of magnitude in both running time and the size of the region of attraction, and on two of the four benchmarks (cartpole and PVTOL), ours is the first automated approach to return a provably stable controller. Our code is available at: https://github.com/jlwu002/nlc_discrete. | 翻訳日:2023-12-28 01:57:16 公開日:2023-12-24 |
# プロキシ変数を用いたサブサンプル時系列からの因果発見 Causal Discovery from Subsampled Time Series with Proxy Variables ( http://arxiv.org/abs/2305.05276v5 ) ライセンス: Link先を確認 | Mingzhou Liu, Xinwei Sun, Lingjing Hu, Yizhou Wang | (参考訳) 時系列データから因果構造を推測することは、多くの科学調査の中心的な関心事である。
このような推論の大きな障壁は、サブサンプリングの問題、すなわち測定頻度が因果影響のそれよりもはるかに低いことである。
この問題を解決するために、多くの方法が提案されているが、線形ケースに制限されたり、識別可能性の達成に失敗したりする。
本稿では,パラメータ制約を伴わずに,サブサンプリング時系列から因果構造全体を同定する制約に基づくアルゴリズムを提案する。
我々の観察では、サブサンプリングの課題は、主に観測されていない時間ステップの隠れ変数から生じている。
一方、隠れた変数には観測可能なプロキシがあり、これは本質的には将来観測可能な時間であり、時間構造から恩恵を受ける。
これらに基づいて、プロキシを利用して隠れた変数によって引き起こされるバイアスを取り除き、identifiabilityを達成することができる。
この直感に従って,プロキシに基づく因果探索アルゴリズムを提案する。
我々のアルゴリズムは非パラメトリックであり、完全な因果識別を実現することができる。
理論上の利点は、合成および実世界の実験に反映される。 Inferring causal structures from time series data is the central interest of many scientific inquiries. A major barrier to such inference is the problem of subsampling, i.e., the frequency of measurement is much lower than that of causal influence. To overcome this problem, numerous methods have been proposed, yet either was limited to the linear case or failed to achieve identifiability. In this paper, we propose a constraint-based algorithm that can identify the entire causal structure from subsampled time series, without any parametric constraint. Our observation is that the challenge of subsampling arises mainly from hidden variables at the unobserved time steps. Meanwhile, every hidden variable has an observed proxy, which is essentially itself at some observable time in the future, benefiting from the temporal structure. Based on these, we can leverage the proxies to remove the bias induced by the hidden variables and hence achieve identifiability. Following this intuition, we propose a proxy-based causal discovery algorithm. Our algorithm is nonparametric and can achieve full causal identification. Theoretical advantages are reflected in synthetic and real-world experiments. | 翻訳日:2023-12-28 01:56:21 公開日:2023-12-24 |
# 動的シナリオにおける自己進化型粒子群最適化による効率的なリアルタイム経路計画 Efficient Real-time Path Planning with Self-evolving Particle Swarm Optimization in Dynamic Scenarios ( http://arxiv.org/abs/2308.10169v2 ) ライセンス: Link先を確認 | Jinghao Xin, Zhi Li, Yang Zhang, and Ning Li | (参考訳) Particle Swarm Optimization (PSO) は静的経路計画問題に対する有効性を示した。
しかしながら、このような動的シナリオへの応用は、PSOの計算効率の低さと早めの収束の低さによって著しく妨げられている。
これらの制約に対処するため、粒子の操作をテンソル操作に変換するテンソル演算形式(TOF)を提案し、計算効率を向上した。
自己進化粒子群最適化 (SEPSO) として指定された PSO の変種である TOF の計算上の優位性を強調した。
SEPSOは、自身のハイパーパラメータの自律的な最適化を可能にする、新しい階層的自己進化フレームワーク(HSEF)によって支えられている。
さらに, 動的経路計画問題に対するSEPSOのリアルタイム性能を大幅に向上させる, 優先初期化(PI)機構と自動トラニケーション(AT)機構を導入した。
4つの広く使われているベンチマーク最適化関数に関する総合的な実験は、SEPSOの有効性を裏付けるために始められた。
次に,移動開始/目標点と動的/静的障害を含む動的シミュレーション環境を用いて,動的経路計画問題に対するSEPSOの有効性を評価する。
シミュレーションの結果,提案手法は,従来の方法と対照的に,実時間性能(通常のデスクトップコンピュータでは毎秒67経路計画計算)の優れた経路を生成することができることがわかった。
この論文のコードとビデオはここで見ることができる。 Particle Swarm Optimization (PSO) has demonstrated efficacy in addressing static path planning problems. Nevertheless, such application on dynamic scenarios has been severely precluded by PSO's low computational efficiency and premature convergence downsides. To address these limitations, we proposed a Tensor Operation Form (TOF) that converts particle-wise manipulations to tensor operations, thereby enhancing computational efficiency. Harnessing the computational advantage of TOF, a variant of PSO, designated as Self-Evolving Particle Swarm Optimization (SEPSO) was developed. The SEPSO is underpinned by a novel Hierarchical Self-Evolving Framework (HSEF) that enables autonomous optimization of its own hyper-parameters to evade premature convergence. Additionally, a Priori Initialization (PI) mechanism and an Auto Truncation (AT) mechanism that substantially elevates the real-time performance of SEPSO on dynamic path planning problems were introduced. Comprehensive experiments on four widely used benchmark optimization functions have been initially conducted to corroborate the validity of SEPSO. Following this, a dynamic simulation environment that encompasses moving start/target points and dynamic/static obstacles was employed to assess the effectiveness of SEPSO on the dynamic path planning problem. Simulation results exhibit that the proposed SEPSO is capable of generating superior paths with considerably better real-time performance (67 path planning computations per second in a regular desktop computer) in contrast to alternative methods. The code and video of this paper can be accessed here. | 翻訳日:2023-12-28 01:47:37 公開日:2023-12-24 |
# 表面強化ラマン散乱(SERS)におけるコヒーレント電子-電子相互作用 Coherent electron-vibron interactions in Surface-Enhanced Raman Scattering (SERS) ( http://arxiv.org/abs/2307.16859v3 ) ライセンス: Link先を確認 | Miguel A. Mart\'inez-Garc\'ia and Diego Mart\'in-Cano | (参考訳) 本研究では、オフ共鳴または共鳴サーの標準光力学モデルを超えて寄与する近共振および非共振電子準位間のコヒーレント電子-ビブロン相互作用を同定する。
第1の分子相互作用原理を用いてオープンシステム量子モデルを開発することにより、共鳴と非共鳴の両方の寄与に対するラマン干渉が、かつての光学的モデルや蛍光背景に関するSERSピークの桁違いの修正をいかに行うかを示す。
この協調光力学機構は、ストークスとアンチストークス光子の間の非古典光子対相関の強化を可能にし、光子計数測定によって検出することができる。
この結果は,SERSスペクトルからの光学的寄与の標準推定と,その量子力学的可観測効果に大きな影響を及ぼすコヒーレントな性質の強化と抑制を示す。 In this work we identify coherent electron-vibron interactions between near-resonant and non-resonant electronic levels that contribute beyond standard optomechanical models for off-resonant or resonance SERS. By developing an open-system quantum model using first molecular interaction principles, we show how the Raman interference of both resonant and non-resonant contributions can provide several orders of magnitude modifications of the SERS peaks with respect to former optomechanical models and over the fluorescence backgrounds. This cooperative optomechanical mechanism allows for generating an enhancement of nonclassical photon pair correlations between Stokes and anti-Stokes photons, which can be detected by photon-counting measurements. Our results demonstrate Raman enhancements and suppressions of coherent nature that significantly impact the standard estimations of the optomechanical contribution from SERS spectra and their quantum mechanical observable effects. | 翻訳日:2023-12-28 01:46:34 公開日:2023-12-24 |
# 学習リソース割り当てポリシー: vertex-gnn か edge-gnnか? Learning Resource Allocation Policy: Vertex-GNN or Edge-GNN? ( http://arxiv.org/abs/2307.12480v2 ) ライセンス: Link先を確認 | Yao Peng, Jia Guo and Chenyang Yang | (参考訳) グラフニューラルネットワーク(gnns)は、隣接する頂点とエッジの情報を処理してプールし、トポロジ情報を活用することにより、頂点の隠れ表現(頂点gnn)やエッジの隠れ表現(エッジgnnと呼ばれる)を更新する。
資源割り当てポリシーを学ぶとき、GNNは表現力が弱い場合、すなわちチャネル行列のような全ての入力特徴を区別できない場合、うまく機能しない。
本稿では,Vertex-GNNとEdge-GNNの表現力を分析し,リンクスケジューリング,電力制御,プリコーディングポリシの3つの代表的無線ポリシを学習する。
gnnの表現力は処理関数と組合せ関数の線形性と出力次元に依存することが判明した。
線形プロセッサを使用する場合、Vertex-GNNはチャネル情報の欠如により全てのチャネル行列を区別できないが、Edge-GNNは区別できる。
プリコーディングポリシーを学ぶとき、非線形プロセッサを持つVertex-GNNでさえ、次元圧縮のために強い表現能力を持っていないかもしれない。
我々は、GNNが事前コーディングポリシーを十分に学習するために必要な条件の提供を進めます。
シミュレーションの結果,Edge-GNNとVertex-GNNでは,トレーニング時間や推論時間を大幅に短縮できることがわかった。 Graph neural networks (GNNs) update the hidden representations of vertices (called Vertex-GNNs) or hidden representations of edges (called Edge-GNNs) by processing and pooling the information of neighboring vertices and edges and combining to exploit topology information. When learning resource allocation policies, GNNs cannot perform well if their expressive power is weak, i.e., if they cannot differentiate all input features such as channel matrices. In this paper, we analyze the expressive power of the Vertex-GNNs and Edge-GNNs for learning three representative wireless policies: link scheduling, power control, and precoding policies. We find that the expressive power of the GNNs depends on the linearity and output dimensions of the processing and combination functions. When linear processors are used, the Vertex-GNNs cannot differentiate all channel matrices due to the loss of channel information, while the Edge-GNNs can. When learning the precoding policy, even the Vertex-GNNs with non-linear processors may not be with strong expressive ability due to the dimension compression. We proceed to provide necessary conditions for the GNNs to well learn the precoding policy. Simulation results validate the analyses and show that the Edge-GNNs can achieve the same performance as the Vertex-GNNs with much lower training and inference time. | 翻訳日:2023-12-28 01:45:53 公開日:2023-12-24 |
# cpdg : 動的グラフニューラルネットワークのためのコントラスト事前学習法 CPDG: A Contrastive Pre-Training Method for Dynamic Graph Neural Networks ( http://arxiv.org/abs/2307.02813v3 ) ライセンス: Link先を確認 | Yuanchen Bei, Hao Xu, Sheng Zhou, Huixuan Chi, Haishuai Wang, Mengdi Zhang, Zhao Li, Jiajun Bu | (参考訳) 動的グラフデータマイニングは, 動的グラフに含まれる豊富な情報と実世界で広く利用されているため, 近年普及している。
動的グラフニューラルネットワーク(DGNN)の進歩にもかかわらず、豊富な情報と多様な下流タスクは、産業シナリオにおけるDGNNの実用化に重大な困難をもたらしている。
そこで本稿では,この課題を事前学習によって解決し,動的グラフニューラルネットワーク(cpdg)のためのコントラスト事前学習法を提案する。
CPDGは、構造的時間的コントラスト付き事前学習スキームとともに、柔軟な構造的時間的サブグラフサンプリング器を通じて、一般化能力と長期モデリング能力を含むDGNNの事前訓練の課題に取り組む。
大規模研究と産業用動的グラフデータセットの両方で実施された大規模な実験により、CPDGは3つの転送条件下での様々な下流タスクに対する動的グラフ事前学習において、既存の手法よりも優れた性能を示した。 Dynamic graph data mining has gained popularity in recent years due to the rich information contained in dynamic graphs and their widespread use in the real world. Despite the advances in dynamic graph neural networks (DGNNs), the rich information and diverse downstream tasks have posed significant difficulties for the practical application of DGNNs in industrial scenarios. To this end, in this paper, we propose to address them by pre-training and present the Contrastive Pre-Training Method for Dynamic Graph Neural Networks (CPDG). CPDG tackles the challenges of pre-training for DGNNs, including generalization capability and long-short term modeling capability, through a flexible structural-temporal subgraph sampler along with structural-temporal contrastive pre-training schemes. Extensive experiments conducted on both large-scale research and industrial dynamic graph datasets show that CPDG outperforms existing methods in dynamic graph pre-training for various downstream tasks under three transfer settings. | 翻訳日:2023-12-28 01:44:43 公開日:2023-12-24 |
# ランダム行列理論を用いたディープラーニングの精度向上 Enhancing Accuracy in Deep Learning Using Random Matrix Theory ( http://arxiv.org/abs/2310.03165v2 ) ライセンス: Link先を確認 | Leonid Berlyand, Etienne Sandier, Yitzchak Shmalo, Lei Zhang | (参考訳) 深層ニューラルネットワーク(DNN)のトレーニングにおけるランダム行列理論(RMT)の適用について検討し,DNNパラメータ(重み)の低減に寄与する層プルーニングに着目した。
数値計算の結果,DNNとCNNの精度は低下せず,パラメータの大幅な削減につながることが明らかとなった。
さらに,完全連結DNNのプルーニングにより精度が向上し,ランダム初期化のばらつきが低減される。
我々の数値は、この精度の向上は損失景観の単純化によるものであることを示している。
次に、RTTに基づくPruning Theoremを証明し、これらの数値結果の厳密な数学的基盤を提供する。
本研究は,より効率的で正確なディープラーニングモデルを作成するためのrmtの実践的応用に関する貴重な知見を提供する。 We explore the applications of random matrix theory (RMT) in the training of deep neural networks (DNNs), focusing on layer pruning that is reducing the number of DNN parameters (weights). Our numerical results show that this pruning leads to a drastic reduction of parameters while not reducing the accuracy of DNNs and CNNs. Moreover, pruning the fully connected DNNs actually increases the accuracy and decreases the variance for random initializations. Our numerics indicate that this enhancement in accuracy is due to the simplification of the loss landscape. We next provide rigorous mathematical underpinning of these numerical results by proving the RMT-based Pruning Theorem. Our results offer valuable insights into the practical application of RMT for the creation of more efficient and accurate deep-learning models. | 翻訳日:2023-12-28 01:35:50 公開日:2023-12-24 |
# 自発4光波混合における原子アンサンブル密度の増大による高相関性2光子の観察 Observation of Highly Correlated Ultrabright Biphotons Through Increased Atomic Ensemble Density in Spontaneous Four-Wave Mixing ( http://arxiv.org/abs/2312.12758v2 ) ライセンス: Link先を確認 | Jiun-Shiuan Shiu, Zi-Yu Liu, Chin-Yao Cheng, Yu-Chiao Huang, Ite A. Yu, Ying-Cheng Chen, Chih-Sung Chuu, Che-Ming Li, Shiang-Yu Wang, Yong-Fan Chen | (参考訳) 双光子源が相関する光子対を生成する能力を評価する重要な指標であるペアリング比は、理論的な予測にもかかわらず未探索のままである。
本研究は、コールド原子中の2-$\lambda$自発的4波混合二光子源を用いたペアリング比に関する実験結果を示す。
20の光学深度(OD)では、超高2光子生成速度が1.3\times10^7$/秒となり、ペアリング比が6.1\%$で成功した。
ODを120に増やすことでペアリング比が89\%$に向上し、一貫した双光子生成率を維持した。
この成果は、高い生成速度と堅牢な二光子ペアリングによって特徴づけられ、量子通信と情報処理における効率の進歩に大きな期待を抱いている。
さらに、biphoton生成率が5.0 \times 10^4$ per secondのシナリオでは、biphoton wavepacketの信号対バックグランド比が241で、コーシー・シュワルツ基準を約1.5\times10^4$で上回った。 The pairing ratio, a crucial metric assessing a biphoton source's ability to generate correlated photon pairs, remains underexplored despite theoretical predictions. This study presents experimental findings on the pairing ratio, utilizing a double-$\Lambda$ spontaneous four-wave mixing biphoton source in cold atoms. At an optical depth (OD) of 20, we achieved an ultrahigh biphoton generation rate of up to $1.3\times10^7$ per second, with a successful pairing ratio of $61\%$. Increasing the OD to 120 significantly improved the pairing ratio to $89\%$, while maintaining a consistent biphoton generation rate. This achievement, marked by high generation rates and robust biphoton pairing, holds great promise for advancing efficiency in quantum communication and information processing. Additionally, in a scenario with a lower biphoton generation rate of $5.0 \times 10^4$ per second, we attained an impressive signal-to-background ratio of 241 for the biphoton wavepacket, surpassing the Cauchy-Schwarz criterion by approximately $1.5\times10^4$ times. | 翻訳日:2023-12-28 01:26:38 公開日:2023-12-24 |
# ガウス過程による人口・環境観測からの平均場ゲームデコード Decoding Mean Field Games from Population and Environment Observations By Gaussian Processes ( http://arxiv.org/abs/2312.06625v2 ) ライセンス: Link先を確認 | Jinyan Guo, Chenchen Mou, Xianjin Yang, Chao Zhou | (参考訳) 本稿では、平均フィールドゲーム(MFG)における逆問題に対処するため、回帰および分類タスクに対して広く認識されている非パラメトリック手法であるガウス過程(GP)フレームワークを提案する。
gpsを活用することで,エージェントの集団と環境の設定に関する部分的および騒がしい観察から,エージェントの戦略行動と環境構成を回復することを目指している。
本手法は,mfgsにおけるエージェントの挙動を,包括的データセットがアクセス不能あるいはノイズによって汚染された場合のデータから推定する確率的ツールである。 This paper presents a Gaussian Process (GP) framework, a non-parametric technique widely acknowledged for regression and classification tasks, to address inverse problems in mean field games (MFGs). By leveraging GPs, we aim to recover agents' strategic actions and the environment's configurations from partial and noisy observations of the population of agents and the setup of the environment. Our method is a probabilistic tool to infer the behaviors of agents in MFGs from data in scenarios where the comprehensive dataset is either inaccessible or contaminated by noises. | 翻訳日:2023-12-28 01:23:08 公開日:2023-12-24 |
# Autler-Townes効果における超微細相互作用II:モリス-ショア基底における2光子選択規則の制御 Hyperfine interaction in the Autler-Townes effect II: control of two-photon selection rules in the Morris-Shore basis ( http://arxiv.org/abs/2312.02801v2 ) ライセンス: Link先を確認 | Arturs Cinins and Dmitry K. Efimov and Martins Bruvelis and Kaspars Miculis and Teodora Kirova and Nikolai N. Bezuglov and Igor I. Ryabtsev and Marcis Auzinsh and Aigars Ekers | (参考訳) アルカリ金属原子のAutler-Townesレーザー励起スペクトルにおける特定の明るいピークの欠如について検討した。
我々の研究は、これらのスペクトルのディップは、超微細(HF)成分中のアディバティックな状態の特定の構造(または ' `laser-dressed'')によって引き起こされることを明らかにした。
服装状態の分析は、2光子励起方式におけるHF励起経路間の構成的および破壊的干渉が利用可能な2光子遷移を制限するいくつかの事例を指摘した。
これにより、全角運動量$F$の従来の2光子選択規則が$\Delta F=0,\pm 1$から$\Delta F\equiv 0$へと減少する。
我々の発見はアルカリ金属原子中のHF$F$=$ns_{1/2}$Rydberg状態の集団を選択的に制御する実用的な方法である。
ナトリウム原子とルビジウム原子との数値シミュレーションを用いて、特別に調整された補助制御レーザー場とのHF相互作用の効果を遮断することにより、HF成分の理想的な選択性からの偏差がNaに対して0.01\%、Rb原子に対して0.001\%以下となることを示した。 We investigated the absence of certain bright peaks in Autler-Townes laser excitation spectra of alkali metal atoms. Our research revealed that these dips in the spectra are caused by a specific architecture of adiabatic (or ``laser-dressed'') states in hyperfine (HF) components. The dressed states' analysis pinpointed several cases where constructive and destructive interference between HF excitation pathways in a two-photon excitation scheme limits the available two-photon transitions. This results in a reduction of the conventional two-photon selection rule for the total angular momentum $F$, from $\Delta F= 0,\pm 1$ to $\Delta F\equiv 0$. Our discovery presents practical methods for selectively controlling the populations of unresolvable HF $F$-components of $ns_{1/2}$ Rydberg states in alkali metal atoms. Using numerical simulations with sodium and rubidium atoms, we demonstrate that by blocking the effects of HF interaction with a specially tuned auxiliary control laser field, the deviations from the ideal selectivity of the HF components population can be lower than $0.01\%$ for Na and $0.001\%$ for Rb atoms. | 翻訳日:2023-12-28 01:21:46 公開日:2023-12-24 |
# 複数のソースコード表現がソフトウェアエンジニアリングタスクに与える影響について-実証的研究 On the Impact of Multiple Source Code Representations on Software Engineering Tasks -- An Empirical Study ( http://arxiv.org/abs/2106.10918v5 ) ライセンス: Link先を確認 | Karthik Chandra Swarna, Noble Saji Mathews, Dheeraj Vagavolu, Sridhar Chimalakonda | (参考訳) ソースコードの効率的な表現は、コード分類やクローン検出など、さまざまなソフトウェアエンジニアリングタスクに不可欠である。
既存のアプローチでは、主にAST(Abstract Syntax Tree)を使用し、ASTにはないソースコードに関する情報を含む制御フローグラフ(CFG)やプログラム依存性グラフ(PDG)といったセマンティックグラフにのみフォーカスする。
複数の表現を使おうとした作品もあるが、複数の表現を使用することのコストやメリットについての洞察は提供していない。
本稿では,複数のコード表現,特にAST,CFG,PDGを活用することの意味について議論する。
我々は、ASTパスに基づくアプローチを変更し、注意に基づくモデルへの入力として複数の表現を受け入れる。
我々は ast に対する追加表現(cfg や pdg など)の影響を測定するためにこれを行う。
提案手法は,メソッド命名,プログラム分類,クローン検出の3つのタスクで評価する。
提案手法は,これらのタスクの性能を,ベースライン上でそれぞれ11%(F1),15.7%(Accuracy),9.3%(F1)で向上させる。
性能への影響に加えて,複数表現による時間オーバーヘッドについても検討する。
様々なタスクに対するコード表現の組み合わせを評価するためのレンズを研究者に提供する。 Efficiently representing source code is crucial for various software engineering tasks such as code classification and clone detection. Existing approaches primarily use Abstract Syntax Tree (AST), and only a few focus on semantic graphs such as Control Flow Graph (CFG) and Program Dependency Graph (PDG), which contain information about source code that AST does not. Even though some works tried to utilize multiple representations, they do not provide any insights about the costs and benefits of using multiple representations. The primary goal of this paper is to discuss the implications of utilizing multiple code representations, specifically AST, CFG, and PDG. We modify an AST path-based approach to accept multiple representations as input to an attention-based model. We do this to measure the impact of additional representations (such as CFG and PDG) over AST. We evaluate our approach on three tasks: Method Naming, Program Classification, and Clone Detection. Our approach increases the performance on these tasks by 11% (F1), 15.7% (Accuracy), and 9.3% (F1), respectively, over the baseline. In addition to the effect on performance, we discuss timing overheads incurred with multiple representations. We envision this work providing researchers with a lens to evaluate combinations of code representations for various tasks. | 翻訳日:2023-12-27 23:37:45 公開日:2023-12-24 |
# 反復的視覚・言語ナビゲーション Iterative Vision-and-Language Navigation ( http://arxiv.org/abs/2210.03087v3 ) ライセンス: Link先を確認 | Jacob Krantz, Shurjo Banerjee, Wang Zhu, Jason Corso, Peter Anderson, Stefan Lee and Jesse Thomason | (参考訳) 本稿では,永続環境における言語誘導エージェントの時間経過を評価するためのパラダイムである反復的視覚言語ナビゲーション(ivln)を提案する。
既存のVision-and-Language Navigation (VLN)ベンチマークは、各エピソードの開始時にエージェントのメモリを消去し、事前情報なしでコールドスタートナビゲーションを実行する機能をテストする。
しかし、展開されたロボットは同じ環境を長時間占有する。
IVLNパラダイムは、最大100の命令追従のRoom-to-Room(R2R)エピソードからなるシーンのツアーを通してメモリを維持するVLNエージェントをトレーニングし、評価することで、この格差に対処する。
室内80シーンに約400のツアーからなるir2rベンチマークを離散的かつ連続的に実施する。
高性能トランスフォーマーVLNエージェントの暗黙的メモリの拡張はIVLNには不十分であるが、マップを構築するエージェントは環境の持続性から恩恵を受け、VLNのマップ構築エージェントに新たな焦点をあてる動機となっている。 We present Iterative Vision-and-Language Navigation (IVLN), a paradigm for evaluating language-guided agents navigating in a persistent environment over time. Existing Vision-and-Language Navigation (VLN) benchmarks erase the agent's memory at the beginning of every episode, testing the ability to perform cold-start navigation with no prior information. However, deployed robots occupy the same environment for long periods of time. The IVLN paradigm addresses this disparity by training and evaluating VLN agents that maintain memory across tours of scenes that consist of up to 100 ordered instruction-following Room-to-Room (R2R) episodes, each defined by an individual language instruction and a target path. We present discrete and continuous Iterative Room-to-Room (IR2R) benchmarks comprising about 400 tours each in 80 indoor scenes. We find that extending the implicit memory of high-performing transformer VLN agents is not sufficient for IVLN, but agents that build maps can benefit from environment persistence, motivating a renewed focus on map-building agents in VLN. | 翻訳日:2023-12-27 23:32:42 公開日:2023-12-24 |
# 埋め込み空間におけるトランスフォーマーの解析 Analyzing Transformers in Embedding Space ( http://arxiv.org/abs/2209.02535v3 ) ライセンス: Link先を確認 | Guy Dar, Mor Geva, Ankit Gupta, Jonathan Berant | (参考訳) Transformerベースのモデルを理解することは、機械学習における最近の技術進歩の中心にあるため、大きな注目を集めている。
ほとんどの解釈可能性法は入力上のモデルの実行に依存しているが、最近の研究は、パラメータが前方/後方のパスなしで直接解釈されるゼロパスアプローチがトランスフォーマーパラメータや2層アテンションネットワークで実現可能であることを示した。
本研究では,学習したトランスフォーマーのすべてのパラメータを,埋め込み空間,すなわち操作する語彙項目の空間に投影することで解釈する理論解析について述べる。
議論を支持するための単純な理論的枠組みを導き、その妥当性を示す十分な証拠を提供する。
第一に、事前学習と微調整の両方のモデルのパラメータが埋め込み空間で解釈できることを示す経験的解析である。
次に、フレームワークの2つの応用例を示す。
(a)語彙を共有する異なるモデルのパラメータを調整し、
b) " ``lating'' でトレーニングせずに分類器を、事前訓練された異なるモデルのパラメータに微調整分類器のパラメータを変換する。
全体としては、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。 Understanding Transformer-based models has attracted significant attention, as they lie at the heart of recent technological advances across machine learning. While most interpretability methods rely on running models over inputs, recent work has shown that a zero-pass approach, where parameters are interpreted directly without a forward/backward pass is feasible for some Transformer parameters, and for two-layer attention networks. In this work, we present a theoretical analysis where all parameters of a trained Transformer are interpreted by projecting them into the embedding space, that is, the space of vocabulary items they operate on. We derive a simple theoretical framework to support our arguments and provide ample evidence for its validity. First, an empirical analysis showing that parameters of both pretrained and fine-tuned models can be interpreted in embedding space. Second, we present two applications of our framework: (a) aligning the parameters of different models that share a vocabulary, and (b) constructing a classifier without training by ``translating'' the parameters of a fine-tuned classifier to parameters of a different model that was only pretrained. Overall, our findings open the door to interpretation methods that, at least in part, abstract away from model specifics and operate in the embedding space only. | 翻訳日:2023-12-27 23:32:21 公開日:2023-12-24 |
# 大きな言語モデルが医学的問題に当てはまるか? Can large language models reason about medical questions? ( http://arxiv.org/abs/2207.08143v4 ) ライセンス: Link先を確認 | Valentin Li\'evin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther | (参考訳) 大規模言語モデル(LLM)は、しばしば印象的なアウトプットを生成するが、強力な推論スキルと専門家のドメイン知識を必要とする現実のシナリオでどのように機能するかは、まだ不明である。
そこで我々は,GPT-3.5やLLama-2などのオープンソースモデルが,現実の難解な疑問に答える上で有効かどうかを考察した。
我々は3つの人気のある医療ベンチマーク(MedQA-USMLE、MedMCQA、PubMedQA)と複数のプロンプトシナリオに焦点を当てている。
生成されたCoTのエキスパートアノテーションに基づいて、InstructGPTは専門家の知識を読み、分析し、リコールすることができることがわかった。
最後に, プロンプト工学(フェーショット法とアンサンブル法)の進歩を利用して, GPT-3.5がキャリブレーションされた予測分布を得るだけでなく, MedQA-USMLE 60.2%, MedMCQA 62.7%, PubMedQA 78.2%の3つのデータセットでパススコアに達することを示した。
Llama-2 70Bは62.5%の精度でMedQA-USMLEをパスした。 Although large language models (LLMs) often produce impressive outputs, it remains unclear how they perform in real-world scenarios requiring strong reasoning skills and expert domain knowledge. We set out to investigate whether close- and open-source models (GPT-3.5, LLama-2, etc.) can be applied to answer and reason about difficult real-world-based questions. We focus on three popular medical benchmarks (MedQA-USMLE, MedMCQA, and PubMedQA) and multiple prompting scenarios: Chain-of-Thought (CoT, think step-by-step), few-shot and retrieval augmentation. Based on an expert annotation of the generated CoTs, we found that InstructGPT can often read, reason and recall expert knowledge. Last, by leveraging advances in prompt engineering (few-shot and ensemble methods), we demonstrated that GPT-3.5 not only yields calibrated predictive distributions, but also reaches the passing score on three datasets: MedQA-USMLE 60.2%, MedMCQA 62.7% and PubMedQA 78.2%. Open-source models are closing the gap: Llama-2 70B also passed the MedQA-USMLE with 62.5% accuracy. | 翻訳日:2023-12-27 23:30:19 公開日:2023-12-24 |
# 決定境界による深層学習の理解 Understanding Deep Learning via Decision Boundary ( http://arxiv.org/abs/2206.01515v2 ) ライセンス: Link先を確認 | Shiye Lei, Fengxiang He, Yancheng Yuan, Dacheng Tao | (参考訳) 本稿では,決定境界(db)変動率の低いニューラルネットワークの一般化性について検討する。
2つの新しい概念、アルゴリズムDB変数と$(\epsilon, \eta)$-data DB変数は、アルゴリズムとデータの観点から決定境界変数を測定するために提案される。
大規模実験では,決定境界変数と一般化可能性との間に有意な負の相関が認められた。
理論的観点からは、アルゴリズムDBの可変性に基づく2つの下位境界が提案され、標本サイズに明示的に依存しない。
また、データ DB の変数に基づいて、次数 $\mathcal{O}\left(\frac{1}{\sqrt{m}}+\epsilon+\eta\log\frac{1}{\eta}\right)$ の上限も証明する。
境界はラベルの必要なしに推定するのに便利であり、深層学習で通常禁止される大きさのネットワークサイズに明示的に依存しない。 This paper discovers that the neural network with lower decision boundary (DB) variability has better generalizability. Two new notions, algorithm DB variability and $(\epsilon, \eta)$-data DB variability, are proposed to measure the decision boundary variability from the algorithm and data perspectives. Extensive experiments show significant negative correlations between the decision boundary variability and the generalizability. From the theoretical view, two lower bounds based on algorithm DB variability are proposed and do not explicitly depend on the sample size. We also prove an upper bound of order $\mathcal{O}\left(\frac{1}{\sqrt{m}}+\epsilon+\eta\log\frac{1}{\eta}\right)$ based on data DB variability. The bound is convenient to estimate without the requirement of labels, and does not explicitly depend on the network size which is usually prohibitively large in deep learning. | 翻訳日:2023-12-27 23:29:12 公開日:2023-12-24 |
# オンデバイス学習によるトレーニングデータとデプロイ環境のギャップの解消 Addressing Gap between Training Data and Deployed Environment by On-Device Learning ( http://arxiv.org/abs/2203.01077v4 ) ライセンス: Link先を確認 | Kazuki Sunaga, Masaaki Kondo, Hiroki Matsutani | (参考訳) 小型MLアプリケーションの精度は、ノイズ、センサーの位置/校正、時間的変化など、様々な環境要因に影響されることが多い。
本稿では、デプロイ環境における再トレーニングによってこの問題に対処する、オンデバイスラーニング(ODL)アプローチに基づくニューラルネットワークを紹介する。
我々のアプローチは、ローエンドエッジデバイス用に調整された複数のニューラルネットワークの半教師付きシーケンシャルトレーニングに依存している。
本稿では,raspberry pi pi picoと低消費電力無線モジュールからなる無線センサノードのアルゴリズムと実装を紹介する。
回転機械の振動パターンを用いた実験により、odlによる再訓練は雑音環境における予測のみのディープニューラルネットワークに比べて異常検出精度が向上することを示した。
また,ODL方式により,電池駆動のIoTデバイスにおける通信コストと省エネルギー化が図られている。 The accuracy of tinyML applications is often affected by various environmental factors, such as noises, location/calibration of sensors, and time-related changes. This article introduces a neural network based on-device learning (ODL) approach to address this issue by retraining in deployed environments. Our approach relies on semi-supervised sequential training of multiple neural networks tailored for low-end edge devices. This article introduces its algorithm and implementation on wireless sensor nodes consisting of a Raspberry Pi Pico and low-power wireless module. Experiments using vibration patterns of rotating machines demonstrate that retraining by ODL improves anomaly detection accuracy compared with a prediction-only deep neural network in a noisy environment. The results also show that the ODL approach can save communication cost and energy consumption for battery-powered Internet of Things devices. | 翻訳日:2023-12-27 23:28:56 公開日:2023-12-24 |
# 遅延フィードバックを用いた逐次決定のための削減型フレームワーク A Reduction-based Framework for Sequential Decision Making with Delayed Feedback ( http://arxiv.org/abs/2302.01477v4 ) ライセンス: Link先を確認 | Yunchang Yang, Han Zhong, Tianhao Wu, Bin Liu, Liwei Wang, Simon S. Du | (参考訳) バンディット,単一エージェントマルコフ決定プロセス (mdps), マルコフゲーム (mgs) を含むマルチエージェントシーケンシャル意思決定における確率的遅延フィードバックについて検討した。
本稿では, 逐次決定のためのマルチバッチアルゴリズムを, 短時間のフィードバックで, 逐次決定における確率的遅延を処理できるサンプル効率アルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。
我々のフレームワークに様々なマルチバッチアルゴリズムを組み込むことで、我々のフレームワークがバンドレート、表型MDP、表型MGの既存の結果にマッチまたは改善するだけでなく、関数近似による逐次決定の遅延に関する最初の研究ラインも提供する。
まとめると、遅延フィードバックを伴う複数エージェントのシーケンシャルな意思決定のための、鋭い結果の完全なセットを提供する。 We study stochastic delayed feedback in general multi-agent sequential decision making, which includes bandits, single-agent Markov decision processes (MDPs), and Markov games (MGs). We propose a novel reduction-based framework, which turns any multi-batched algorithm for sequential decision making with instantaneous feedback into a sample-efficient algorithm that can handle stochastic delays in sequential decision making. By plugging different multi-batched algorithms into our framework, we provide several examples demonstrating that our framework not only matches or improves existing results for bandits, tabular MDPs, and tabular MGs, but also provides the first line of studies on delays in sequential decision making with function approximation. In summary, we provide a complete set of sharp results for multi-agent sequential decision making with delayed feedback. | 翻訳日:2023-12-27 23:20:32 公開日:2023-12-24 |
# 複数制約に対する信頼領域に基づく安全分布強化学習 Trust Region-Based Safe Distributional Reinforcement Learning for Multiple Constraints ( http://arxiv.org/abs/2301.10923v2 ) ライセンス: Link先を確認 | Dohyeong Kim, Kyungjae Lee, Songhwai Oh | (参考訳) 安全クリティカルなロボットタスクでは、潜在的な障害を低減し、衝突の回避、エネルギー消費の制限、バランスの維持など、複数の制約を満たさなければならない。
したがって、ロボットタスクに安全な強化学習(RL)を適用するには、複数の制約を処理し、リスク中立的な制約ではなく、リスク逆制約を使用する必要がある。
そこで本稿では,安全分散アクタ批判 (SDAC) と呼ばれる複数の制約に対する信頼領域に基づく安全なRLアルゴリズムを提案する。
主な貢献は以下の通りである。
1)多制約問題における不実現性問題を管理し、理論的収束を確保するための勾配積分法の導入
2) 低バイアスのリスク逆制約を推定するためにTD($\lambda$)ターゲット分布を開発する。
複数制約のロボットタスクを含む広範囲な実験を通じてSDACを評価する。
高得点を維持しながら、SDACはマルチ制約タスクにおける全ての制約を満たすための1.93倍のステップを示し、シングル制約タスクにおける制約違反は安全なRLベースラインに比べて1.78倍少ない。
コードは、https://github.com/rllab-snu/Safe-Distributional-Actor-Criticで入手できる。 In safety-critical robotic tasks, potential failures must be reduced, and multiple constraints must be met, such as avoiding collisions, limiting energy consumption, and maintaining balance. Thus, applying safe reinforcement learning (RL) in such robotic tasks requires to handle multiple constraints and use risk-averse constraints rather than risk-neutral constraints. To this end, we propose a trust region-based safe RL algorithm for multiple constraints called a safe distributional actor-critic (SDAC). Our main contributions are as follows: 1) introducing a gradient integration method to manage infeasibility issues in multi-constrained problems, ensuring theoretical convergence, and 2) developing a TD($\lambda$) target distribution to estimate risk-averse constraints with low biases. We evaluate SDAC through extensive experiments involving multi- and single-constrained robotic tasks. While maintaining high scores, SDAC shows 1.93 times fewer steps to satisfy all constraints in multi-constrained tasks and 1.78 times fewer constraint violations in single-constrained tasks compared to safe RL baselines. Code is available at: https://github.com/rllab-snu/Safe-Distributional-Actor-Critic. | 翻訳日:2023-12-27 23:20:03 公開日:2023-12-24 |
# データセット蒸留に関する総合調査 A Comprehensive Survey of Dataset Distillation ( http://arxiv.org/abs/2301.05603v4 ) ライセンス: Link先を確認 | Shiye Lei and Dacheng Tao | (参考訳) ディープラーニング技術は過去10年間に前例のない発展を遂げ、多くのアプリケーションドメインで主要な選択肢となっている。
この進歩は主に、急速に成長するコンピューティング資源が高度なアルゴリズムに大量のデータを扱うことを奨励する体系的なコラボレーションによるものである。
しかし、計算能力に制限のあるデータの無制限な成長を扱うことは徐々に困難になっている。
この目的のために、データ処理効率を改善するために様々なアプローチが提案されている。
データセット削減法であるデータセット蒸留は、重要なデータから小さな典型的なデータセットを合成することでこの問題に対処し、ディープラーニングコミュニティから多くの注目を集めている。
既存のデータセット蒸留法は、ターゲットデータのパフォーマンスを明示的に模倣するかどうかに応じて、メタラーニングとデータマッチングフレームワークに分類することができる。
データセットの蒸留は、データセットの圧縮において驚くべき性能を示したが、高解像度のデータや複雑なラベル空間を持つデータの蒸留など、いくつかの制限がある。
本稿では, 蒸留フレームワークとアルゴリズム, 因子化データセット蒸留, 性能比較, 応用など, 様々な側面からデータセット蒸留を総合的に理解する。
最後に,今後のデータセット蒸留研究の推進に向けた課題と今後の方向性について述べる。 Deep learning technology has developed unprecedentedly in the last decade and has become the primary choice in many application domains. This progress is mainly attributed to a systematic collaboration in which rapidly growing computing resources encourage advanced algorithms to deal with massive data. However, it has gradually become challenging to handle the unlimited growth of data with limited computing power. To this end, diverse approaches are proposed to improve data processing efficiency. Dataset distillation, a dataset reduction method, addresses this problem by synthesizing a small typical dataset from substantial data and has attracted much attention from the deep learning community. Existing dataset distillation methods can be taxonomized into meta-learning and data matching frameworks according to whether they explicitly mimic the performance of target data. Although dataset distillation has shown surprising performance in compressing datasets, there are still several limitations such as distilling high-resolution data or data with complex label spaces. This paper provides a holistic understanding of dataset distillation from multiple aspects, including distillation frameworks and algorithms, factorized dataset distillation, performance comparison, and applications. Finally, we discuss challenges and promising directions to further promote future studies on dataset distillation. | 翻訳日:2023-12-27 23:19:21 公開日:2023-12-24 |
# 量子参照自然放射トモグラフィ Quantum-Referenced Spontaneous Emission Tomography ( http://arxiv.org/abs/2212.12521v3 ) ライセンス: Link先を確認 | I. I. Faruque, B. M. Burridge, M. Banic, M. Borghi, J. E. Sipe, J. G. Rarity, and J. Barreto | (参考訳) そこで本研究では,主に非文字化された「ターゲット」源から発する自発光子対の結合スペクトル位相(JSP)を測定するトモグラフィー法を提案する。
対象源と基準源との量子干渉を用いて4つのスペクトル分解測定値でjspを抽出し、q-spet(quantum-referenced spontaneous emission tomography)と呼ぶ。
本手法をマイクロリング共振器光子対光源用フォトニック集積回路上で実証した。
その結果, マイクロリング共振器から自然発振する光子対は, 励起励起放射とは大きく異なり, 光源の詳細な知識のない古典的励起励起放射トモグラフィーでは, 一般的には十分に特徴付けることができないことがわかった。 We present a method of tomography that measures the joint spectral phase (JSP) of spontaneously emitted photon pairs originating from a largely uncharacterized ``target" source. We use quantum interference between our target source and a reference source to extract the JSP with four spectrally resolved measurements, in a process that we call quantum-referenced spontaneous emission tomography (Q-SpET). We have demonstrated this method on a photonic integrated circuit for a target micro-ring resonator photon-pair source. Our results show that spontaneously emitted photon pairs from a micro-ring resonator are distinctively different from that of stimulated emission, and thus cannot in general be fully characterized using classical stimulated emission tomography without detailed knowledge of the source. | 翻訳日:2023-12-27 23:18:37 公開日:2023-12-24 |
# XKD:ビデオ表現学習のためのドメインアライメントを用いたクロスモーダル知識蒸留 XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning ( http://arxiv.org/abs/2211.13929v5 ) ライセンス: Link先を確認 | Pritam Sarkar and Ali Etemad | (参考訳) ビデオから意味のある表現を学習するための新しい自己教師型フレームワークXKDを提案する。
XKDは2つの擬似目的で訓練されている。
まず、マスキングデータ再構成を行い、オーディオおよびビジュアルストリームからモダリティ固有の表現を学習する。
次に、教師/学生が相補的な情報を学ぶためのセットアップを通じて、2つのモダリティ間で自己指導型クロスモーダルな知識蒸留を行う。
本稿では,音声と視覚の領域的不一致に対処し,効果的なクロスモーダル知識蒸留を可能にする新しいドメインアライメント戦略を提案する。
また、オーディオストリームと視覚ストリームの両方を扱える汎用ネットワークを開発するために、異なるオーディオタスクと視覚タスクに同じ事前学習されたバックボーンを使用するXKDのモダリティに依存しない変種を導入する。
提案するクロスモーダル知識蒸留は, ucf101, hmdb51, kinetics400において, ビデオアクションの分類を8〜14\%向上させる。
さらに、XKD は Kinetics-Sound 上でのマルチモーダルアクション分類を 5.5 % 改善している。
XKDはESC50の音響分類における最先端性能を示し、最高1の精度は96.5 %$である。 We present XKD, a novel self-supervised framework to learn meaningful representations from unlabelled videos. XKD is trained with two pseudo objectives. First, masked data reconstruction is performed to learn modality-specific representations from audio and visual streams. Next, self-supervised cross-modal knowledge distillation is performed between the two modalities through a teacher-student setup to learn complementary information. We introduce a novel domain alignment strategy to tackle domain discrepancy between audio and visual modalities enabling effective cross-modal knowledge distillation. Additionally, to develop a general-purpose network capable of handling both audio and visual streams, modality-agnostic variants of XKD are introduced, which use the same pretrained backbone for different audio and visual tasks. Our proposed cross-modal knowledge distillation improves video action classification by $8\%$ to $14\%$ on UCF101, HMDB51, and Kinetics400. Additionally, XKD improves multimodal action classification by $5.5\%$ on Kinetics-Sound. XKD shows state-of-the-art performance in sound classification on ESC50, achieving top-1 accuracy of $96.5\%$. | 翻訳日:2023-12-27 23:16:57 公開日:2023-12-24 |
# Snippet-Feature 推定による時間的行動位置推定 Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature ( http://arxiv.org/abs/2303.12332v3 ) ライセンス: Link先を確認 | Wulian Yun, Mengshi Qi, Chuanming Wang, Huadong Ma | (参考訳) 弱教師付き時間的行動ローカライゼーションは、ビデオレベルラベルのみを監督として、アクション領域を特定し、未トリミングビデオ内のアクションカテゴリを同時に特定することを目的としている。
疑似ラベル生成は課題を解決するための有望な戦略であるが、現在の手法では映像の自然な時間構造を無視し、そのような生成プロセスを支援するために豊富な情報を提供できる。
本稿では,salient snippet-featureを推定し,新しい弱教師付き時間的行動定位法を提案する。
まず, 時間的近傍スニペット間の変動関係を利用して, 映像中の顕著な動的変化を反映した, 顕著なスニペット特徴を検出するサリエンシ推論モジュールを設計する。
第2に,情報インタラクションユニットを通じて,スニペット機能を強化した境界改良モジュールを提案する。
そして、スニペット特徴の識別性を高めるために識別強化モジュールを導入する。
最後に,高信頼な擬似ラベルを生成するために,洗練されたスニペット機能を採用し,アクションローカライズネットワークのトレーニングを監督する。
THUMOS14とActivityNet v1.3の2つの公開データセットに対する大規模な実験により、提案手法は最先端の手法と比較して大幅に改善されていることを示す。 Weakly-supervised temporal action localization aims to locate action regions and identify action categories in untrimmed videos simultaneously by taking only video-level labels as the supervision. Pseudo label generation is a promising strategy to solve the challenging problem, but the current methods ignore the natural temporal structure of the video that can provide rich information to assist such a generation process. In this paper, we propose a novel weakly-supervised temporal action localization method by inferring salient snippet-feature. First, we design a saliency inference module that exploits the variation relationship between temporal neighbor snippets to discover salient snippet-features, which can reflect the significant dynamic change in the video. Secondly, we introduce a boundary refinement module that enhances salient snippet-features through the information interaction unit. Then, a discrimination enhancement module is introduced to enhance the discriminative nature of snippet-features. Finally, we adopt the refined snippet-features to produce high-fidelity pseudo labels, which could be used to supervise the training of the action localization network. Extensive experiments on two publicly available datasets, i.e., THUMOS14 and ActivityNet v1.3, demonstrate our proposed method achieves significant improvements compared to the state-of-the-art methods. | 翻訳日:2023-12-27 23:08:03 公開日:2023-12-24 |
# タスク非依存型プレフィックス・プロンプトの指導後効果の検討 Investigating the Effectiveness of Task-Agnostic Prefix Prompt for Instruction Following ( http://arxiv.org/abs/2302.14691v2 ) ライセンス: Link先を確認 | Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo | (参考訳) 本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力に前倒しすることで,様々な大規模言語モデル(LLM)の命令追従能力が向上することを示す。
TAPP は LLM の標準的プロンプトと異なり、ゼロショット一般化の目的タスクに関わらず、全ての入力の開始に先立つ固定的なプロンプトである。
基礎LLM(命令に従うための微調整)と命令調整モデルの両方がTAPPの恩恵を受けており,それぞれ平均で34.58%,12.26%の改善が見られた。
このことは、単純なヒューリスティックで構築された固定プロンプトを用いて、推論時間中にLLMの命令追従能力を改善することができることを意味している。
我々は、TAPPが言語モデルにおいて、推論中のタスクの指示にもっと集中することで、出力分布をより正確に推定するのに役立つと仮定する。
言い換えれば、そのような能力は、ベースLLMだけでなく、多くの命令細調整LDMでも十分に活性化されているようには見えない。
実験はすべて、https://github.com/seonghyeonye/tappから再現できる。 In this paper, we present our finding that prepending a Task-Agnostic Prefix Prompt (TAPP) to the input improves the instruction-following ability of various Large Language Models (LLMs) during inference. TAPP is different from canonical prompts for LLMs in that it is a fixed prompt prepended to the beginning of every input regardless of the target task for zero-shot generalization. We observe that both base LLMs (i.e. not fine-tuned to follow instructions) and instruction-tuned models benefit from TAPP, resulting in 34.58% and 12.26% improvement on average, respectively. This implies that the instruction-following ability of LLMs can be improved during inference time with a fixed prompt constructed with simple heuristics. We hypothesize that TAPP assists language models to better estimate the output distribution by focusing more on the instruction of the target task during inference. In other words, such ability does not seem to be sufficiently activated in not only base LLMs but also many instruction-fine-tuned LLMs. All experiments are reproducible from https://github.com/seonghyeonye/TAPP. | 翻訳日:2023-12-27 23:06:20 公開日:2023-12-24 |
# CLIP-VG: Visual GroundingのためのCLIPの自己ペーストカリキュラム適応 CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding ( http://arxiv.org/abs/2305.08685v4 ) ライセンス: Link先を確認 | Linhui Xiao, Xiaoshan Yang, Fang Peng, Ming Yan, Yaowei Wang, Changsheng Xu | (参考訳) 視覚的グラウンドリング(VG)は視覚と言語において重要なトピックであり、画像内の表現によって記述された特定の領域を特定する。
手動ラベル付きデータへの依存を減らすために,疑似ラベルを用いた領域同定のために教師なしの視覚接地法が開発されている。
しかし、既存の教師なし手法の性能は擬似ラベルの品質に大きく依存しており、これらの手法は常に多様性に制限のある問題に遭遇する。
視覚と言語を事前学習したモデルを用いて基礎問題に対処し,疑似ラベルを合理的に活用するために,CLIPを擬似言語ラベルに適応させる新しい手法であるCLIP-VGを提案する。
本稿では,CLIPの視覚的基盤への転送を実現するための,シンプルで効率的なエンドツーエンドネットワークアーキテクチャを提案する。
クリップベースアーキテクチャに基づき,より信頼性の高い疑似ラベルを徐々に見つけて最適なモデルを学習し,疑似言語ラベルの信頼性と多様性のバランスを図るための,単元・複数ソースのカリキュラム適応アルゴリズムを提案する。
本手法は,単一ソースシナリオと複数ソースシナリオの両方において,refcoco/+/gデータセットを有意なマージンで上回り,それぞれ6.78$\%$から10.67$\%$,11.39$\%$から14.87$\%$に改善した。
その結果、既存の弱教師付き視覚接地法よりも優れていた。
さらに,本手法は完全教師付き環境での競争性も高い。
コードとモデルはhttps://github.com/linhuixiao/CLIP-VGで公開されている。 Visual Grounding (VG) is a crucial topic in the field of vision and language, which involves locating a specific region described by expressions within an image. To reduce the reliance on manually labeled data, unsupervised visual grounding have been developed to locate regions using pseudo-labels. However, the performance of existing unsupervised methods is highly dependent on the quality of pseudo-labels and these methods always encounter issues with limited diversity. In order to utilize vision and language pre-trained models to address the grounding problem, and reasonably take advantage of pseudo-labels, we propose CLIP-VG, a novel method that can conduct self-paced curriculum adapting of CLIP with pseudo-language labels. We propose a simple yet efficient end-to-end network architecture to realize the transfer of CLIP to the visual grounding. Based on the CLIP-based architecture, we further propose single-source and multi-source curriculum adapting algorithms, which can progressively find more reliable pseudo-labels to learn an optimal model, thereby achieving a balance between reliability and diversity for the pseudo-language labels. Our method outperforms the current state-of-the-art unsupervised method by a significant margin on RefCOCO/+/g datasets in both single-source and multi-source scenarios, with improvements ranging from 6.78$\%$ to 10.67$\%$ and 11.39$\%$ to 14.87$\%$, respectively. The results even outperform existing weakly supervised visual grounding methods. Furthermore, our method is also competitive in fully supervised setting. The code and models are available at https://github.com/linhuixiao/CLIP-VG. | 翻訳日:2023-12-27 22:58:54 公開日:2023-12-24 |
# クラウドベースのアプリケーションのコードアーチファクトとしてのインフラにおけるコスト意識のマイニング:探索的研究 Mining for Cost Awareness in the Infrastructure as Code Artifacts of Cloud-based Applications: an Exploratory Study ( http://arxiv.org/abs/2304.07531v2 ) ライセンス: Link先を確認 | Daniel Feitosa, Matei-Tudor Penca, Massimiliano Berardi, Rares-Dorian Boza and Vasilios Andrikopoulos | (参考訳) コンテキスト: ソフトウェアを開発し、デプロイし、提供するための主要なプラットフォームとしてクラウドコンピューティングの人気は、主にコスト削減の約束によって引き起こされます。
したがって、コスト認識が開発プロセスに浸透するか、実際にどのように現れるのかを判断するための実証的な証拠が収集されていないことは驚きである。
目的: 本研究の目的は,クラウドベースのアプリケーションのオープンソースリポジトリをマイニングすることによって,コスト意識の実証的証拠を提供することである。
焦点は、クラウドへのソフトウェア(再)デプロイを自動化する、インフラストラクチャ・アズ・コードアーティファクトである。
方法: 152,735のリポジトリを体系的に検索した結果、2,010のリポジトリが選択された。
そして、インダクティブコーディングとインダクティブコーディングを組み合わせて、538の関連するコミットと208の関連する問題を分析しました。
結果: 開発者はアプリケーションデプロイメントのコストだけでなく、より安価なクラウドサービスを選択することを超えて、これらのコストを削減しようとしている。
また,今後の研究分野についても検討する。
結論: 私たちは特定のインフラストラクチャ・アズ・コード技術(terraform)に焦点を当てていますが、その発見はクラウドベースのアプリケーション開発全般に適用できます。
提供される経験的基盤は、サービスの選択、リソースの割り当て、デプロイメントの最適化、その他のテクニックを通じてコスト削減を目指す開発者に役立つ。 Context: The popularity of cloud computing as the primary platform for developing, deploying, and delivering software is largely driven by the promise of cost savings. Therefore, it is surprising that no empirical evidence has been collected to determine whether cost awareness permeates the development process and how it manifests in practice. Objective: This study aims to provide empirical evidence of cost awareness by mining open source repositories of cloud-based applications. The focus is on Infrastructure as Code artifacts that automate software (re)deployment on the cloud. Methods: A systematic search through 152,735 repositories resulted in the selection of 2,010 relevant ones. We then analyzed 538 relevant commits and 208 relevant issues using a combination of inductive and deductive coding. Results: The findings indicate that developers are not only concerned with the cost of their application deployments but also take actions to reduce these costs beyond selecting cheaper cloud services. We also identify research areas for future consideration. Conclusion: Although we focus on a particular Infrastructure as Code technology (Terraform), the findings can be applicable to cloud-based application development in general. The provided empirical grounding can serve developers seeking to reduce costs through service selection, resource allocation, deployment optimization, and other techniques. | 翻訳日:2023-12-27 22:54:30 公開日:2023-12-24 |
# 深層学習ライブラリのセキュリティ知識に基づくファジング Security Knowledge-Guided Fuzzing of Deep Learning Libraries ( http://arxiv.org/abs/2306.03269v2 ) ライセンス: Link先を確認 | Nima Shiri Harzevili, Mohammad Mahdi Mohajer, Moshi Wei, Hung Viet Pham, Song Wang | (参考訳) 近年,DLライブラリのテストには多くのDeep Learningファズーが提案されている。
しかしながら、ガイドなしの入力生成(例えば、入力を生成する際のapi引数間の関係を考慮しない)か、限定されたコーナーケーステスト入力のみをサポートする。
さらに、ライブラリ開発に不可欠な開発者apiは、一般的に十分に文書化されておらず、明確な使用ガイドラインを欠いているため、まだテストされていない。
このギャップを埋めるために,DL APIの実装において脆弱性を引き起こすことが知られている履歴データから構築されたファジィングルールに基づいて,ガイド付きテスト入力生成とコーナーケーステスト入力生成を組み合わせた新しいファジィザOrionを提案する。
ファジィングルールを抽出するために、我々はまず、最も人気のあるDLライブラリであるPyTorchとTensorFlowの2つにおいて、376の脆弱性の根本原因分析に関する実証的研究を行った。
次に、歴史的脆弱性の根本原因に基づいたルールを構築する。
我々の評価によると、OrionはTensorFlowとPyTorchの最新リリースで135の脆弱性を報告しており、そのうち76がライブラリ開発者によって確認されている。
76の脆弱性のうち、69は以前不明であり、7はすでに修正されている。
残りはさらなる確認を待っている。
エンドユーザAPIに関して、Orionは、最新技術であるDeepRelと比較して、TensorFlowとPyTorchの脆弱性をそれぞれ31.8%、90%検出することができた。
最先端のLDMベースのDLファザと比較すると、AtlasFuzz、OrionはTensorFlowの脆弱性を13.63%、PyTorchの脆弱性を18.42%検出した。
開発者apiに関しては、freefuzzなど開発者api用に設計された最も関連性の高いfuzzerに比べて、tensorflowの117%、pytorchの100%の脆弱性を検出することで、orionが際立っている。 Recently, many Deep Learning fuzzers have been proposed for testing of DL libraries. However, they either perform unguided input generation (e.g., not considering the relationship between API arguments when generating inputs) or only support a limited set of corner case test inputs. Furthermore, a substantial number of developer APIs crucial for library development remain untested, as they are typically not well-documented and lack clear usage guidelines. To fill this gap, we propose a novel fuzzer named Orion, which combines guided test input generation and corner case test input generation based on a set of fuzzing rules constructed from historical data that is known to trigger vulnerabilities in the implementation of DL APIs. To extract the fuzzing rules, we first conduct an empirical study regarding the root cause analysis of 376 vulnerabilities in two of the most popular DL libraries, i.e., PyTorch and TensorFlow. We then construct the rules based on the root causes of the historical vulnerabilities. Our evaluation shows that Orion reports 135 vulnerabilities on the latest releases of TensorFlow and PyTorch, 76 of which were confirmed by the library developers. Among the 76 confirmed vulnerabilities, 69 are previously unknown, and 7 have already been fixed. The rest are awaiting further confirmation. Regarding end-user APIs, Orion was able to detect 31.8% and 90% more vulnerabilities on TensorFlow and PyTorch, respectively, compared to the state-of-the-art conventional fuzzer, i.e., DeepRel. When compared to the state-of-the-art LLM-based DL fuzzer, AtlasFuzz, Orion detected 13.63% more vulnerabilities on TensorFlow and 18.42% more vulnerabilities on PyTorch. Regarding developer APIs, Orion stands out by detecting 117% more vulnerabilities on TensorFlow and 100% more vulnerabilities on PyTorch compared to the most relevant fuzzer designed for developer APIs, such as FreeFuzz. | 翻訳日:2023-12-27 22:47:38 公開日:2023-12-24 |
# テキスト駆動型人体動作合成のための微粒な運動拡散 Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion Synthesis ( http://arxiv.org/abs/2305.13773v2 ) ライセンス: Link先を確認 | Dong Wei, Xiaoning Sun, Huaijiang Sun, Bin Li, Shengxiang Hu, Weiqing Li, Jianfeng Lu | (参考訳) テキスト駆動のモーション合成技術の出現は、アニメーターに効率的に生成する大きな可能性を与える。
しかし、多くの場合、テキスト表現は一般的な動き記述と質的な動きしか含まないが、微妙な描写と十分な強度が欠如しており、合成された動きのどちらかに繋がる。
(a)意味的に適合するが、特定のポーズの詳細について制御できない、または
(b)提供された記述から逸脱し、望ましくない事例をアニメーターに持ち込む。
本稿では,キーフレームを用いたテキスト駆動モーション合成のための条件付き拡散モデルdiffkfcを提案し,協調的かつ効率的なデュアルレベル制御による現実的な生成を可能にする。
トレーニングのない条件を含む既存の推論編集拡散モデルとは異なり、条件拡散モデルは明示的に訓練されており、テキスト、キーフレームおよび拡散対象フレーム間の相関を完全に活用することができる。
離散キーフレームとスパースキーフレームの制御能力を維持するため,拡張されたキーフレームマスクで示される部分的有効トークンのみが局所的からグローバル的な注意を喚起する拡張マスクアテンションモジュールをカスタマイズする。
さらに,推論時に生成したフレームをシームレスなキーフレーム遷移へと制御する,単純かつ効果的なスムースネスを事前に開発する。
広範な実験により,我々のモデルは,意味的忠実性の観点から最先端のパフォーマンスを実現するだけでなく,さらに重要なこととして,退屈な労力を伴わずに細かな指導によってアニメーターの要求を満足できることを示した。 The emergence of text-driven motion synthesis technique provides animators with great potential to create efficiently. However, in most cases, textual expressions only contain general and qualitative motion descriptions, while lack fine depiction and sufficient intensity, leading to the synthesized motions that either (a) semantically compliant but uncontrollable over specific pose details, or (b) even deviates from the provided descriptions, bringing animators with undesired cases. In this paper, we propose DiffKFC, a conditional diffusion model for text-driven motion synthesis with KeyFrames Collaborated, enabling realistic generation with collaborative and efficient dual-level control: coarse guidance at semantic level, with only few keyframes for direct and fine-grained depiction down to body posture level. Unlike existing inference-editing diffusion models that incorporate conditions without training, our conditional diffusion model is explicitly trained and can fully exploit correlations among texts, keyframes and the diffused target frames. To preserve the control capability of discrete and sparse keyframes, we customize dilated mask attention modules where only partial valid tokens participate in local-to-global attention, indicated by the dilated keyframe mask. Additionally, we develop a simple yet effective smoothness prior, which steers the generated frames towards seamless keyframe transitions at inference. Extensive experiments show that our model not only achieves state-of-the-art performance in terms of semantic fidelity, but more importantly, is able to satisfy animator requirements through fine-grained guidance without tedious labor. | 翻訳日:2023-12-27 22:41:35 公開日:2023-12-24 |
# 合成前処理に基づくフリースタイル3dアウェアポートレート合成 Freestyle 3D-Aware Portrait Synthesis Based on Compositional Generative Priors ( http://arxiv.org/abs/2306.15419v3 ) ライセンス: Link先を確認 | Tianxiang Ma, Kang Zhao, Jianxin Sun, Yingya Zhang, Jing Dong | (参考訳) 高品質で3D一貫性のあるフリースタイルの3Dポートレートを効率的に作成することは、有望だが難しい課題だ。
既存のほとんどのメソッドで生成されるポートレートスタイルは通常、FFHQのような特定の顔データセットで学習される3Dジェネレータによって制限される。
多様な3Dポートレートを得るためには、大規模なマルチスタイルデータベースを構築して、3D認識ジェネレータをリトレーニングしたり、オフザシェルフツールを使ってスタイル翻訳を行うことができる。
しかし、データ収集とトレーニングプロセスのために前者は時間がかかり、後者はマルチビューの一貫性を損なう可能性がある。
そこで本研究では,テキスト駆動型3dポートレート合成フレームワークを提案する。
具体的には、3d対応のganジェネレータとテキストガイド付き画像エディタの2つの生成前処理を合成し、数ショットのスタイリッシュなポートレートセットを迅速に構築する。
そして、このセットの特殊スタイル領域を提案した3D潜在特徴生成器にマッピングし、与えられたスタイル情報を含む3D表現を得る。
最後に、トレーニング済みの3dレンダラを使用して、3d表現からビュー一貫性のあるスタイリッシュなポートレートを生成します。
実験結果から,高品位な3D肖像画を数分で合成でき,最先端の3D画像よりも優れていた。 Efficiently generating a freestyle 3D portrait with high quality and 3D-consistency is a promising yet challenging task. The portrait styles generated by most existing methods are usually restricted by their 3D generators, which are learned in specific facial datasets, such as FFHQ. To get the diverse 3D portraits, one can build a large-scale multi-style database to retrain a 3D-aware generator, or use a off-the-shelf tool to do the style translation. However, the former is time-consuming due to data collection and training process, the latter may destroy the multi-view consistency. To tackle this problem, we propose a novel text-driven 3D-aware portrait synthesis framework that can generate out-of-distribution portrait styles. Specifically, for a given portrait style prompt, we first composite two generative priors, a 3D-aware GAN generator and a text-guided image editor, to quickly construct a few-shot stylized portrait set. Then we map the special style domain of this set to our proposed 3D latent feature generator and obtain a 3D representation containing the given style information. Finally we use a pre-trained 3D renderer to generate view-consistent stylized portraits from the 3D representation. Extensive experimental results show that our method is capable of synthesizing high-quality 3D portraits with specified styles in a few minutes, outperforming the state-of-the-art. | 翻訳日:2023-12-27 22:35:00 公開日:2023-12-24 |
# TransDisを用いた中国語の多様性思考の自動評価:トランスフォーマーに基づく言語モデルアプローチ Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach ( http://arxiv.org/abs/2306.14790v3 ) ライセンス: Link先を確認 | Tianchen Yang, Qifan Zhang, Zhaoyang Sun, and Yubo Hou | (参考訳) 言語モデルは、創造的思考の質を客観的に測定するために意味的距離を生成する自動創造性評価にますます人気がある。
しかし、現在中国語における創造的アイデアを評価するための自動評価システムが欠落している。
このギャップに対処するためにtransdisを開発した。transdisはトランスフォーマーベースの言語モデルを使用したスコアリングシステムで、中国語の代替用途タスク(aut)応答に対して、正当な独自性(品質)と柔軟性(多様性)を提供する。
研究1では、3つのトランスフォーマーモデルからなる潜在モデル評価原性因子が、人間の原性評価を強く予測し、モデル評価原性因子が人間の柔軟性評価と強く相関することを示した。
基準妥当性分析の結果、モデル評価の独創性と柔軟性は他の創造性指標と正の相関を示し、人間の評価に類似した妥当性を示した。
研究2と3では、トランスディスは創造的対共通利用(study 2)を効果的に指示し、参加者は柔軟な対永続的な方法でアイデアを生み出すように指示した(study 3)。
以上の結果から,transdisは中国語におけるアイデアの独創性と柔軟性を測定するための信頼性と低コストのツールであり,他の言語における自動創造性評価への道を開く可能性を示唆する。
私たちは、中国語や他の50以上の言語(https://osf.io/59jv2/)でAUTレスポンスの独創性と柔軟性を計算するオープンプラットフォームを提供しています。 Language models have been increasingly popular for automatic creativity assessment, generating semantic distances to objectively measure the quality of creative ideas. However, there is currently a lack of an automatic assessment system for evaluating creative ideas in the Chinese language. To address this gap, we developed TransDis, a scoring system using transformer-based language models, capable of providing valid originality (quality) and flexibility (variety) scores for Alternative Uses Task (AUT) responses in Chinese. Study 1 demonstrated that the latent model-rated originality factor, comprised of three transformer-based models, strongly predicted human originality ratings, and the model-rated flexibility strongly correlated with human flexibility ratings as well. Criterion validity analyses indicated that model-rated originality and flexibility positively correlated to other creativity measures, demonstrating similar validity to human ratings. Study 2 & 3 showed that TransDis effectively distinguished participants instructed to provide creative vs. common uses (Study 2) and participants instructed to generate ideas in a flexible vs. persistent way (Study 3). Our findings suggest that TransDis can be a reliable and low-cost tool for measuring idea originality and flexibility in Chinese language, potentially paving the way for automatic creativity assessment in other languages. We offer an open platform to compute originality and flexibility for AUT responses in Chinese and over 50 other languages (https://osf.io/59jv2/). | 翻訳日:2023-12-27 22:34:33 公開日:2023-12-24 |
# NILUT:画像強調のための条件付きニューラルインシシデント3Dルックアップテーブル NILUT: Conditional Neural Implicit 3D Lookup Tables for Image Enhancement ( http://arxiv.org/abs/2306.11920v3 ) ライセンス: Link先を確認 | Marcos V. Conde, Javier Vazquez-Corral, Michael S. Brown, Radu Timofte | (参考訳) 3次元ルックアップテーブル(3D LUT)は画像強調のための重要なコンポーネントである。
現代の画像信号プロセッサ(ISP)は、カメラレンダリングパイプラインの一部としてこれらをサポートする。
カメラは通常、絵のスタイルに複数のオプションを提供し、それぞれのスタイルは通常、ユニークな手作りの3D LUTを適用することで得られる。
3D LUTを学習および適用するための現在のアプローチは、特に高速であるが、複数の3D LUTを格納する必要があるため、メモリ効率は高くない。
この理由やその他の実装上の制限のため、モバイルデバイスでの使用はそれほど一般的ではない。
本研究では,ニューラルネットワークによってパラメータ化される暗黙的に定義された連続3次元色変換であるニューラルインプリシット LUT (NILUT) を提案する。
NILUTは実3D LUTを正確にエミュレートできることを示す。
さらに、NILUTは複数のスタイルを単一のネットワークに組み込むように拡張でき、暗黙的にスタイルをブレンドすることができる。
我々の新しいアプローチはメモリ効率が高く、制御可能であり、学習ISPを含む従来の手法を補完することができる。
コード、モデル、データセット:https://github.com/mv-lab/nilut 3D lookup tables (3D LUTs) are a key component for image enhancement. Modern image signal processors (ISPs) have dedicated support for these as part of the camera rendering pipeline. Cameras typically provide multiple options for picture styles, where each style is usually obtained by applying a unique handcrafted 3D LUT. Current approaches for learning and applying 3D LUTs are notably fast, yet not so memory-efficient, as storing multiple 3D LUTs is required. For this reason and other implementation limitations, their use on mobile devices is less popular. In this work, we propose a Neural Implicit LUT (NILUT), an implicitly defined continuous 3D color transformation parameterized by a neural network. We show that NILUTs are capable of accurately emulating real 3D LUTs. Moreover, a NILUT can be extended to incorporate multiple styles into a single network with the ability to blend styles implicitly. Our novel approach is memory-efficient, controllable and can complement previous methods, including learned ISPs. Code, models and dataset available at: https://github.com/mv-lab/nilut | 翻訳日:2023-12-27 22:33:27 公開日:2023-12-24 |
# 分散量子計算シミュレーションのための一設計フレームワーク A Design Framework for Distributed Quantum Computing Simulation ( http://arxiv.org/abs/2306.11539v2 ) ライセンス: Link先を確認 | Davide Ferrari and Michele Amoretti | (参考訳) 現在の量子プロセッサは、一様でない品質と非常に制約のある物理的接続を持つ数百の量子ビットによって特徴づけられる。
したがって、大規模量子コンピュータの需要の増加は、分散量子コンピューティング(dqc)アーキテクチャの研究を、計算タスクの利用可能な量子ビット数を増やすためのスケーラブルなアプローチとして推進している。
この分野ではシミュレーションが重要な役割を果たす。
量子コンピューティングと量子ネットワーク技術の設計と評価において、ハードウェア、プロトコル、アプリケーションを含む研究コミュニティを支援するために、近年多くのシミュレーションツールが開発されている。
しかし、DQCシミュレーションで計算面とネットワーク面に等しく重点を置くフレームワークは、これまで提案されていない。
本稿では,ネットワーク化された量子ノード上で動作するためのdqcジョブをスケジュールする実行マネージャをコアコンポーネントとする,dqcシミュレーションのための設計フレームワークを提案する。
パフォーマンス指標に重点を置いた設計フレームワークの各コンポーネントの役割が提示される。
従来のmakespanの概念を超えて,qpu利用と量子ネットワーク利用に対するジョブスケジューリングアルゴリズムの影響を評価するために,2つの指標が提案されている。
この議論は、DQCジョブスケジューリングの例で支持されており、提案された指標から2つの異なる戦略を比較する。 Current quantum processors are characterized by few hundreds of qubits with non-uniform quality and highly constrained physical connectivity. Hence, the increasing demand for large-scale quantum computers is pushing research on Distributed Quantum Computing (DQC) architectures as a scalable approach for increasing the number of available qubits for computational tasks. Simulation plays a major role in this field. Many simulation tools have been recently developed to support the research community in the design and evaluation of quantum computing and quantum network technologies, including hardware, protocols and applications. However, a framework for DQC simulation putting equal emphasis on computational and networking aspects has never been proposed, so far. In this paper, a design framework for DQC simulation is proposed, whose core component is an Execution Manager that schedules DQC jobs for running on networked quantum nodes. The role of each component of the design framework is presented, with emphasis on performance indicators. Two metrics are proposed for evaluating the impact of the job scheduling algorithms with respect to QPU utilization and quantum network utilization, beyond the traditional concept of makespan. The discussion is supported by a DQC job scheduling example, where two different strategies are compared in terms of the proposed metrics. | 翻訳日:2023-12-27 22:33:11 公開日:2023-12-24 |
# MT-Benchとチャットボットアリーナを用いたLCM-as-a-Judgeの判定 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena ( http://arxiv.org/abs/2306.05685v4 ) ライセンス: Link先を確認 | Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica | (参考訳) 大規模言語モデル(llm)ベースのチャットアシスタントの評価は、その幅広い能力と既存のベンチマークが人間の好みを計測できないために難しい。
これに対処するため、我々は、よりオープンな質問でこれらのモデルを評価するために、裁判官として強力なllmを使用します。
本研究では, LLM-as-a-judgeの使用と限界について検討し, 位置, 冗長性, 自己啓発バイアス, 推論能力の制限などを検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるChatbot Arenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
GPT-4のような強力なLCM判事は、コントロールとクラウドソースの両方の人間の嗜好によく適合し、80%以上の合意を達成できる。
したがって、llm-as-a-judgeは、人間の好みを近似するためのスケーラブルで説明可能な方法である。
さらに,我々のベンチマークと従来のベンチマークは,llama と vicuna のいくつかの変種を評価し,相互補完関係にあることを示す。
MT-benchの質問、3Kのエキスパート投票、および人間の好みに関する30Kの会話はhttps://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judgeで公開されている。 Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, including position, verbosity, and self-enhancement biases, as well as limited reasoning ability, and propose solutions to mitigate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA and Vicuna. The MT-bench questions, 3K expert votes, and 30K conversations with human preferences are publicly available at https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge. | 翻訳日:2023-12-27 22:30:15 公開日:2023-12-24 |
# 固定積分型ニューラルネットワーク Fixed Integral Neural Networks ( http://arxiv.org/abs/2307.14439v4 ) ライセンス: Link先を確認 | Ryan Kortvelesy | (参考訳) ニューラルネットワークで表される学習関数に対して統合を行うのに有用であることが多い。
しかし、この積分は通常数値的に行われ、学習関数(特にニューラルネットワーク)上の解析的積分は一般に難解であると見なされる。
本研究では、学習した関数の積分を$f$で表す方法を提案する。
これにより、ニューラルネットワークの正確な積分を計算でき、制約付きニューラルネットワークを積分に直接制約を適用してパラメータ化することができる。
重要な点として、多くのアプリケーション(例えば確率分布、距離メトリクスなど)に必要な条件として、$f$を正に制限する手法も紹介する。
最後に,固定積分ニューラルネットワーク(finn)を活用可能なアプリケーションをいくつか紹介する。 It is often useful to perform integration over learned functions represented by neural networks. However, this integration is usually performed numerically, as analytical integration over learned functions (especially neural networks) is generally viewed as intractable. In this work, we present a method for representing the analytical integral of a learned function $f$. This allows the exact integral of a neural network to be computed, and enables constrained neural networks to be parametrised by applying constraints directly to the integral. Crucially, we also introduce a method to constrain $f$ to be positive, a necessary condition for many applications (e.g. probability distributions, distance metrics, etc). Finally, we introduce several applications where our fixed-integral neural network (FINN) can be utilised. | 翻訳日:2023-12-27 22:22:41 公開日:2023-12-24 |
# オンライン求人勧告におけるグラフデータ理解のための大規模言語モデルの検討 Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations ( http://arxiv.org/abs/2307.05722v3 ) ライセンス: Link先を確認 | Likang Wu, Zhaopeng Qiu, Zhi Zheng, Hengshu Zhu, and Enhong Chen | (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらし、様々な領域でその例外的な能力を実証している。
しかし、仕事の推薦における行動グラフ理解の可能性はほとんど未解明のままである。
本稿では、行動グラフの理解における大規模言語モデルの能力を明らかにすることに焦点を当て、この理解を活用してオンライン採用における推薦を強化することを目的とした。
本稿では,大規模言語モデルが提供する豊かな文脈情報と意味表現を活用し,行動グラフを分析し,基礎となるパターンと関係を明らかにする新しい枠組みを提案する。
具体的には,llmレコメンデータを利用して行動グラフを初めて理解し,対応する経路拡張モジュールを設計し,経路に基づくシーケンス入力によって引き起こされるプロンプトバイアスを軽減するメタパスプロンプトコンストラクタを提案する。
この機能を活用すれば、個々のユーザに対してパーソナライズされ、正確なジョブレコメンデーションが可能になります。
提案手法の有効性を包括的データセットで評価し、推奨品質の妥当性と品質を向上させる能力を示す。
この研究は、大規模言語モデルの未完成の可能性だけでなく、採用市場における高度なレコメンデーションシステムの開発にも有用な洞察を提供する。
本研究は, 自然言語処理の分野の拡大に寄与し, 求職経験の向上に実際的な意味合いを与える。
コードをhttps://github.com/WLiK/GLRecでリリースします。 Large Language Models (LLMs) have revolutionized natural language processing tasks, demonstrating their exceptional capabilities in various domains. However, their potential for behavior graph understanding in job recommendations remains largely unexplored. This paper focuses on unveiling the capability of large language models in understanding behavior graphs and leveraging this understanding to enhance recommendations in online recruitment, including the promotion of out-of-distribution (OOD) application. We present a novel framework that harnesses the rich contextual information and semantic representations provided by large language models to analyze behavior graphs and uncover underlying patterns and relationships. Specifically, we propose a meta-path prompt constructor that leverages LLM recommender to understand behavior graphs for the first time and design a corresponding path augmentation module to alleviate the prompt bias introduced by path-based sequence input. By leveraging this capability, our framework enables personalized and accurate job recommendations for individual users. We evaluate the effectiveness of our approach on a comprehensive dataset and demonstrate its ability to improve the relevance and quality of recommended quality. This research not only sheds light on the untapped potential of large language models but also provides valuable insights for developing advanced recommendation systems in the recruitment market. The findings contribute to the growing field of natural language processing and offer practical implications for enhancing job search experiences. We release the code at https://github.com/WLiK/GLRec. | 翻訳日:2023-12-27 22:20:34 公開日:2023-12-24 |
# 医用時系列処理の解釈・効率化のための学習カーネル Learned Kernels for Interpretable and Efficient Medical Time Series Processing ( http://arxiv.org/abs/2307.05385v2 ) ライセンス: Link先を確認 | Sully F. Chen, Zhicheng Guo, Cheng Ding, Xiao Hu, Cynthia Rudin | (参考訳) 背景: 信号処理手法は、幅広い医学的応用における臨床解釈の基礎である。
ディープラーニングの出現は、前例のないパフォーマンスを提供するが、コストがかかる新しいモデルの爆発を可能にした。
方法:医療時系列処理のためのスパースで解釈可能なアーキテクチャを提案する。
この方法は軽量で柔軟なカーネルの集合を学習し、単一層ニューラルネットワークを構築し、新しい効率的で堅牢で解釈可能なアプローチを提供する。
我々は,ネットワークサイズを更に削減するための新しいパラメータ低減手法を提案する。
我々は,我々のアーキテクチャのパワーを,光電容積アーチファクト検出における重要なタスクに実証する。このアプローチは,最先端のディープニューラルネットワークと同様の性能を持ち,数桁のパラメータを削減し,ディープニューラルネットワークレベルのパフォーマンスを極めて低消費電力なウェアラブルデバイスに統合することができる。
結果: 本手法は, 人工物検出タスクにおける最先端の手法の性能の99\%以上を達成し, 極めて少ないパラメータ(セガデのパラメータの2\%, 小型ppgのパラメータの約半分)を用いて, 挑戦的な分散テストセットにおいて, 最先端の手法よりも優れていた。
結論: 学習されたカーネルは、劇的に少ないパラメータで医療時系列処理を行うために、ディープニューラルネットワークと競合する。
本手法は,リアルタイムアプリケーションや低消費電力デバイスに特に適しており,解釈性を維持している。 Background: Signal processing methods are the foundation for clinical interpretation across a wide variety of medical applications. The advent of deep learning allowed for an explosion of new models that offered unprecedented performance but at a cost: deep learning models are often compute-intensive and lack interpretability. Methods: We propose a sparse, interpretable architecture for medical time series processing. The method learns a set of lightweight flexible kernels to construct a single-layer neural network, providing a new efficient, robust, and interpretable approach. We introduce novel parameter reduction techniques to further reduce the size of our network. We demonstrate the power of our architecture on the important task of photoplethysmography artifact detection, where our approach has performance similar to the state-of-the-art deep neural networks with several orders of magnitude fewer parameters, allowing for the integration of deep neural network level performance into extremely low-power wearable devices. Results: Our interpretable method achieves greater than 99\% of the performance of the state-of-the-art methods on the artifact detection task, and even outperforms the state-of-the-art on a challenging out-of-distribution test set, while using dramatically fewer parameters (2\% of the parameters of Segade, and about half of the parameters of Tiny-PPG). Conclusions: Learned kernels are competitive with deep neural networks for medical time series processing with dramatically fewer parameters. Our method is particularly suited for real-time applications and low-power devices, and it maintains interpretability. | 翻訳日:2023-12-27 22:19:43 公開日:2023-12-24 |
# 非相対論的時空間量子参照フレーム Non-relativistic spatiotemporal quantum reference frames ( http://arxiv.org/abs/2307.01874v2 ) ライセンス: Link先を確認 | Michael Suleymanov, Ismael L. Paiva, Eliahu Cohen | (参考訳) 量子参照フレームは、その探索が量子論の多くの分野に関連し、指導的であるため、近年新たな関心を集めている。
異なるタイプの中で、位置と時間参照フレームは特別な注意を引いている。
本稿では,その外的(空間的)自由度に加えて,各系が内部時計を含む非相対論的枠組みを導入,解析することにより,時空間量子参照フレームとして利用することができる。
本稿では,異なる視点における観測変数の期待値と分散に対する表現と,相互作用のないシナリオにおける異なる視点におけるこれらの量との関係について述べる。
特に,このような単純なシナリオであっても,クロック間の相対的不確実性はシステムの相対的空間的拡散に影響を与える。 Quantum reference frames have attracted renewed interest recently, as their exploration is relevant and instructive in many areas of quantum theory. Among the different types, position and time reference frames have captivated special attention. Here, we introduce and analyze a nonrelativistic framework in which each system contains an internal clock, in addition to its external (spatial) degree of freedom and, hence, can be used as a spatiotemporal quantum reference frame. We present expressions for expectation values and variances of relevant observables in different perspectives, as well as relations between these quantities in different perspectives in scenarios with no interactions. In particular, we show that even in these simple scenarios, the relative uncertainty between clocks affects the relative spatial spread of the systems. | 翻訳日:2023-12-27 22:18:41 公開日:2023-12-24 |
# MedAlign:電子カルテによる指導のための臨床データセット MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records ( http://arxiv.org/abs/2308.14089v2 ) ライセンス: Link先を確認 | Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah | (参考訳) 大規模言語モデル(llm)が自然言語命令に従う能力は、医療における管理負担を軽減し、ケアの質を改善する多くの機会を示唆している。
しかし,現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
電子健康記録(ehr)データのための既存の質問応答データセットは、臨床医が経験する情報ニーズとドキュメントの複雑さを捉えることができない。
これらの課題に対処するために、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介した。
MedAlignは15人の臨床医(7つの専門分野)によって治められ、303の指示に対する臨床医による参照応答が含まれ、命令-応答ペアを接地するための276の縦 EHRを提供している。
MedAlign を用いて6つの一般ドメイン LLM の評価を行い,臨床医がそれぞれの LLM 応答の精度と品質をランク付けした。
その結果,35%(GPT-4)から68%(MPT-7B-Instruct)まで高い誤差率を示し,GPT-4では32kから2kまでの精度が8.3%低下した。
最後に,LLMを人的レビューなしでランク付けする方法として,クリニックランキングと自動自然言語生成指標の相関関係を報告する。
我々はMedAlignを研究データ利用契約の下で利用可能にし、臨床医のニーズや嗜好に適合したタスクに対するLCM評価を可能にする。 The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences. | 翻訳日:2023-12-27 22:11:40 公開日:2023-12-24 |
# 自己構造的セマンティックアライメントによる現実的ゼロショット分類に向けて Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment ( http://arxiv.org/abs/2308.12960v3 ) ライセンス: Link先を確認 | Sheng Zhang, Muzammal Naseer, Guangyi Chen, Zhiqiang Shen, Salman Khan, Kun Zhang, Fahad Khan | (参考訳) 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
成功したにもかかわらず、ほとんどの伝統的なvlmsベースの手法は、部分的ソース監督や理想的な語彙の仮定によって制限されている。
本稿では,アノテーションを使わずに幅広い語彙を想定した,より難易度の高い,現実的なゼロショット分類を目標とする。
そこで本研究では,無ラベルデータから構造的意味情報を抽出する自己構造的意味的アライメント(s^3a)フレームワークを提案する。
我々のS^3Aフレームワークは独自のCVPR(Cluster-Vote-Prompt-Realign)アルゴリズムを採用している。
我々のCVPRプロセスは、画像上の反復的クラスタリング、各クラスタ内で投票して、語彙から初期クラス候補を特定すること、混乱した候補を識別するために大きな言語モデルによる識別的プロンプトを生成し、構造的意味的アライメントとして画像と語彙を認識させることを含む。
最後に,CLIP画像エンコーダを教師と学生の学習戦略を通じて,個人的・構造的セマンティックアライメントで自己学習することを提案する。
s^3a法が既存のvlms法に比べて大幅に改善され,クリップ平均より15%以上精度が向上したことを示す。
私たちのコード、モデル、プロンプトはhttps://github.com/sheng-eatamath/s3aで公開されています。 Large-scale pre-trained Vision Language Models (VLMs) have proven effective for zero-shot classification. Despite the success, most traditional VLMs-based methods are restricted by the assumption of partial source supervision or ideal vocabularies, which rarely satisfy the open-world scenario. In this paper, we aim at a more challenging setting, Realistic Zero-Shot Classification, which assumes no annotation but instead a broad vocabulary. To address this challenge, we propose the Self Structural Semantic Alignment (S^3A) framework, which extracts the structural semantic information from unlabeled data while simultaneously self-learning. Our S^3A framework adopts a unique Cluster-Vote-Prompt-Realign (CVPR) algorithm, which iteratively groups unlabeled data to derive structural semantics for pseudo-supervision. Our CVPR process includes iterative clustering on images, voting within each cluster to identify initial class candidates from the vocabulary, generating discriminative prompts with large language models to discern confusing candidates, and realigning images and the vocabulary as structural semantic alignment. Finally, we propose to self-learn the CLIP image encoder with both individual and structural semantic alignment through a teacher-student learning strategy. Our comprehensive experiments across various generic and fine-grained benchmarks demonstrate that the S^3A method offers substantial improvements over existing VLMs-based approaches, achieving a more than 15% accuracy improvement over CLIP on average. Our codes, models, and prompts are publicly released at https://github.com/sheng-eatamath/S3A. | 翻訳日:2023-12-27 22:10:16 公開日:2023-12-24 |
# SRFormer: セグメンテーションと回帰を組み込んだテキスト検出変換器 SRFormer: Text Detection Transformer with Incorporated Segmentation and Regression ( http://arxiv.org/abs/2308.10531v2 ) ライセンス: Link先を確認 | Qingwen Bu, Sungrae Park, Minsoo Khang, Yichuan Cheng | (参考訳) 既存のテキスト検出技術は、セグメンテーションベースと回帰ベースの2つの主要なグループに大別できる。
セグメンテーションモデルはフォントのバリエーションに対して堅牢性を高めるが、複雑な後処理を必要とし、高い計算オーバーヘッドをもたらす。
回帰に基づく手法はインスタンス認識の予測を行うが、高レベル表現に依存するため、ロバスト性やデータ効率に限界がある。
本研究は,DTRに基づく統合モデルSRFormerを提案する。このSRFormerは,セグメンテーション表現に固有のロバスト性を相乗的に活用し,インスタンスレベルの回帰処理を後処理することを目的としている。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
そこで本研究では,マスクから計算負荷を最小限に抑えつつ,性能向上を図るとともに,最初の数層のデコーダ層にセグメンテーションブランチを組み込むことを制限し,その後の層に漸進的なレグレッション改良を施した。
セグメント化結果を自然なソフトROIとして、堅牢なピクセル表現をプールして抽出し、インスタンスクエリの強化と多様化に利用する。
複数のベンチマークをまたいで広範囲に実験した結果,本手法の極めて堅牢性,優れたトレーニングとデータ効率,最先端のパフォーマンスが注目された。
私たちのコードはhttps://github.com/retsuh-bqw/SRFormer-Text-Detで利用可能です。 Existing techniques for text detection can be broadly classified into two primary groups: segmentation-based and regression-based methods. Segmentation models offer enhanced robustness to font variations but require intricate post-processing, leading to high computational overhead. Regression-based methods undertake instance-aware prediction but face limitations in robustness and data efficiency due to their reliance on high-level representations. In our academic pursuit, we propose SRFormer, a unified DETR-based model with amalgamated Segmentation and Regression, aiming at the synergistic harnessing of the inherent robustness in segmentation representations, along with the straightforward post-processing of instance-level regression. Our empirical analysis indicates that favorable segmentation predictions can be obtained at the initial decoder layers. In light of this, we constrain the incorporation of segmentation branches to the first few decoder layers and employ progressive regression refinement in subsequent layers, achieving performance gains while minimizing computational load from the mask.Furthermore, we propose a Mask-informed Query Enhancement module. We take the segmentation result as a natural soft-ROI to pool and extract robust pixel representations, which are then employed to enhance and diversify instance queries. Extensive experimentation across multiple benchmarks has yielded compelling findings, highlighting our method's exceptional robustness, superior training and data efficiency, as well as its state-of-the-art performance. Our code is available at https://github.com/retsuh-bqw/SRFormer-Text-Det. | 翻訳日:2023-12-27 22:08:28 公開日:2023-12-24 |
# 自己教師表現学習者としてのマスク拡散 Masked Diffusion as Self-supervised Representation Learner ( http://arxiv.org/abs/2308.05695v3 ) ライセンス: Link先を確認 | Zixuan Pan, Jianxu Chen, Yiyu Shi | (参考訳) 拡散確率モデルは近年,最先端の生成性能を示し,強力なピクセルレベルの表現学習者として利用されている。
本稿では,拡散モデルに固有の生成能力と表現学習能力の相互関係を分解する。
本研究では,従来の拡散のガウス雑音をマスキング機構で置換する,意味セグメンテーションのためのスケーラブルな自己教師付き表現学習器であるマスク拡散モデル(mdm)を提案する。
提案手法は,医学的,自然画像的セマンティックセグメンテーションタスク,特に数ショットシナリオにおいて顕著な進歩を示した。 Denoising diffusion probabilistic models have recently demonstrated state-of-the-art generative performance and have been used as strong pixel-level representation learners. This paper decomposes the interrelation between the generative capability and representation learning ability inherent in diffusion models. We present the masked diffusion model (MDM), a scalable self-supervised representation learner for semantic segmentation, substituting the conventional additive Gaussian noise of traditional diffusion with a masking mechanism. Our proposed approach convincingly surpasses prior benchmarks, demonstrating remarkable advancements in both medical and natural image semantic segmentation tasks, particularly in few-shot scenarios. | 翻訳日:2023-12-27 22:06:47 公開日:2023-12-24 |
# 非完全正の量子マップは電池の効率的な局所エネルギー抽出を可能にする Non-completely positive quantum maps enable efficient local energy extraction in batteries ( http://arxiv.org/abs/2307.16746v2 ) ライセンス: Link先を確認 | Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen | (参考訳) 完全正のトレース保存(cptp)マップによる量子電池からのエネルギー抽出は文献上非常によく研究されている。
CPTP-局所受動的状態の概念は自然に導かれ、CPTPマップを特定のサブシステムに適用することでエネルギーを抜き取ることができない二部体状態を特定する。
任意の次元において、ある状態がハミルトニアンに関してCPTP局所受動的であれば、同状態の任意の数のコピー(漸近的に大きいものを含む)もまたCPTP局所受動的であることを示す。
さらに、非完全正のトレース保存(NCPTP)を用いたCPTP局所受動的状態から効率よくエネルギーを抽出できるが、CPTPマップの操作が不要な共有電池の同じ部分の物理的に実現可能であることを示す。
さらに、局所CPTP演算を用いて最大抽出可能エネルギーを提供し、次いで、物理的局所NCPTP写像を用いて最大値よりも優れた性能を持つ、明示的な状態と対応するハミルトンのクラスを示す。
我々は, 量子電池のエネルギー抽出におけるCPTPとCPTPの相対的状態と, 蒸留可能なエンタングルメントと, 漸近的な局所的なエンタングルメント操作のためのエンタングルメントコストの関連を類似して構築する。
CPTPパッシブおよびCPTP非パッシブ電池状態のためのCPTPマップで抽出可能な最大エネルギーの超過は、量子マップの非CPTP性の検出器として機能する。
最後に、任意の二部状態が任意の固定ハミルトニアンに対して、一方の党における NCPTP 演算を用いてエネルギーを供給できない必要条件を提供する。 Energy extraction from quantum batteries by means of completely positive trace-preserving (CPTP) maps is quite well-studied in the literature. It naturally leads to the concept of CPTP-local passive states, which identify bipartite states from which no energy can be squeezed out by applying any CPTP map to a particular subsystem. We prove, for arbitrary dimension, that if a state is CPTP-local passive with respect to a Hamiltonian, then an arbitrary number of copies of the same state - including an asymptotically large one - is also CPTP-local passive. We show further that energy can be extracted efficiently from these CPTP-local passive states employing non-completely positive trace-preserving (NCPTP) but still physically realizable maps on the same part of the shared battery on which operation of CPTP maps were useless. Moreover, we provide the maximum extractable energy using local-CPTP operations, and then, we present an explicit class of states and corresponding Hamiltonians, for which the maximum can be outperformed using physical local NCPTP maps. We build an analogy between the relative status of CPTP and NCPTP operations for energy extraction in quantum batteries, and the association of distillable entanglement with entanglement cost for asymptotic local manipulations of entanglement. The surpassing of the maximum energy extractable by NCPTP maps for CPTP passive as well as for CPTP non-passive battery states can act as detectors of non-CPTPness of quantum maps. Finally, we provide a necessary condition for an arbitrary bipartite state to be unable to supply any energy using NCPTP operations on one party with respect to an arbitrary but fixed Hamiltonian. | 翻訳日:2023-12-27 22:05:53 公開日:2023-12-24 |
# Deep Knowledge Tracingは暗黙の動的多次元アイテム応答理論モデルである Deep Knowledge Tracing is an implicit dynamic multidimensional item response theory model ( http://arxiv.org/abs/2309.12334v3 ) ライセンス: Link先を確認 | Jill-J\^enn Vie (SODA), Hisashi Kashima | (参考訳) 知識追跡は、過去の質問に対する評価から得られる新しい質問に対する一部の学生のパフォーマンスを予測することであり、評価と学習を最適化するための事前ステップとなる。
ディープ・ナレッジ・トレーシング(Deep Knowledge Trace, DKT)は、リカレントニューラルネットワークに依存する知識トレースの競合モデルである。
しかし、なぜDKTがうまく機能するのかは分かっていない。
本稿では,深層知識トレースをエンコーダデコーダアーキテクチャとして構成する。
この視点により、パフォーマンス、単純さ、表現性の観点からより良いモデルを提案するだけでなく、将来の研究の方向性に有望な道を開くことができます。
特に、DKTが使用するものよりもパラメータが少ない単純なデコーダが、学生のパフォーマンスをより良く予測できる、小規模で大規模なデータセットをいくつか紹介する。 Knowledge tracing consists in predicting the performance of some students on new questions given their performance on previous questions, and can be a prior step to optimizing assessment and learning. Deep knowledge tracing (DKT) is a competitive model for knowledge tracing relying on recurrent neural networks, even if some simpler models may match its performance. However, little is known about why DKT works so well. In this paper, we frame deep knowledge tracing as a encoderdecoder architecture. This viewpoint not only allows us to propose better models in terms of performance, simplicity or expressivity but also opens up promising avenues for future research directions. In particular, we show on several small and large datasets that a simpler decoder, with possibly fewer parameters than the one used by DKT, can predict student performance better. | 翻訳日:2023-12-27 21:54:48 公開日:2023-12-24 |
# AdaPlus:Nesterov Momentumの統合とAdamW Basisの高精度調整 AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis ( http://arxiv.org/abs/2309.01966v2 ) ライセンス: Link先を確認 | Lei Guan | (参考訳) 本稿では,Nesterov運動量とAdamWに基づく高精度なステップサイズ調整を組み合わせたAdaPlusという最適化手法を提案する。
AdaPlusはAdamW、Nadam、AdaBeliefの利点を組み合わせており、特に、追加のハイパーパラメータを導入していない。
adaplusの有効性を検証するために,3つの機械学習タスクについて広範な実験評価を行った。
実験結果は adaplusが
(i) 評価された適応手法のうち, 画像分類タスクに運動量を持つSGDに最も匹敵する(わずかに良い)。
(ii)言語モデリングタスクにおいて、他の最先端のオプティマイザよりも優れており、GANのトレーニング時に非常に高い安定性を示す。
AdaPlusの実験コードは、https://github.com/guanleics/AdaPlus.comで参照できる。 This paper proposes an efficient optimizer called AdaPlus which integrates Nesterov momentum and precise stepsize adjustment on AdamW basis. AdaPlus combines the advantages of AdamW, Nadam, and AdaBelief and, in particular, does not introduce any extra hyper-parameters. We perform extensive experimental evaluations on three machine learning tasks to validate the effectiveness of AdaPlus. The experiment results validate that AdaPlus (i) among all the evaluated adaptive methods, performs most comparable with (even slightly better than) SGD with momentum on image classification tasks and (ii) outperforms other state-of-the-art optimizers on language modeling tasks and illustrates pretty high stability when training GANs. The experiment code of AdaPlus will be accessible at: https://github.com/guanleics/AdaPlus. | 翻訳日:2023-12-27 21:53:29 公開日:2023-12-24 |
# GREC:一般参照式理解 GREC: Generalized Referring Expression Comprehension ( http://arxiv.org/abs/2308.16182v2 ) ライセンス: Link先を確認 | Shuting He, Henghui Ding, Chang Liu, Xudong Jiang | (参考訳) Classic Referring Expression Comprehension (REC) の目的は、与えられたテキスト記述にあるオブジェクトに対応するバウンディングボックスを作成することである。
一般的に、classic recの既存のデータセットやテクニックは、単一のターゲットに関連する式用に調整されており、単一の表現が1つの特定のオブジェクトにリンクされることを意味する。
複数のターゲットを参照したり、特定のターゲットを含まない表現は考慮されていない。
この制約はRECの実用性を妨げる。
本稿では、GREC(Generalized Referring Expression Comprehension)と呼ばれる新しいベンチマークを紹介する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張する。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
このデータセットは、複数のターゲットを参照する表現、特定のターゲットを持たない表現、単一ターゲット表現を含む。
GRECとgRefCOCOの設計は、従来のRECとのスムーズな互換性を保証する。
提案されているgRefCOCOデータセット、GRECメソッド実装コード、GREC評価コードはhttps://github.com/henghuiding/gRefCOCOで利用可能である。 The objective of Classic Referring Expression Comprehension (REC) is to produce a bounding box corresponding to the object mentioned in a given textual description. Commonly, existing datasets and techniques in classic REC are tailored for expressions that pertain to a single target, meaning a sole expression is linked to one specific object. Expressions that refer to multiple targets or involve no specific target have not been taken into account. This constraint hinders the practical applicability of REC. This study introduces a new benchmark termed as Generalized Referring Expression Comprehension (GREC). This benchmark extends the classic REC by permitting expressions to describe any number of target objects. To achieve this goal, we have built the first large-scale GREC dataset named gRefCOCO. This dataset encompasses a range of expressions: those referring to multiple targets, expressions with no specific target, and the single-target expressions. The design of GREC and gRefCOCO ensures smooth compatibility with classic REC. The proposed gRefCOCO dataset, a GREC method implementation code, and GREC evaluation code are available at https://github.com/henghuiding/gRefCOCO. | 翻訳日:2023-12-27 21:53:06 公開日:2023-12-24 |
# NISQ時代の量子状態の電力関数計算のためのスケーラブルアルゴリズム Scalable Algorithms for Power Function Calculations of quantum states in NISQ Era ( http://arxiv.org/abs/2308.14675v3 ) ライセンス: Link先を確認 | Wencheng Zhao, Tingting Chen, Ruyu Yang | (参考訳) 本稿では、ランダム量子状態のパワー関数を計算するためのスケーラブルで量子ビット効率のアルゴリズムの開発に焦点を当てる。
Hadamard test と Gate Set Tomography に基づく2つのアルゴリズムが提案されている。
本稿では,その計算結果の比較分析を行い,ゲートセットトモグラフィー法における固有誤差の綿密な評価を行った。
第2のアルゴリズムでは,第1の手法に比べて2量子ゲートの利用が大幅に削減された。
実例として、ランダムに生成された量子状態のフォン・ノイマンエントロピーを計算するために両方の方法を適用する。 This article focuses on the development of scalable and quantum bit-efficient algorithms for computing power functions of random quantum states. Two algorithms, based on Hadamard testing and Gate Set Tomography, are proposed. We provide a comparative analysis of their computational outcomes, accompanied by a meticulous evaluation of inherent errors in the gate set tomography approach. The second algorithm exhibits a significant reduction in the utilization of two-qubit gates compared to the first. As an illustration, we apply both methods to compute the Von Neumann entropy of randomly generated quantum states. | 翻訳日:2023-12-27 21:52:47 公開日:2023-12-24 |
# マルチモーダル大言語モデルの編集は可能か? Can We Edit Multimodal Large Language Models? ( http://arxiv.org/abs/2310.08475v3 ) ライセンス: Link先を確認 | Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang | (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の編集に焦点をあてる。
単一モードLLMの編集に比べ、マルチモーダルモデル編集はより困難であり、編集プロセスにおいてより高度な精査と慎重な考慮が必要である。
そこで本研究では,マルチモーダル LLM の編集と評価のための革新的な指標のスイートを構築するため,MMEdit という新しいベンチマークを構築した。
各種モデル編集ベースラインの包括的実験を行い、多モードLLMにおける様々なコンポーネントの編集の影響を分析した。
経験的に、以前のベースラインはある程度はマルチモーダル LLM の編集を実装できるが、その効果はいまだに十分であり、この課題の潜在的な難しさを示している。
私たちの研究がNLPコミュニティに洞察を与えてくれることを願っています。
コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。 In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights. Code and dataset are available in https://github.com/zjunlp/EasyEdit. | 翻訳日:2023-12-27 21:41:26 公開日:2023-12-24 |
# DNA配列生成のための潜時拡散モデル Latent Diffusion Model for DNA Sequence Generation ( http://arxiv.org/abs/2310.06150v2 ) ライセンス: Link先を確認 | Zehui Li, Yuhao Ni, Tim August B. Huygelen, Akashaditya Das, Guoxuan Xia, Guy-Bart Stan, Yiren Zhao | (参考訳) 機械学習、特に深層生成モデルの活用は、合成DNA配列生成の分野で有望な道を開いた。
GAN(Generative Adversarial Networks)はこの応用の牽引力を得ているが、サンプルの多様性の制限やモード崩壊といった問題に直面していることが多い。
一方、拡散モデルは、これらの問題に負担を負わない有望な新しい生成モデルクラスであり、画像生成のような領域において最先端に到達できる。
そこで本研究では,DNAシークエンス生成に適した新しい潜伏拡散モデルであるDisdisDiffを提案する。
オートエンコーダを用いて、離散dna配列を連続的潜在空間に埋め込むことにより、離散データ生成のための連続拡散モデルの強力な生成能力を活用できる。
さらに、Fr'echet Reconstruction Distance (FReD) をDNA配列のサンプル品質を測定するための新しい指標として紹介する。
DiscDiffモデルでは、モチーフ分布、潜伏埋め込み分布(FReD)、クロマチンプロファイルの観点から、実際のDNAと密接に一致した合成DNA配列を生成する能力を示す。
さらに,15種から150kの固有プロモーター遺伝子配列の包括的クロス種間データセットを寄贈し,ゲノム学における将来的生成モデリングのための資源を充実させた。
私たちは公開時にコードを公開します。 The harnessing of machine learning, especially deep generative models, has opened up promising avenues in the field of synthetic DNA sequence generation. Whilst Generative Adversarial Networks (GANs) have gained traction for this application, they often face issues such as limited sample diversity and mode collapse. On the other hand, Diffusion Models are a promising new class of generative models that are not burdened with these problems, enabling them to reach the state-of-the-art in domains such as image generation. In light of this, we propose a novel latent diffusion model, DiscDiff, tailored for discrete DNA sequence generation. By simply embedding discrete DNA sequences into a continuous latent space using an autoencoder, we are able to leverage the powerful generative abilities of continuous diffusion models for the generation of discrete data. Additionally, we introduce Fr\'echet Reconstruction Distance (FReD) as a new metric to measure the sample quality of DNA sequence generations. Our DiscDiff model demonstrates an ability to generate synthetic DNA sequences that align closely with real DNA in terms of Motif Distribution, Latent Embedding Distribution (FReD), and Chromatin Profiles. Additionally, we contribute a comprehensive cross-species dataset of 150K unique promoter-gene sequences from 15 species, enriching resources for future generative modelling in genomics. We will make our code public upon publication. | 翻訳日:2023-12-27 21:41:12 公開日:2023-12-24 |
# ct肺血管造影画像における深部学習 : 肺塞栓症検出のためのデュアルプロングアプローチ Deep Learning in Computed Tomography Pulmonary Angiography Imaging: A Dual-Pronged Approach for Pulmonary Embolism Detection ( http://arxiv.org/abs/2311.05197v3 ) ライセンス: Link先を確認 | Fabiha Bushra, Muhammad E. H. Chowdhury, Rusab Sarmun, Saidul Kabir, Menatalla Said, Sohaib Bassam Zoghoul, Adam Mushtak, Israa Al-Hashimi, Abdulrahman Alqahtani, Anwarul Hasan | (参考訳) 肺塞栓症 (PE) 診断におけるCTによる肺血管造影検査への依存度が増大し, 診断ソリューションの改善の必要性が高まっている。
本研究の目的は,深層学習技術を活用し,PEのコンピュータ支援診断を強化することである。
そこで本研究では,分類器の確率的推論を効果的に活用して検出予測を指示し,pe自動診断の領域における新たな貢献を示す分類器誘導検出手法を提案する。
当社のエンドツーエンド分類フレームワークでは,アテンションガイド型畳み込みニューラルネットワーク(AG-CNN)を導入している。
このアプローチは、決定的な決定を下す前に、グローバルな外観と局所的な病変領域の両方を見て、人間の専門家の注意をエミュレートする。
この分類器は、AUROC、感度、特異性、F1スコアの0.927、0.862、0.879、0.805をInception-v3バックボーンアーキテクチャで達成し、FUMPEデータセットに強い性能を示す。
さらに、AG-CNNはベースラインのDenseNet-121モデルを上回っ、8.1%のAUROCゲインを達成した。
先行研究は主動脈のPE検出に重点を置いているが, 近縁物体検出モデルとアンサンブル技術の利用により, 末梢動脈に小さな塞栓物を見出す精度が大幅に向上する。
最後に,提案する分類器ガイド検出手法は,コミュニティに新たな最先端をもたらす検出指標をさらに洗練する: map$_{50}$, sensitivity and f1-score of 0.846, 0.901, 0.779。
本研究は,aiソリューションを臨床ワークフローに統合し,医療診断における人間-aiコラボレーションの可能性を強調し,pe患者ケアの向上を目指している。 The increasing reliance on Computed Tomography Pulmonary Angiography for Pulmonary Embolism (PE) diagnosis presents challenges and a pressing need for improved diagnostic solutions. The primary objective of this study is to leverage deep learning techniques to enhance the Computer Assisted Diagnosis of PE. With this aim, we propose a classifier-guided detection approach that effectively leverages the classifier's probabilistic inference to direct the detection predictions, marking a novel contribution in the domain of automated PE diagnosis. Our end-to-end classification framework introduces an Attention-Guided Convolutional Neural Network (AG-CNN) that leverages local context by utilizing an attention mechanism. This approach emulates a human expert's attention by looking at both global appearances and local lesion regions before forming a conclusive decision. The classifier demonstrates strong performance on the FUMPE dataset, achieving AUROC, sensitivity, specificity, and F1-score of 0.927, 0.862, 0.879, and 0.805 respectively with Inception-v3 backbone architecture. Moreover, AG-CNN outperforms the baseline DenseNet-121 model, achieving an 8.1% AUROC gain. While prior studies have primarily focused on PE detection in main arteries, our utilization of cutting-edge object detection models and ensembling techniques greatly improves the accuracy of finding small embolisms in the peripheral arteries. Finally, our proposed classifier-guided detection approach further refines the detection metrics contributing new state-of-the-art to the community: mAP$_{50}$, sensitivity and F1-score of 0.846, 0.901 and 0.779 respectively outperforming the former benchmark with a significant 3.7% improvement in mAP$_{50}$. Our research aims to elevate PE patient care by integrating AI solutions into clinical workflows, highlighting the potential of human-AI collaboration in medical diagnostics. | 翻訳日:2023-12-27 21:32:56 公開日:2023-12-24 |
# 機械学習ベンチマークに向けて:顔認識システムにおける個人的アイデンティティの獲得 Towards Machine Unlearning Benchmarks: Forgetting the Personal Identities in Facial Recognition Systems ( http://arxiv.org/abs/2311.02240v2 ) ライセンス: Link先を確認 | Dasol Choi, Dongbin Na | (参考訳) 機械学習は、分類モデルがトレーニング時間に使用される特定のデータを忘れるための重要なツールである。
近年,様々な研究が機械学習アルゴリズムを提案し,その手法を複数のデータセット上で評価している。
しかし、現在の機械学習アルゴリズムのほとんどは、CIFAR-10、MNIST、SVHNといった従来のコンピュータビジョンデータセットのみに評価されている。
さらに,過去の研究では,授業学習環境におけるアンラーニング手法を概ね評価している。
これまでのほとんどの研究は、まず分類モデルを訓練し、実験で選択された画像クラス(カテゴリ)を忘れることで、機械学習アルゴリズムの機械学習性能を評価する。
残念ながら、これらのクラス学習設定は現実世界のシナリオに一般化しないかもしれない。
本研究では,個人のプライバシ(identity)を含む特定のインスタンスを,与えられたモデルのタスクを維持しながら解き放つことを目的とした,マシンアンラーニング設定を提案する。
具体的には、MUCACとMUFACの2つの機械学習ベンチマークデータセットを提案し、機械学習アルゴリズムの性能と堅牢性を評価するのに非常に有用である。
ベンチマークデータセットでは,顔年齢推定(マルチクラス分類)と顔属性分類(バイナリクラス分類)という顔特徴認識タスクを実行する。
さらに,提案したベンチマークデータセット上での最先端の機械学習手法の性能についても報告する。
すべてのデータセット、ソースコード、トレーニングされたモデルはhttps://github.com/ndb796/MachineUnlearningで公開されている。 Machine unlearning is a crucial tool for enabling a classification model to forget specific data that are used in the training time. Recently, various studies have presented machine unlearning algorithms and evaluated their methods on several datasets. However, most of the current machine unlearning algorithms have been evaluated solely on traditional computer vision datasets such as CIFAR-10, MNIST, and SVHN. Furthermore, previous studies generally evaluate the unlearning methods in the class-unlearning setup. Most previous work first trains the classification models and then evaluates the machine unlearning performance of machine unlearning algorithms by forgetting selected image classes (categories) in the experiments. Unfortunately, these class-unlearning settings might not generalize to real-world scenarios. In this work, we propose a machine unlearning setting that aims to unlearn specific instance that contains personal privacy (identity) while maintaining the original task of a given model. Specifically, we propose two machine unlearning benchmark datasets, MUFAC and MUCAC, that are greatly useful to evaluate the performance and robustness of a machine unlearning algorithm. In our benchmark datasets, the original model performs facial feature recognition tasks: face age estimation (multi-class classification) and facial attribute classification (binary class classification), where a class does not depend on any single target subject (personal identity), which can be a realistic setting. Moreover, we also report the performance of the state-of-the-art machine unlearning methods on our proposed benchmark datasets. All the datasets, source codes, and trained models are publicly available at https://github.com/ndb796/MachineUnlearning. | 翻訳日:2023-12-27 21:31:19 公開日:2023-12-24 |
# GNN2R:知識グラフに関する質問に対する回答 GNN2R: Weakly-Supervised Rationale-Providing Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2312.02317v2 ) ライセンス: Link先を確認 | Ruijie Wang, Luca Rossetto, Michael Cochez, Abraham Bernstein | (参考訳) 知識グラフ (KGs) 上のマルチホップ質問応答 (QA) のほとんどの手法は、通常のユーザがレビューし理解することが難しいKGエンティティのセットなど、説明なしで最終決定的な回答しか提供しない。
この問題は現実世界のシナリオにおけるKGベースのQAの適用を厳しく制限する。
第一に、説明生成の監督として機能するマルチホップ質問の推論連鎖の注釈は、通常不足している。
第二に、説明を生成するために明示的なKGトリプルを回収する必要がある場合、高い効率を維持することは困難である。
本稿では,グラフニューラルネットワークを用いた2段階推論モデル(GNN2R)を提案する。
GNN2Rは、最終回答と推論部分グラフの両方を、質問-最終回答ペアを通して利用できる弱い監督のみを効率的に行うための根拠として提供することができる。
実験において, GNN2Rの詳細な解析を行った。
その結果、生成した説明の有効性、効率、品質の点で、GNN2Rは、この課題に適用可能な既存の最先端手法よりも優れていることが示された。
私たちのコードと事前トレーニングされたモデルは、https://github.com/ruijie-wang-uzh/gnn2rで利用可能です。 Most current methods for multi-hop question answering (QA) over knowledge graphs (KGs) only provide final conclusive answers without explanations, such as a set of KG entities that is difficult for normal users to review and comprehend. This issue severely limits the application of KG-based QA in real-world scenarios. However, it is non-trivial to solve due to two challenges: First, annotations of reasoning chains of multi-hop questions, which could serve as supervision for explanation generation, are usually lacking. Second, it is difficult to maintain high efficiency when explicit KG triples need to be retrieved to generate explanations. In this paper, we propose a novel Graph Neural Network-based Two-Step Reasoning model (GNN2R) to solve this issue. GNN2R can provide both final answers and reasoning subgraphs as a rationale behind final answers efficiently with only weak supervision that is available through question-final answer pairs. We extensively evaluated GNN2R with detailed analyses in experiments. The results demonstrate that, in terms of effectiveness, efficiency, and quality of generated explanations, GNN2R outperforms existing state-of-the-art methods that are applicable to this task. Our code and pre-trained models are available at https://github.com/ruijie-wang-uzh/GNN2R. | 翻訳日:2023-12-27 21:23:05 公開日:2023-12-24 |
# look before you leap: gpt-4vのパワーをロボットビジョン言語計画で披露 Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning ( http://arxiv.org/abs/2311.17842v2 ) ライセンス: Link先を確認 | Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, Yang Gao | (参考訳) 本研究では,ロボットに身体的な作業計画能力を持たせることに関心を寄せる。
近年の進歩は、大規模言語モデル(LLM)がロボットタスク、特に推論や計画において有用な知識を持っていることを示している。
しかし、LLMは世界基盤の欠如と環境情報を知覚するために外部の価格モデルに依存しているため、LLMと共同で理由付けができない。
タスクプランナは本質的に基盤化された統合マルチモーダルシステムであるべきだと我々は主張する。
この目的のために、視覚言語モデル(VLM)を活用して動作可能な一連のステップを生成する、長距離ロボット計画のための新しいアプローチであるRobotic Vision-Language Planning (ViLa)を紹介する。
ViLaは知覚データをその推論と計画プロセスに直接統合し、空間レイアウトやオブジェクト属性を含む視覚の世界における常識的知識の深い理解を可能にする。
また、フレキシブルなマルチモーダルゴール仕様をサポートし、ビジュアルフィードバックを自然に組み込む。
実ロボットとシミュレーション環境の両方で実施した広範な評価は,既存のllmベースのプランナーよりもvilaが優れていることを示し,多岐にわたるオープンワールド操作タスクにおけるvilaの有効性を強調した。 In this study, we are interested in imbuing robots with the capability of physically-grounded task planning. Recent advancements have shown that large language models (LLMs) possess extensive knowledge useful in robotic tasks, especially in reasoning and planning. However, LLMs are constrained by their lack of world grounding and dependence on external affordance models to perceive environmental information, which cannot jointly reason with LLMs. We argue that a task planner should be an inherently grounded, unified multimodal system. To this end, we introduce Robotic Vision-Language Planning (ViLa), a novel approach for long-horizon robotic planning that leverages vision-language models (VLMs) to generate a sequence of actionable steps. ViLa directly integrates perceptual data into its reasoning and planning process, enabling a profound understanding of commonsense knowledge in the visual world, including spatial layouts and object attributes. It also supports flexible multimodal goal specification and naturally incorporates visual feedback. Our extensive evaluation, conducted in both real-robot and simulated environments, demonstrates ViLa's superiority over existing LLM-based planners, highlighting its effectiveness in a wide array of open-world manipulation tasks. | 翻訳日:2023-12-27 21:20:51 公開日:2023-12-24 |
# richdreamer:テキストから3dへの詳細度のための一般化された正規精細拡散モデル RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D ( http://arxiv.org/abs/2311.16918v2 ) ライセンス: Link先を確認 | Lingteng Qiu, Guanying Chen, Xiaodong Gu, Qi Zuo, Mutian Xu, Yushuang Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, Xiaoguang Han | (参考訳) 3次元生成のためのリフティング2次元拡散は、幾何学的事前の欠如と、自然画像における材料と照明の複雑な絡み合いのために難しい問題である。
既存の手法では, 表面標準値に印加したスコア蒸留サンプリング(SDS)を用いて, まず幾何学を創出し, 外観のモデリングを行った。
しかし,2次元RGB拡散モデルを用いて表面の正規分布を最適化することは,自然画像と正規分布マップの分布の相違により,最適化の不安定性をもたらす。
本稿では,シーン形状を効果的に記述し,画像から自動的に推定することを認識し,3次元生成のための一般化された正規深度拡散モデルを提案する。
我々は、大規模LAIONデータセットと、一般化可能な画像深度モデルと通常の事前モデルとの併用により、これを実現する。
生成材料の混合照明効果を緩和する試みとして,アルベド成分にデータ駆動制約を課すためのアルベド拡散モデルを提案する。
実験の結果,既存のテキスト・ツー・3Dパイプラインに組み込むと,モデルの精度が向上し,最先端の結果が得られることがわかった。
プロジェクトページはhttps://aigc3d.github.io/richdreamer/。 Lifting 2D diffusion for 3D generation is a challenging problem due to the lack of geometric prior and the complex entanglement of materials and lighting in natural images. Existing methods have shown promise by first creating the geometry through score-distillation sampling (SDS) applied to rendered surface normals, followed by appearance modeling. However, relying on a 2D RGB diffusion model to optimize surface normals is suboptimal due to the distribution discrepancy between natural images and normals maps, leading to instability in optimization. In this paper, recognizing that the normal and depth information effectively describe scene geometry and be automatically estimated from images, we propose to learn a generalizable Normal-Depth diffusion model for 3D generation. We achieve this by training on the large-scale LAION dataset together with the generalizable image-to-depth and normal prior models. In an attempt to alleviate the mixed illumination effects in the generated materials, we introduce an albedo diffusion model to impose data-driven constraints on the albedo component. Our experiments show that when integrated into existing text-to-3D pipelines, our models significantly enhance the detail richness, achieving state-of-the-art results. Our project page is https://aigc3d.github.io/richdreamer/. | 翻訳日:2023-12-27 21:19:51 公開日:2023-12-24 |
# ハードウェア効率トレーニングによるゲートリニアアテンショントランス Gated Linear Attention Transformers with Hardware-Efficient Training ( http://arxiv.org/abs/2312.06635v3 ) ライセンス: Link先を確認 | Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim | (参考訳) 線形アテンションを持つ変換器は効率的な並列トレーニングを可能にするが、同時に2D隠れ状態を持つRNNとして定式化できるため、(出力長に関して)線形推論の複雑さを享受できる。
RetNet (Sun et al., 2023) やTransNormerLLM (Qin et al., 2023a) のような最近の研究は、付加的なRNN更新規則に大域的な減衰項を加えることで性能が大幅に向上し、スケールで訓練するとソフトマックスの注意を払って標準のトランスフォーマーを上回ることがあることを観察している。
本研究では,データ依存型ゲーティング機構の追加によりパフォーマンスがさらに向上することを示す。
効率的なトレーニングを可能にするこのゲート付き線形注意層の並列形式を導出する。
しかし、この並列形式の単純で数値的に安定な実装では、数値安定性のためにログ空間における一般化された行列の乗算が必要となるため、標準行列の乗算に最適化された現代のgpuではテンソルコアを活用できない。
並列形式のハードウェア効率の良いバージョンを開発し、シーケンスチャンク上でのブロック並列計算によりテンソルコアを引き続き活用する。
15Bトークンでトレーニングされた中規模言語モデリング(340Mパラメータモデル、100Bトークンでトレーニングされた1.3Bパラメータモデル)の実験では、ゲート型線形アテンション(GLA)トランスフォーマーが、データ依存状態遷移機構を備えた最近導入された状態空間モデルであるMamba(Gu & Dao, 2023)と同様に、強力なLLaMAアーキテクチャトランスフォーマーベースライン(Touvron et al., 2023)と競合して動作することを示した。
トレーニング速度では, CUDA最適化FlashAttention-2(Dao, 2023)に対して, 通常の2048トレーニング長設定で比較して, 4096以上の長いシーケンスでのトレーニングでは, FlashAttention-2よりも優れていた。 Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear (with respect to output length) inference complexity. Recent works such as RetNet (Sun et al., 2023) and TransNormerLLM (Qin et al., 2023a) observe that adding a global decay term to the additive RNN update rule greatly improves performance, sometimes outperforming standard Transformers with softmax attention when trained at scale. In this work we show that adding a data-dependent gating mechanism further improves performance. We derive a parallel form of this gated linear attention layer that enables efficient training. However, a straightforward, numerically stable implementation of this parallel form requires generalized matrix multiplications in log-space for numerical stability, and thus cannot take advantage of tensor cores on modern GPUs which are optimized for standard matrix multiplications. We develop a hardware-efficient version of the parallel form that can still make use of tensor cores through block-parallel computations over sequence chunks. Experiments on moderate-scale language modeling (340M-parameter models trained on 15B tokens, 1.3B-parameter models trained on 100B tokens) show that gated linear attention (GLA) Transformers perform competitively against a strong LLaMA-architecture Transformer baseline (Touvron et al., 2023) as well as Mamba (Gu & Dao, 2023), a recently introduced state-space model with a data-dependent state transition mechanism. For training speed, our Triton-based implementation performs comparably to CUDA-optimized FlashAttention-2 (Dao, 2023) under the regular 2048 training length setting, while outperforming FlashAttention-2 when training on longer sequences beyond 4096. | 翻訳日:2023-12-27 21:11:02 公開日:2023-12-24 |
# CLAF:アンバランスな半教師付き学習のための機能強化によるコントラスト学習 CLAF: Contrastive Learning with Augmented Features for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2312.09598v2 ) ライセンス: Link先を確認 | Bowen Tao, Lan Li, Xin-Chun Li, De-Chuan Zhan | (参考訳) ラベルなしデータと有意義な表現の学習の利点により、半教師あり学習と対照学習は徐々に結合され、ラベルなしデータとラベルなしデータが少ない一般的なアプリケーションでパフォーマンスが向上した。
一般的な方法は、ラベルなしのサンプルに擬似ラベルを割り当て、偽ラベルのサンプルから正のサンプルと負のサンプルを選択して対比学習を適用することである。
しかし、現実世界のデータは不均衡になり、擬似ラベルが多数派クラスに偏り、さらにコントラスト学習の有効性を損なう可能性がある。
この課題に対処するため,我々はCLAF(Contrastive Learning with Augmented Features)を提案する。
対照学習における少数クラスサンプルの不足を軽減するために,クラス依存機能拡張モジュールを設計する。
擬似ラベル付きサンプル毎にラベル付きデータではなくラベル付きデータから正と負のサンプルを選択してコントラスト損失を計算する。
不均衡画像分類データセットに関する総合実験は、不均衡半教師あり学習におけるCLAFの有効性を示す。 Due to the advantages of leveraging unlabeled data and learning meaningful representations, semi-supervised learning and contrastive learning have been progressively combined to achieve better performances in popular applications with few labeled data and abundant unlabeled data. One common manner is assigning pseudo-labels to unlabeled samples and selecting positive and negative samples from pseudo-labeled samples to apply contrastive learning. However, the real-world data may be imbalanced, causing pseudo-labels to be biased toward the majority classes and further undermining the effectiveness of contrastive learning. To address the challenge, we propose Contrastive Learning with Augmented Features (CLAF). We design a class-dependent feature augmentation module to alleviate the scarcity of minority class samples in contrastive learning. For each pseudo-labeled sample, we select positive and negative samples from labeled data instead of unlabeled data to compute contrastive loss. Comprehensive experiments on imbalanced image classification datasets demonstrate the effectiveness of CLAF in the context of imbalanced semi-supervised learning. | 翻訳日:2023-12-27 21:00:16 公開日:2023-12-24 |
# 機械学習におけるラベルバイアスの緩和:信頼学習による公平性 Mitigating Label Bias in Machine Learning: Fairness through Confident Learning ( http://arxiv.org/abs/2312.08749v2 ) ライセンス: Link先を確認 | Yixuan Zhang, Boyu Li, Zenan Ling and Feng Zhou | (参考訳) 偏見のないラベルが潜在的なバイアスを持つエージェントによって上書きされると、特定のグループに不公平に損傷を与え、分類器にこれらのバイアスを継承させるバイアスデータセットが生じる。
本稿では,バイアスラベルにのみアクセス可能であるにもかかわらず,信頼度学習の枠組みの中で最も公平な事例をフィルタリングすることでバイアスを排除できることを実証する。
自信のある学習の文脈では、低い自信は通常潜在的なラベルエラーを示すが、必ずしもそうではない。
例、特に表現不足なグループの例は、エラーのラベル付け以外の理由から、低い信頼度を示す可能性がある。
この制限に対処するため,本手法では信頼スコアの切り離しを採用し,確率しきい値の信頼区間を延長する。
さらに,公平なインスタンスの選択をより堅牢で信頼性の高いものにし,バイアスラベルの悪影響を効果的に軽減するために,コティーチングパラダイムを取り入れている。
さまざまなデータセットの広範な実験と評価を通じて、機械学習モデルにおける公正性向上とラベルバイアスの影響の低減に、我々のアプローチの有効性を実証する。 Discrimination can occur when the underlying unbiased labels are overwritten by an agent with potential bias, resulting in biased datasets that unfairly harm specific groups and cause classifiers to inherit these biases. In this paper, we demonstrate that despite only having access to the biased labels, it is possible to eliminate bias by filtering the fairest instances within the framework of confident learning. In the context of confident learning, low self-confidence usually indicates potential label errors; however, this is not always the case. Instances, particularly those from underrepresented groups, might exhibit low confidence scores for reasons other than labeling errors. To address this limitation, our approach employs truncation of the confidence score and extends the confidence interval of the probabilistic threshold. Additionally, we incorporate with co-teaching paradigm for providing a more robust and reliable selection of fair instances and effectively mitigating the adverse effects of biased labels. Through extensive experimentation and evaluation of various datasets, we demonstrate the efficacy of our approach in promoting fairness and reducing the impact of label bias in machine learning models. | 翻訳日:2023-12-27 20:57:45 公開日:2023-12-24 |
# 正の強化をともなうメタ認知機能を有するフイショットプロンプト Metacognition-Enhanced Few-Shot Prompting With Positive Reinforcement ( http://arxiv.org/abs/2312.08642v2 ) ライセンス: Link先を確認 | Yu Ji and Wen Wu and Yi Hu and Hong Zheng and Liang He | (参考訳) 少数ショットプロンプトは、入力にいくつかのデモ例を組み込むことで、大きな言語モデルの驚くべき能力を引き出す。
しかし、実演されたすべての入出力ペアを一度に持つ大規模な言語モデルを提供する従来の方法は、特定の入出力マッピング関係を学ぶために、大きな言語モデルを効果的に導くことはできない。
本稿では,学生の学習におけるメタ認知の規制的かつ支援的な役割に着想を得て,大規模言語モデルに思考過程を反映させ,与えられた実演例を包括的に学習させる,メタ認知に富んだ新規なショットプロンプトを提案する。
さらに,学生の学習モチベーションを向上させることを考えると,反応に基づく肯定的なフィードバックを提供することで,大規模言語モデルの数発学習を促進するメタ認知の強化が促進される。
実世界の2つのデータセットによる実験結果から,メタ認知によって増強された数ショットは,分類精度とマクロF1において従来の数ショットを超えることが判明した。 Few-shot prompting elicits the remarkable abilities of large language models by equipping them with a few demonstration examples in the input. However, the traditional method of providing large language models with all demonstration input-output pairs at once may not effectively guide large language models to learn the specific input-output mapping relationship. In this paper, inspired by the regulatory and supportive role of metacognition in students' learning, we propose a novel metacognition-enhanced few-shot prompting, which guides large language models to reflect on their thought processes to comprehensively learn the given demonstration examples. Furthermore, considering that positive reinforcement can improve students' learning motivation, we introduce positive reinforcement into our metacognition-enhanced few-shot prompting to promote the few-shot learning of large language models by providing response-based positive feedback. The experimental results on two real-world datasets show that our metacognition-enhanced few-shot prompting with positive reinforcement surpasses traditional few-shot prompting in classification accuracy and macro F1. | 翻訳日:2023-12-27 20:57:26 公開日:2023-12-24 |
# 知識蒸留の重要な要因の解明 Unraveling Key Factors of Knowledge Distillation ( http://arxiv.org/abs/2312.08585v2 ) ライセンス: Link先を確認 | Jingxuan Wei, Linzhuang Sun, Xu Tan, Bihui Yu, Ruifeng Guo | (参考訳) モデル圧縮と性能向上のための技術である知識蒸留は、ニューラルマシン翻訳(nmt)において大きな注目を集めている。
しかし、既存の研究は主に経験的応用に焦点を当てており、学生モデルの能力、データの複雑さ、復号化戦略が蒸留の有効性にどのように影響するかを包括的に理解していない。
そこで本研究では,nmt内の単語レベルとシーケンスレベルの蒸留における相互作用に着目し,これらの要因について詳細に検討する。
IWSLT13 En$\rightarrow$Fr, IWSLT14 En$\rightarrow$Deなどのデータセットにわたる広範な実験を通じて、これらの要因が知識蒸留に与える影響に関する仮説を実証的に検証する。
本研究は, モデル容量, データ複雑性, 復号化戦略が蒸留効率に与える影響を解明するだけでなく, 新たな最適化蒸留手法も導入する。
このアプローチは、IWSLT14 de$\rightarrow$en翻訳タスクに適用され、最先端の性能を実現し、NMTの分野を前進させる実用的な効果を示す。 Knowledge distillation, a technique for model compression and performance enhancement, has gained significant traction in Neural Machine Translation (NMT). However, existing research primarily focuses on empirical applications, and there is a lack of comprehensive understanding of how student model capacity, data complexity, and decoding strategies collectively influence distillation effectiveness. Addressing this gap, our study conducts an in-depth investigation into these factors, particularly focusing on their interplay in word-level and sequence-level distillation within NMT. Through extensive experimentation across datasets like IWSLT13 En$\rightarrow$Fr, IWSLT14 En$\rightarrow$De, and others, we empirically validate hypotheses related to the impact of these factors on knowledge distillation. Our research not only elucidates the significant influence of model capacity, data complexity, and decoding strategies on distillation effectiveness but also introduces a novel, optimized distillation approach. This approach, when applied to the IWSLT14 de$\rightarrow$en translation task, achieves state-of-the-art performance, demonstrating its practical efficacy in advancing the field of NMT. | 翻訳日:2023-12-27 20:57:06 公開日:2023-12-24 |
# AdapEdit: テキストベース連続感性画像編集のための時空間適応編集アルゴリズム AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for Text-Based Continuity-Sensitive Image Editing ( http://arxiv.org/abs/2312.08019v2 ) ライセンス: Link先を確認 | Zhiyuan Ma, Guoli Jia, Bowen Zhou | (参考訳) クリエイティブテキスト・ツー・イメージ生成におけるテキスト条件拡散モデルの成功により、テキスト駆動画像編集アプローチは多くの研究者の注目を集めている。
しかし、従来の研究は、特定のオブジェクト、背景要素、グローバルスタイル(ハード編集)の追加、削除、置換といった離散性に敏感な指示に重点を置いていたが、一般的には、アクション、ポーズ、形容詞などの意味的に微妙な連続性に敏感な指示を無視している(ソフト編集)。
そこで本研究では,時間的・空間的両面から視覚的画素への誘導度を動的に変化させるソフトアテンション戦略を導入し,適応的な画像編集を実現するための時空間適応編集アルゴリズムAdapEditを提案する。
私たちのアプローチは、モデルの事前保存に大きな利点があり、モデルトレーニング、微調整、追加データ、最適化を必要としないことに注意してください。
我々は,様々な生画像と編集手順で結果を示し,競合性能を示し,従来の手法を大きく上回る結果を示した。 With the great success of text-conditioned diffusion models in creative text-to-image generation, various text-driven image editing approaches have attracted the attentions of many researchers. However, previous works mainly focus on discreteness-sensitive instructions such as adding, removing or replacing specific objects, background elements or global styles (i.e., hard editing), while generally ignoring subject-binding but semantically fine-changing continuity-sensitive instructions such as actions, poses or adjectives, and so on (i.e., soft editing), which hampers generative AI from generating user-customized visual contents. To mitigate this predicament, we propose a spatio-temporal guided adaptive editing algorithm AdapEdit, which realizes adaptive image editing by introducing a soft-attention strategy to dynamically vary the guiding degree from the editing conditions to visual pixels from both temporal and spatial perspectives. Note our approach has a significant advantage in preserving model priors and does not require model training, fine-tuning, extra data, or optimization. We present our results over a wide variety of raw images and editing instructions, demonstrating competitive performance and showing it significantly outperforms the previous approaches. | 翻訳日:2023-12-27 20:56:07 公開日:2023-12-24 |
# Geminiの言語能力について An In-depth Look at Gemini's Language Abilities ( http://arxiv.org/abs/2312.11444v2 ) ライセンス: Link先を確認 | Syeda Nahida Akter, Zichun Yu, Aashiq Muhamed, Tianyue Ou, Alex B\"auerle, \'Angel Alexander Cabrera, Krish Dholakia, Chenyan Xiong, Graham Neubig | (参考訳) 最近リリースされたGoogle Geminiクラスは、さまざまなタスクでOpenAI GPTシリーズと競合する結果を総合的に報告した最初のモデルだ。
本稿では,geminiの言語能力について深く検討し,2つの貢献を行った。
まず、再現可能なコードと完全な透過的な結果を備えたOpenAI GPTとGoogle Geminiモデルの能力の客観的比較を行う。
次に、2つのモデルクラスのうちの1つが優れている領域を特定する。
我々は、推論、知識に基づく質問への回答、数学の問題解決、言語間の翻訳、コード生成、命令追従エージェントとしての役割など、さまざまな言語能力をテストする10以上のデータセットを分析します。
この分析から、Gemini Proは、ベンチマークした全てのタスクにおいて、対応するGPT 3.5 Turboよりも近いがわずかに劣る精度を実現していることがわかった。
我々はさらに,数桁数による数学的推論の失敗,複数項目の回答順序に対する感度,積極的なコンテンツフィルタリングなど,この低パフォーマンスのいくつかの説明を提供する。
また,非英語言語への生成や,より長く複雑な推論チェーンの処理など,geminiが比較可能なハイパフォーマンスを示す領域も特定した。
コードとデータはhttps://github.com/neulab/gemini-benchmarkにある。 The recently released Google Gemini class of models are the first to comprehensively report results that rival the OpenAI GPT series across a wide variety of tasks. In this paper, we do an in-depth exploration of Gemini's language abilities, making two contributions. First, we provide a third-party, objective comparison of the abilities of the OpenAI GPT and Google Gemini models with reproducible code and fully transparent results. Second, we take a closer look at the results, identifying areas where one of the two model classes excels. We perform this analysis over 10 datasets testing a variety of language abilities, including reasoning, answering knowledge-based questions, solving math problems, translating between languages, generating code, and acting as instruction-following agents. From this analysis, we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked. We further provide explanations for some of this under-performance, including failures in mathematical reasoning with many digits, sensitivity to multiple-choice answer ordering, aggressive content filtering, and others. We also identify areas where Gemini demonstrates comparably high performance, including generation into non-English languages, and handling longer and more complex reasoning chains. Code and data for reproduction can be found at https://github.com/neulab/gemini-benchmark | 翻訳日:2023-12-27 20:48:25 公開日:2023-12-24 |
# 原文のパラフレーズ化」による高精度長文QA "Paraphrasing The Original Text" Makes High Accuracy Long-Context QA ( http://arxiv.org/abs/2312.11193v4 ) ライセンス: Link先を確認 | Yijiong Yu | (参考訳) LLMは繰り返し改善され続けているが、ほとんどのオープンソースモデルは4k未満のコンテキストウィンドウを持ち、長いコンテキストの問題に対処する能力を制限する。
既存のオープンソースモデルの多くは、まだ十分な精度を欠いている。
この問題に対処するために、私はデータをトレーニングする観点からアプローチし、長いコンテキストを扱う能力のトレーニングには「長い」データではなく「効果的」が必要であることを理論的に証明します。
そこで,本論文では,「原文パラフレーズ」タスクを用いて,既存モデルのコンテキストウインドウを低コストかつ効果的に32kに拡張し,マルチドキュメントQAにおいて極めて高い精度を達成し,同一規模の既存のオープンソースモデルを超越する手法を提案する。
モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)とWiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k)でオープンソース化された。 Although LLMs continue to iterate and improve, most open-source models still have a context window of no more than 4k, limiting their ability to handle long-context problems. Most existing open-source models for long-context chat still lack satisfactory accuracy. To address this issue, I approach it from the perspective of training data and theoretically prove that training the capability to handle long contexts requires "effective" rather than "long" data. Based on this, I propose using the "original text paraphrase" task, and successfully extend the context window of the existing model to 32k by a low-cost and effective method, achieving extremely high accuracy in multi-document-QA and surpassing all existing open-source models of the same scale. The model and training data have been open-sourced on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k). | 翻訳日:2023-12-27 20:47:33 公開日:2023-12-24 |
# プロンプトに基づく三チャネルグラフ畳み込みニューラルネットワークによる三重項抽出 Prompt Based Tri-Channel Graph Convolution Neural Network for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2312.11152v2 ) ライセンス: Link先を確認 | Kun Peng, Lei Jiang, Hao Peng, Rui Liu, Zhengtao Yu, Jiaqian Ren, Zhifeng Hao, Philip S.Yu | (参考訳) アスペクト感情三重項抽出(aspect sentiment triplet extraction, aste)は、アスペクト、意見、感情からなる、ある文の三重項を抽出するための新たなタスクである。
最近の研究では、単語関係を2次元のテーブルにエンコードするテーブルフィルングパラダイムでこの問題に対処し、そのプロセスでは、全ての細胞を明確化し、3つを抽出している。
しかし、これらの研究は近隣細胞間の深い相互作用を無視しており、正確な抽出に非常に役立っている。
そこで本研究では,関係表をグラフに変換し,より包括的な関係情報を探索する,Prompt-based Tri-Channel Graph Convolution Neural Network (PT-GCN) と呼ばれるASTEタスクの新しいモデルを提案する。
具体的には,元のテーブルセルをノードとして扱い,注目スコア計算モジュールを用いてエッジの重みを決定する。
これにより、ターゲット認識グリッドのようなグラフを構築し、全体的な抽出プロセスを強化することができる。
その後、三チャンネル畳み込みモジュールを行い、正確な感情知識を抽出する。
ベンチマークデータセットの大規模な実験は、我々のモデルが最先端のパフォーマンスを達成することを示す。
コードはhttps://github.com/KunPunCN/PT-GCNで入手できる。 Aspect Sentiment Triplet Extraction (ASTE) is an emerging task to extract a given sentence's triplets, which consist of aspects, opinions, and sentiments. Recent studies tend to address this task with a table-filling paradigm, wherein word relations are encoded in a two-dimensional table, and the process involves clarifying all the individual cells to extract triples. However, these studies ignore the deep interaction between neighbor cells, which we find quite helpful for accurate extraction. To this end, we propose a novel model for the ASTE task, called Prompt-based Tri-Channel Graph Convolution Neural Network (PT-GCN), which converts the relation table into a graph to explore more comprehensive relational information. Specifically, we treat the original table cells as nodes and utilize a prompt attention score computation module to determine the edges' weights. This enables us to construct a target-aware grid-like graph to enhance the overall extraction process. After that, a triple-channel convolution module is conducted to extract precise sentiment knowledge. Extensive experiments on the benchmark datasets show that our model achieves state-of-the-art performance. The code is available at https://github.com/KunPunCN/PT-GCN. | 翻訳日:2023-12-27 20:47:14 公開日:2023-12-24 |
# T2M-HiFiGPT:残留離散表現を用いたテキスト記述から高品質な人間の動きを生成する T2M-HiFiGPT: Generating High Quality Human Motion from Textual Descriptions with Residual Discrete Representations ( http://arxiv.org/abs/2312.10628v2 ) ライセンス: Link先を確認 | Congyi Wang | (参考訳) 本研究では,テキスト記述から人間の動きを合成するための条件生成フレームワークであるT2M-HiFiGPTを紹介する。
このフレームワークは、Residual Vector Quantized Variational AutoEncoder (RVQ-VAE) と2層生成事前学習トランスフォーマー (GPT) アーキテクチャによって支えられている。
我々のCNNベースのRVQ-VAEは、高精度な2次元時間残差離散運動表現を生成可能であることを示す。
提案する二重層GPT構造は,時間的GPTと残差GPTからなる。
時間GPTは、前のフレームおよびテキスト記述からの情報を1Dコンテキストベクトルに効率的に凝縮する。
このベクトルは、最後の残留離散指標を生成する残差GPTの文脈プロンプトとして機能する。
これらのインデックスは、後にRVQ-VAEデコーダによってモーションデータに変換される。
露光バイアス問題を軽減するために,rvqと条件付きドロップアウト戦略のための簡単なコード破損手法を採用し,合成性能の向上を実現した。
注目すべきは、T2M-HiFiGPTは生成プロセスを単純化するだけでなく、最新の拡散ベースモデルやGPTベースのモデルを含む、性能とパラメータの有効性の両方において既存の手法を超越していることである。
HumanML3DとKIT-MLデータセットでは、ほぼすべての主要なメトリクスで例外的な結果が得られる。
我々は,HumanML3Dデータセットの包括的なアブレーション研究を通じて,各コンポーネントの貢献度を検証し,フレームワークの有効性をさらに検証する。
この結果, RVQ-VAEは, VQ-VAEと比較して, 高精度な3次元人間の動きを捉えるのに適していることがわかった。
その結果、T2M-HiFiGPTは、T2M-GPTやAtt-T2Mといった最近の最先端技術よりも高い精度で人間の動きを生成することができる。 In this study, we introduce T2M-HiFiGPT, a novel conditional generative framework for synthesizing human motion from textual descriptions. This framework is underpinned by a Residual Vector Quantized Variational AutoEncoder (RVQ-VAE) and a double-tier Generative Pretrained Transformer (GPT) architecture. We demonstrate that our CNN-based RVQ-VAE is capable of producing highly accurate 2D temporal-residual discrete motion representations. Our proposed double-tier GPT structure comprises a temporal GPT and a residual GPT. The temporal GPT efficiently condenses information from previous frames and textual descriptions into a 1D context vector. This vector then serves as a context prompt for the residual GPT, which generates the final residual discrete indices. These indices are subsequently transformed back into motion data by the RVQ-VAE decoder. To mitigate the exposure bias issue, we employ straightforward code corruption techniques for RVQ and a conditional dropout strategy, resulting in enhanced synthesis performance. Remarkably, T2M-HiFiGPT not only simplifies the generative process but also surpasses existing methods in both performance and parameter efficacy, including the latest diffusion-based and GPT-based models. On the HumanML3D and KIT-ML datasets, our framework achieves exceptional results across nearly all primary metrics. We further validate the efficacy of our framework through comprehensive ablation studies on the HumanML3D dataset, examining the contribution of each component. Our findings reveal that RVQ-VAE is more adept at capturing precise 3D human motion with comparable computational demand compared to its VQ-VAE counterparts. As a result, T2M-HiFiGPT enables the generation of human motion with significantly increased accuracy, outperforming recent state-of-the-art approaches such as T2M-GPT and Att-T2M. | 翻訳日:2023-12-27 20:46:07 公開日:2023-12-24 |
# deepart:ai生成コンテンツの忠実性研究を促進するベンチマーク DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content ( http://arxiv.org/abs/2312.10407v2 ) ライセンス: Link先を確認 | Wentao Wang, Xuanyao Huang, Tianyang Wang, Swalpa Kumar Roy | (参考訳) 本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。
本稿では,gpt-4で生成した画像のテクスチャ特徴の忠実性を評価するためのベンチマークを構築した。
まず、gpt-4に基づく画像合成機能の忠実性に関する詳細な分析を行い、この最先端モデルに関する最初の研究となる。
第2に、定量および定性的実験により、画像合成におけるGPT-4モデルの限界が完全に明らかになった。
第3に,手動図面とそれに対応するGPT-4生成画像のユニークなベンチマークをコンパイルし,AIGC(AIGC)における忠実度研究を進めるための新たなタスクを導入した。
データセットは \url{https://github.com/rickwang28574/deepart} で利用可能である。 This paper explores the image synthesis capabilities of GPT-4, a leading multi-modal large language model. We establish a benchmark for evaluating the fidelity of texture features in images generated by GPT-4, comprising manually painted pictures and their AI-generated counterparts. The contributions of this study are threefold: First, we provide an in-depth analysis of the fidelity of image synthesis features based on GPT-4, marking the first such study on this state-of-the-art model. Second, the quantitative and qualitative experiments fully reveals the limitations of the GPT-4 model in image synthesis. Third, we have compiled a unique benchmark of manual drawings and corresponding GPT-4-generated images, introducing a new task to advance fidelity research in AI-generated content (AIGC). The dataset is available at: \url{https://github.com/rickwang28574/DeepArt}. | 翻訳日:2023-12-27 20:45:11 公開日:2023-12-24 |
# 外来における臨床検査の自動化 Automated Clinical Coding for Outpatient Departments ( http://arxiv.org/abs/2312.13533v2 ) ライセンス: Link先を確認 | Viktor Schlegel, Abhinav Ramesh Kashyap, Thanh-Tung Nguyen, Tsung-Han Yang, Vijay Prakash Dwivedi, Wei-Hsian Yin, Jeng Wei, Stefan Winkler | (参考訳) computerized clinical coding approachは、一連のコードを医療記録に割り当てるプロセスを自動化することを目的としている。
入院患者のための臨床コーディングに関する技術の現状を推し進める研究が活発に行われているが、医師が非入院患者を診察する外来の状況は見過ごされている。
どちらの設定もマルチラベル分類タスクとして定式化できるが、それらは独特で明確な課題を示しており、外来臨床コーディングアプローチの成功が外来の状況に繋がるかどうかという問題を引き起こす。
本稿では,病院規模の外来で,最先端の深層学習に基づく臨床コーディング手法がいかにうまく機能するかを初めて検討する。
この目的のために、500万人以上の患者を記録した700万以上のノートからなる大規模な外来患者データセットを収集した。
我々は4つの最先端臨床コーディングアプローチをこの設定に適応させ,コーダ支援の可能性を評価する。
外来における臨床的コーディングは、一般的な入院型コーディングベンチマークにおいて、より多くのイノベーションの恩恵を受けることができることを示す。
データの量と形式、文書表現の選択など、成功に寄与する要因のより深い分析は、容易に解決できる例の存在を明らかにし、そのコーディングはエラー率を低くして完全に自動化できる。 Computerised clinical coding approaches aim to automate the process of assigning a set of codes to medical records. While there is active research pushing the state of the art on clinical coding for hospitalized patients, the outpatient setting -- where doctors tend to non-hospitalised patients -- is overlooked. Although both settings can be formalised as a multi-label classification task, they present unique and distinct challenges, which raises the question of whether the success of inpatient clinical coding approaches translates to the outpatient setting. This paper is the first to investigate how well state-of-the-art deep learning-based clinical coding approaches work in the outpatient setting at hospital scale. To this end, we collect a large outpatient dataset comprising over 7 million notes documenting over half a million patients. We adapt four state-of-the-art clinical coding approaches to this setting and evaluate their potential to assist coders. We find evidence that clinical coding in outpatient settings can benefit from more innovations in popular inpatient coding benchmarks. A deeper analysis of the factors contributing to the success -- amount and form of data and choice of document representation -- reveals the presence of easy-to-solve examples, the coding of which can be completely automated with a low error rate. | 翻訳日:2023-12-27 20:35:34 公開日:2023-12-24 |
# ファウショット関係抽出のための相乗的アンコレッドコントラスト事前学習 Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction ( http://arxiv.org/abs/2312.12021v2 ) ライセンス: Link先を確認 | Da Luo, Yanglei Gan, Rui Hou, Run Lin, Qiao Liu, Yuxiang Cai, Wannian Gao | (参考訳) Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから関係事実を抽出することを目的としている。
近年の研究では、教師付きコントラスト学習の枠組みに事前学習言語モデル(PLM)を用いることで、FSREにおいて有望な結果が示されている。
しかし、この学習パラダイムにおける学習表現と意味豊かさを包含する大規模なインスタンスラベルペアを効果的に活用する方法は、十分に検討されていない。
このギャップに対処するために,新しい相乗的アンカー型コントラストプレトレーニングフレームワークを提案する。
このフレームワークは、インスタンスラベルペアを通じて伝達される多様な視点が不完全だが補完的な内在的なテキスト意味論を捉えているという洞察に動機づけられている。
特に,本フレームワークは,文長とラベル長の両比較損失を含む対称的コントラスト目的を含む。
これら2つの損失を組み合わせることで、モデルは堅牢で均一な表現空間を確立する。
この空間は、インスタンスとリレーショナル事実間の特徴分布の相互アライメントを効果的に捉え、同時に、同一関係内の様々な視点における相互情報の最大化を強化する。
実験の結果, 下流fsreタスクにおけるベースラインモデルと比較して, 性能が大幅に向上した。
さらに,本手法は,ドメインシフトやゼロショット関係抽出の課題に対処する上で,優れた適応性を示す。
私たちのコードはhttps://github.com/AONE-NLP/FSRE-SaConで公開されている。 Few-shot Relation Extraction (FSRE) aims to extract relational facts from a sparse set of labeled corpora. Recent studies have shown promising results in FSRE by employing Pre-trained Language Models (PLMs) within the framework of supervised contrastive learning, which considers both instances and label facts. However, how to effectively harness massive instance-label pairs to encompass the learned representation with semantic richness in this learning paradigm is not fully explored. To address this gap, we introduce a novel synergistic anchored contrastive pre-training framework. This framework is motivated by the insight that the diverse viewpoints conveyed through instance-label pairs capture incomplete yet complementary intrinsic textual semantics. Specifically, our framework involves a symmetrical contrastive objective that encompasses both sentence-anchored and label-anchored contrastive losses. By combining these two losses, the model establishes a robust and uniform representation space. This space effectively captures the reciprocal alignment of feature distributions among instances and relational facts, simultaneously enhancing the maximization of mutual information across diverse perspectives within the same relation. Experimental results demonstrate that our framework achieves significant performance enhancements compared to baseline models in downstream FSRE tasks. Furthermore, our approach exhibits superior adaptability to handle the challenges of domain shift and zero-shot relation extraction. Our code is available online at https://github.com/AONE-NLP/FSRE-SaCon. | 翻訳日:2023-12-27 20:33:07 公開日:2023-12-24 |
# 自動対話評価器としての大規模言語モデルの有効性に関する包括的分析 A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators ( http://arxiv.org/abs/2312.15407v1 ) ライセンス: Link先を確認 | Chen Zhang, Luis Fernando D'Haro, Yiming Chen, Malu Zhang, Haizhou Li | (参考訳) 自動評価は対話システム研究の不可欠な側面である。
従来の基準ベースのNLGメトリクスは、一般的に対話評価には適さない。
その結果、最近の研究では、人間の評価によく適合する様々なユニークな基準のない神経メトリクスが示唆されている。
特に大きな言語モデル(LLM)、特にChatGPTのような命令調整型は、人間の裁判官にとって有望な代用であることが示されている。
しかし, メタ評価データセットの数, 評価モード, LLMのカバレッジなどの観点から, LLMを自動対話評価に活用する作業は, 範囲内で限定されている。
したがって、これらのLSMがどれほど効果的かは決定的ではない。
この目的のために,自動対話評価におけるLLMの適用に関する総合的研究を行った。
具体的には,最近出現した30個のLCMの多次元評価能力を,12個のメタ評価データセットを用いて解析する。
さらに,旋回と対話の両レベルで様々な対向摂動を扱う上で,LLMの頑健性について検討する。
最後に,モデルレベルおよび次元レベルのアンサンブルが評価性能に与える影響について検討する。
すべてのリソースはhttps://github.com/e0397123/comp-analysisで入手できる。 Automatic evaluation is an integral aspect of dialogue system research. The traditional reference-based NLG metrics are generally found to be unsuitable for dialogue assessment. Consequently, recent studies have suggested various unique, reference-free neural metrics that better align with human evaluations. Notably among them, large language models (LLMs), particularly the instruction-tuned variants like ChatGPT, are shown to be promising substitutes for human judges. Yet, existing works on utilizing LLMs for automatic dialogue evaluation are limited in their scope in terms of the number of meta-evaluation datasets, mode of evaluation, coverage of LLMs, etc. Hence, it remains inconclusive how effective these LLMs are. To this end, we conduct a comprehensive study on the application of LLMs for automatic dialogue evaluation. Specifically, we analyze the multi-dimensional evaluation capability of 30 recently emerged LLMs at both turn and dialogue levels, using a comprehensive set of 12 meta-evaluation datasets. Additionally, we probe the robustness of the LLMs in handling various adversarial perturbations at both turn and dialogue levels. Finally, we explore how model-level and dimension-level ensembles impact the evaluation performance. All resources are available at https://github.com/e0397123/comp-analysis. | 翻訳日:2023-12-27 18:16:43 公開日:2023-12-24 |
# 不透明な固体の体積表現の理論 A theory of volumetric representations for opaque solids ( http://arxiv.org/abs/2312.15406v1 ) ライセンス: Link先を確認 | Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas | (参考訳) 我々は不透明な固体を体積モデルとして表現する理論を開発した。
ランダムな指標関数としての不透明な固体の確率的表現から、そのような固体が指数的体積輸送を用いてモデル化できる条件を証明できる。
また,基礎となる指標関数の確率分布の関数としての体積減衰係数の表現も導出する。
この理論を一般化して、固体の異なる部分における等方性および異方性散乱と、不透明な固体の表象を暗黙的曲面として考慮する。
容積表現を第一原理から導き、相互性や可逆性といった物理的制約を満たすことを保証する。
我々は,従来のボリューム表現の説明,比較,修正に本理論を用いるとともに,3次元再構築タスクの性能向上につながる有意義な拡張を提案する。 We develop a theory for the representation of opaque solids as volumetric models. Starting from a stochastic representation of opaque solids as random indicator functions, we prove the conditions under which such solids can be modeled using exponential volumetric transport. We also derive expressions for the volumetric attenuation coefficient as a functional of the probability distributions of the underlying indicator functions. We generalize our theory to account for isotropic and anisotropic scattering at different parts of the solid, and for representations of opaque solids as implicit surfaces. We derive our volumetric representation from first principles, which ensures that it satisfies physical constraints such as reciprocity and reversibility. We use our theory to explain, compare, and correct previous volumetric representations, as well as propose meaningful extensions that lead to improved performance in 3D reconstruction tasks. | 翻訳日:2023-12-27 18:16:25 公開日:2023-12-24 |
# 楽曲構造グラフ解析を用いた組合せ音楽生成モデル Combinatorial music generation model with song structure graph analysis ( http://arxiv.org/abs/2312.15400v1 ) ライセンス: Link先を確認 | Seonghyeon Go and Kyogu Lee | (参考訳) 本研究では,楽曲構造グラフ解析ネットワークを用いたシンボリック音楽生成モデルを提案する。
音符列や楽器などの情報をノードの特徴として用いたグラフを構築し,音符列間の相関がエッジの特徴として機能する。
我々はグラフのノード表現を得るためにグラフニューラルネットワークを訓練し、unetの入力としてノード表現を使用してconlon pianoroll image latentを生成する。
実験結果から,提案モデルが音楽の包括的形式を生成できることが判明した。
提案手法は,音楽情報レトリーバルの様々な分野において,音楽合成,音楽分類,音楽インペインティングシステムなど,有望かつ革新的な音楽生成手法の可能性を秘めている。 In this work, we propose a symbolic music generation model with the song structure graph analysis network. We construct a graph that uses information such as note sequence and instrument as node features, while the correlation between note sequences acts as the edge feature. We trained a Graph Neural Network to obtain node representation in the graph, then we use node representation as input of Unet to generate CONLON pianoroll image latent. The outcomes of our experimental results show that the proposed model can generate a comprehensive form of music. Our approach represents a promising and innovative method for symbolic music generation and holds potential applications in various fields in Music Information Retreival, including music composition, music classification, and music inpainting systems. | 翻訳日:2023-12-27 18:16:12 公開日:2023-12-24 |
# デコイ状態量子鍵分布におけるトロイの木馬攻撃に対するセキュリティ境界の改善 Improved security bounds against the Trojan-Horse attack in decoy-state quantum key distribution ( http://arxiv.org/abs/2312.15399v1 ) ライセンス: Link先を確認 | Zijian Li, Bingbing Zheng, Chengxian Zhang, Zhenrong Zhang, Hong-Bo Xie, Kejin Wei | (参考訳) 量子トロイの木馬攻撃(THA)では、eavesdropperは量子鍵分布(QKD)システムの符号化または復号されたデバイスに明るい光を注入することで、符号化された情報を学ぶ。
これらの攻撃は非孤立系のセキュリティを著しく損なう。
このように、以前の研究で分析的セキュリティ境界が導かれた。
しかし、これらの研究は装置が強く孤立しない限り性能が低下した。
本稿では,THA下でのデコイ状態QKDシステムのセキュリティバウンダリ改善を実現するための数値計算法を提案する。
提案手法は, 確立された数値的枠組みを活用し, 到達可能な最終鍵と安全な送信距離に関する従来の解析限界を大幅に上回っている。
その結果,事実上の非定常QKDシステムにおけるTHAの効率的なセキュリティ境界を調査するための新しいツールが得られた。
本研究は,qkdを実生活成分で確保するための重要なステップである。 In a quantum Trojan-horse attack (THA), eavesdroppers learn encoded information by injecting bright light into encoded or decoded devices of quantum key distribution (QKD) systems. These attacks severely compromise the security of non-isolated systems. Thus, analytical security bound was derived in previous studies. However, these studies achieved poor performance unless the devices were strongly isolated. Here, we present a numerical method for achieving improved security bound for a decoy-state QKD system under THAs. The developed method takes advantage of the well-established numerical framework and significantly outperforms previous analytical bounds regarding the achievable final key and secure transmitted distance. The results provide a new tool for investigating the efficient security bounds of THA in practical decoy-state QKD systems. This study constitutes an important step toward securing QKD with real-life components. | 翻訳日:2023-12-27 18:15:58 公開日:2023-12-24 |
# 変圧器におけるフェアネスアウェア構造プルーニング Fairness-Aware Structured Pruning in Transformers ( http://arxiv.org/abs/2312.15398v1 ) ライセンス: Link先を確認 | Abdelrahman Zayed, Goncalo Mordido, Samira Shabanian, Ioana Baldini, Sarath Chandar | (参考訳) 大きな言語モデル(LLM)のサイズが大きくなるにつれ、トレーニングや推論の課題が持ち上がっている。
モデルコンポーネントの除去は、大きなモデルサイズに取り組むための解決策として認識されているが、既存のプルーニングメソッドは、llmの責任ある使用に不可欠な側面を考慮せずに、パフォーマンスのみに焦点を当てている。
女性、黒人、lgbtq+、ユダヤ人コミュニティなど多様なグループに対するllmの公平性に対処することが重要であり、幅広いオーディエンスに展開され利用可能である。
本稿では,まず,事前学習されたトランスフォーマー言語モデルにおける注意ヘッドが公平性と性能に与える影響について検討する。
そこで,本研究では,言語モデリング能力に欠かせない性能を保ちつつ,公平性に悪影響を及ぼす注意を喚起する新しい手法を提案する。
我々のアプローチは時間と資源の面で実用的であり、最終段階の細かな調整や公平なモデルを必要としない。
以上の結果から, 性別偏差が19%, 19.5%, 39.5%, 34.7%, 23%, 8%のdishlegpt-2, gpt-2, gpt-neo, gpt-j, llama 2モデルにおいて, 偏差モデルと比較すると, わずかに性能が低下する傾向がみられた。 The increasing size of large language models (LLMs) has introduced challenges in their training and inference. Removing model components is perceived as a solution to tackle the large model sizes, however, existing pruning methods solely focus on performance, without considering an essential aspect for the responsible use of LLMs: model fairness. It is crucial to address the fairness of LLMs towards diverse groups, such as women, Black people, LGBTQ+, Jewish communities, among others, as they are being deployed and available to a wide audience. In this work, first, we investigate how attention heads impact fairness and performance in pre-trained transformer-based language models. We then propose a novel method to prune the attention heads that negatively impact fairness while retaining the heads critical for performance, i.e. language modeling capabilities. Our approach is practical in terms of time and resources, as it does not require fine-tuning the final pruned, and fairer, model. Our findings demonstrate a reduction in gender bias by 19%, 19.5%, 39.5%, 34.7%, 23%, and 8% for DistilGPT-2, GPT-2, GPT-Neo of two different sizes, GPT-J, and Llama 2 models, respectively, in comparison to the biased model, with only a slight decrease in performance. | 翻訳日:2023-12-27 18:15:42 公開日:2023-12-24 |
# 共有値に基づくプロンプト評価 Prompt Valuation Based on Shapley Values ( http://arxiv.org/abs/2312.15395v1 ) ライセンス: Link先を確認 | Hanxi Liu, Xiaokai Mao, Haocheng Xia, Jian Lou, Jinfei Liu | (参考訳) 大規模言語モデル(LLM)は、タスクの実行方法を示す自然言語プロンプトを提供することで、追加のトレーニングなしで新しいタスクを最適化する。
プロンプトアンサンブル法はLLMの知識を包括的に活用し、個々のバイアスやエラーを軽減し、性能をさらに向上する。
しかし、より多くのプロンプトが必ずしもより良い結果をもたらすとは限らない。
少数の高品質プロンプトは、しばしば多くの低品質プロンプトを上回る。
現在、結果に対するプロンプトの影響を評価するための適切な方法が欠如している。
本稿では,shapley値を用いてプロンプトの貢献をかなり定量化し,有益なプロンプトや有害なプロンプトを識別し,データ市場における迅速な評価を導く可能性を秘めている。
多様なタスクに対する様々なアンサンブル手法とユーティリティ関数を用いた広範な実験を通じて、各プロンプトの寄与を効果的に識別し定量化するためにShapley値法の有効性を検証する。 Large language models (LLMs) excel on new tasks without additional training, simply by providing natural language prompts that demonstrate how the task should be performed. Prompt ensemble methods comprehensively harness the knowledge of LLMs while mitigating individual biases and errors and further enhancing performance. However, more prompts do not necessarily lead to better results, and not all prompts are beneficial. A small number of high-quality prompts often outperform many low-quality prompts. Currently, there is a lack of a suitable method for evaluating the impact of prompts on the results. In this paper, we utilize the Shapley value to fairly quantify the contributions of prompts, helping to identify beneficial or detrimental prompts, and potentially guiding prompt valuation in data markets. Through extensive experiments employing various ensemble methods and utility functions on diverse tasks, we validate the effectiveness of using the Shapley value method for prompts as it effectively distinguishes and quantifies the contributions of each prompt. | 翻訳日:2023-12-27 18:15:14 公開日:2023-12-24 |
# リモートセンシングデータのためのバイアス学習 Debiased Learning for Remote Sensing Data ( http://arxiv.org/abs/2312.15393v1 ) ライセンス: Link先を確認 | Chun-Hsiao Yeh, Xudong Wang, Stella X. Yu, Charles Hill, Zackery Steck, Scott Kangas, Aaron Reite | (参考訳) ディープラーニングは、大規模な人間のアノテーション(イメージネットなど)が利用可能であることから、消費者写真などのハンドヘルド画像の分析において顕著な成功を収めている。
しかし、リモートセンシングデータにはこのような広範なアノテーションがなく、教師あり学習の可能性を欠いている。
そこで本研究では,リモートセンシングデータに特化して,高効率な半教師付きアプローチを提案する。
我々のアプローチは2つの重要な貢献を含んでいる。
まず,この領域に適した頑健な強みと弱みを付与することで,fixmatchフレームワークをリモートセンシングデータに適用する。
第2に,本モデルにより予測される実際のラベルと擬似ラベルの両方から得られる不均衡学習データのバイアスを除去し,効果的な半教師付き学習手法を開発する。
我々の単純な半教師付きフレームワークは広範な実験によって検証された。
ラベル付きアノテーションの30\%を使用することで、教師付き学習ベースラインよりも7.1\%の精度向上と、リモートセンシングxviewデータセット上の教師付き最先端cdsメソッドに対する2.1\%向上を実現する。 Deep learning has had remarkable success at analyzing handheld imagery such as consumer photos due to the availability of large-scale human annotations (e.g., ImageNet). However, remote sensing data lacks such extensive annotation and thus potential for supervised learning. To address this, we propose a highly effective semi-supervised approach tailored specifically to remote sensing data. Our approach encompasses two key contributions. First, we adapt the FixMatch framework to remote sensing data by designing robust strong and weak augmentations suitable for this domain. Second, we develop an effective semi-supervised learning method by removing bias in imbalanced training data resulting from both actual labels and pseudo-labels predicted by the model. Our simple semi-supervised framework was validated by extensive experimentation. Using 30\% of labeled annotations, it delivers a 7.1\% accuracy gain over the supervised learning baseline and a 2.1\% gain over the supervised state-of-the-art CDS method on the remote sensing xView dataset. | 翻訳日:2023-12-27 18:14:55 公開日:2023-12-24 |
# シンボル実行に基づくブロックチェーンスマートコントラクト脅威検出技術 Blockchain Smart Contract Threat Detection Technology Based on Symbolic Execution ( http://arxiv.org/abs/2312.15392v1 ) ライセンス: Link先を確認 | Chang Chu | (参考訳) ブロックチェーン技術の重要な部分であるスマートコントラクトのセキュリティは、多くの注目を集めている。
特に、永続性の脆弱性は隠蔽され複雑であり、スマートコントラクトに大きな脅威をもたらします。
本稿では,低効率かつ高精度な既存の検出手法を改善するために,シンボル実行に基づくスマートコントラクト脅威検出技術を提案する。
この方法では、まず、再帰降下アルゴリズムを用いてコントラクトコードと制御フロー図の基本ブロックを復元し、静的単一代入(SSA)変数に対して静的型推論を行う。
そして、制御フロー図を、シンボル実行技術と組み合わせて制約付きホーン節(CHC)制約に符号化する。
スマートコントラクトにおける共通セキュリティ脅威を高速に検出するための抽象化精細法に基づく自動定理証明器を用いて、生成された制約に対するモデル検査を行う。
本稿では,既存の検出手法と比較して,再侵入ロックに対するチェック・エフェクト・インタラクションパターンと脆弱性の両方の検出を可能にする。
複数の再帰的トランザクションにおいて、再帰ロックと他のグローバル変数の状態変化をシミュレートすることができる。
実験の結果, この手法により検出効率と精度が著しく向上し, スマートコントラクトの安全性が向上した。 The security of smart contracts, which are an important part of blockchain technology, has attracted much attention. In particular, reentrancy vulnerability, which is hidden and complex, poses a great threat to smart contracts. In order to improve the existing detection methods, which exhibit low efficiency and accuracy, in this paper, we propose a smart contract threat detection technology based on symbolic execution. In this method, first, the recursive descent algorithm is used to recover the basic blocks of contract code and control flow diagram, and static type inference is performed for static single assignment (SSA) variables. Then, the control flow diagram is encoded into constrained horn clause (CHC) constraints in combination with the symbolic execution technology. Model checking is conducted for the generated constraints using an automatic theorem prover based on the abstraction refinement technique for fast static detection of common security threats in smart contracts. Compared with existing detection methods, the method proposed in this paper allows the detection of both the checks-effects-interactions pattern and the vulnerability in relation to reentrant locks. It can simulate the state changes of reentrant locks as well as other global variables in multiple recursive transactions. The experimental results show that this method significantly increases both detection efficiency and accuracy, improving the security of smart contracts. | 翻訳日:2023-12-27 18:14:36 公開日:2023-12-24 |
# tjdr : 高品質糖尿病網膜症ピクセルレベルアノテーションデータセット TJDR: A High-Quality Diabetic Retinopathy Pixel-Level Annotation Dataset ( http://arxiv.org/abs/2312.15389v1 ) ライセンス: Link先を確認 | Jingxin Mao, Xiaoyu Ma, Yanlong Bi, and Rongqing Zhang | (参考訳) 糖尿病網膜症(dr)は眼の合併症を軽減し、迅速な介入と治療を必要とする。
DRグレーディングを支援する人工知能の有効性にもかかわらず、正確な病変セグメント化によるDRグレーディングの解釈性向上に向けた研究の進展は、ピクセルレベルの注釈付きDRデータセットの不足による深刻な障害に直面している。
そこで本研究では,トンジ大学附属東寺病院から得られた561色の眼底画像をもとに,高品質なDRレベルのアノテーションデータセットであるTJDRについて述べる。
これらの画像は、TopconのTRC-50DXやZeiss CLARUS 500などの様々なカメラで撮影され、高解像度である。
データプライバシの原則に厳密に固執するため、視板、網膜血管、黄斑窩などの解剖学的構造を明瞭に表示しながら、画像の個人情報を細心の注意を払って除去する。
DR病変は Labelme ツールを用いて注釈し, 硬部出血 (EX), 出血 (HE), 微小動脈瘤 (MA), 軟部出血 (SE) の4病変をそれぞれ1例から4例に分類し, 背景は0例であった。
経験豊富な眼科医は、厳格な品質保証で注釈作業を行い、このデータセットの構築に終止符を打った。
このデータセットはトレーニングとテストセットに分割され、DR病変セグメンテーション研究コミュニティの進歩に貢献するために公開された。 Diabetic retinopathy (DR), as a debilitating ocular complication, necessitates prompt intervention and treatment. Despite the effectiveness of artificial intelligence in aiding DR grading, the progression of research toward enhancing the interpretability of DR grading through precise lesion segmentation faces a severe hindrance due to the scarcity of pixel-level annotated DR datasets. To mitigate this, this paper presents and delineates TJDR, a high-quality DR pixel-level annotation dataset, which comprises 561 color fundus images sourced from the Tongji Hospital Affiliated to Tongji University. These images are captured using diverse fundus cameras including Topcon's TRC-50DX and Zeiss CLARUS 500, exhibit high resolution. For the sake of adhering strictly to principles of data privacy, the private information of images is meticulously removed while ensuring clarity in displaying anatomical structures such as the optic disc, retinal blood vessels, and macular fovea. The DR lesions are annotated using the Labelme tool, encompassing four prevalent DR lesions: Hard Exudates (EX), Hemorrhages (HE), Microaneurysms (MA), and Soft Exudates (SE), labeled respectively from 1 to 4, with 0 representing the background. Significantly, experienced ophthalmologists conduct the annotation work with rigorous quality assurance, culminating in the construction of this dataset. This dataset has been partitioned into training and testing sets and publicly released to contribute to advancements in the DR lesion segmentation research community. | 翻訳日:2023-12-27 18:14:17 公開日:2023-12-24 |
# DEAP: DNN加速器並列化のための設計空間探索 DEAP: Design Space Exploration for DNN Accelerator Parallelism ( http://arxiv.org/abs/2312.15388v1 ) ライセンス: Link先を確認 | Ekansh Agrawal and Xiangyu Sam Xu | (参考訳) GPT-4やChatGPTのようなLarge Language Models(LLMs)のブームは、人工知能に大きな進歩をもたらした。
これらのモデルはますます複雑で、訓練やサービスに力を入れている。
この能力の伸びは、ハードウェアリソースとエネルギー消費の両面で、計算要求の大幅な増加をもたらす。
本稿の目標は,ハードウェアとソフトウェアの共同設計がどのように実現され,特定のllmワークロード用にカスタマイズされたハードウェアシステムを構築することができるかを示すことである。
本稿では,モデル並列化手法と効率メトリクスのためのマルチアクセラレータシミュレーションフレームワークを組み合わせたシミュレーションワークフローを提案する。
複数のソフトウェアおよびハードウェア構成に対して設計スペース探索を行う際に、推論ワークロードとレポートパワー、サイクル、遅延メトリクスに焦点を当てる。 The boom in Large Language Models (LLMs) like GPT-4 and ChatGPT has marked a significant advancement in artificial intelligence. These models are becoming increasingly complex and powerful to train and serve. This growth in capabilities comes with a substantial increase in computational requirements, both in terms of hardware resources and energy consumption. The goal of this paper is to showcase how hardware and software co-design can come together and allow us to create customized hardware systems for specific LLM workloads. We propose a simulation workflow that allows us to combine model parallelism techniques with a multi-accelerator simulation framework for efficiency metrics. We focus on inference workloads and report power, cycle, and latency metrics upon performing a design space exploration search over multiple software and hardware configurations. | 翻訳日:2023-12-27 18:13:48 公開日:2023-12-24 |
# MotifPiece: 効果的なモチーフ抽出と分子表現学習のためのデータ駆動型アプローチ MotifPiece: A Data-Driven Approach for Effective Motif Extraction and Molecular Representation Learning ( http://arxiv.org/abs/2312.15387v1 ) ライセンス: Link先を確認 | Zhaoning Yu and Hongyang Gao | (参考訳) モチーフ抽出はモチーフに基づく分子表現学習において重要な課題である。
以前は、ルールベースあるいは文字列ベースのテクニックを使用してモチーフを抽出する機械学習アプローチが採用されていた。
規則に基づくアプローチは、分子データ内で頻繁または普及しないモチーフを抽出し、分子の本質的な構造パターンを不完全に理解する可能性がある。
文字列ベースの手法は、しばしば分子固有のトポロジ的情報を失う。
これは、トポロジーが分子内の原子の空間配置と接続を定義する上で重要な役割を担っているため、その性質や振る舞いを理解する上で重要である。
本稿では,モチーフの定義に統計的尺度を用いるモチーフピースと呼ばれるデータ駆動モチーフ抽出手法を開発した。
MotifPieceの有効性を総合的に評価するために,異種学習モジュールを導入する。
我々のモデルは以前報告したモデルと比べて改善されている。
ひとつは、よりリッチなモチーフボキャブラリを生成するためにより多くのデータを統合すること、もうひとつは、十分なモチーフを共有する複数のデータセットをマージして、データセット間の学習を可能にすることだ。 Motif extraction is an important task in motif based molecular representation learning. Previously, machine learning approaches employing either rule-based or string-based techniques to extract motifs. Rule-based approaches may extract motifs that aren't frequent or prevalent within the molecular data, which can lead to an incomplete understanding of essential structural patterns in molecules. String-based methods often lose the topological information inherent in molecules. This can be a significant drawback because topology plays a vital role in defining the spatial arrangement and connectivity of atoms within a molecule, which can be critical for understanding its properties and behavior. In this paper, we develop a data-driven motif extraction technique known as MotifPiece, which employs statistical measures to define motifs. To comprehensively evaluate the effectiveness of MotifPiece, we introduce a heterogeneous learning module. Our model shows an improvement compared to previously reported models. Additionally, we demonstrate that its performance can be further enhanced in two ways: first, by incorporating more data to aid in generating a richer motif vocabulary, and second, by merging multiple datasets that share enough motifs, allowing for cross-dataset learning. | 翻訳日:2023-12-27 18:13:36 公開日:2023-12-24 |
# 強化学習に基づく離散時間平均変動戦略 Discrete-Time Mean-Variance Strategy Based on Reinforcement Learning ( http://arxiv.org/abs/2312.15385v1 ) ライセンス: Link先を確認 | Xiangyu Cui, Xun Li, Yun Shi and Si Zhao | (参考訳) 本稿では,強化学習に基づく離散時間平均分散モデルについて検討する。
\cite{zhou2020mv} の連続時間モデルと比較すると、離散時間モデルは資産の戻り分布についてより一般的な仮定をする。
エントロピーを用いて探査コストを測定することにより,密度関数もガウス型である最適投資戦略を導出する。
さらに,対応する強化学習アルゴリズムを設計する。
シミュレーション実験と実験解析の両方で、我々の離散時間モデルは、実世界のデータを連続時間モデルよりもよく分析できることを示した。 This paper studies a discrete-time mean-variance model based on reinforcement learning. Compared with its continuous-time counterpart in \cite{zhou2020mv}, the discrete-time model makes more general assumptions about the asset's return distribution. Using entropy to measure the cost of exploration, we derive the optimal investment strategy, whose density function is also Gaussian type. Additionally, we design the corresponding reinforcement learning algorithm. Both simulation experiments and empirical analysis indicate that our discrete-time model exhibits better applicability when analyzing real-world data than the continuous-time model. | 翻訳日:2023-12-27 18:13:18 公開日:2023-12-24 |
# SoK:インターネットプライバシ規制の技術的実装と人間的影響 SoK: Technical Implementation and Human Impact of Internet Privacy Regulations ( http://arxiv.org/abs/2312.15383v1 ) ライセンス: Link先を確認 | Eleanor Birrell, Jay Rodolitz, Angel Ding, Jenna Lee, Emily McReynolds, Jevan Hutson, Ada Lerner | (参考訳) 個人データの搾取の可能性と、以前のプライバシー制度の欠点に対する認識が高まり、数多くのオンラインプライバシー規制が成立した。
欧州連合(EU)の一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシ法(CCPA)など、これらの法律のいくつかは、コンピュータサイエンスコミュニティによる大規模な研究の焦点となっている。
本研究は、コンピュータ科学者が頻繁に研究してきたものと、そうでないものの両方において、世界中のインターネットのプライバシーとデータ保護に関する一連の規制を分析し、これらの法律が課した権利と義務の分類を策定する。
次に、この分類を利用して、コンピュータサイエンスの会場で公表された270の技術研究論文を体系化し、これらの法律の影響を調査し、技術的解決が法的保護を補完する方法について調査する。
最後に,この分野の結果を学際レンズを用いて分析し,コンピュータ科学と法的なプライバシーの交点における今後の研究への提言を行う。 Growing recognition of the potential for exploitation of personal data and of the shortcomings of prior privacy regimes has led to the passage of a multitude of new online privacy regulations. Some of these laws -- notably the European Union's General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA) -- have been the focus of large bodies of research by the computer science community, while others have received less attention. In this work, we analyze a set of Internet privacy and data protection regulations drawn from around the world -- both those that have frequently been studied by computer scientists and those that have not -- and develop a taxonomy of rights granted and obligations imposed by these laws. We then leverage this taxonomy to systematize 270 technical research papers published in computer science venues that investigate the impact of these laws and explore how technical solutions can complement legal protections. Finally, we analyze the results in this space through an interdisciplinary lens and make recommendations for future work at the intersection of computer science and legal privacy. | 翻訳日:2023-12-27 18:13:10 公開日:2023-12-24 |
# LiDAR点雲を用いた終端3次元物体検出 End-to-End 3D Object Detection using LiDAR Point Cloud ( http://arxiv.org/abs/2312.15377v1 ) ライセンス: Link先を確認 | Gaurav Raut, Advait Patole | (参考訳) 自動運転車の分野では大きな進歩があった。
物体検出と追跡は、あらゆる自動運転車の主要なタスクである。
自動運転車における物体検出のタスクは、カメラやLiDARのような様々なセンサーに依存している。
画像の特徴は通常好まれるが、多くのアプローチでは空間データを入力として扱う。
この情報を活用するために,lidar point cloudの新しいエンコーディングを用いて,自律走行車近傍の異なるクラスの位置を推定する手法を提案する。
このアプローチでは鳥の目視アプローチは実装されておらず、一般にこのアプリケーションに適用されるため、必要な広範な前処理を省くことができる。
このアプローチを解いた多くのネットワークとアプローチを研究した結果,我々は,その利点を刻み,欠点を回避すべく,新たなモデルを構築した。
出力は、3dバウンディングボックスとシーンオブジェクトのラベルの形をしたシーン内のオブジェクトの位置と方向に関する予測である。 There has been significant progress made in the field of autonomous vehicles. Object detection and tracking are the primary tasks for any autonomous vehicle. The task of object detection in autonomous vehicles relies on a variety of sensors like cameras, and LiDAR. Although image features are typically preferred, numerous approaches take spatial data as input. Exploiting this information we present an approach wherein, using a novel encoding of the LiDAR point cloud we infer the location of different classes near the autonomous vehicles. This approach does not implement a bird's eye view approach, which is generally applied for this application and thus saves the extensive pre-processing required. After studying the numerous networks and approaches used to solve this approach, we have implemented a novel model with the intention to inculcate their advantages and avoid their shortcomings. The output is predictions about the location and orientation of objects in the scene in form of 3D bounding boxes and labels of scene objects. | 翻訳日:2023-12-27 18:12:53 公開日:2023-12-24 |
# フェデレーション学習アルゴリズムの効率性とプライバシに関する実証的研究 An Empirical Study of Efficiency and Privacy of Federated Learning Algorithms ( http://arxiv.org/abs/2312.15375v1 ) ライセンス: Link先を確認 | Sofia Zahri and Hajar Bennouri and Ahmed M. Abdelmoniem | (参考訳) 今日の世界では、IoTネットワークの急速な拡大と、私たちの日常生活におけるスマートデバイスの普及が、相当量の異種データを生み出しています。
これらのデータは特別な処理を必要とするストリームを形成する。
このデータを効果的に扱うためには、プライバシーと効率の両立を保証するために高度なデータ処理技術が必要である。
フェデレーション学習は、モデルをローカルにトレーニングし、データをプライバシを保存するためにサーバに集約する分散学習手法として登場した。
本稿では,IoTネットワーク内での効率的かつプライバシ保護機械学習を実現するための鍵として,フェデレーション学習(FL)の可能性を強調する2つの実証シナリオを紹介する。
まず,フェデレーション学習における重要な集約アルゴリズム,すなわちFedAvgとFedProxの数学的基礎を与える。
次に、FedAvgとFedProxの精度と損失メトリクスを比較し、これらのアルゴリズムの「textit{efficiency}」を示すために、Flower Frameworkを用いてシミュレーションを行う。
次に,Pytorch と Opacus ML フレームワークの共通 FL データセットと FedAvg と FedProx の戦略におけるデータ分散に関する,差分プライバシ(DP) メソッドの実装に関するシミュレーションを通じて,プライバシと精度の両面でのトレードオフを明らかにする。 In today's world, the rapid expansion of IoT networks and the proliferation of smart devices in our daily lives, have resulted in the generation of substantial amounts of heterogeneous data. These data forms a stream which requires special handling. To handle this data effectively, advanced data processing technologies are necessary to guarantee the preservation of both privacy and efficiency. Federated learning emerged as a distributed learning method that trains models locally and aggregates them on a server to preserve data privacy. This paper showcases two illustrative scenarios that highlight the potential of federated learning (FL) as a key to delivering efficient and privacy-preserving machine learning within IoT networks. We first give the mathematical foundations for key aggregation algorithms in federated learning, i.e., FedAvg and FedProx. Then, we conduct simulations, using Flower Framework, to show the \textit{efficiency} of these algorithms by training deep neural networks on common datasets and show a comparison between the accuracy and loss metrics of FedAvg and FedProx. Then, we present the results highlighting the trade-off between maintaining privacy versus accuracy via simulations - involving the implementation of the differential privacy (DP) method - in Pytorch and Opacus ML frameworks on common FL datasets and data distributions for both FedAvg and FedProx strategies. | 翻訳日:2023-12-27 18:12:41 公開日:2023-12-24 |
# 宣言的制約を用いた一貫性言語モデルに向けて Towards Consistent Language Models Using Declarative Constraints ( http://arxiv.org/abs/2312.15472v1 ) ライセンス: Link先を確認 | Jasmin Mousavi and Arash Termehchy | (参考訳) 大きな言語モデルは、言語的に一貫性があり、構文的に正しい自然言語出力を生成する前例のない能力を示している。
しかし、しばしば入力質問に対する不正確で一貫性のない回答を返す。
内部学習された表現の複雑さと非解釈性のため、言語モデルを変更することは困難であり、正確で一貫した結果を提供する。
データ管理コミュニティは、一貫性のないデータセットに対して一貫性のある回答を提供する様々な方法とツールを開発した。
これらの方法では、ユーザは高レベルの宣言的制約によってドメイン内のデータの所望のプロパティを指定する。
このアプローチは、一貫性のないデータセットから一貫性のある情報を提供するために、使用可能でスケーラブルな方法を提供する。
この成功の上に構築し、これらの手法を活用して、一貫性のある正確な結果を提供するように言語モデルを変更することを目指している。
本稿では,これらのアイデアを言語モデルから一貫した,関連する回答を得るための課題について検討し,予備的な実証研究について報告する。 Large language models have shown unprecedented abilities in generating linguistically coherent and syntactically correct natural language output. However, they often return incorrect and inconsistent answers to input questions. Due to the complexity and uninterpretability of the internally learned representations, it is challenging to modify language models such that they provide correct and consistent results. The data management community has developed various methods and tools for providing consistent answers over inconsistent datasets. In these methods, users specify the desired properties of data in a domain in the form of high-level declarative constraints. This approach has provided usable and scalable methods to delivering consistent information from inconsistent datasets. We aim to build upon this success and leverage these methods to modify language models such that they deliver consistent and accurate results. We investigate the challenges of using these ideas to obtain consistent and relevant answers from language models and report some preliminary empirical studies. | 翻訳日:2023-12-27 18:05:47 公開日:2023-12-24 |
# 画像ポイント記述子の残差学習 Residual Learning for Image Point Descriptors ( http://arxiv.org/abs/2312.15471v1 ) ライセンス: Link先を確認 | Rashik Shrestha, Ajad Chhatkuli, Menelaos Kanakis, Luc Van Gool | (参考訳) ローカル画像特徴ディスクリプタは,コンピュータビジョン手法の開発と応用に大きな影響を与えてきた。
したがって、学習ベースの画像ポイント記述子に多大な努力が払われていることは驚きではない。
しかし、実アプリケーションにおける手作りの手法よりも学習方法の利点は、予想以上に微妙で曖昧である。
さらに、SIFT や SURF などの手書き記述子は、多くの学習済み言語と比較して、Structure-from-Motion (SfM) においてより優れたポイントローカライゼーションを行う。
本稿では,手作りの検出器とディスクリプタを用いて,局所画像記述子を学習する非常に単純かつ効果的な手法を提案する。
具体的には、ポイントローカライゼーションヘッドを破棄しながら手作りのディスクリプタでサポートされているディスクリプタのみを学習する。
我々は手書き記述子にすでに存在する知識を活用して最終記述子を最適化する。
このような最適化のアプローチにより、手作り記述子のような非微分可能関数にすでに存在する学習知識を破棄し、メインネットワークブランチで残っている知識のみを学習できる。
これにより、SuperPointの標準ベースラインアーキテクチャと比較して50倍の収束速度が得られ、推論時に複合ディスクリプタは学習および手書きのディスクリプタよりも優れたパフォーマンスを提供する。
これはベースライン学習ディスクリプタ上での計算量の増加によって実現される。
本手法は,非微分関数を用いた学習と学習に応用できる可能性がある。
提案手法の利点を示すため,マッチング,カメラのローカライゼーション,Structure-from-Motion実験を行った。 Local image feature descriptors have had a tremendous impact on the development and application of computer vision methods. It is therefore unsurprising that significant efforts are being made for learning-based image point descriptors. However, the advantage of learned methods over handcrafted methods in real applications is subtle and more nuanced than expected. Moreover, handcrafted descriptors such as SIFT and SURF still perform better point localization in Structure-from-Motion (SfM) compared to many learned counterparts. In this paper, we propose a very simple and effective approach to learning local image descriptors by using a hand-crafted detector and descriptor. Specifically, we choose to learn only the descriptors, supported by handcrafted descriptors while discarding the point localization head. We optimize the final descriptor by leveraging the knowledge already present in the handcrafted descriptor. Such an approach of optimization allows us to discard learning knowledge already present in non-differentiable functions such as the hand-crafted descriptors and only learn the residual knowledge in the main network branch. This offers 50X convergence speed compared to the standard baseline architecture of SuperPoint while at inference the combined descriptor provides superior performance over the learned and hand-crafted descriptors. This is done with minor increase in the computations over the baseline learned descriptor. Our approach has potential applications in ensemble learning and learning with non-differentiable functions. We perform experiments in matching, camera localization and Structure-from-Motion in order to showcase the advantages of our approach. | 翻訳日:2023-12-27 18:05:34 公開日:2023-12-24 |
# Smoothed Gradient Outer Productsによる中央平均部分空間の効率的な推定 Efficient Estimation of the Central Mean Subspace via Smoothed Gradient Outer Products ( http://arxiv.org/abs/2312.15469v1 ) ライセンス: Link先を確認 | Gan Yuan, Mingyue Xu, Samory Kpotufe and Daniel Hsu | (参考訳) 多次元モデルに対する十分次元還元(SDR)の問題を考える。
先行研究における中心平均部分空間の推定子は、遅い(非パラメトリック)収束率を持つか、あるいは強い分布条件に依存する(例えば、共変量分布 $P_{\mathbf{X}}$ は楕円対称である)。
本稿では, 分布の一般クラスに対して, $c_d \cdot n^{-1/2}$ の高速パラメトリック収束率は, ガウス分布やより重い分布を許容する$p_{\mathbf{x}}$ に対して, \emph{expected smoothed gradient outer product} を推定することで達成可能であることを示す。
リンク関数が多項式で、最大で$r$ と $p_{\mathbf{x}}$ が標準ガウスであるとき、前因子は$d$ as $c_d \propto d^r$ のアンビエント次元に依存する。 We consider the problem of sufficient dimension reduction (SDR) for multi-index models. The estimators of the central mean subspace in prior works either have slow (non-parametric) convergence rates, or rely on stringent distributional conditions (e.g., the covariate distribution $P_{\mathbf{X}}$ being elliptical symmetric). In this paper, we show that a fast parametric convergence rate of form $C_d \cdot n^{-1/2}$ is achievable via estimating the \emph{expected smoothed gradient outer product}, for a general class of distribution $P_{\mathbf{X}}$ admitting Gaussian or heavier distributions. When the link function is a polynomial with a degree of at most $r$ and $P_{\mathbf{X}}$ is the standard Gaussian, we show that the prefactor depends on the ambient dimension $d$ as $C_d \propto d^r$. | 翻訳日:2023-12-27 18:05:13 公開日:2023-12-24 |
# 量子アニーリングによるFPGA-Placement FPGA-Placement via Quantum Annealing ( http://arxiv.org/abs/2312.15467v1 ) ライセンス: Link先を確認 | Thore Gerlach, Stefan Knipp, David Biesner, Stelios Emmanouilidis, Klaus Hauber, Nico Piatkowski | (参考訳) FPGA(Field-Programmable Gate Arrays)は、適応可能で再構成可能なハードウェアプラットフォームを提供することで、現代コンピューティングにおいて重要な資産であると自ら主張している。
FPGAベースのアクセラレータは、リアルタイムデータ処理や機械学習、暗号など、領域におけるブレークスルーの機会を育んでいる。
FPGA上の関数ブロックの最適空間配置を決定して通信遅延を最小化し、性能を向上させるという配置手順は、NPハードの問題であり、特に熟練したソリューションに洗練されたアルゴリズムを必要とする。
明らかに、配置の改善は、実装フェーズにおけるリソース利用の減少につながる。
adiabatic quantum computing (aqc) は拡張的解空間を横断する能力を持ち、そのような組合せ問題に対処する可能性を秘めている。
本稿では,2次非制約二元最適化問題(QUBO)の連成として配置問題を再定式化し,その後AQCを用いて解いた。
提案手法は設計制約の直接的統合を促進する。
さらに、サブプロブレムのサイズは、利用可能なハードウェア機能に便利に対応できる。
新しい手法の唯一の提案とは別に、現代の量子ハードウェアは実世界のFPGAの配置を見つけるのに十分な弾力性があるかどうかを問う。
d-wave advantage 5.4量子アニーラの数値評価は、答えが肯定的であることを示唆している。 Field-Programmable Gate Arrays (FPGAs) have asserted themselves as vital assets in contemporary computing by offering adaptable, reconfigurable hardware platforms. FPGA-based accelerators incubate opportunities for breakthroughs in areas, such as real-time data processing, machine learning or cryptography -- to mention just a few. The procedure of placement -- determining the optimal spatial arrangement of functional blocks on an FPGA to minimize communication delays and enhance performance -- is an NP-hard problem, notably requiring sophisticated algorithms for proficient solutions. Clearly, improving the placement leads to a decreased resource utilization during the implementation phase. Adiabatic quantum computing (AQC), with its capability to traverse expansive solution spaces, has potential for addressing such combinatorial problems. In this paper, we re-formulate the placement problem as a series of so called quadratic unconstrained binary optimization (QUBO) problems which are subsequently solved via AQC. Our novel formulation facilitates a straight-forward integration of design constraints. Moreover, the size of the sub-problems can be conveniently adapted to the available hardware capabilities. Beside the sole proposal of a novel method, we ask whether contemporary quantum hardware is resilient enough to find placements for real-world-sized FPGAs. A numerical evaluation on a D-Wave Advantage 5.4 quantum annealer suggests that the answer is in the affirmative. | 翻訳日:2023-12-27 18:04:53 公開日:2023-12-24 |
# オフポリシー政策評価による政策最適化の保守的探究 Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation ( http://arxiv.org/abs/2312.15458v1 ) ライセンス: Link先を確認 | Paul Daoudi, Mathias Formoso, Othman Gaizi, Achraf Azize, Evrard Garcelon | (参考訳) 強化学習エージェントを実世界のシステムに展開するための前提条件は、学習プロセスに対する保証を提供することである。
学習アルゴリズムは最終的に優れたポリシに収束するが、探索的ポリシのパフォーマンスに関する保証はない。
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度に研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
アルゴリズムが自己生成したデータから保守的条件を反証的に評価するために,重要サンプリング技術を活用する。
我々は後悔の束縛を導き、(w.h.p.)保守的な制約が学習中に決して違反されないことを示す。
最後に,これらの知見を活用して,非政治政策評価手法を通じて,deeprlにおける保守的探索のための汎用スキーマを構築する。
我々は経験的に方法の有効性を示す。 A precondition for the deployment of a Reinforcement Learning agent to a real-world system is to provide guarantees on the learning process. While a learning algorithm will eventually converge to a good policy, there are no guarantees on the performance of the exploratory policies. We study the problem of conservative exploration, where the learner must at least be able to guarantee its performance is at least as good as a baseline policy. We propose the first conservative provably efficient model-free algorithm for policy optimization in continuous finite-horizon problems. We leverage importance sampling techniques to counterfactually evaluate the conservative condition from the data self-generated by the algorithm. We derive a regret bound and show that (w.h.p.) the conservative constraint is never violated during learning. Finally, we leverage these insights to build a general schema for conservative exploration in DeepRL via off-policy policy evaluation techniques. We show empirically the effectiveness of our methods. | 翻訳日:2023-12-27 18:04:33 公開日:2023-12-24 |
# iDet3D:LiDAR点雲の効率的な対話型オブジェクト検出を目指して iDet3D: Towards Efficient Interactive Object Detection for LiDAR Point Clouds ( http://arxiv.org/abs/2312.15449v1 ) ライセンス: Link先を確認 | Dongmin Choi, Wonwoo Cho, Kangyeol Kim, Jaegul Choo | (参考訳) LiDARシーンで複数の3Dオブジェクトを正確にアノテートすることは、面倒で難しい。
コスト効率のよいバウンディングボックスアノテーションにセミオートマチック手法を適用しようとする以前の研究はいくつかあったが、そのような手法は多数のマルチクラスオブジェクトを効率的に扱うのに限界がある。
3dアノテーションのパイプラインを効果的に高速化するために,インタラクティブな3dオブジェクト検出ツールidet3dを提案する。
ユーザフレンドリーな2Dインターフェースをサポートし、クリックインタラクションを提供するために3D空間を探索する際の認知的負担を軽減するため、iDet3Dは、各シーンのオブジェクト全体に対して、最小限のインタラクションで注釈を付けることができる。
3次元点雲のスパースな性質を考慮に入れ、偽陽性予測を減らし精度を向上させるために負クリックシミュレーション(NCS)を設計する。
さらに、idet3dでは、ユーザインタラクションを最大限活用するために、2つのクリック伝播技術が組み込まれている。(1)ユーザが提供した情報をネットワーク全体に保持するdcgと、(2)ユーザ特定オブジェクトに基づいて同じクラスの他のインスタンスを検出するspatial click propagation(scp)である。
提案手法は,3dオブジェクト検出のための効率的なアノテーションツールとして実用性を示すため,本手法は数クリックで正確なアノテーションを構築できることを示す。 Accurately annotating multiple 3D objects in LiDAR scenes is laborious and challenging. While a few previous studies have attempted to leverage semi-automatic methods for cost-effective bounding box annotation, such methods have limitations in efficiently handling numerous multi-class objects. To effectively accelerate 3D annotation pipelines, we propose iDet3D, an efficient interactive 3D object detector. Supporting a user-friendly 2D interface, which can ease the cognitive burden of exploring 3D space to provide click interactions, iDet3D enables users to annotate the entire objects in each scene with minimal interactions. Taking the sparse nature of 3D point clouds into account, we design a negative click simulation (NCS) to improve accuracy by reducing false-positive predictions. In addition, iDet3D incorporates two click propagation techniques to take full advantage of user interactions: (1) dense click guidance (DCG) for keeping user-provided information throughout the network and (2) spatial click propagation (SCP) for detecting other instances of the same class based on the user-specified objects. Through our extensive experiments, we present that our method can construct precise annotations in a few clicks, which shows the practicality as an efficient annotation tool for 3D object detection. | 翻訳日:2023-12-27 18:04:18 公開日:2023-12-24 |
# 教師なしハイパースペクトル画像クラスタリングのためのスーパーピクセルベースおよび空間正規化拡散学習 Superpixel-based and Spatially-regularized Diffusion Learning for Unsupervised Hyperspectral Image Clustering ( http://arxiv.org/abs/2312.15447v1 ) ライセンス: Link先を確認 | Kangning Cui, Ruoning Li, Sam L. Polk, Yinyi Lin, Hongsheng Zhang, James M. Murphy, Robert J. Plemmons, Raymond H. Chan | (参考訳) ハイパースペクトル画像(HSI)は、様々なリモートセンシングアプリケーションに欠かせない、シーンの空間分解能とスペクトル分解能を提供する。
しかし, 高次元性, ノイズの存在, 外れ値の存在, 正確なHSIラベルの必要性は, HSIの分析に重大な課題をもたらし, 性能の高いHSIクラスタリングアルゴリズムの開発を動機付けている。
本稿では,HSIに符号化された豊富な空間情報を拡散幾何学に基づくクラスタリングに組み込むことで,これらの課題に対処する。
S2DLはエントロピーレートスーパーピクセル(ERS)セグメンテーション技術を用いて画像をスーパーピクセルに分割し、最も代表的な高密度画素を用いて空間的に規則化された拡散グラフを構築する。
このアプローチは精度を保ちながら計算負担を軽減する。
クラスタモードは、下位のクラスタ構造を例示するものとして、他の最高密度画素から最も拡散距離が最も高いピクセルとして識別される。
これらのモードは、ERSスーパーピクセルから残りの代表画素のラベル付けを導く。
最後に、多くの投票が各スーパーピクセルに割り当てられたラベルに適用され、残りの画像にラベルを伝搬する。
この空間スペクトルアプローチはグラフ構築を単純化し、計算コストを削減し、クラスタリング性能を向上させる。
s2dlのパフォーマンスは、インドマツ、サリナス、サリナスaの3つの現実世界のhsisに関する広範な実験で示されています。さらに、香港のマイポ自然保護区で、gaofen-5 hsiを使用して、景観スケールで教師なしのマングローブ種マッピングにs2dlを適用します。
これらの多種多様な数値実験におけるS2DLの成功は、広範囲の重要無監督リモートセンシング分析タスクにおける効果を示す。 Hyperspectral images (HSIs) provide exceptional spatial and spectral resolution of a scene, crucial for various remote sensing applications. However, the high dimensionality, presence of noise and outliers, and the need for precise labels of HSIs present significant challenges to HSIs analysis, motivating the development of performant HSI clustering algorithms. This paper introduces a novel unsupervised HSI clustering algorithm, Superpixel-based and Spatially-regularized Diffusion Learning (S2DL), which addresses these challenges by incorporating rich spatial information encoded in HSIs into diffusion geometry-based clustering. S2DL employs the Entropy Rate Superpixel (ERS) segmentation technique to partition an image into superpixels, then constructs a spatially-regularized diffusion graph using the most representative high-density pixels. This approach reduces computational burden while preserving accuracy. Cluster modes, serving as exemplars for underlying cluster structure, are identified as the highest-density pixels farthest in diffusion distance from other highest-density pixels. These modes guide the labeling of the remaining representative pixels from ERS superpixels. Finally, majority voting is applied to the labels assigned within each superpixel to propagate labels to the rest of the image. This spatial-spectral approach simultaneously simplifies graph construction, reduces computational cost, and improves clustering performance. S2DL's performance is illustrated with extensive experiments on three publicly available, real-world HSIs: Indian Pines, Salinas, and Salinas A. Additionally, we apply S2DL to landscape-scale, unsupervised mangrove species mapping in the Mai Po Nature Reserve, Hong Kong, using a Gaofen-5 HSI. The success of S2DL in these diverse numerical experiments indicates its efficacy on a wide range of important unsupervised remote sensing analysis tasks. | 翻訳日:2023-12-27 18:03:54 公開日:2023-12-24 |
# 線形コンテキスト帯域に対するBest-of-Both-Worldsアルゴリズム Best-of-Both-Worlds Algorithms for Linear Contextual Bandits ( http://arxiv.org/abs/2312.15433v1 ) ライセンス: Link先を確認 | Yuko Kuroki, Alberto Rumi, Taira Tsuchiya, Fabio Vitale, Nicol\`o Cesa-Bianchi | (参考訳) 両世界のベスト・オブ・ワールドズ・アルゴリズムを$K$武器付き線形文脈包帯に対して検討する。
我々のアルゴリズムは、環境に関する事前の知識なしに、敵対的かつ確率的な体制において、ほぼ最適の後悔境界を提供する。
確率的状態において、多元対数率 $\frac{(dK)^2\mathrm{poly}\log(dKT)}{\Delta_{\min}}$, ここで、$\Delta_{\min}$ は$d$次元の文脈空間上の最小部分最適化ギャップである。
逆系では、一階の $\widetilde{O}(dK\sqrt{L^*})$bound または二階の $\widetilde{O}(dK\sqrt{\Lambda^*})$bound を得る。
さらに, 共分散行列の逆の知識を必要としないシャノンエントロピー正規化器を用いたFTRLに基づくアルゴリズムを開発し, 確率的状態における多対数的後悔を実現するとともに, 逆数的状態において$\widetilde{O}\big(dK\sqrt{T}\big)$ regret boundsを得る。 We study best-of-both-worlds algorithms for $K$-armed linear contextual bandits. Our algorithms deliver near-optimal regret bounds in both the adversarial and stochastic regimes, without prior knowledge about the environment. In the stochastic regime, we achieve the polylogarithmic rate $\frac{(dK)^2\mathrm{poly}\log(dKT)}{\Delta_{\min}}$, where $\Delta_{\min}$ is the minimum suboptimality gap over the $d$-dimensional context space. In the adversarial regime, we obtain either the first-order $\widetilde{O}(dK\sqrt{L^*})$ bound, or the second-order $\widetilde{O}(dK\sqrt{\Lambda^*})$ bound, where $L^*$ is the cumulative loss of the best action and $\Lambda^*$ is a notion of the cumulative second moment for the losses incurred by the algorithm. Moreover, we develop an algorithm based on FTRL with Shannon entropy regularizer that does not require the knowledge of the inverse of the covariance matrix, and achieves a polylogarithmic regret in the stochastic regime while obtaining $\widetilde{O}\big(dK\sqrt{T}\big)$ regret bounds in the adversarial regime. | 翻訳日:2023-12-27 18:03:22 公開日:2023-12-24 |
# Make-A-Character: 数分で高品質なテキストから3D文字を生成する Make-A-Character: High Quality Text-to-3D Character Generation within Minutes ( http://arxiv.org/abs/2312.15430v1 ) ライセンス: Link先を確認 | Jianqiang Ren, Chao He, Lin Liu, Jiahao Chen, Yutong Wang, Yafei Song, Jianfang Li, Tangli Xue, Siqi Hu, Tao Chen, Kunkun Zheng, Jianjing Xiang, Liefeng Bo | (参考訳) aiエージェントやメタバースの出現とともに、カスタマイズされた表現力のある3dキャラクタに対する需要が高まっているが、従来のコンピュータグラフィックスツールを使った3dキャラクタの作成は複雑で時間のかかる作業である。
これらの課題に対処するため,テキスト記述から3Dアバターを作成するために,Mach-A-Character (Mach) というユーザフレンドリーなフレームワークを提案する。
このフレームワークは、テキストの意図理解と中間画像生成のために大きな言語とビジョンモデルの力を活用し、続いて一連の人間指向の視覚知覚と3d生成モジュールを使用する。
本システムでは,制御可能で現実的で,完全に実現された3Dキャラクタを2分以内で作成すると同時に,既存のCGパイプラインと動的表現性を容易に統合する。
詳細はプロジェクトページのhttps://human3daigc.github.io/MACH/を参照してください。 There is a growing demand for customized and expressive 3D characters with the emergence of AI agents and Metaverse, but creating 3D characters using traditional computer graphics tools is a complex and time-consuming task. To address these challenges, we propose a user-friendly framework named Make-A-Character (Mach) to create lifelike 3D avatars from text descriptions. The framework leverages the power of large language and vision models for textual intention understanding and intermediate image generation, followed by a series of human-oriented visual perception and 3D generation modules. Our system offers an intuitive approach for users to craft controllable, realistic, fully-realized 3D characters that meet their expectations within 2 minutes, while also enabling easy integration with existing CG pipeline for dynamic expressiveness. For more information, please visit the project page at https://human3daigc.github.io/MACH/. | 翻訳日:2023-12-27 18:02:49 公開日:2023-12-24 |
# 単調確率最適化のための半バンド学習 Semi-Bandit Learning for Monotone Stochastic Optimization ( http://arxiv.org/abs/2312.15427v1 ) ライセンス: Link先を確認 | Arpit Agarwal and Rohan Ghuge and Viswanath Nagarajan | (参考訳) 確率最適化は不確実性の下での最適化において広く用いられる手法であり、不確実な入力パラメータは確率変数によってモデル化される。
この領域のいくつかの基本的な問題に対して、エクササイズあるいは近似アルゴリズムが得られた。
しかし、このアプローチの重大な制限は、基礎となる確率分布の完全な知識を必要とすることである。
これらの分布が未知であれば、それでも良い(近似)アルゴリズムが得られ、アルゴリズムは繰り返しの相互作用を通じてそれらを学ぶ必要があるだろうか?
本稿では,この問題に対して,最も優れた近似アルゴリズム(既知の分布の下で)に対して,$\sqrt{T \log T}$後悔のオンライン学習アルゴリズムを提供することにより,大規模な「モノトーン」確率問題に対して解決する。
重要なことに、我々のオンラインアルゴリズムは半帯域設定で動作し、それぞれの期間に実際に調査されたr.v.sのサンプルのみを観測する。
本フレームワークは,確率的不等式,Pandoraのボックス,確率的knapsack,確率的マッチング,確率的部分モジュラー最適化などの確率的最適化の基本的な問題に適用する。 Stochastic optimization is a widely used approach for optimization under uncertainty, where uncertain input parameters are modeled by random variables. Exact or approximation algorithms have been obtained for several fundamental problems in this area. However, a significant limitation of this approach is that it requires full knowledge of the underlying probability distributions. Can we still get good (approximation) algorithms if these distributions are unknown, and the algorithm needs to learn them through repeated interactions? In this paper, we resolve this question for a large class of "monotone" stochastic problems, by providing a generic online learning algorithm with $\sqrt{T \log T}$ regret relative to the best approximation algorithm (under known distributions). Importantly, our online algorithm works in a semi-bandit setting, where in each period, the algorithm only observes samples from the r.v.s that were actually probed. Our framework applies to several fundamental problems in stochastic optimization such as prophet inequality, Pandora's box, stochastic knapsack, stochastic matchings and stochastic submodular optimization. | 翻訳日:2023-12-27 18:02:33 公開日:2023-12-24 |
# ユーザ生成ビデオの品質評価のための知識誘導半教師付き学習 Knowledge Guided Semi-Supervised Learning for Quality Assessment of User Generated Videos ( http://arxiv.org/abs/2312.15425v1 ) ライセンス: Link先を確認 | Shankhanil Mitra and Rajiv Soundararajan | (参考訳) ユーザ生成コンテンツ(UGC)ビデオの知覚的品質評価は、大規模な人間の注釈付きビデオを必要とするため困難である。
本研究では,まず,ビデオの高機能な品質認識機能を実現するために,自己教師付き時空間視覚品質表現学習(ST-VQRL)フレームワークを設計する。
そこで本研究では,ビデオ品質評価(SSL-VQA)タスクに特化して設計された2モデルに基づく半教師付き学習(SSL)手法を提案する。
我々のSSL-VQAメソッドはST-VQRLバックボーンを使用して、人間の注釈付きビデオで学習されているにもかかわらず、データベース間設定を含む様々なVQAデータセット間で堅牢なパフォーマンスを生成する。
本モデルでは,制限データのみをトレーニングした場合の最先端性能を約10%向上させ,SSLでも未使用データを使用すれば約15%向上させる。
ソースコードとチェックポイントはhttps://github.com/Shankhanil006/SSL-VQAで入手できる。 Perceptual quality assessment of user generated content (UGC) videos is challenging due to the requirement of large scale human annotated videos for training. In this work, we address this challenge by first designing a self-supervised Spatio-Temporal Visual Quality Representation Learning (ST-VQRL) framework to generate robust quality aware features for videos. Then, we propose a dual-model based Semi Supervised Learning (SSL) method specifically designed for the Video Quality Assessment (SSL-VQA) task, through a novel knowledge transfer of quality predictions between the two models. Our SSL-VQA method uses the ST-VQRL backbone to produce robust performances across various VQA datasets including cross-database settings, despite being learned with limited human annotated videos. Our model improves the state-of-the-art performance when trained only with limited data by around 10%, and by around 15% when unlabelled data is also used in SSL. Source codes and checkpoints are available at https://github.com/Shankhanil006/SSL-VQA. | 翻訳日:2023-12-27 18:02:11 公開日:2023-12-24 |
# FedDMF:Deep Matrix Factorizationを用いたプライバシ保護ユーザ属性予測 FedDMF: Privacy-Preserving User Attribute Prediction using Deep Matrix Factorization ( http://arxiv.org/abs/2312.15420v1 ) ライセンス: Link先を確認 | Ming Cheung | (参考訳) ユーザ属性の予測は、さまざまな業界で重要なタスクです。
しかし、異なる組織間でのユーザーデータの共有は、プライバシーの懸念と個人特定可能な情報に関する法的要件のために、課題に直面している。
欧州連合の一般データ保護規則(GDPR)や中華人民共和国の個人情報保護法(Personal Information Protection Law of the People's Republic)は、データ共有の規制を課している。
法的要件に従って複数のクライアントの機能を活用する必要性に対処するため,フェデレーション学習アルゴリズムが提案されている。
これらのアルゴリズムは、データを直接共有することなく、ユーザー属性を予測することを目的としている。
しかし、既存のアプローチは通常、企業間のユーザーマッチングに依存しているため、不正なパートナーがユーザーリストを発見したり、利用可能なすべての機能を利用できなかったりする可能性がある。
本稿では,ユーザマッチングを必要とせず,ユーザ属性を予測する新しいアルゴリズムを提案する。
我々のアプローチでは、異なるクライアントでディープマトリックス分解モデルをトレーニングし、アイテムベクトルのみを共有する。
これにより、ユーザベクトル自体を共有することなく、ユーザ属性を予測できます。
このアルゴリズムは一般に公開されているMovieLensデータセットを用いて評価され、FedAvgアルゴリズムと同じような性能を示し、単一のモデルの精度の96%に達する。
提案アルゴリズムは顧客ターゲティングの改善と顧客エクスペリエンス全体の向上に特に適している。
本稿では,この領域のプライバシー問題に対処する新しいアルゴリズムを提供することで,ユーザ属性予測の分野への貴重な貢献について述べる。 User attribute prediction is a crucial task in various industries. However, sharing user data across different organizations faces challenges due to privacy concerns and legal requirements regarding personally identifiable information. Regulations such as the General Data Protection Regulation (GDPR) in the European Union and the Personal Information Protection Law of the People's Republic of China impose restrictions on data sharing. To address the need for utilizing features from multiple clients while adhering to legal requirements, federated learning algorithms have been proposed. These algorithms aim to predict user attributes without directly sharing the data. However, existing approaches typically rely on matching users across companies, which can result in dishonest partners discovering user lists or the inability to utilize all available features. In this paper, we propose a novel algorithm for predicting user attributes without requiring user matching. Our approach involves training deep matrix factorization models on different clients and sharing only the item vectors. This allows us to predict user attributes without sharing the user vectors themselves. The algorithm is evaluated using the publicly available MovieLens dataset and demonstrate that it achieves similar performance to the FedAvg algorithm, reaching 96% of a single model's accuracy. The proposed algorithm is particularly well-suited for improving customer targeting and enhancing the overall customer experience. This paper presents a valuable contribution to the field of user attribute prediction by offering a novel algorithm that addresses some of the most pressing privacy concerns in this area. | 翻訳日:2023-12-27 18:01:52 公開日:2023-12-24 |
# CARSS:旅行セールスマン問題の解決のための協調注意誘導強化サブパス合成 CARSS: Cooperative Attention-guided Reinforcement Subpath Synthesis for Solving Traveling Salesman Problem ( http://arxiv.org/abs/2312.15412v1 ) ライセンス: Link先を確認 | Yuchen Shi, Congying Han, Tiande Guo | (参考訳) 本稿では, 協調型マルチエージェント強化学習(MARL)を活用して, トラベリングセールスマン問題(TSP)に対処する新しいアプローチであるCARSS(Cooperative Attention-guided Reinforcement Subpath Synthesis)を紹介する。
cars は tsp の解法を "subpath generation" と "subpath merge" の2つの異なる相乗的ステップに分解する。
前者では、協調的なMARLフレームワークを使用して、複数のエージェントを用いてサブパスを反復的に生成する。
後者では、これらのサブパスは徐々に統合され、完全なサイクルを形成する。
このアルゴリズムの主な目的は、マルチエージェント分割計算パラダイムを採用することにより、メモリ消費、テスト時間、スケーラビリティのトレーニングにおける効率性を高めることである。
特に注意機構は、CARSS内の特徴埋め込みとパラメータ化戦略において重要な役割を果たす。
モデルのトレーニングは、独立したREINFORCEアルゴリズムによって促進される。
これはGPUメモリ使用量の削減を示し、トレーニンググラフを2.5倍の規模に収容し、さらに広範な問題サイズへのスケーリングの可能性を示している。
さらにCARSSは、標準的な復号法と比較して、最大1000頂点のTSPインスタンスに対して、テスト時間と最適化ギャップを約50%削減する。 This paper introduces CARSS (Cooperative Attention-guided Reinforcement Subpath Synthesis), a novel approach to address the Traveling Salesman Problem (TSP) by leveraging cooperative Multi-Agent Reinforcement Learning (MARL). CARSS decomposes the TSP solving process into two distinct yet synergistic steps: "subpath generation" and "subpath merging." In the former, a cooperative MARL framework is employed to iteratively generate subpaths using multiple agents. In the latter, these subpaths are progressively merged to form a complete cycle. The algorithm's primary objective is to enhance efficiency in terms of training memory consumption, testing time, and scalability, through the adoption of a multi-agent divide and conquer paradigm. Notably, attention mechanisms play a pivotal role in feature embedding and parameterization strategies within CARSS. The training of the model is facilitated by the independent REINFORCE algorithm. Empirical experiments reveal CARSS's superiority compared to single-agent alternatives: it demonstrates reduced GPU memory utilization, accommodates training graphs nearly 2.5 times larger, and exhibits the potential for scaling to even more extensive problem sizes. Furthermore, CARSS substantially reduces testing time and optimization gaps by approximately 50% for TSP instances of up to 1000 vertices, when compared to standard decoding methods. | 翻訳日:2023-12-27 18:01:29 公開日:2023-12-24 |
# 信号デノイングのための量子アルゴリズム Quantum Algorithm for Signal Denoising ( http://arxiv.org/abs/2312.15411v1 ) ライセンス: Link先を確認 | Sayantan Dutta, Adrian Basarab, Denis Kouam\'e, Bertrand Georgeot | (参考訳) このレターは、振幅増幅と局所平均値によって決定される適応しきい値を用いて周波数領域のしきい値を実行する、信号デノージングのための新しい \textit{quantum algorithm} を示す。
提案するアルゴリズムは、古典的信号と量子的信号の両方を処理できる。
従来の古典的および量子復調アルゴリズムよりもパラメトリックに高速である。
数値的な結果から、古典的および量子的起源のノイズを除去し、この点で既存の量子アルゴリズム、特に量子雑音の存在を著しく上回っていることが示される。 This letter presents a novel \textit{quantum algorithm} for signal denoising, which performs a thresholding in the frequency domain through amplitude amplification and using an adaptive threshold determined by local mean values. The proposed algorithm is able to process \textit{both classical and quantum} signals. It is parametrically faster than previous classical and quantum denoising algorithms. Numerical results show that it is efficient at removing noise of both classical and quantum origin, significantly outperforming existing quantum algorithms in this respect, especially in the presence of quantum noise. | 翻訳日:2023-12-27 18:01:09 公開日:2023-12-24 |
# 知覚歪バランス型超解法:多目的最適化の展望 Perception-Distortion Balanced Super-Resolution: A Multi-Objective Optimization Perspective ( http://arxiv.org/abs/2312.15408v1 ) ライセンス: Link先を確認 | Lingchen Sun, Jie Liang, Shuaizheng Liu, Hongwei Yong, Lei Zhang | (参考訳) 高知覚品質と低歪み度は、超解像(SR)のような画像復元タスクにおいて2つの重要な目標である。
既存のsr手法のほとんどは、$\ell_1$の損失や敵対的損失といった相反する損失を最小化することで、これらの目標を達成することを目指している。
残念なことに、アダムのような一般的な勾配に基づく最適化器は、矛盾する損失の正反対の勾配方向のためにこれらの目的のバランスをとるのが難しい。
本稿では,多目的最適化問題としてsrの知覚-ゆがみトレードオフを定式化し,勾配自由進化アルゴリズム(ea)と勾配に基づくadamを統合し,ea と adam がそれぞれ最適化方向の発散と収束に焦点を当てた新しい最適化器を開発した。
その結果,知覚・歪曲傾向の異なる最適モデルの個体群が得られた。
次に,これらのモデルを単一のより強力なモデルにマージして,効果的な知覚・ゆがみトレードオフを実現するための融合ネットワークを設計する。
実験により, 同じバックボーンネットワークを用いて, 本手法で訓練した知覚歪みバランスSRモデルにより, コンペティタよりも知覚品質が向上し, 再現精度が向上することを示した。
コードとモデルはhttps://github.com/csslc/EA-Adam.comにある。 High perceptual quality and low distortion degree are two important goals in image restoration tasks such as super-resolution (SR). Most of the existing SR methods aim to achieve these goals by minimizing the corresponding yet conflicting losses, such as the $\ell_1$ loss and the adversarial loss. Unfortunately, the commonly used gradient-based optimizers, such as Adam, are hard to balance these objectives due to the opposite gradient decent directions of the contradictory losses. In this paper, we formulate the perception-distortion trade-off in SR as a multi-objective optimization problem and develop a new optimizer by integrating the gradient-free evolutionary algorithm (EA) with gradient-based Adam, where EA and Adam focus on the divergence and convergence of the optimization directions respectively. As a result, a population of optimal models with different perception-distortion preferences is obtained. We then design a fusion network to merge these models into a single stronger one for an effective perception-distortion trade-off. Experiments demonstrate that with the same backbone network, the perception-distortion balanced SR model trained by our method can achieve better perceptual quality than its competitors while attaining better reconstruction fidelity. Codes and models can be found at https://github.com/csslc/EA-Adam. | 翻訳日:2023-12-27 18:00:58 公開日:2023-12-24 |
# A-SDM:冗長除去と性能最適化による安定拡散の加速 A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization ( http://arxiv.org/abs/2312.15516v1 ) ライセンス: Link先を確認 | Jinchao Zhu, Yuxuan Wang, Xiaobing Tu, Siyuan Pan, Pengfei Wan, Gao Huang | (参考訳) 安定拡散モデル(stable Diffusion Model, SDM)は、t2iの生成とi2iの生成モデルである。
サンプリングステップ、モデル蒸留、ネットワーク量子化を減らそうとする試みはいくつかあったが、これらの手法は一般に元のネットワークアーキテクチャを保っている。
数十億のスケールパラメータと高い計算要求は、モデルアーキテクチャ調整の研究を弱める。
そこで本研究では,まずネットワークの計算冗長性の部分を探索し,次にモデルの冗長性ブロックを掘り下げ,漸進的なインキュベーション戦略を通じてネットワーク性能を維持する。
第2に、モデル性能を維持するために、ブロックプルーニング部にクロス層マルチエキスパート条件畳み込み(CLME-Condconv)を加え、元の畳み込みパラメータを継承する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
最後に,教師モデルと学生モデルの出力をセマンティックレベルで調整するために,意味認識監視(SAS)を用いる。
実験により、本手法は、元のsdモデルの性能に近い軽量モデルを効果的に訓練でき、限られた資源でモデル速度を効果的に向上できることを示した。
実験により,本手法は,sdモデルの性能に近い軽量モデルを効果的に訓練し,限られた資源でモデル速度を効果的に向上できることを示した。
加速後、モデルのunet部分は22%高速であり、全体の速度は19%高速である。 The Stable Diffusion Model (SDM) is a popular and efficient text-to-image (t2i) generation and image-to-image (i2i) generation model. Although there have been some attempts to reduce sampling steps, model distillation, and network quantization, these previous methods generally retain the original network architecture. Billion scale parameters and high computing requirements make the research of model architecture adjustment scarce. In this work, we first explore the computational redundancy part of the network, and then prune the redundancy blocks of the model and maintain the network performance through a progressive incubation strategy. Secondly, in order to maintaining the model performance, we add cross-layer multi-expert conditional convolution (CLME-Condconv) to the block pruning part to inherit the original convolution parameters. Thirdly, we propose a global-regional interactive (GRI) attention to speed up the computationally intensive attention part. Finally, we use semantic-aware supervision (SAS) to align the outputs of the teacher model and student model at the semantic level. Experiments show that this method can effectively train a lightweight model close to the performance of the original SD model, and effectively improve the model speed under limited resources. Experiments show that the proposed method can effectively train a light-weight model close to the performance of the original SD model, and effectively improve the model speed under limited resources. After acceleration, the UNet part of the model is 22% faster and the overall speed is 19% faster. | 翻訳日:2023-12-27 17:55:18 公開日:2023-12-24 |
# 超高速テラヘルツ超伝導体ファンデルワールスメタマテリアルフォトニックスイッチ Ultrafast terahertz superconductor van der Waals metamaterial photonic switch ( http://arxiv.org/abs/2312.15515v1 ) ライセンス: Link先を確認 | Kaveh Delfanazari | (参考訳) 高温超伝導体 (HTS) BSCCOをベースとしたコヒーレントテラヘルツ (THz) 源は、THzの科学技術における主要な固体プラットフォームの一つとして大きな可能性を示している。
安定かつチップスケールのフォトニックコンポーネントは、特に将来の通信システムやネットワークアプリケーションにおいて、そのコヒーレント放射を効果的かつ効率的に制御し、操作するために開発されなければならない。
本稿では,超高速なTHzメタマテリアルフォトニック集積回路の設計,シミュレーション,モデリングを,狭い周波数範囲で一定伝送係数の位相の能動変調が可能な数ナノメートル厚のHTS BSCCO van der Waals (vdWs) 上で行う。
一方、メタマテリアル回路は、異なる周波数帯域の位相を著しく変化させることなく振幅変調器として機能する。
超短光パルスの適用により、THzメタマテリアルの過渡変調ダイナミクスは50psの高速スイッチングタイムスケールを提供する。
通信・量子技術における多機能超伝導フォトニック回路の可能性について, ピコ秒光物質相互作用_クーパー対の破壊, 光誘起準粒子の生成と再結合, フォノンボトルネック効果, BSCCO vdWs メタマテリアルアレイにおけるボソン_の放出と緩和について論じる。 High-temperature superconductor (HTS) BSCCO-based coherent terahertz (THz) sources have shown great potential as one of the leading solid-state platforms in THz science and technology. Stable, and chip-scale photonic components must be developed to effectively and efficiently control and manipulate their coherent radiation, especially for future communication systems and network applications. Here, we report on the design, simulation and modelling of ultrafast THz metamaterial photonic integrated circuits, on a few nanometers thick HTS BSCCO van der Waals (vdWs), capable of the active modulation of phase with constant transmission coefficient over a narrow frequency range. Meanwhile, the metamaterial circuit works as an amplitude modulator without significantly changing the phase in a different frequency band. Under the application of ultrashort optical pulses, the transient modulation dynamics of the THz metamaterial offer a fast switching timescale of 50 ps. The dynamics of picosecond light-matter interaction_ Cooper pairs breaking, photoinduced quasiparticles generation and recombination, phonon bottleneck effect, emission and relaxation of bosons_ in BSCCO vdWs metamaterial arrays are discussed for the potential application of multifunctional superconducting photonic circuits in communication and quantum technologies. | 翻訳日:2023-12-27 17:54:29 公開日:2023-12-24 |
# 信頼できるaiモデルの展開に向けて: 分散検出のための複数の入力ミックスアップ Towards Reliable AI Model Deployments: Multiple Input Mixup for Out-of-Distribution Detection ( http://arxiv.org/abs/2312.15514v1 ) ライセンス: Link先を確認 | Dasol Choi, Dongbin Na | (参考訳) ディープラーニング産業における近年の顕著な成功は、信頼性のあるモデル展開の必要性を前例のないほど高めている。
例えば、生成したモデル出力が信頼できない場合、モデルがユーザに警告するべきです。
従来の研究は、アウト・オブ・ディストリビューション(OOD)の検出問題を解決するための様々な方法を提案してきたが、一般的にはリソースの負担を必要とする。
本研究では,新しい簡易な手法であるmim(multiple input mixup)を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
このメソッドは、モデルをスクラッチからトレーニングする必要はなく、単純に分類器にアタッチできる。
その単純さにもかかわらず、MIMは競争力のある性能を示している。
本手法は, 合成OODデータを生成するために, In-Distribution (ID) サンプルのみを利用するため, 様々な環境に適応できる。
分散検出分野で広く採用されているcifar10およびcifar100ベンチマークを用いた広範な実験により,本手法はsoma法よりも総合的に優れた性能を示した。
特に,本手法では,従来の研究に比べ,特徴ベクトルに余分な計算は不要である。
すべてのソースコードはhttps://github.com/ndb796/MultipleInputMixupで公開されている。 Recent remarkable success in the deep-learning industries has unprecedentedly increased the need for reliable model deployment. For example, the model should alert the user if the produced model outputs might not be reliable. Previous studies have proposed various methods to solve the Out-of-Distribution (OOD) detection problem, however, they generally require a burden of resources. In this work, we propose a novel and simple method, Multiple Input Mixup (MIM). Our method can help improve the OOD detection performance with only single epoch fine-tuning. Our method does not require training the model from scratch and can be attached to the classifier simply. Despite its simplicity, our MIM shows competitive performance. Our method can be suitable for various environments because our method only utilizes the In-Distribution (ID) samples to generate the synthesized OOD data. With extensive experiments with CIFAR10 and CIFAR100 benchmarks that have been largely adopted in out-of-distribution detection fields, we have demonstrated our MIM shows comprehensively superior performance compared to the SOTA method. Especially, our method does not need additional computation on the feature vectors compared to the previous studies. All source codes are publicly available at https://github.com/ndb796/MultipleInputMixup. | 翻訳日:2023-12-27 17:53:25 公開日:2023-12-24 |
# 大規模言語モデルをDense Retrievalのためのより良い基盤にする Making Large Language Models A Better Foundation For Dense Retrieval ( http://arxiv.org/abs/2312.15503v1 ) ライセンス: Link先を確認 | Chaofan Li, Zheng Liu, Shitao Xiao, Yingxia Shao | (参考訳) デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
しかし、LLMはテキスト生成タスクによって事前訓練されており、その動作パターンはテキストを埋め込みとして表現するのとは全く異なる。
その結果,LLMを適切に適応させ,高密度検索のためのバックボーンエンコーダとして効果的に初期化できることが示唆された。
本稿では,高密度検索アプリケーションのためのllmのポストホック適応として機能するllara (llm adapt for dense retrieval) という新しい手法を提案する。
LLaRA は EBAE (Embedding-based Auto-Encoding) と EBAR (Embedding-based Auto-Regression) の2つのプレテキストタスクから構成されており、LLM からのテキスト埋め込みを使用して入力文のトークンを再構築し、次の文のトークンを予測する。
LLaRAはシンプルで、軽量で、非常に効果的であることがわかった。
これはウィキペディアのコーパスにLLaMA-2-7B(ベース)を適用するために適用され、MSMARCOやBEIRのような様々な高密度検索ベンチマークにおけるモデルの微調整性能を大幅に改善する。
私たちのモデルとコードは、BGEリポジトリで公開されます。 Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository. | 翻訳日:2023-12-27 17:52:55 公開日:2023-12-24 |
# 連続的なサプライチェーンのエージェントベースモデリング Agent based modelling for continuously varying supply chains ( http://arxiv.org/abs/2312.15502v1 ) ライセンス: Link先を確認 | Wan Wang, Haiyan Wang, Adam J.Sobey | (参考訳) 問題定義:サプライチェーンは常に進化するネットワークである。
強化学習は、これらのネットワークの最適制御を提供するソリューションとしてますます提案されている。
方法論: エージェントが様々なサプライチェーンの問題を制御できるかどうか, 異なる戦略を必要とする環境間の学習を伝達し, しばらくは見ていないタスクの破滅的な忘れを回避できるかどうかを考察する。
このアプローチを評価するために、アクター-批判学習者、近位政策最適化(ppo)、反復近位政策最適化(rppo)、長期短期記憶(lstm)層を有するppoの2つの最先端強化学習(rl)アルゴリズムを比較した。
結果: まず, 確率性の異なる6種類の環境において, これらの手法を比較した。
その結果,バッチ環境で採用されるリーン戦略は,製品によって異なる確率環境で採用されているものと異なることがわかった。
この方法は、ppoエージェントがタスクが類似している場合に継続的学習を通じて適応できることが示されるが、極端なタスク間で変化した場合により揮発的なパフォーマンスを示す、様々な継続的サプライチェーンシナリオでも比較される。
しかし、RPPOは歴史を記憶する能力があり、これをある程度克服し、より現実的な戦略を取ることができる。
管理的意味: 当社の結果は, 継続的なサプライチェーンに対する新たな視点を提供するとともに, 需要の変化に応じて環境を調整することなく, 不確実かつ半連続的なサプライチェーン環境における全体的な性能向上にエージェントの協力と調整が不可欠である。 Problem definition: Supply chains are constantly evolving networks. Reinforcement learning is increasingly proposed as a solution to provide optimal control of these networks. Academic/practical: However, learning in continuously varying environments remains a challenge in the reinforcement learning literature.Methodology: This paper therefore seeks to address whether agents can control varying supply chain problems, transferring learning between environments that require different strategies and avoiding catastrophic forgetting of tasks that have not been seen in a while. To evaluate this approach, two state-of-the-art Reinforcement Learning (RL) algorithms are compared: an actor-critic learner, Proximal Policy Optimisation(PPO), and a Recurrent Proximal Policy Optimisation (RPPO), PPO with a Long Short-Term Memory(LSTM) layer, which is showing popularity in online learning environments. Results: First these methods are compared on six sets of environments with varying degrees of stochasticity. The results show that more lean strategies adopted in Batch environments are different from those adopted in Stochastic environments with varying products. The methods are also compared on various continuous supply chain scenarios, where the PPO agents are shown to be able to adapt through continuous learning when the tasks are similar but show more volatile performance when changing between the extreme tasks. However, the RPPO, with an ability to remember histories, is able to overcome this to some extent and takes on a more realistic strategy. Managerial implications: Our results provide a new perspective on the continuously varying supply chain, the cooperation and coordination of agents are crucial for improving the overall performance in uncertain and semi-continuous non-stationary supply chain environments without the need to retrain the environment as the demand changes. | 翻訳日:2023-12-27 17:52:28 公開日:2023-12-24 |
# 統合エネルギーシステムの短期多エネルギー需要予測のための深部畳み込みニューラルネットワーク Deep Convolutional Neural Networks for Short-Term Multi-Energy Demand Prediction of Integrated Energy Systems ( http://arxiv.org/abs/2312.15497v1 ) ライセンス: Link先を確認 | Corneliu Arsene | (参考訳) エネルギーネットワーク全体を効率的に運用するためには、統合電気・熱・ガスネットワークシステムの電力消費予測が不可欠である。
マルチエネルギーシステムは、将来のエネルギーシステムの主要な構成要素であり、よりクリーンで持続可能なエネルギーシステムに大きく貢献する貴重な柔軟性の源であると考えられている。
したがって、相互作用するエネルギーベクトルの異なるタイプとそれら間のカップリングを考慮に入れた統合エネルギーシステムの多エネルギー需要を予測するための、新規で高性能なモデルを開発する必要がある。
需要予測におけるこれまでの取り組みは、主に単一電力消費か、あるいは近年では単一熱またはガス電力消費に焦点が当てられた。
In order to address this gap, in this paper six novel prediction models based on Convolutional Neural Networks (CNNs) are developed, for either individual or joint prediction of multi-energy power consumptions: the single input/single output CNN model with determining the optimum number of epochs (CNN_1), the multiple input/single output CNN model (CNN_2), the single input/ single output CNN model with training/validation/testing datasets (CNN_3), the joint prediction CNN model (CNN_4), the multiple-building input/output CNN model (CNN_5) and the federated learning CNN model (CNN_6).
6つの新しいCNNモデルは全て、新しい統合型電気・熱・ガスネットワークシステムに包括的に適用され、最近になって予測に使われ始めたばかりである。
予測地平線は短期(次の30分)であり、全ての予測結果は信号対雑音比(snr)と正規化根平均二乗誤差(nrmse)を用いて評価され、一方平均絶対パーセンテージ誤差(mape)は他の文献から存在する結果と比較するために用いられる。 Forecasting power consumptions of integrated electrical, heat or gas network systems is essential in order to operate more efficiently the whole energy network. Multi-energy systems are increasingly seen as a key component of future energy systems, and a valuable source of flexibility, which can significantly contribute to a cleaner and more sustainable whole energy system. Therefore, there is a stringent need for developing novel and performant models for forecasting multi-energy demand of integrated energy systems, which to account for the different types of interacting energy vectors and of the coupling between them. Previous efforts in demand forecasting focused mainly on the single electrical power consumption or, more recently, on the single heat or gas power consumptions. In order to address this gap, in this paper six novel prediction models based on Convolutional Neural Networks (CNNs) are developed, for either individual or joint prediction of multi-energy power consumptions: the single input/single output CNN model with determining the optimum number of epochs (CNN_1), the multiple input/single output CNN model (CNN_2), the single input/ single output CNN model with training/validation/testing datasets (CNN_3), the joint prediction CNN model (CNN_4), the multiple-building input/output CNN model (CNN_5) and the federated learning CNN model (CNN_6). All six novel CNN models are applied in a comprehensive manner on a novel integrated electrical, heat and gas network system, which only recently has started to be used for forecasting. The forecast horizon is short-term (next half an hour) and all the predictions results are evaluated in terms of the Signal to Noise Ratio (SNR) and the Normalized Root Mean Square Error (NRMSE), while the Mean Absolute Percentage Error (MAPE) is used for comparison purposes with other existent results from literature. | 翻訳日:2023-12-27 17:51:57 公開日:2023-12-24 |
# 半導体スピン量子の計測に基づく絡み合い Measurement-Based Entanglement of Semiconductor Spin Qubits ( http://arxiv.org/abs/2312.15493v1 ) ライセンス: Link先を確認 | Remy L. Delva, Jonas Mielke, Guido Burkard, Jason R. Petta | (参考訳) 測定ベースの絡み合いは、パリティ測定を伴う状態投影を通じて量子システムを絡み合わせる方法である。
一対のシリコンダブルドット・フローッピングモードスピン量子ビットの計測に基づく絡み合いを記述した確率的マスター方程式を導出し、この過程をモデル化するための数値シミュレーションを開発し、そのようなプロトコルを実験的に実装する上でどのような修正が有効かを探る。
現在の量子ビットおよびキャビティ設計に対応するデバイスパラメータにより、エンタングルメント忠実度$f_e を約61%予測する。
キャビティアウトカップリング率を10倍にすることで, 33%の収率を維持しながら, シミュレーションした$F_e \approx$81%を得ることができた。 Measurement-based entanglement is a method for entangling quantum systems through the state projection that accompanies a parity measurement. We derive a stochastic master equation describing measurement-based entanglement of a pair of silicon double-dot flopping-mode spin qubits, develop numerical simulations to model this process, and explore what modifications could enable an experimental implementation of such a protocol. With device parameters corresponding to current qubit and cavity designs, we predict an entanglement fidelity $F_e \approx$ 61%. By increasing the cavity outcoupling rate by a factor of ten, we are able to obtain a simulated $F_e \approx$ 81% while maintaining a yield of 33%. | 翻訳日:2023-12-27 17:51:25 公開日:2023-12-24 |
# Diffusion-EXR: 拡散モデルによる説明可能なレコメンデーションのための制御可能なレビュー生成 Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models ( http://arxiv.org/abs/2312.15490v1 ) ライセンス: Link先を確認 | Ling Li, Shaohua Li, Winda Marantika, Alex C. Kot, Huijing Zhan | (参考訳) Denoising Diffusion Probabilistic Model (DDPM) は画像および音声生成タスクにおいて大きな能力を示している。
しかし,テキスト生成,特にレコメンデーションシステムによるレビュー生成においてddpmを活用しようとする試みは少ない。
推奨項目をよりよく理解し,レコメンデーションシステムの透明性を高める上で,レコメンデーションを正当化する予測されたレコメンデーション説明能力によって,ディフュージョン-EXR と呼ばれる説明可能なレコメンデーションに対するディフュージョンモデルに基づくレビュー生成を提案する。
Diffusion-EXRは、単語埋め込みのシーケンスに様々なレベルのガウスノイズを導入してレビュー埋め込みのシーケンスを破損させ、元の単語表現を逆のプロセスで再構築することを学ぶ。
DDPMの特性により、私たちの軽量トランスフォーマーバックボーンはレコメンデーションレビュー生成タスクにおいて優れた性能を発揮する。
広範な実験結果から、d diffusion-exrは2つの公開ベンチマークデータセットの推奨のために最先端のレビュー生成を達成できることが示されている。 Denoising Diffusion Probabilistic Model (DDPM) has shown great competence in image and audio generation tasks. However, there exist few attempts to employ DDPM in the text generation, especially review generation under recommendation systems. Fueled by the predicted reviews explainability that justifies recommendations could assist users better understand the recommended items and increase the transparency of recommendation system, we propose a Diffusion Model-based Review Generation towards EXplainable Recommendation named Diffusion-EXR. Diffusion-EXR corrupts the sequence of review embeddings by incrementally introducing varied levels of Gaussian noise to the sequence of word embeddings and learns to reconstruct the original word representations in the reverse process. The nature of DDPM enables our lightweight Transformer backbone to perform excellently in the recommendation review generation task. Extensive experimental results have demonstrated that Diffusion-EXR can achieve state-of-the-art review generation for recommendation on two publicly available benchmark datasets. | 翻訳日:2023-12-27 17:51:07 公開日:2023-12-24 |
# web上のアイデンティティを公開するブラウジング行動 Browsing behavior exposes identities on the Web ( http://arxiv.org/abs/2312.15489v1 ) ライセンス: Link先を確認 | Marcos Oliveira, Jonathan Yang, Daniel Griffiths, Denis Bonnay, Juhi Kulshrestha | (参考訳) ウェブブラウジング行動に基づいて個人を独特に識別するのは、どの程度簡単か?
ここでは、人々がウェブをナビゲートすると、オンライントレースがそれらを識別する指紋を生成することを示す。
最も訪問者の多いwebドメインを知るだけで、4つのデータポイントで95%の個人を識別できる。
これらのデジタル指紋は安定しており、再識別性が高い。
我々は、データの切り離しで90%の個人を再識別できることを実証した。
このようなプライバシーの脅威は、個人の閲覧行動に関する情報が限られていても持続し、オンラインプライバシーに関する既存の懸念を補強する。 How easy is it to uniquely identify a person based on their web browsing behavior? Here we show that when people navigate the Web, their online traces produce fingerprints that identify them. By merely knowing their most visited web domains, four data points are enough to identify 95% of the individuals. These digital fingerprints are stable and render high re-identifiability. We demonstrate that we can re-identify 90% of the individuals in separate time slices of data. Such a privacy threat persists even with limited information about individuals' browsing behavior, reinforcing existing concerns around online privacy. | 翻訳日:2023-12-27 17:50:45 公開日:2023-12-24 |
# bsraw: ブラインドraw画像の超高解像度化 BSRAW: Improving Blind RAW Image Super-Resolution ( http://arxiv.org/abs/2312.15487v1 ) ライセンス: Link先を確認 | Marcos V. Conde, Florin Vasluianu, Radu Timofte | (参考訳) スマートフォンやコンパクトカメラでは、画像信号処理装置(ISP)はRAWセンサーイメージを人間の読みやすいsRGB画像に変換する。
一般的な超解像法は、sRGB画像から分離し、さらにアップスケールし、品質を向上する。
しかし、非線形ISP変換のため、sRGB領域の劣化のモデル化は複雑である。
この既知の問題にもかかわらず、rawイメージを直接処理し、現実世界のセンサー劣化に取り組む方法はわずかである。
RAW領域におけるブラインド画像の超解像化に取り組む。
生センサデータを用いたトレーニングモデルに特化した,現実的な劣化パイプラインを設計する。
センサノイズ,デフォーカス,露出,その他の一般的な問題を考察する。
私たちのパイプラインでトレーニングしたBSRAWモデルは、リアルタイムRAW画像をスケールアップし、品質を向上させることができます。
この取り組みの一環として、このタスクのための新しいDSLMデータセットとベンチマークも提示します。 In smartphones and compact cameras, the Image Signal Processor (ISP) transforms the RAW sensor image into a human-readable sRGB image. Most popular super-resolution methods depart from a sRGB image and upscale it further, improving its quality. However, modeling the degradations in the sRGB domain is complicated because of the non-linear ISP transformations. Despite this known issue, only a few methods work directly with RAW images and tackle real-world sensor degradations. We tackle blind image super-resolution in the RAW domain. We design a realistic degradation pipeline tailored specifically for training models with raw sensor data. Our approach considers sensor noise, defocus, exposure, and other common issues. Our BSRAW models trained with our pipeline can upscale real-scene RAW images and improve their quality. As part of this effort, we also present a new DSLM dataset and benchmark for this task. | 翻訳日:2023-12-27 17:50:36 公開日:2023-12-24 |
# 形状制御とテクスチャガイダンスを備えた2段階仮想試行フレームワーク A Two-stage Personalized Virtual Try-on Framework with Shape Control and Texture Guidance ( http://arxiv.org/abs/2312.15480v1 ) ライセンス: Link先を確認 | Shufang Zhang, Minxue Ni, Lei Wang, Wenxin Ding, Shuai Chen, Yuhong Liu | (参考訳) 拡散モデルは、野生の画像を生成できる強力な能力を持つ。
しかし、このモデルはテキストの誘導によって不正確な画像を生成できるため、仮想試行シナリオにテキスト誘導生成モデルを直接適用することは極めて困難である。
そこで本研究では,2つの段階(形状制御とテクスチャガイダンス)を用いて衣料品属性を分離する,新しい仮想試行モデル(PE-VITON)を提案する。
具体的には、形状制御モジュール(scm)を介して衣服と人体部品とを適応的に一致させ、衣服と人体部品の誤認を緩和する。
入力された衣服の意味情報をテクスチャガイドモジュール(TGM)で解析し、そのテクスチャを方向案内により生成する。
そこで本モデルでは, 衣服の折り畳みの弱さ, 複雑な姿勢下における生成効果の低下, 衣服のぼやけた縁, 従来の試着方法の不明瞭なテクスチャスタイルを効果的に解決することができる。
また,人間の姿勢に応じて衣服の折り畳みやテクスチャを自動的に強化し,仮想試着の信頼性を向上させる。
本稿では,高分解能なペアとアンペアのデータセットに対して定性的かつ定量的な実験を行い,提案モデルが最先端モデルより優れていることを示す。 The Diffusion model has a strong ability to generate wild images. However, the model can just generate inaccurate images with the guidance of text, which makes it very challenging to directly apply the text-guided generative model for virtual try-on scenarios. Taking images as guiding conditions of the diffusion model, this paper proposes a brand new personalized virtual try-on model (PE-VITON), which uses the two stages (shape control and texture guidance) to decouple the clothing attributes. Specifically, the proposed model adaptively matches the clothing to human body parts through the Shape Control Module (SCM) to mitigate the misalignment of the clothing and the human body parts. The semantic information of the input clothing is parsed by the Texture Guided Module (TGM), and the corresponding texture is generated by directional guidance. Therefore, this model can effectively solve the problems of weak reduction of clothing folds, poor generation effect under complex human posture, blurred edges of clothing, and unclear texture styles in traditional try-on methods. Meanwhile, the model can automatically enhance the generated clothing folds and textures according to the human posture, and improve the authenticity of virtual try-on. In this paper, qualitative and quantitative experiments are carried out on high-resolution paired and unpaired datasets, the results show that the proposed model outperforms the state-of-the-art model. | 翻訳日:2023-12-27 17:50:23 公開日:2023-12-24 |
# 大規模言語モデルのためのグループフェアネスレンズ A Group Fairness Lens for Large Language Models ( http://arxiv.org/abs/2312.15478v1 ) ライセンス: Link先を確認 | Guanqun Bi, Lei Shen, Yuqiang Xie, Yanan Cao, Tiangang Zhu, Xiaodong He | (参考訳) 大規模言語モデルの急速な発展は、様々な応用に革命をもたらしたが、ソーシャルメディアのコンテキストに展開するバイアスや不公平さを持続する可能性に関する重要な懸念も提起した。
LLMの潜在的なバイアスと公平さを評価することは重要であり、既存の手法はごく少数のグループに焦点を絞った限定的なプロンプトに頼っている。
本稿では,多様な社会集団を特徴付ける新しい階層的スキーマを用いて,グループフェアネスレンズからのllmバイアスの評価を提案する。
具体的には、複数の次元にわたるターゲットと属性の組み合わせをカプセル化したデータセットGFairを構築する。
さらに,LLMにおける複雑なバイアスを明らかにするために,新たなオープンエンドテキスト生成タスクである文体系を導入する。
LLMの広範囲な評価は、固有の安全性上の懸念を明らかにしている。
グループフェアネスの観点から LLM のバイアスを軽減するために, グループフェアネスの観点から LLM のバイアスを軽減する新しいチェーン・オブ・シンク法 GF-Think を考案した。
実験により, LLMの偏差緩和効果を実証し, 公平性を実現した。 The rapid advancement of large language models has revolutionized various applications but also raised crucial concerns about their potential to perpetuate biases and unfairness when deployed in social media contexts. Evaluating LLMs' potential biases and fairness has become crucial, as existing methods rely on limited prompts focusing on just a few groups, lacking a comprehensive categorical perspective. In this paper, we propose evaluating LLM biases from a group fairness lens using a novel hierarchical schema characterizing diverse social groups. Specifically, we construct a dataset, GFair, encapsulating target-attribute combinations across multiple dimensions. In addition, we introduce statement organization, a new open-ended text generation task, to uncover complex biases in LLMs. Extensive evaluations of popular LLMs reveal inherent safety concerns. To mitigate the biases of LLM from a group fairness perspective, we pioneer a novel chain-of-thought method GF-Think to mitigate biases of LLMs from a group fairness perspective. Experimental results demonstrate its efficacy in mitigating bias in LLMs to achieve fairness. | 翻訳日:2023-12-27 17:49:57 公開日:2023-12-24 |
# 非局所性の階層を捉えるための独立分布と同一分布の制限 Limitation of independent and identical distribution to capture the hierarchy of nonlocality ( http://arxiv.org/abs/2312.15476v1 ) ライセンス: Link先を確認 | Abhay Srivastav, Saronath Halder | (参考訳) 独立分布と同一分布(iid)のシナリオを考えることの重要性は、量子論において十分確立されている。
絡み合い検出から絡み合い状態変換に至るまで、このシナリオは多くのタスクで有用である。
それでも、ここでは、iidシナリオの制限に焦点を当てます。
本研究では,地域国家差別問題(LSDP)に関連する非局所性の概念を検討する。
ここで、「非局所性」という用語は、量子状態を識別する局所性と大域的能力の差を表す。
これらの問題において、量子状態のイドコピーが資源とみなされるため、LSDPは前述の制限を研究するのが自然である。
しかし、我々はまず、状態が純粋であるLSDPにおいて、リソースとしての絡み合いについて検討する。
そして,混合状態を考慮した知見を一般化する。
現在のLSDPでは,テレポーテーション方式のプロトコルが準最適である。
実際、我々の結果はLSDPのリソースとしてSchmidtに光を当てた。
興味深いことに、状態の有限個の iid コピーが利用可能であっても、状態が局所的に判別できないインスタンスが見つかる。
しかし、これらの状態の局所的な識別は、絡み合い支援LSDPを考えると、非常に少ないリソースを消費することができる。
これにより、同じヒルベルト空間内の同様のLSDPに付随する非局所性の次数を比較することができる。
したがって, iidシナリオではキャプチャできない非局所性の階層を報告できるが, 特定のlsdpにおいて絡み合いを資源として用いると観察できる。
さらに、非局所性の差は次元の増大とともに増加する。
最後に,本理論の情報の安全なロックとその資源効率の高い抽出への応用を示す。 Importance of considering independent and identically distributed (iid) scenario is well-established in quantum theory. From entanglement detection to entangled state transformation, this scenario is useful in many tasks. Nevertheless, here we focus on the limitation of iid scenario. For this purpose, we consider the notion of nonlocality associated with local state discrimination problems (LSDPs). Here, the term `nonlocality' denotes the difference between the local and the global abilities of discriminating quantum states. It is natural to consider LSDPs to study the aforesaid limitation because iid copies of quantum states are considered as resource in these problems. However, we first explore entanglement as resource in LSDPs where the states are pure. Then, we generalize our findings considering mixed states. In present LSDPs, our findings make the teleportation-based protocols sub-optimal. In fact, our results shed light on Schmidt rank as resource in LSDPs. Interestingly, we find instances where the states cannot be locally discriminated even if finite number of iid copies of the states are available. But local discrimination of these states can be done consuming quite less resource when we consider entanglement-assisted LSDPs. This allows us to compare the degrees of nonlocality associated with similar LSDPs within the same Hilbert space. Thus, we report a hierarchy of nonlocality which cannot be captured through iid scenario but it can be observed when entanglement is used as resource in certain LSDPs. Moreover, the difference in nonlocality may increase with increasing dimension. Finally, we show an application of our theory in secure locking of information and its resource-efficient extraction. | 翻訳日:2023-12-27 17:49:39 公開日:2023-12-24 |
# コード要約手法の評価:新しいメトリクスと経験的キャラクタリゼーション Evaluating Code Summarization Techniques: A New Metric and an Empirical Characterization ( http://arxiv.org/abs/2312.15475v1 ) ライセンス: Link先を確認 | Antonio Mastropaolo, Matteo Ciniselli, Massimiliano Di Penta, Gabriele Bavota | (参考訳) 文献では、コードスニペットや関数を自動的に文書化するいくつかのコード要約技術が提案されている。
理想的には、ソフトウェア開発者は生成された要約の品質を評価することに関与するべきです。
しかし、ほとんどの場合、研究者はBLEU、ROUGE、METEORといった自動評価指標に依存している。
これらのメトリクスは、すべて同じ仮定に基づいています。生成された要約と開発者が書いた参照要約のテキスト的類似度が高いほど、その品質は高くなります。
しかし、この仮定が不足している理由は2つある。
i) 参照要約,例えば,ソフトウェアリポジトリのマイニングによって収集されたコードコメントは,品質が低く,あるいは時代遅れである場合もあります。
(ii)生成した要約は、参照のものとは異なる単語を用いるが、意味的にそれと等価であり、コードスニペットの文書化に適している。
本稿では,生成した要約の質を捉えるために,様々な種類の指標の相補性に関する徹底的な実証調査を行う。
また,新たな次元を考慮し,生成した要約が参照要約から独立して文書化されたコードスニペットのセマンティクスと一致する範囲を把握し,既存のメトリクスの限界に対処することを提案する。
そこで我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
この新たな次元を取り入れることで,自動生成した要約の品質に関する開発者の評価をより効果的に表現できることを実証的に示す。 Several code summarization techniques have been proposed in the literature to automatically document a code snippet or a function. Ideally, software developers should be involved in assessing the quality of the generated summaries. However, in most cases, researchers rely on automatic evaluation metrics such as BLEU, ROUGE, and METEOR. These metrics are all based on the same assumption: The higher the textual similarity between the generated summary and a reference summary written by developers, the higher its quality. However, there are two reasons for which this assumption falls short: (i) reference summaries, e.g., code comments collected by mining software repositories, may be of low quality or even outdated; (ii) generated summaries, while using a different wording than a reference one, could be semantically equivalent to it, thus still being suitable to document the code snippet. In this paper, we perform a thorough empirical investigation on the complementarity of different types of metrics in capturing the quality of a generated summary. Also, we propose to address the limitations of existing metrics by considering a new dimension, capturing the extent to which the generated summary aligns with the semantics of the documented code snippet, independently from the reference summary. To this end, we present a new metric based on contrastive learning to capture said aspect. We empirically show that the inclusion of this novel dimension enables a more effective representation of developers' evaluations regarding the quality of automatically generated summaries. | 翻訳日:2023-12-27 17:49:18 公開日:2023-12-24 |
# Few-Shot Sim-to-Real Reinforcement Learningのための信頼領域アプローチ A Trust Region Approach for Few-Shot Sim-to-Real Reinforcement Learning ( http://arxiv.org/abs/2312.15474v1 ) ライセンス: Link先を確認 | Paul Daoudi, Christophe Prieur, Bogdan Robu, Merwan Barlier, Ludovic Dos Santos | (参考訳) simulation-to-reality reinforcement learning (sim-to-real rl) は、現実世界の広範な相互作用を最小化するためにシミュレーションを使用する。
具体的には、数回のオフダイナミックス設定では、ほんの数回の実世界の遷移だけで実世界へ効果的に転送できるダイナミクスミスマッチにもかかわらず、シミュレータベースのポリシーを取得することが目標だ。
この文脈では、従来のRLエージェントはシミュレーションの不正確さを利用する傾向があるため、シミュレータでは優れているが実際の環境では性能が劣る。
この課題に対処するために,Imitation LearningとTrust RegionベースのRLアルゴリズムの最近の進歩に触発されたシミュレータ学習政策によって引き起こされる軌道を制約するペナルティを取り入れた新しいアプローチを導入する。
実環境へのアクセスが極めて制限された多様なシム・トゥ・リアル条件を示す様々な環境を対象に,本手法の評価を行った。
これらの実験には現実世界の応用に関連する高次元システムが含まれる。
多くのテストシナリオにおいて,提案手法は既存のベースラインと比較して性能改善を示す。 Simulation-to-Reality Reinforcement Learning (Sim-to-Real RL) seeks to use simulations to minimize the need for extensive real-world interactions. Specifically, in the few-shot off-dynamics setting, the goal is to acquire a simulator-based policy despite a dynamics mismatch that can be effectively transferred to the real-world using only a handful of real-world transitions. In this context, conventional RL agents tend to exploit simulation inaccuracies resulting in policies that excel in the simulator but underperform in the real environment. To address this challenge, we introduce a novel approach that incorporates a penalty to constrain the trajectories induced by the simulator-trained policy inspired by recent advances in Imitation Learning and Trust Region based RL algorithms. We evaluate our method across various environments representing diverse Sim-to-Real conditions, where access to the real environment is extremely limited. These experiments include high-dimensional systems relevant to real-world applications. Across most tested scenarios, our proposed method demonstrates performance improvements compared to existing baselines. | 翻訳日:2023-12-27 17:48:56 公開日:2023-12-24 |
# Identifiability Guaranteeによる依存度測定のための深部コピュラに基づく生存分析 Deep Copula-Based Survival Analysis for Dependent Censoring with Identifiability Guarantees ( http://arxiv.org/abs/2312.15566v1 ) ライセンス: Link先を確認 | Weijia Zhang, Chun Kai Ling, Xuanhui Zhang | (参考訳) センシングは生存分析における中心的な問題であり、各サンプルに対して時間と時間(例えば、死亡)または時間と時間(例えば、フォローアップの喪失)が観察される。
既存の機械学習ベースの生存分析手法の大多数は、生存は一組の共変量からなる検閲とは条件的に独立していると仮定している。
依存検閲の存在と、現在の推定器の固有のバイアスは、様々なアプリケーションで実証され、よりニュアンスなアプローチの必要性が強調されている。
しかし、既存の検閲の調整方法では、実践者が真理のコプラを指定する必要がある。
この要件は、モデルの不特定が重大なバイアスを引き起こすため、実用的なアプリケーションにとって重大な課題となる。
本研究では,依存する検閲に対応し,基礎的真理を規定する必要をなくし,柔軟な深層学習に基づく生存率分析手法を提案する。
理論的には,コプラと生存分布の広い系統の下でのモデルの同定可能性を証明する。
実験結果は,本手法が基盤となる依存関係構造を識別し,既存手法と比較して生存推定バイアスを大幅に低減することを示した。 Censoring is the central problem in survival analysis where either the time-to-event (for instance, death), or the time-tocensoring (such as loss of follow-up) is observed for each sample. The majority of existing machine learning-based survival analysis methods assume that survival is conditionally independent of censoring given a set of covariates; an assumption that cannot be verified since only marginal distributions is available from the data. The existence of dependent censoring, along with the inherent bias in current estimators has been demonstrated in a variety of applications, accentuating the need for a more nuanced approach. However, existing methods that adjust for dependent censoring require practitioners to specify the ground truth copula. This requirement poses a significant challenge for practical applications, as model misspecification can lead to substantial bias. In this work, we propose a flexible deep learning-based survival analysis method that simultaneously accommodate for dependent censoring and eliminates the requirement for specifying the ground truth copula. We theoretically prove the identifiability of our model under a broad family of copulas and survival distributions. Experiments results from a wide range of datasets demonstrate that our approach successfully discerns the underlying dependency structure and significantly reduces survival estimation bias when compared to existing methods. | 翻訳日:2023-12-27 17:42:27 公開日:2023-12-24 |
# README:データ中心NLPによる医療ジャーゴンのブリッジと患者教育への理解 README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP ( http://arxiv.org/abs/2312.15561v1 ) ライセンス: Link先を確認 | Zonghai Yao, Nandyala Siddharth Kantu, Guanghao Wei, Hieu Tran, Zhangqi Duan, Sunjae Kwon, Zhichao Yang, README annotation team, Hong Yu | (参考訳) 医療の進歩は患者中心のアプローチ、特にElectronic Health Records(EHR)へのアクセスによって促進されるセルフケアと患者教育に焦点を移している。
しかし, EHRの医療ジャーゴンは, 患者の理解に重大な課題をもたらす。
そこで我々は,複雑な医療用語を患者フレンドリーなレイ言語に単純化することを目的とした,レイ定義の自動生成タスクを提案する。
readmeデータセットは、2万以上のユニークな医療用語と30万の言及の広範なコレクションで、それぞれがドメインの専門家によって手作業でアノテートされたコンテキスト対応のレイアウト定義を提供しています。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
次に,モデルの学習データとしてreadmeを使用し,探索型生成(rag)法を用いて幻覚を低減し,モデル出力の質を向上させる。
当社の広範な自動評価と人間による評価は、高品質なデータで微調整されたオープンソースのモバイルフレンドリーなモデルは、chatgptのような最先端のクローズドソースの大規模言語モデルのパフォーマンスにマッチする、あるいは超えていることを示している。
この研究は、患者教育における知識ギャップの解消と患者中心の医療ソリューションの進歩における重要な一歩である。 The advancement in healthcare has shifted focus toward patient-centric approaches, particularly in self-care and patient education, facilitated by access to Electronic Health Records (EHR). However, medical jargon in EHRs poses significant challenges in patient comprehension. To address this, we introduce a new task of automatically generating lay definitions, aiming to simplify complex medical terms into patient-friendly lay language. We first created the README dataset, an extensive collection of over 20,000 unique medical terms and 300,000 mentions, each offering context-aware lay definitions manually annotated by domain experts. We have also engineered a data-centric Human-AI pipeline that synergizes data filtering, augmentation, and selection to improve data quality. We then used README as the training data for models and leveraged a Retrieval-Augmented Generation (RAG) method to reduce hallucinations and improve the quality of model outputs. Our extensive automatic and human evaluations demonstrate that open-source mobile-friendly models, when fine-tuned with high-quality data, are capable of matching or even surpassing the performance of state-of-the-art closed-source large language models like ChatGPT. This research represents a significant stride in closing the knowledge gap in patient education and advancing patient-centric healthcare solutions | 翻訳日:2023-12-27 17:42:04 公開日:2023-12-24 |
# プライベートトランスファー学習のための公開表現の活用 Leveraging Public Representations for Private Transfer Learning ( http://arxiv.org/abs/2312.15551v1 ) ライセンス: Link先を確認 | Pratiksha Thaker, Amrith Setlur, Zhiwei Steven Wu, Virginia Smith | (参考訳) 公的なデータを差分プライベート学習に取り入れた最近の実証的な成功により、公的なデータから学習した共有表現がプライベート学習をどのように改善するか理論的に検討した。
線形回帰のための転置学習の2つの一般的なシナリオについて検討し,公開タスクとプライベートタスク(回帰ベクトル)が高次元空間における低ランク部分空間を共有することを仮定した。
最初のシングルタスク転送シナリオでは、データセットの行に対応するすべてのユーザ間で共有される単一のモデルを学ぶことが目標だ。
提案手法は,与えられた部分空間推定内で線形モデルを探索する自然アルゴリズムのクラスにおいて,最適過剰リスクを達成することを示す上下界と下界のマッチングを提供する。
マルチタスクモデルパーソナライゼーションの第2のシナリオでは、各サブスペース内の純粋に局所学習が同じ目的を達成するため、十分な公開データがあれば、ユーザーはプライベートコーディネートを避けることができる。
本研究の結果は,私的移動学習の共通体制における公共データのメリットを特徴づける上で有効である。 Motivated by the recent empirical success of incorporating public data into differentially private learning, we theoretically investigate how a shared representation learned from public data can improve private learning. We explore two common scenarios of transfer learning for linear regression, both of which assume the public and private tasks (regression vectors) share a low-rank subspace in a high-dimensional space. In the first single-task transfer scenario, the goal is to learn a single model shared across all users, each corresponding to a row in a dataset. We provide matching upper and lower bounds showing that our algorithm achieves the optimal excess risk within a natural class of algorithms that search for the linear model within the given subspace estimate. In the second scenario of multitask model personalization, we show that with sufficient public data, users can avoid private coordination, as purely local learning within the given subspace achieves the same utility. Taken together, our results help to characterize the benefits of public data across common regimes of private transfer learning. | 翻訳日:2023-12-27 17:41:36 公開日:2023-12-24 |
# マルチグラニュラリティー埋め込みと強化ラベリングによる多レベルバイオメディカルner Multi-level biomedical NER through multi-granularity embeddings and enhanced labeling ( http://arxiv.org/abs/2312.15550v1 ) ライセンス: Link先を確認 | Fahime Shahrokh, Nasser Ghadiri, Rasoul Samani, Milad Moradi | (参考訳) 生物医学的実体認識(英語: biomedical named entity recognition、ner)は、臨床記録、科学出版物、電子健康記録などの生体医学的文書から関連する情報を抽出するための生物医学的自然言語処理の基本的なタスクである。
従来のバイオメディカルnerのアプローチでは、条件付き確率場やサポートベクターマシン、リカレントニューラルネットワークや畳み込みニューラルネットワークといったディープラーニングモデルといった従来の機械学習技術が主に使用されている。
近年、BERTを含むTransformerベースのモデルは、生物医学的NERの領域で使われており、顕著な成果を上げている。
しかし、これらのモデルは、しばしば単語レベルの埋め込みに基づいており、文字レベルの情報をキャプチャする能力が制限されている。
これらの制約に対処するために,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
本稿では,微調整されたBERTを用いて,文脈的単語埋め込み,文字レベルの情報キャプチャのための事前学習されたマルチチャネルCNN,テキスト中の単語間の依存関係の順序付けとモデル化を行うBiLSTM+CRFを提案する。
また,生物医学的nerにおいて共通する課題である,エンティティの開始語を識別し,多語エンティティの識別を改善するための前処理の一部として,ラベル付けの強化も提案している。
これらのモデルと前処理法を統合することで,提案手法は文脈情報と詳細な文字レベル情報の両方を効果的にキャプチャする。
ベンチマークi2b2/2010データセットを用いて,F1スコア90.11。
これらの結果は,生物医学的名称認識におけるモデルの有効性を示す。 Biomedical Named Entity Recognition (NER) is a fundamental task of Biomedical Natural Language Processing for extracting relevant information from biomedical texts, such as clinical records, scientific publications, and electronic health records. The conventional approaches for biomedical NER mainly use traditional machine learning techniques, such as Conditional Random Fields and Support Vector Machines or deep learning-based models like Recurrent Neural Networks and Convolutional Neural Networks. Recently, Transformer-based models, including BERT, have been used in the domain of biomedical NER and have demonstrated remarkable results. However, these models are often based on word-level embeddings, limiting their ability to capture character-level information, which is effective in biomedical NER due to the high variability and complexity of biomedical texts. To address these limitations, this paper proposes a hybrid approach that integrates the strengths of multiple models. In this paper, we proposed an approach that leverages fine-tuned BERT to provide contextualized word embeddings, a pre-trained multi-channel CNN for character-level information capture, and following by a BiLSTM + CRF for sequence labelling and modelling dependencies between the words in the text. In addition, also we propose an enhanced labelling method as part of pre-processing to enhance the identification of the entity's beginning word and thus improve the identification of multi-word entities, a common challenge in biomedical NER. By integrating these models and the pre-processing method, our proposed model effectively captures both contextual information and detailed character-level information. We evaluated our model on the benchmark i2b2/2010 dataset, achieving an F1-score of 90.11. These results illustrate the proficiency of our proposed model in performing biomedical Named Entity Recognition. | 翻訳日:2023-12-27 17:41:16 公開日:2023-12-24 |
# スパースハイパーグラフにおけるマルチエージェントトンプソンサンプリングの有限時間頻出的後悔限界 Finite-Time Frequentist Regret Bounds of Multi-Agent Thompson Sampling on Sparse Hypergraphs ( http://arxiv.org/abs/2312.15549v1 ) ライセンス: Link先を確認 | Tianyuan Jin, Hao-Lun Hsu, William Chang, Pan Xu | (参考訳) 我々は、mamab(multi-agent multi-armed bandit)問題を研究し、m$エージェントは$\rho$オーバーラップグループに分解される。
各グループはハイパーエッジを表し、エージェントの上にハイパーグラフを形成する。
インタラクションの各ラウンドにおいて、学習者は、ジョイントアーム(各エージェント用の個々のアーム)を引っ張り、ハイパーグラフ構造に応じて報酬を受け取る。
具体的には、各ハイパーエッジに局所的な報酬があると仮定し、関節の報酬はこれらの局所的な報酬の合計である。
以前の研究はマルチエージェントトンプソンサンプリング (MATS) アルゴリズムである citep{verstraeten 2020multiagent} を導入し、ベイズ的後悔境界を導出した。
しかし、このマルチエージェント設定においてトンプソンサンプリングに対する頻繁な後悔を導出する方法は未解決の問題である。
これらの問題に対処するため、我々はMATSの効率的な変種である$\epsilon$-exploring Multi-Agent Thompson Sampling($\epsilon$-MATS)アルゴリズムを提案し、それ以外はgreedyポリシーを採用しながら確率$\epsilon$でMATS探索を行う。
我々は、$\epsilon$-MATSが、時間水平線と局所アームサイズの両方においてサブ線形である最悪のケース頻繁な後悔境界を達成することを証明した。
我々はまた、この設定に対する下限を導出する。これは、ハイパーグラフが十分にスパースである場合に、我々の頻繁な後悔の上限が、定数と対数項まで最適であることを意味する。
標準的なMAMAB問題に対する詳細な実験は、既存のアルゴリズムと比較すると、$\epsilon$-MATSの優れた性能と計算効率の向上を示している。 We study the multi-agent multi-armed bandit (MAMAB) problem, where $m$ agents are factored into $\rho$ overlapping groups. Each group represents a hyperedge, forming a hypergraph over the agents. At each round of interaction, the learner pulls a joint arm (composed of individual arms for each agent) and receives a reward according to the hypergraph structure. Specifically, we assume there is a local reward for each hyperedge, and the reward of the joint arm is the sum of these local rewards. Previous work introduced the multi-agent Thompson sampling (MATS) algorithm \citep{verstraeten2020multiagent} and derived a Bayesian regret bound. However, it remains an open problem how to derive a frequentist regret bound for Thompson sampling in this multi-agent setting. To address these issues, we propose an efficient variant of MATS, the $\epsilon$-exploring Multi-Agent Thompson Sampling ($\epsilon$-MATS) algorithm, which performs MATS exploration with probability $\epsilon$ while adopts a greedy policy otherwise. We prove that $\epsilon$-MATS achieves a worst-case frequentist regret bound that is sublinear in both the time horizon and the local arm size. We also derive a lower bound for this setting, which implies our frequentist regret upper bound is optimal up to constant and logarithm terms, when the hypergraph is sufficiently sparse. Thorough experiments on standard MAMAB problems demonstrate the superior performance and the improved computational efficiency of $\epsilon$-MATS compared with existing algorithms in the same setting. | 翻訳日:2023-12-27 17:40:45 公開日:2023-12-24 |
# YAYI-UIE: ユニバーサル情報抽出のためのチャット強化学習フレームワーク YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction ( http://arxiv.org/abs/2312.15548v1 ) ライセンス: Link先を確認 | Xinglin Xiao, Yijie Wang, Nan Xu, Yuqi Wang, Hanxuan Yang, Minzheng Wang, Yin Luo, Lei Wang, Wenji Mao, Daniel Zeng | (参考訳) 情報抽出タスクの難しさは、タスク固有のラベルスキーマと異種データ構造を扱うことである。
近年,様々な情報抽出タスクを均一にモデル化する大規模言語モデルに基づく手法が提案されている。
しかし、これらの既存の手法は、英語以外の中国語の情報抽出能力に欠ける。
本稿では、中国語と英語の両方をサポートするユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。
具体的には,対話データと情報抽出データを用いて情報抽出性能を向上する。
実験の結果,提案フレームワークは中国語データセットの最先端性能を実現し,教師付き設定とゼロショット設定の両方において,英語データセットで同等の性能を達成していることがわかった。 The difficulty of the information extraction task lies in dealing with the task-specific label schemas and heterogeneous data structures. Recent work has proposed methods based on large language models to uniformly model different information extraction tasks. However, these existing methods are deficient in their information extraction capabilities for Chinese languages other than English. In this paper, we propose an end-to-end chat-enhanced instruction tuning framework for universal information extraction (YAYI-UIE), which supports both Chinese and English. Specifically, we utilize dialogue data and information extraction data to enhance the information extraction performance jointly. Experimental results show that our proposed framework achieves state-of-the-art performance on Chinese datasets while also achieving comparable performance on English datasets under both supervised settings and zero-shot settings. | 翻訳日:2023-12-27 17:40:11 公開日:2023-12-24 |
# 量子コンピューティングがテストケース最適化に何ができるか Guess What Quantum Computing Can Do for Test Case Optimization ( http://arxiv.org/abs/2312.15547v1 ) ライセンス: Link先を確認 | Xinyi Wang, Shaukat Ali, Tao Yue, Paolo Arcaini | (参考訳) 近い将来、量子近似最適化アルゴリズム(QAOAs)は組合せ最適化問題を解決する大きな可能性を持っている。
これらはハイブリッドアルゴリズム、すなわち量子アルゴリズムと古典アルゴリズムの組み合わせである。
ポートフォリオ最適化や電力系統のエネルギー最適化,ジョブスケジューリングなど,組合せ問題を解くためのQAOAsの概念実証応用が実証されている。
しかし、QAOAsがテスト最適化のような古典的ソフトウェア工学の最適化問題を効率的に解けるかどうかはまだ未検討である。
そこで本研究では,QAOA問題としてソフトウェアテストケース最適化問題を定式化し,量子コンピュータシミュレータ上での解法を提案する。
近年は利用できない多くのキュービットを必要とするより大きなテスト最適化問題を解決するため、QAOAと問題分解戦略を統合する。
ABB, Google, Oronaの5つのテストケース最適化問題と4つの産業データセットを用いて経験的評価を行い、アプローチのさまざまな構成を比較し、大規模なデータセットを扱うための分解戦略を評価し、その性能を古典的アルゴリズム(GAとランダム検索)と比較した。
評価結果に基づき,テストケース最適化問題に対して,提案手法の最適構成を推奨する。
また,テストケース最適化問題5つのうち2つにおいて,我々の戦略がGAと同等の効率でGAに勝ることを示す。 In the near term, quantum approximate optimization algorithms (QAOAs) hold great potential to solve combinatorial optimization problems. These are hybrid algorithms, i.e., a combination of quantum and classical algorithms. Several proof-of-concept applications of QAOAs for solving combinatorial problems, such as portfolio optimization, energy optimization in power systems, and job scheduling, have been demonstrated. However, whether QAOAs can efficiently solve optimization problems from classical software engineering, such as test optimization, remains unstudied. To this end, we present the first effort to formulate a software test case optimization problem as a QAOA problem and solve it on quantum computer simulators. To solve bigger test optimization problems that require many qubits, which are unavailable these days, we integrate a problem decomposition strategy with the QAOA. We performed an empirical evaluation with five test case optimization problems and four industrial datasets from ABB, Google, and Orona to compare various configurations of our approach, assess its decomposition strategy of handling large datasets, and compare its performance with classical algorithms (i.e., Genetic Algorithm (GA) and Random Search). Based on the evaluation results, we recommend the best configuration of our approach for test case optimization problems. Also, we demonstrate that our strategy can reach the same effectiveness as GA and outperform GA in two out of five test case optimization problems we conducted. | 翻訳日:2023-12-27 17:39:55 公開日:2023-12-24 |
# $\alpha$-RuCl$_3$ナノフレーク近傍における単一窒素空孔中心の室温緩和測定 Room temperature relaxometry of single nitrogen-vacancy centers in proximity to $\alpha$-RuCl$_3$ nanoflakes ( http://arxiv.org/abs/2312.15541v1 ) ライセンス: Link先を確認 | Jitender Kumar, Dan Yudilevich, Ariel Smooha, Inbar Zohar, Arnab K. Pariari, Rainer St\"ohr, Andrej Denisenko, Markus H\"ucker, Amit Finkler | (参考訳) 強い相関を持つ電子系におけるスピンと電荷のノイズの調査は、その物理的性質を分析し、物質の新しい相を解き放つ貴重な方法である。
この文脈では、窒素空洞(NV)中心磁力測定は幅広い温度と周波数範囲の様々な磁気材料に対して汎用的なセンサであることが証明されている。
ここでは,単一のnv中心の縦緩和時間$t_1$を用いて,室温で$\alpha$-rucl$_3$のナノメートル薄いフレークのスピンダイナミクスを調べる。
我々は2次元六角形平面に閉じ込められた常磁性スピンノイズに起因するNVに近接して$\alpha$-RuCl$_3$の存在下でのT_1$の大幅な減少を観測した。
さらに、$t_1$タイムは、印加された外部磁場でほぼ直線的に増加する。
この傾向は、外部磁場下での$\alpha$-RuCl$_3$におけるスピンノイズと電荷ノイズの変化と関連付ける。
これらの結果から,NV中心の長手緩和時間に及ぼすAlpha$-RuCl$_3$の室温スピンダイナミクスの影響が,材料自体や他の2D材料に使用する技術に関する情報を得るのに有用であることが示唆された。 Investigating spin and charge noise in strongly correlated electron systems is a valuable way to analyze their physical properties and unlock new phases of matter. In this context, nitrogen-vacancy (NV) center-based magnetometry has been proven to be a versatile sensor for various classes of magnetic materials in broad temperature and frequency ranges. Here, we use longitudinal relaxation time $T_1$ of single NV centers to investigate the spin dynamics of nanometers-thin flakes of $\alpha$-RuCl$_3$ at room temperature. We observe a significant reduction in the $T_1$ in the presence of $\alpha$-RuCl$_3$ in proximity to our NVs, which we attribute to paramagnetic spin noise confined in the 2D hexagonal plane. Furthermore, the $T_1$ time exhibits an almost linear increase with an applied external magnetic field. We associate this trend with the alteration of spin and charge noise in $\alpha$-RuCl$_3$ under an external magnetic field. These findings suggest that the influence of the room-temperature spin dynamics of $\alpha$-RuCl$_3$ on the longitudinal relaxation time of the NV center can be used to gain information on the material itself and the technique to be used on other 2D materials. | 翻訳日:2023-12-27 17:39:32 公開日:2023-12-24 |
# 進行混合文脈拡散によるアモーダルコンプリート Amodal Completion via Progressive Mixed Context Diffusion ( http://arxiv.org/abs/2312.15540v1 ) ライセンス: Link先を確認 | Katherine Xu, Lingzhi Zhang, Jianbo Shi | (参考訳) 私たちの脳は、部分的に視界から隠れた場合でも、オブジェクトを無力に認識できます。
しかし、このタスクは急速に進歩しているにもかかわらず、生成AIにとって依然として課題である。
我々は,アモーダルマスクの予測と画素生成の2段階のプロセスを含む,既存のアプローチの難しさの多くを回避することを提案する。
私たちの方法は、文字通り箱の外で考えることです!
我々は、オブジェクト境界ボックスの外へ行き、そのコンテキストを使用して、事前訓練された拡散塗装モデルを誘導し、徐々に隠蔽されたオブジェクトを成長させ、余分な背景をトリムする。
2つの技術的な課題を克服しました
1) 同様のオクルーダを再生する傾向のある不必要な共起バイアスの解消方法
2) amodal completionが成功したかどうかを判断する方法。
amodal completion 法は, 既存手法に比べて多くの成功例において, フォトリアリスティックな補完性能が向上した。
一番いいところは?
特別なトレーニングやモデルの微調整は必要ありません。 Our brain can effortlessly recognize objects even when partially hidden from view. Seeing the visible of the hidden is called amodal completion; however, this task remains a challenge for generative AI despite rapid progress. We propose to sidestep many of the difficulties of existing approaches, which typically involve a two-step process of predicting amodal masks and then generating pixels. Our method involves thinking outside the box, literally! We go outside the object bounding box to use its context to guide a pre-trained diffusion inpainting model, and then progressively grow the occluded object and trim the extra background. We overcome two technical challenges: 1) how to be free of unwanted co-occurrence bias, which tends to regenerate similar occluders, and 2) how to judge if an amodal completion has succeeded. Our amodal completion method exhibits improved photorealistic completion results compared to existing approaches in numerous successful completion cases. And the best part? It doesn't require any special training or fine-tuning of models. | 翻訳日:2023-12-27 17:39:09 公開日:2023-12-24 |
# ソフトウェアエンジニアリングタスクのための事前訓練されたジェネリストエージェントのハーネス Harnessing Pre-trained Generalist Agents for Software Engineering Tasks ( http://arxiv.org/abs/2312.15536v1 ) ライセンス: Link先を確認 | Paulina Stevia Nouwou Mindom, Amin Nikanjam, Foutse Khomh | (参考訳) 今日では、ソフトウェアシステムの信頼性、有効性、全体的な品質を改善する技術を開発するために、人工知能(AI)の採用が増えているのを目撃しています。
深層強化学習(DRL)は近年,ゲームテストやジョブショップスケジューリング問題の解決など,複雑なタスクの自動化に成功している。
しかし、これらの特殊なDRLエージェントは、特定のタスクをスクラッチから訓練し、他のタスクへの一般化性の欠如に悩まされ、開発と再訓練にかなりの時間を要する。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
自然言語処理やコンピュータビジョンの分野では、これらの汎用エージェントは、軽微調整フェーズの後、予期しないタスクへの適応能力を示し、ハイパフォーマンスを実現している。
本稿では,SEタスクを解く汎用エージェントの可能性を検討する。
具体的には,2つのSEタスクにおける2つのジェネラリストエージェントの性能評価を目的とした実証的研究を行い,ゲーム中のバグの検出(2ゲーム)とスケジューリングタスクにおけるメースパンの最小化を行い,ジョブショップスケジューリング問題(2インスタンス)を解決する。
以上の結果から,ジェネラリストエージェントは,タスクベーススケジューリングにおける特殊エージェントの性能よりも,メイスパンを20%削減することに成功した。
ゲームテストの文脈では、一部のジェネラリストエージェント構成がスペシャリストエージェントよりも85%多いバグを検出する。
本分析に基づいて,SEタスクのジェネラリストエージェントの選択を希望する研究者や実践者に対して,効果的に実行できるように推奨する。 Nowadays, we are witnessing an increasing adoption of Artificial Intelligence (AI) to develop techniques aimed at improving the reliability, effectiveness, and overall quality of software systems. Deep reinforcement learning (DRL) has recently been successfully used for automation in complex tasks such as game testing and solving the job-shop scheduling problem. However, these specialized DRL agents, trained from scratch on specific tasks, suffer from a lack of generalizability to other tasks and they need substantial time to be developed and re-trained effectively. Recently, DRL researchers have begun to develop generalist agents, able to learn a policy from various environments and capable of achieving performances similar to or better than specialist agents in new tasks. In the Natural Language Processing or Computer Vision domain, these generalist agents are showing promising adaptation capabilities to never-before-seen tasks after a light fine-tuning phase and achieving high performance. This paper investigates the potential of generalist agents for solving SE tasks. Specifically, we conduct an empirical study aimed at assessing the performance of two generalist agents on two important SE tasks: the detection of bugs in games (for two games) and the minimization of makespan in a scheduling task, to solve the job-shop scheduling problem (for two instances). Our results show that the generalist agents outperform the specialist agents with very little effort for fine-tuning, achieving a 20% reduction of the makespan over specialized agent performance on task-based scheduling. In the context of game testing, some generalist agent configurations detect 85% more bugs than the specialist agents. Building on our analysis, we provide recommendations for researchers and practitioners looking to select generalist agents for SE tasks, to ensure that they perform effectively. | 翻訳日:2023-12-27 17:38:53 公開日:2023-12-24 |
# LLMを用いた人間の行動シミュレーションの課題--因果推論の視点から The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective ( http://arxiv.org/abs/2312.15524v1 ) ライセンス: Link先を確認 | George Gui, Olivier Toubia | (参考訳) 大規模言語モデル(llm)は、人間の行動をシミュレートする素晴らしい可能性を示している。
因果推論フレームワークを用いて, LLMシミュレーション実験の課題を実験的に理論的に分析し, 潜在的な解決策を探究する。
需要推定の文脈において, プロンプトに含まれる処理の変動(例えば, 焦点製品の価格)は, 特定の組み合わせ要因(例えば, 競合価格, 歴史的価格, 外部温度)の変動を引き起こし, 内在性を導入し, 明白な平坦な需要曲線をもたらす。
本稿では,この内在性の問題を他の文脈に一般化し,単にトレーニングデータを改善するだけでは完全には解決できないという理論的枠組みを提案する。
研究者が既存の単位を条件を越えて割り当てる実際の実験とは異なり、LLMは治療の説明を含むプロンプト全体に基づいて単位をシミュレートする。
したがって、トレーニングデータの関連性から、LSMによってシミュレーションされた個人や環境の特性が治療課題に影響される可能性がある。
潜在的な解決策を2つ探る。
第1に、治療と結果の両方に影響を与える文脈変数を指定し、汎用LLMでは困難であることを示す。
2つ目は、LSMに与えられたプロンプト(例えば、ストアが実験を行っていることをLSMに通知することで)の処理のバリエーションのソースを明確に指定する。
このアプローチは、特定の実験設計に依存する条件付き平均治療効果のみを推定できるが、探索分析に有用な方向的結果を与える。 Large Language Models (LLMs) have demonstrated impressive potential to simulate human behavior. Using a causal inference framework, we empirically and theoretically analyze the challenges of conducting LLM-simulated experiments, and explore potential solutions. In the context of demand estimation, we show that variations in the treatment included in the prompt (e.g., price of focal product) can cause variations in unspecified confounding factors (e.g., price of competitors, historical prices, outside temperature), introducing endogeneity and yielding implausibly flat demand curves. We propose a theoretical framework suggesting this endogeneity issue generalizes to other contexts and won't be fully resolved by merely improving the training data. Unlike real experiments where researchers assign pre-existing units across conditions, LLMs simulate units based on the entire prompt, which includes the description of the treatment. Therefore, due to associations in the training data, the characteristics of individuals and environments simulated by the LLM can be affected by the treatment assignment. We explore two potential solutions. The first specifies all contextual variables that affect both treatment and outcome, which we demonstrate to be challenging for a general-purpose LLM. The second explicitly specifies the source of treatment variation in the prompt given to the LLM (e.g., by informing the LLM that the store is running an experiment). While this approach only allows the estimation of a conditional average treatment effect that depends on the specific experimental design, it provides valuable directional results for exploratory analysis. | 翻訳日:2023-12-27 17:38:23 公開日:2023-12-24 |
# 大規模言語モデルの説得力 The Persuasive Power of Large Language Models ( http://arxiv.org/abs/2312.15523v1 ) ライセンス: Link先を確認 | Simon Martin Breum, Daniel V{\ae}dele Egdal, Victor Gram Mortensen, Anders Giovanni M{\o}ller, Luca Maria Aiello | (参考訳) 人間のような社会的エージェントとして機能する大規模言語モデルの能力の増大は、意見力学の分野で2つの重要な疑問を提起する。
まず、これらのエージェントがオンラインの談話に注入され、世論をコントロールできる効果的な議論を生成できるかどうか。
第二に、人工エージェントが相互に相互作用し、人間の社会システムに典型的な説得のダイナミクスを再現できるかどうかは、人間の集団における意見力学の忠実なプロキシとして合成社会システムを研究する機会を開く。
これらの問題に対処するため,我々は気候変動の話題に関する総合的説得対話シナリオを設計し,そこでは,「コンテナ」エージェントが「懐疑的」エージェントに対して説得的議論を発生させ,その議論が内部の意見状態を変えたかどうかを評価する。
異なるタイプの議論が生成され、意見変化の心理言語学理論を支える異なる言語次元が取り入れられた。
そして、人間裁判官に機械による議論の説得性を評価するよう依頼した。
事実知識、信頼の指標、支援の表現、伝達状態などを含む議論は、人間とエージェントの両方によって最も効果的と見なされ、人間は知識に基づく議論に顕著な選好を報告した。
筆者らの実験的枠組みは,今後の意見動態の基盤となるものであり,オンラインソーシャルメディアにおける意見形成の集合過程において,人工エージェントが重要な役割を果たす可能性が示唆されている。 The increasing capability of Large Language Models to act as human-like social agents raises two important questions in the area of opinion dynamics. First, whether these agents can generate effective arguments that could be injected into the online discourse to steer the public opinion. Second, whether artificial agents can interact with each other to reproduce dynamics of persuasion typical of human social systems, opening up opportunities for studying synthetic social systems as faithful proxies for opinion dynamics in human populations. To address these questions, we designed a synthetic persuasion dialogue scenario on the topic of climate change, where a 'convincer' agent generates a persuasive argument for a 'skeptic' agent, who subsequently assesses whether the argument changed its internal opinion state. Different types of arguments were generated to incorporate different linguistic dimensions underpinning psycho-linguistic theories of opinion change. We then asked human judges to evaluate the persuasiveness of machine-generated arguments. Arguments that included factual knowledge, markers of trust, expressions of support, and conveyed status were deemed most effective according to both humans and agents, with humans reporting a marked preference for knowledge-based arguments. Our experimental framework lays the groundwork for future in-silico studies of opinion dynamics, and our findings suggest that artificial agents have the potential of playing an important role in collective processes of opinion formation in online social media. | 翻訳日:2023-12-27 17:37:55 公開日:2023-12-24 |
# スケーラブルなグラフニューラルネットワークトレーニングのための畳み込みマッチングによるグラフ粗大化 Graph Coarsening via Convolution Matching for Scalable Graph Neural Network Training ( http://arxiv.org/abs/2312.15520v1 ) ライセンス: Link先を確認 | Charles Dickens, Eddie Huang, Aishwarya Reganti, Jiong Zhu, Karthik Subbian, Danai Koutra | (参考訳) 事前処理ステップとしてのグラフ要約は、スケーラブルグラフニューラルネットワーク(gnn)トレーニングの有効かつ補完的なテクニックである。
本研究では,グラフ畳み込みの出力を保存した要約グラフを作成するために,Coarsening Via Convolution Matching (CONVMATCH)アルゴリズムと高度にスケーラブルなA-CONVMATCHを提案する。
6つの実世界のリンク予測とノード分類グラフデータセットにおけるconvmatchを評価し,効率性を示し,グラフサイズを著しく削減しながら予測性能を維持した。
特に、CONVMATCHは、ノード分類におけるGNNの予測性能の最大95%を達成し、元のグラフの1%まで要約したグラフで訓練する。
さらに、リンク予測タスクでは、ConVMATCHはすべてのベースラインを一貫して上回り、最大2倍の改善を実現している。 Graph summarization as a preprocessing step is an effective and complementary technique for scalable graph neural network (GNN) training. In this work, we propose the Coarsening Via Convolution Matching (CONVMATCH) algorithm and a highly scalable variant, A-CONVMATCH, for creating summarized graphs that preserve the output of graph convolution. We evaluate CONVMATCH on six real-world link prediction and node classification graph datasets, and show it is efficient and preserves prediction performance while significantly reducing the graph size. Notably, CONVMATCH achieves up to 95% of the prediction performance of GNNs on node classification while trained on graphs summarized down to 1% the size of the original graph. Furthermore, on link prediction tasks, CONVMATCH consistently outperforms all baselines, achieving up to a 2x improvement. | 翻訳日:2023-12-27 17:37:30 公開日:2023-12-24 |